Statistical Data Visualization: Notes

April 29, 2021

Kris Sankaran

A History of Data Visualization up to 1900

A look at the origins of the field.

April 28, 2021

Kris Sankaran

Asking Better Questions

What is the purpose of data analysis?

April 27, 2021

Kris Sankaran

Design Process Case Study

Tracing the refinement of questions and design.

April 26, 2021

Kris Sankaran

Final Takeaways

Some major themes from STAT 479, in a nutshell.

April 22, 2021

Kris Sankaran

Optimizing Feature Maps

Interpreting neurons by finding optimal inputs

April 21, 2021

Kris Sankaran

Collections of Features

Analyzing feature activations across datasets

April 20, 2021

Kris Sankaran

Visualizing Learned Features

A first look at activations in a deep learning model.

April 19, 2021

Kris Sankaran

Introduction to Feature Learning

An introduction to compositional feature learning.

April 16, 2021

Kris Sankaran

Pointwise Diagnostics

Evaluating the fit at particular observations in Bayesian models.

April 15, 2021

Kris Sankaran

Prior and Posterior Predictives

Simulating data to evaluate model quality.

April 14, 2021

Kris Sankaran

Visualization for Model Building

The relationship between exploratory analysis and model development.

April 13, 2021

Kris Sankaran

Partial Dependence Profiles II

Discovering richer structure in partial dependence profiles.

April 12, 2021

Kris Sankaran

Partial Dependence Profiles I

An introduction to partial dependence profiles.

April 8, 2021

Kris Sankaran

Topic Modeling Case Study

An application to a gene expression dataset.

April 7, 2021

Kris Sankaran

Visualizing Topic Models

Once we've fit a topic model, how should we inspect it?

April 6, 2021

Kris Sankaran

Fitting Topic Models

Data preparation and model fitting code for topics.

April 5, 2021

Kris Sankaran

Introduction to Topic Models

An overview of dimensionality reduction via topics.

April 2, 2021

Kris Sankaran

PCA and UMAP Examples

More examples of dimensionality reduction using PCA and UMAP.

April 1, 2021

Kris Sankaran

Uniform Manifold Approximation and Projection

An overview of the UMAP algorithm.

March 31, 2021

Kris Sankaran

Principal Components Analysis II

Visualizing and interpreting PCA.

March 30, 2021

Kris Sankaran

Principal Components Analysis I

Linear dimensionality reduction using PCA.

March 29, 2021

Kris Sankaran

Introduction to Dimensionality Reduction

Examples of high-dimensional data.

March 25, 2021

Kris Sankaran

Cluster Stability

How reliable are the results of a clustering?

March 24, 2021

Kris Sankaran

Silhouette Statistics

Diagnostics for the quality of a clustering.

March 23, 2021

Kris Sankaran

Heatmaps

Visualizing table values, ordered by clustering results.

March 22, 2021

Kris Sankaran

Hierarchical Clustering

Clustering data at multiple scales using trees.

March 21, 2021

Kris Sankaran

K-means

An introduction to clustering and how to manage its output.

March 16, 2021

Kris Sankaran

Enclosure

Visualization of hierarchical structure using containment.

March 15, 2021

Kris Sankaran

Adjacency Matrix Views

A scalable network visualization strategy.

March 14, 2021

Kris Sankaran

Node - Link Diagrams

The most common network visualization strategy.

March 13, 2021

Kris Sankaran

Introduction to Networks and Trees

Typical tasks and example network datasets.

March 12, 2021

Kris Sankaran

Spatial Data Interaction

Some strategies for interactively visualizing spatial data.

March 11, 2021

Kris Sankaran

Coordinate Reference Systems

The projection problem, and how to check your CRS.

March 10, 2021

Kris Sankaran

Raster Data

Storing spatially gridded information in rasters.

March 9, 2021

Kris Sankaran

Vector Data

Manipulating and visualizing spatial vector data.

March 8, 2021

Kris Sankaran

Spatial Data Formats

An overview of common formats, with illustrative examples.

March 5, 2021

Kris Sankaran

Collections of Time Series

Navigating across related time series.

March 4, 2021

Kris Sankaran

Cross and Auto-Correlation

Summaries of relationships between and within time series.

March 3, 2021

Kris Sankaran

Seasonal Plots

Approaches for visualizing seasonality.

March 2, 2021

Kris Sankaran

Time Series Patterns

Vocabulary for describing visual structure in time series.

March 1, 2021

Kris Sankaran

tsibble Objects

A data structure for managing time series data.

Feb. 25, 2021

Kris Sankaran

Other Tricks from Profiler

A crash course on entity resolution, plus some other tips.

Feb. 24, 2021

Kris Sankaran

Characterizing Outliers

Which columns might help us understand extreme values?

Feb. 23, 2021

Kris Sankaran

Detecting Outliers

Techniques to identify extreme values.

Feb. 22, 2021

Kris Sankaran

Missing Data (Part 2)

A deeper look at missing data, imputation, and characterization.

Feb. 21, 2021

Kris Sankaran

Missing Data (Part 1)

A look at how visualization can help characterize missing data.

Feb. 18, 2021

Kris Sankaran

Tidy Data Example

An extended example of tidying a real-world dataset.

Feb. 17, 2021

Kris Sankaran

Deriving Variables

Using `separate`, `mutate`, and `summarise` to derive new variables for downstream visualization.

Feb. 16, 2021

Kris Sankaran

Pivoting

Tools for reshaping data into tidy format.

Feb. 15, 2021

Kris Sankaran

Tidy Data

The definition of tidy data, and why it's often helpful for visualization.

Feb. 13, 2021

Kris Sankaran

Dynamic Linking in the Wild

A look at real-world examples of dynamic linking.

Feb. 12, 2021

Kris Sankaran

Dynamic Linking

Combining faceting with dynamic queries.

Feb. 11, 2021

Kris Sankaran

Dynamic Queries (Part 2)

An introduction to details-on-demand.

Feb. 10, 2021

Kris Sankaran

Dynamic Queries (Part 1)

Using visualization to support query building.

Feb. 9, 2021

Kris Sankaran

Selections

A look at a fundamental building block fo interactive visualization.

Feb. 4, 2021

Kris Sankaran

Ridge Plots

An extended example of faceting with data summaries.

Feb. 3, 2021

Kris Sankaran

Concatenation and Repetition

Adapting the small multiples principle to fields that are not exactly parallel.

Feb. 2, 2021

Kris Sankaran

Faceting (Part 2)

A look at faceting in vega-lite.

Feb. 1, 2021

Kris Sankaran

Faceting (Part 1)

Using small multiples to create information dense plots.

Jan. 29, 2021

Kris Sankaran

A Vocabulary of Marks

Examples of marks and their encodings in both ggplot2 and vega-lite.

Jan. 28, 2021

Kris Sankaran

Types, Marks, and Encodings

Tying together the introductions to ggplot2 and vega-lite, using the common language of encodings.

Jan. 27, 2021

Kris Sankaran

Introduction to Vega-Lite

Learn the basic concepts for creating vega-lite plots, and see how the library supports interactivity.

Jan. 26, 2021

Kris Sankaran

Introduction to ggplot2

A discussion of ggplot2 terminology, and an example of iteratively refining a simple scatterplot.

Jan. 25, 2021

Kris Sankaran

Orientation

How this course is structured, and how to follow along.

Notes

Authors

Affiliations

Published

DOI

Notes

A History of Data Visualization up to 1900

Asking Better Questions

Design Process Case Study

Final Takeaways

Optimizing Feature Maps

Collections of Features

Visualizing Learned Features

Introduction to Feature Learning

Pointwise Diagnostics

Prior and Posterior Predictives

Visualization for Model Building

Partial Dependence Profiles II

Partial Dependence Profiles I

Topic Modeling Case Study

Visualizing Topic Models

Fitting Topic Models

Introduction to Topic Models

PCA and UMAP Examples

Uniform Manifold Approximation and Projection

Principal Components Analysis II

Principal Components Analysis I

Introduction to Dimensionality Reduction

Cluster Stability

Silhouette Statistics

Heatmaps

Hierarchical Clustering

K-means

Enclosure

Adjacency Matrix Views

Node - Link Diagrams

Introduction to Networks and Trees

Spatial Data Interaction

Coordinate Reference Systems

Raster Data

Vector Data

Spatial Data Formats

Collections of Time Series

Cross and Auto-Correlation

Seasonal Plots

Time Series Patterns

tsibble Objects

Other Tricks from Profiler

Characterizing Outliers

Detecting Outliers

Missing Data (Part 2)

Missing Data (Part 1)

Tidy Data Example

Deriving Variables

Pivoting

Tidy Data

Dynamic Linking in the Wild

Dynamic Linking

Dynamic Queries (Part 2)

Dynamic Queries (Part 1)

Selections

Ridge Plots

Concatenation and Repetition

Faceting (Part 2)

Faceting (Part 1)

A Vocabulary of Marks

Types, Marks, and Encodings

Introduction to Vega-Lite

Introduction to ggplot2

Orientation

Footnotes