Tabla de contenidos
Resumen de los cinco números
El análisis exploratorio de datos se apoya en medidas y representaciones gráficas que resumen los datos. El resumen de los números está compuesto por el mínimo, el primer cuartil (Q1), el segundo cuartil (Q2), el tercer cuartil (Q3) y el máximo.
El primer paso es ordenar los datos de menor a mayor, luego se identifican los cinco números. Por ejemplo, los tiempos de espera en minutos de un consultorio son: 19, 20, 26, 28, 30, 30, 32, 35, 37, 39, 39, 110. El mínimo y el máximo son 19 y 110, respectivamente. Dado que se tienen 12 datos, la mediana (Q2) se calcula como el promedio de los dos valores centrales, resultando 31. El primer y tercer cuartiles se calculan como sigue:

Como ambos índices son números enteros, se calcula el promedio de los datos que se encuentran en las posiciones 3 y 4 para determinar el primer cuartil y el promedio de los valores en las posiciones 9 y 10 para calcular el tercer cuartil.

El resumen de los cinco números es 19, 27, 31, 38 y 110. Es importante notar que entre cada dos números adyacentes del resumen de los cinco números se encuentra el 25% de los datos.
Diagrama de caja
El diagrama de caja es un gráfico que se elabora partiendo del resumen de los cinco números. El primer paso consiste en dibujar una caja, en los extremos de esta, se localizan el primer y tercer cuartil, el 50% de los datos se encuentran en la caja. La localización de la mediana o segundo cuartil se indica con una línea vertical. Luego, se calcula el rango intercuartílico para localizar los límites inferior y superior a 1.5 veces el rango intercuartílico por debajo de Q1 y arriba de Q3, los datos fuera de estos límites se consideran atípicos.

Después, se dibujan líneas que van desde los extremos de la caja hasta los límites calculados en el paso anterior, a estas líneas se les llaman bigotes. Finalmente, un asterisco destaca las observaciones atípicas.

Sin las anotaciones el diagrama de caja se ve de la siguiente manera:

Otra herramienta útil para el análisis exploratorio de datos es el diagrama de tallo y hojas.