Tabla de contenidos
Distribución de frecuencia para datos categóricos
La distribución de frecuencias muestra el número de elementos en cada una de las clases disyuntivas, por disyuntivas entendemos que las clases no se sobreponen. Es importante recordar que los datos categóricos representan cualidades o categorías. Algunos ejemplos son las marcas de automóviles preferidas por los clientes (ej. Toyota, Honda, Ford, GM, etc.), los colores favoritos de un grupo de personas (naranja, rojo, azul, verde, amarillo, etc.), los géneros de películas más vistos en una plataforma de streaming (acción, comedia, drama, horror, western, etc.).
La distribución de frecuencia para datos categóricos es una herramienta útil para estudiar cómo se distribuye la audiencia entre programas en horario estelar, cómo se distribuyen los apellidos en una zona geográfica en particular, cómo se distribuye el nivel de satisfacción de los clientes de un restaurante, cómo se distribuyen las preferencias de los consumidores, cómo se distribuyen las preferencias respecto a las carreras universitarias entre los aspirantes, etc.
El primer paso es recolectar los datos. El dueño de una cafetería registra el tipo de café que vendió en las primeras dos horas de la mañana de un jueves. Los resultados son los siguientes:

Es muy difícil decir cuál fue el tipo de café que más se vendió de un vistazo. Razón por la que se clasifican las respuestas en categorías, es decir se identifican los valores que toma la variable cualitativa. En el ejemplo de la cafetería, se tienen: espresso, americano, moka blanco, capuchino, latte y moka.
Después, se cuenta cuántas veces aparece cada categoría en el conjunto de datos. La siguiente es una tabla de distribución de frecuencias:

La tabla de distribución de frecuencias es un resumen que brinda más claridad. El Moka blanco fue el café más vendido, le sigue el capuchino, el moka está en la tercera posición, el americano ocupa la cuarta posición, después encontramos el espresso en la quinta posición y el latte fue el café que menos se vendió. La tabla es un resumen de la manera en que se distribuyeron las 50 ventas entre los 6 tipos de café.
Frecuencia relativa y frecuencia porcentual
La frecuencia relativa mide la proporción de elementos que pertenecen a esa clase respecto al total de elementos en un conjunto de datos. Se calcula dividiendo la frecuencia de la clase entre el número total de datos (n):

La frecuencia porcentual se calcula multiplicando la frecuencia relativa por 100:

En la siguiente tabla, se muestra la distribución de frecuencia relativa y la distribución de frecuencia porcentual:

Observando la distribución de frecuencia porcentual se puede decir que el moka blanco, el capuchino y el moka concentran el 72% de las ventas. La suma de las frecuencias debe ser igual al número de observaciones, la suma de las frecuencias relativas debe ser igual a 1 y la suma de las frecuencias porcentuales debe ser igual a 100%.
Gráficas de barras y gráficas de pastel
Una gráfica de barras representa los datos mediante barras rectangulares, cada una de las cuales muestra la frecuencia o el porcentaje de una categoría en particular, lo que implica que su altura está determinada por la cantidad de observaciones en esa categoría. En el eje horizontal, se tienen las categorías de la variable cualitativa: espresso, americano, moka blanco, capuchino, latte y moka. En el eje vertical, se representa la frecuencia absoluta, frecuencia relativa o frecuencia porcentual. Las barras no se tocan puesto que cada categoría es independiente.

En la gráfica de barras, es claro que el café más vendido fue el moka blanco y el menos vendido fue el latte. Las gráficas de barras es muy útil para identificar las principales causas de defectos en una línea de producción.
La gráfica de pastel puede usarse para presentar la frecuencia, frecuencia relativa o la frecuencia porcentual. Es un gráfico en forma de círculo dividido en sectores, cada uno de los cuales representa una categoría. Se comienza dibujando un círculo, luego se divide utilizando la frecuencia relativa, si la frecuencia relativa para el moka blanco es 0.28, entonces se multiplican 360°×0.28=100.8°, el sector asociado al moka blanco será de 100.8°, los otros sectores se calculan de manera semejante. La gráfica de pastel muestra qué tan grande es cada categoría en comparación con el total. La suma de los sectores es equivalente al 100% de los datos.
Es aconsejable que las categorías con una frecuencia muy pequeña se agrupen en una categoría llamada otros.
