Tabla de contenidos
¿Qué es una tabulación cruzada?
La tabulación cruzada muestra un resumen de datos que revela la relación entre dos variables. Se realizó una encuesta sobre la calidad percibida y el precio de servicios de limpieza dental para cada una de 1000 clínicas en una ciudad. La calidad es una variable categórica cuyos valores son baja, media y alta, el precio es una variable cuantitativa que toma valores entre $500 y $2499. En la siguiente tabla se muestran cuatro clases para la variable precio ($500-$999, $1000-$1499, $1500-$1999 y $2000-$2499), en los renglones se tienen las categorías para la variable calidad.

La mayor utilidad de una tabulación cruzada es que muestra la relación entre dos variables, en la tabla se puede observar que una calidad percibida como alta está relacionada con los precios más altos y una calidad percibida como baja se relaciona con precios más bajos. La tabla se lee de la siguiente manera: hay 132 clínicas dentales con baja calidad y un precio entre $500 y $999, 125 clínicas dentales con baja calidad y un precio entre $1000 y $1499,…, 105 clínicas dentales con alta calidad y un precio entre $2000 y $2499.
La celda con mayor número de clínicas dentales corresponde a una calidad media y un precio de entre $1000 y $ 1499. Solamente hay 3 clínicas dentales con una calidad baja y un rango de precios entre $2000 y $2499, 9 clínicas dentales con una calidad alta y un precio que oscila entre los $500 y los $999.
En la última columna de la tabla, se muestra la distribución de frecuencias para la calidad, 276 clínicas dentales tienen una calidad baja, 478 tienen una calidad media y 246 tienen una calidad alta. La siguiente tabla muestra las distribuciones de frecuencia de la variable calidad:

Casi la mitad de las clínicas detales tienen una calidad percibida como media, y se tiene una proporción similar entre las clínicas cuya calidad se percibe como baja y aquellas cuya calidad es alta.
Por su parte, el último renglón muestra la distribución de frecuencias para el precio, 256 clínicas dentales ofrecen limpieza dental con un precio entre $500 y $999, 369 clínicas dentales ofrecen limpieza dental mediante un pago entre $1000 y $1499, y así sucesivamente. La siguiente tabla muestra las distribuciones de frecuencia de la variable precio:

La mayoría de las clínicas (36.9%) ofrecen la limpieza dental en un precio entre $1000 y $1499 y solamente un 12.7% de las clínicas tienen precios entre $2000 y $2499.
Si se divide cada frecuencia en la tabulación cruzada entre el total de su correspondiente renglón, se obtiene una tabulación cruzada en porcentajes de renglón. En la siguiente tabla, cada renglón es una distribución de frecuencia porcentual de los precios en su respectiva categoría de calidad. Así, en las clínicas de menor calidad, el porcentaje disminuye conforme aumenta el precio. En las clínicas de calidad alta, el porcentaje aumenta conforme aumenta el precio. Un precio elevado se relaciona con una mayor calidad.

Paradoja de Simpson
La siguiente tabulación cruzada se ha obtenido combinando datos de dos tabulaciones cruzadas. Muestra los resultados (Refrendado y Anulado) relacionados con impugnaciones a las decisiones de los peritos de dos aseguradoras (A y B) en el último año.

Al obtener una tabulación cruzada en porcentajes de columna, se tiene que el 13.79% de las decisiones de la aseguradora A han sido anuladas, frente al 12.28% de la aseguradora B, en otras palabras, los tribunales han ordenado a la aseguradora A pagar al 13.79% de los casos en los que sus peritos habían decidido que el pago era improcedente. La aseguradora B ha tenido un mejor desempeño que la aseguradora A con solamente un 12.28% de los casos anulados.

La tabulación cruzada se obtuvo a partir de la siguiente información:

Se refrendaron 75 de las decisiones de la aseguradora A y 50 de la aseguradora B, por otro lado, se anularon 12 de las decisiones de la aseguradora A y 7 de la aseguradora B. Sin embargo, de las 75 decisiones de la aseguradora A que se refrendaron 15 corresponden a incendios y 60 a desastres, de manera similar, de las 50 decisiones de la aseguradora B que se refrendaron 40 corresponden a incendios y 10 a desastres. Esta información no se muestra en la tabulación cruzada combinada.

Al desagregar la información y calcular una tabulación cruzada en porcentajes de columna, se concluye que la aseguradora A ha tenido un mejor desempeño, pues solamente el 6.25% de sus decisiones en caso de incendio han sido anuladas, lo que es menor que el 11.11% logrado por la aseguradora B. En el caso de desastres naturales, la aseguradora A también tiene un mejor desempeño frente a la aseguradora B, pues se anularon 15.49% de sus decisiones frente a un 16.67% de la aseguradora B. La aseguradora A tuvo un mejor desempeño en cualquier caso, lo que contradice lo que se concluyó al revisar la tabulación cruzada combinada. La paradoja de Simpson surge de una variable oculta, en este ejemplo, el tipo de seguro: incendio o desastre natural.