Menú Cerrar

Estadística descriptiva, ejemplos

¿Cuáles son las medidas utilizadas por la estadística descriptiva?

Las medidas de localización, dispersión, forma y asociación que se calculan a partir de los datos de una muestra se conocen como estadísticos muestrales. En cambio, se conocen como parámetros poblacionales cuando las medidas se calculan a partir de los datos de una población. Además, el estadístico muestral es un estimador puntual del parámetro poblacional.

Medidas de localización

Las medidas de localización son la media, la mediana y la moda.

Media

La media proporciona una medida de localización central de los datos. Se denota como:

En general, el valor de la i-ésima observación de la variable x se denota como xi, entonces, el valor de la primera observación de la variable x se denota como x1, el valor de la segunda observación de la variable x se denota como x2, y así sucesivamente. La media muestral se calcula dividiendo la suma de las observaciones entre el número de observaciones:

La media poblacional se calcula de la misma manera, pero utilizando la notación correspondiente:

Así, n denota el número de observaciones en la muestra y N el número de observaciones en la población. A la media también se le llama valor promedio o, simplemente, promedio. La media muestral es un estimador puntual de la media poblacional.

Una empresa mide el tiempo que tarda en producir un artículo. Se registraron las siguientes 10 observaciones en minutos: 12, 14, 15, 15, 16, 18, 20, 22, 25 y 50. 

El resultado significa que, en promedio, la producción de un artículo necesita 20.7 minutos para completarse. Sin embargo, es importante notar que hay un tiempo de 50 minutos, la empresa podría sobreestimar los tiempos de producción debido a este valor atípico. La media puede ser influida por valores muy pequeños o muy grandes. Si se reemplaza el valor atípico de la muestra por un valor de 26 minutos, la media resulta de 18.3 minutos.

Otra alternativa es recortar la media, por ejemplo el 5% de los datos más grandes y el 5% de los valores más pequeños.

Mediana

La mediana es el valor central en un conjunto de datos ordenados, dividiendo la distribución en dos mitades iguales. El primer paso para calcular la mediana es ordenar los datos, usualmente, de menor a mayor. Si el número de observaciones es par, se calcula el promedio de los dos datos centrales. Si el número es impar, la mediana es el valor central.

Retomando el ejemplo de los tiempos de producción. Los datos ya están ordenados de menor a mayor: 12, 14, 15, 15, 16, 18, 20, 22, 25, 50. Hay un número par de datos (10), la mediana se calcula como el promedio de los dos valores centrales (16 y 18), lo que es igual a 17.

Este resultado se interpreta de la siguiente manera: la mitad de los artículos se producen en menos de 17 minutos, en otras palabras, la mitad de los artículos tardan más de 17 minutos en ser producidos. O, el 50% de los artículos se producen en menos de 17 minutos, lo que implica que el 50% de los artículos tardan más de 17 minutos en ser producidos.

En este caso, la mediana puede ser una mejor medida para estimar los tiempos de producción, pues no se ve afectada por los valores extremos. Si volvemos a reemplazar el valor atípico por 26 minutos, los valores centrales no cambian, por lo que la mediana sigue siendo igual a 17 minutos. Cuando existan valores extremos, se prefiere usar la mediana como medida de localización central.

Moda

La moda es el dato que más se repite en un conjunto de datos, es decir el valor más frecuente o común. Es posible que exista más de una moda en un mismo conjunto de datos. Los datos son unimodales cuando solamente se presenta una moda, son bimodales cuando se presentan dos modas y son multimodales cuando se presentan más de dos modas. Empero, varias modas no son una buena medida de localización.

En nuestro conjunto de datos, el número que más se repite es 15, lo que significa que el tiempo más frecuente para producir un artículo es de 15 minutos. La mayoría de los artículos se producen en este tiempo.

Percentiles y cuartiles

Por lo menos p por ciento de las observaciones son menores o iguales que el percentil p, lo que implica que (100-p) por ciento de las observaciones son mayores o iguales que el percentil p. Un estudiante obtiene 315 puntos en un examen de admisión, con esta información no es posible decir qué tan bueno o malo es su desempeño, pero si se agrega que el puntaje corresponde al percentil 85, entonces el 85% de los aspirantes lograron un puntaje menor y 15% obtuvieron una mejor calificación.

Consideremos un nuevo conjunto de datos de tiempos de producción en minutos, el primer paso para calcular el percentil es ordenarlos de menor a mayor: 10, 12, 14, 15, 16, 18, 19, 20, 22, 24, 26, 28, 30, 35, 40. Luego, se calcula el índice i:

Donde, n es el número de observaciones. El índice i se redondea al entero inmediato superior cuando no es número entero. El percentil es el promedio de los valores en las posiciones i e i+1 cuando i es un número entero. Para determinar el percentil 70, se tiene:

Dado que i no es un número entero, redondeamos al entero inmediato superior. La posición del percentil 70 es la posición 11, es decir 26.

Al calcular el percentil 70 con los tiempos de producción originales (12, 14, 15, 15, 16, 18, 20, 22, 25, 50), se tiene:

Como i es un número entero, el percentil 70 es el promedio de los datos que se encuentran en las posiciones 7 y 8:

Es importante notar que el percentil 50 es la mediana:

Por lo que el percentil 50 se calcula promediando los valores en las posiciones 5 y 6:

17 es la mediana que se calculó previamente para el conjunto original de tiempos de producción (12, 14, 15, 15, 16, 18, 20, 22, 25, 50).

Si el conjunto de datos se divide en cuatro partes y cada una de estas partes contiene un 25% de las observaciones, entonces a los puntos de división se les conoce como cuartiles. El primer cuartil (Q1) corresponde al percentil 25, el segundo cuartil (Q2) corresponde al percentil 50 y el tercer cuartil (Q3) corresponde al percentil 75. No hay que olvidar que el percentil 50 corresponde a la mediana, en consecuencia, el segundo cuartil también corresponde a la mediana. Para determinar el primer cuartil, se calcula el percentil 25:

Como el índice i no es un número entero, se redondea al entero inmediato superior, entonces, el percentil 25 corresponde a la posición 3, es decir 15. El segundo cuartil corresponde a la mediana que se ha calculado previamente (17). El tercer cuartil se calcula a continuación:

Al redondear al entero inmediato superior, se tiene que el tercer cuartil corresponde a la posición 8, es decir 22. Así, Q1=15, Q2=17 y Q3=22.

Medidas de variabilidad o de dispersión

Para el desarrollo de esta sección, vamos a considerar una empresa que evalúa el desempeño de dos proveedores registrando los tiempos de entrega. Se toma una muestra de 10 observaciones para cada proveedor, proveedor A (7, 5, 6, 5, 7, 5, 7, 7, 7, 6) y proveedor B (3, 5, 2, 9, 4, 4, 3, 7, 6, 8). Después de calcular la media para cada proveedor, se tiene que el proveedor A tarda, en promedio, 6.2 días en entregar los pedidos, mientras que el proveedor B lo hace en 5.1 días. En apariencia, se puede preferir al proveedor B porque su tiempo de entrega promedio es menor, sin embargo, estos mismos tiempos están más dispersos, lo que dificulta la planeación de la producción. El primer histograma corresponde al proveedor A, y el segundo al proveedor B.

Los tiempos de entrega del proveedor B pueden ser muy atractivos cuando son 2 o 3 días, lo que contrasta cuando tarda 8 o 9 días en entregar. Además, sus tiempos de entrega presentan mayor variabilidad, por lo que un gerente de compras preferirá al proveedor A.

Rango

El rango es una medida de variabilidad que se calcula restando el valor mínimo del valor máximo, indicando la amplitud de los valores en un conjunto de datos.

En el caso de los tiempos de entrega, el rango para el proveedor A (RA) y del proveedor B (RB) se calculan como sigue:

Al considerar el rango, se debe preferir al proveedor A por tener menor variabilidad en sus tiempos de entrega, es un proveedor más confiable. Hay que destacar que el rango se calcula con solamente dos valores, por lo que los valores extremos pueden influir en su valor, razón por la que no debe usarse como única medida de variabilidad.

Rango intercuartílico

El rango intercuartílico (RIQ) es una medida de la variabilidad que no se ve influenciada por los valores extremos. En el rango intercuartílico encuentran el 50% de los datos, por lo que se calcula como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1).

Vamos a calcular el RIQ para cada uno de los dos proveedores, primero ordenamos los datos de menor a mayor:

Proveedor A: 5, 5, 5, 6, 6, 7, 7, 7, 7, 7

Proveedor B: 2, 3, 3, 4, 4, 5, 6, 7, 8, 9

Luego, calculamos el índice para el percentil 25, que es el que corresponde al primer cuartil:

Como se obtiene un número no entero, redondeamos al entero inmediato superior, el cual es 3, entonces el primer cuartil para el proveedor A es igual a 5 y para el proveedor B es 3. Ahora, se calcula el índice para el percentil 75, el cual corresponde al tercer cuartil:

Se redondea al entero inmediato superior, la posición es 8. El tercer cuartil para el proveedor A y para el proveedor B es 7. Ahora, se calcula el rango intercuartílico, los subíndices indican el proveedor:

El proveedor B también muestra mayor variabilidad al calcular el rango intercuartílico.

Varianza

La varianza es una medida de la variabilidad de un conjunto de datos respecto a su media. La varianza muestral (s2) se calcula elevando al cuadrado la desviación respecto a la media para cada uno de los datos (xi), luego se divide la suma de los cuadrados entre n-1.

La varianza muestral es un estimador de la varianza poblacional (σ2), la cual se calcula elevando al cuadrado la desviación respecto a la media para cada uno de los datos (xi), luego se divide la suma de los cuadrados entre N.

Para los tiempos de entrega, se calcula la varianza muestral de ambos proveedores:

Las unidades de la varianza están elevadas al cuadrado, por lo que su interpretación puede resultar confusa. No obstante, lo importante es distinguir que entre mayor sea la magnitud de la varianza, mayor será la variabilidad de los datos. En nuestro ejemplo, los tiempos de entrega del proveedor A presentan una varianza de 0.84, mientras que los tiempos de entrega del proveedor B tienen una varianza de 5.43, estos resultados confirman lo que se ha establecido al calcular el rango y el rango intercuartílico, el proveedor A es una opción que se relaciona con menos incertidumbre en cuanto a sus tiempos de entrega.

Alternativamente, se puede calcular la varianza muestral como:

Desviación estándar

La desviación estándar se calcula como la raíz cuadrada positiva de la varianza. La desviación estándar se mide en las mismas unidades que el conjunto de datos. La varianza muestral se denota como s y la poblacional como σ.

La desviación estándar muestral es el estimador de la desviación estándar poblacional. Entonces, para los tiempos de entrega, se tiene:

Coeficiente de variación

El coeficiente de variación (CV) mide cuán grande es la desviación estándar respecto a la media porcentualmente.

Entonces, para los tiempos de entrega de ambos proveedores se tiene:

En el caso del proveedor A, el coeficiente de variación indica que la desviación estándar muestral es 14.82% de la media muestral, mientras que, en el caso del proveedor B, el coeficiente de variación indica que la desviación estándar muestral es 45.7% de la media muestral.

Medidas de forma

Sesgo

El sesgo es una medida de la forma de la distribución de los datos. La fórmula para calcular el sesgo es la siguiente:

Al calcular el sesgo para los tiempos de entrega de los proveedores A y B, se tiene que:

El sesgo es negativo cuando los datos están sesgados a la izquierda, es positivo cuando los datos están sesgados a la derecha y es igual a cero cuando los datos son simétricos. Si los datos están sesgados a la izquierda, la media será menor que la mediana, tal y como ocurre con los tiempos de entrega del proveedor A (6.2<6.5). Por el contrario, si los datos están sesgados a la derecha, la media será mayor que la mediana, como en el caso de los tiempos de entrega del proveedor B (5.1>4.5). Si los datos están distribuidos simétricamente, la media y la mediana son iguales. Cuando los datos están sesgados, la mediana puede ser una mejor opción como medida de localización.

Medidas de localización relativa

Punto z

El punto z es una medida de localización relativa, pues determina lo lejos que un valor se encuentra de la media. Para calcular el punto z de cualquier observación basta conocer la media y desviación estándar muestrales, de tal modo que zi es el punto z para la observación xi:

El punto z es el número de desviaciones estándar a las que xi se encuentra de la media muestral. Si la observación xi es mayor que la media, el punto z es positivo. Si la observación xi es menor que la media, el punto z es negativo. Si la observación xi es igual a la media, el punto z es igual a cero. El punto z es un valor estandarizado. Observaciones de dos conjuntos de datos con el mismo punto z se encuentran al mismo número de desviaciones estándar de la media, en otras palabras, tienen la misma localización relativa.

Por ejemplo, considerando al proveedor A, un tiempo de entrega de 5 días se encuentra a -1.31 desviaciones estándar de la media (6.2). Considerando al proveedor B, un tiempo de entrega de 8 días se encuentra a 1.24 desviaciones estándar de la media (5.1).

Los puntos z se pueden utilizar para identificar las observaciones atípicas, cualquier punto z que sea menor que -3 o mayor que 3 será sospechoso de ser una observación atípica. Por ejemplo, los tiempos en minutos para producir un artículo son 12, 14, 15, 15, 16, 18, 20, 22, 25 y 50. El último dato parece una observación atípica, al calcular su punto z, se tiene:

Esto significa que 50 se encuentra a 2.8 desviaciones estándar (10.46) de la media (20.7). En general, una observación localizada a cuando mucho 3 desviaciones estándar de la media no se considera atípica. No obstante, 50 se encuentra cerca del límite de las 3 desviaciones estándar, por lo que el analista puede considerar su revisión, es posible que se haya anotado incorrectamente, en tal caso deberá corregirse.

Teorema de Chebyshev

Es posible establecer la proporción de los valores dentro de cierto número de desviaciones estándar de la media. Para ello, el teorema de Chebyshev establece que por lo menos (1-1/z2) de los valores de un conjunto de datos deben localizarse dentro de z desviaciones estándar respecto a la media, donde z>1.

  • Si z=2, el 75% de los datos se encuentran a 2 desviaciones estándar de la media.
  • Si z=3, el 89% de los datos se encuentran a 3 desviaciones estándar de la media.
  • Si z=4, el 94% de los datos se encuentran a 4 desviaciones estándar de la media.

Supongamos una media de 10 días para el tiempo de entrega de un proveedor y una desviación estándar de 2 días. ¿Cuántas entregas tardaron entre 7 y 13 días? Tanto 7 como 13 están a 1.5 desviaciones estándar de la media (z=1.5).

Aplicamos el teorema de Chebyshev, para tener que:

Por lo menos el 56% de las entregas tardarán entre 7 y 13 días. El teorema de Chebyshev se aplica a cualquier conjunto de datos sin importar la forma de su distribución. Cuando los datos muestran una distribución simétrica en forma de campana, es posible recurrir a la siguiente regla empírica:

  • Aproximadamente el 68% de los valores se encuentran cuando mucho a una desviación estándar de la media.
  • Alrededor del 95% de los valores se encentran a no más de dos desviaciones estándar de la media.
  • Casi todos los valores se localizan a menos de 3 desviaciones estándar respecto a la media.

Consideremos una operación de llenado de botellas de champú, las botellas se llenan en promedio con 950 ml y la desviación estándar es igual a 15 ml, entonces, según la regla empírica:

  • Aproximadamente el 68% de las botellas contendrán entre 935 y 965 ml de champú.
  • Alrededor del 95% de las botellas contendrán 920 y 980 ml de champú.
  • Casi todas las botellas de champú contendrán entre 905 y 995 ml.

Medidas de la asociación entre dos variables

La covarianza y la correlación son medidas descriptivas de la relación entre dos variables.

Covarianza

La covarianza es una medida de asociación lineal entre dos variables (x, y), es positiva si las variables crecen simultáneamente y negativa en caso contrario. La covarianza muestral se calcula multiplicando la desviación de la media muestral para cada observación xi por la desviación de la media muestral para cada observación yi, luego la suma de los productos se divide entre el número de observaciones n menos 1:

La covarianza poblacional se calcula con las medias poblacionales (μx, μy) y con el tamaño de la población (N):

Consideremos un inversionista que analiza los rendimientos de dos acciones A y B, los cuales se muestran en la siguiente tabla:

El primer paso es calcular la media del rendimiento para cada una de las acciones:

Luego, se calculan las desviaciones respecto a la media para cada una de las dos variables y la suma de los productos de estas desviaciones:

Finalmente, se divide el total entre n-1, la covarianza es igual a 3.38, es positiva, por lo que los rendimientos de las acciones A y B tienden a moverse en la misma dirección. La covarianza mide la fuerza de la relación lineal. Si el inversionista desea reducir el riesgo de pérdidas simultáneas, deberá diversificarse, eligiendo acciones con covarianza negativa.

Al graficar en un diagrama de dispersión los rendimientos de A y B, se observa una relación lineal positiva, cuando los rendimientos de una acción crecen, los rendimientos de la otra acción también crecen, y viceversa. La línea roja corresponde a la media de los rendimientos de la acción A y la línea azul corresponde a la media de los rendimientos de la acción B, de tal modo que dividen el plano en cuatro cuadrantes, la mayoría de los puntos se encuentran en los cuadrantes I y III. En el cuadrante I, las observaciones xi y yi son mayores que su respectiva media muestral, por lo que el producto de sus respectivas desviaciones de la media resulta positivo, una cantidad positiva que multiplica a otra cantidad positiva da como resultado una cantidad positiva. En el cuadrante III, las observaciones xi y yi son menores que su respectiva media muestral, por lo que el producto de sus respectivas desviaciones de la media resulta positivo, el producto de dos cantidades negativas da como resultado una cantidad positiva.

Cuando la covarianza es positiva, los puntos que más influyen en su valor se encuentran en los cuadrantes I y III; cuando es negativa los puntos que más influyen en su valor se encuentran en los cuadrantes II y IV; será cercana a cero cuando los puntos se distribuyan uniformemente en los cuatro cuadrantes, en tal caso no existe relación lineal entre las variables.

En resumen, la covarianza es positiva cuando la relación lineal entre las variables existe y es positiva, es negativa cuando la relación lineal entre las variables existe y es negativa, es igual a cero cuando la relación entre las variables no existe.

Correlación

El coeficiente de correlación para datos muestrales (rxy) se calcula dividiendo la covarianza muestral (sxy) entre el producto de las desviaciones estándar muestrales (sxsy).

De manera análoga, el coeficiente de correlación para una población se calcula como sigue:

En el caso de los rendimientos de las acciones, se tiene que:

El coeficiente de correlación toma valores desde -1 hasta 1. Entre más cercanos sean los valores a -1 o 1, más fuerte la relación lineal entre las variables; entre más cercano a cero el coeficiente de correlación, más débil la relación lineal entre las variables. Si es positivo la relación lineal entre las variables es positiva; si es negativo, la relación lineal entre las variables es negativa. Dado que el coeficiente de correlación para el problema de las acciones es 0.95, se concluye que existe una relación lineal positiva fuerte entre los rendimientos de ambas acciones.

Es importante indicar que el coeficiente de correlación es una medida de asociación, no necesariamente de causalidad. En general, los precios altos se relacionan con mejor calidad, ya sea que pensemos en productos o servicios. Empero, aumentar los precios no provoca un aumento en las evaluaciones de calidad de los clientes.

Además, corrige una desventaja de la covarianza. La covarianza entre tiempo de estudio y puntaje puede expresarse en puntos·hora como unidades de medida, pero si consideramos minutos como unidad de medida del tiempo de estudio, el numerador para calcular la covarianza será más grande, la covarianza será mayor consecuentemente. En otras palabras, la magnitud de la covarianza depende de las unidades de medida, sin embargo, la fuerza de la relación es la misma.

El coeficiente de correlación resuelve el problema al normalizar la covarianza, dividiéndola entre las desviaciones estándar de las dos variables.

Cómo citar

García, Miguel. (25 marzo 2025). Estadística descriptiva, ejemplos. Celeberrima.com. Última actualización el 28 marzo 2025.