Tabla de contenidos
¿Qué son los datos?
Los datos son hechos que se recogen, analizan y resumen para su presentación e interpretación. Sin ellos, sería imposible tomar decisiones informadas en los negocios, la economía, la ciencia, etc. En un estudio estadístico, un conjunto de datos se compone de todos los datos que se hayan reunido para tal propósito. Un punto de venta registra las compras de sus clientes, recolectando datos sobre los productos vendidos, los horarios de mayor afluencia y las preferencias de los consumidores, este conjunto de datos le permite tomar decisiones sobre inventarios y promociones. Un hospital recopila datos sobre los pacientes, como edad y respuesta a tratamientos, con esta información, los médicos tienen la posibilidad de mejorar la atención.
Elementos, variables y observaciones
Un elemento es cualquier entidad de la que se obtienen datos, puede ser una persona, una empresa, un país, un producto, una máquina, un punto de venta, etc. Si se conduce un estudio sobre los estudiantes de una universidad, cada estudiante es un elemento.
Una variable es una característica de los elementos, la cual es de interés para el estudio, se dividen en cualitativas (ej. color, estado civil, sabor de helado favorito, etc.) y cuantitativas (ej. edad, estatura, peso, ingreso mensual, etc.). En el estudio de los estudiantes, las variables son la edad, el promedio de calificaciones, el número de horas semanales dedicadas al estudio y el nivel de satisfacción de las clases.
Los datos son los valores que se obtienen para cada una de las variables en cada uno de los elementos, por ejemplo, Juan tiene 19 años, un promedio de 8.5, estudia 12 horas a la semana y califica la clase como buena.
Una observación se compone del conjunto de valores dado para un elemento, el conjunto de valores para la observación (Juan López) es: 19, 8.5, 12, Buena. Un conjunto de datos con n elementos contiene n observaciones, dicho de otro modo, el número de observaciones es igual al número de elementos. Asimismo, el número de mediciones en cada observación es igual al número de variables. Y el número total de datos se determina multiplicando el número de observaciones por el número de variables. En la siguiente tabla, hay 10 elementos (alumnos), 10 observaciones (filas de la tabla) y 4 variables.
Nombre | Edad (años) | Promedio | Horas de estudio/semana | Satisfacción de la clase |
Juan López | 19 | 8.5 | 12 | Buena |
Carlos Ruiz | 21 | 7.8 | 9 | Regular |
Sofía Méndez | 20 | 9.2 | 15 | Excelente |
Luis Torres | 22 | 6.5 | 7 | Mala |
Fernanda Gil | 18 | 8 | 10 | Buena |
Ricardo Vega | 23 | 7.2 | 8 | Regular |
Valeria Ríos | 19 | 9 | 14 | Excelente |
Andrés Salas | 21 | 6.8 | 6 | Mala |
Mariana Cruz | 20 | 8.7 | 13 | Buena |
Javier Peña | 22 | 7.5 | 9 | Regular |
Una tienda puede considerar como elementos a los clientes que realizan una compra, en tal caso las variables podrían ser la cantidad de productos comprados, monto total gastado y frecuencia de compra. En este caso, una observación se compone de la información recopilada de un cliente: 2 productos, $750, 2 veces al mes.
Escalas de medición
Las escalas de medición determinan cuánta información contiene un dato y cómo se puede analizar estadísticamente.
Escala nominal
La escala de medición es nominal cuando un dato es una etiqueta o un nombre que identifica un atributo de un elemento sin establecer un orden o jerarquía. Los valores nominales sirven para diferenciar categorías, por ejemplo, podemos etiquetar a la Bolsa de Nueva York como BNY y a la Bolsa de Tokio como BT, entonces BNY y BT son etiquetas que identifican la categoría, y para facilitar el manejo en una base de datos, se asignan códigos numéricos, 1 para la Bolsa de Nueva York y 2 para la Bolsa de Tokio. Sin embargo, los números utilizados son etiquetas sin orden jerárquico, por lo que la escala sigue siendo nominal.
Las membresías de un gimnasio son: oro, plata y bronce. Alternativamente, en una base de datos se tiene: 1 (oro), 2 (plata) y 3 (bronce). Por supuesto, las etiquetas numéricas no implican que bronce sea el triple de oro, tampoco hay una diferencia aritmética entre ellas, solamente sirven para clasificar las membresías. En la escala nominal, los datos se pueden codificar con números, pero sin un significado matemático, pues son identificadores.
Escala ordinal
Una escala de medición es ordinal cuando clasifica los datos en categorías (como la escala nominal) y existe un orden o jerarquía entre las categorías. Un parque de diversiones encuesta a sus clientes, quienes evalúan la experiencia como excelente, buena o mala, cada respuesta es una etiqueta, por lo que los datos tienen las propiedades de los datos nominales. Sin embargo, pueden ser ordenados: excelente (mejor experiencia), buena (experiencia aceptable) y mala (peor experiencia). La diferencia entre las etiquetas no es necesariamente uniforme o cuantificable. Aunque hay un orden, no se puede decir que excelente es el doble de bueno, tampoco que la diferencia entre bueno y malo es la misma que entre bueno y excelente. También, es posible asignar códigos numéricos: 1 (excelente), 2 (buena) y 3 (mala). No hay que olvidar que los números representan una jerarquía, son etiquetas.
Otro ejemplo es cuando se clasifican las empresas mediante encuestas a los empleados, si se consideran las 500 mejores empresas para trabajar, la empresa en la posición 1 se considera la mejor opción y la que ocupa el puesto 500 se considera la menos favorecida por la opinión de los empleados. En este caso, hay un orden fácilmente reconocible, pero la diferencia entre las posiciones no es uniforme ni cuantificable.
En un concurso de disfraces, se premia al primer, segundo y tercer lugar, nuevamente, existe un orden claro, pero no es posible medir distancias entre categorías, el primer lugar no es necesariamente el doble de original que el segundo lugar.
Escala de intervalo
Una escala de intervalo es aquella en la que los datos pueden ordenarse jerárquicamente (como en la escala ordinal), las diferencias entre los valores tienen significado numérico y son uniformes (el intervalo entre valores se expresa en términos de una unidad de medición fija) y no hay cero absoluto, lo que quiere decir que el cero no se debe interpretar como ausencia total de la variable.
Tres estudiantes presentan la prueba de ingreso a una universidad, sus calificaciones son: 780, 650 y 450. Las calificaciones se pueden ordenar de mayor a menor 780 > 650 > 450. Las diferencias se pueden interpretar, el estudiante 1 obtuvo 130 puntos más que el estudiante 2 (780-650=130), el estudiante 2 obtuvo 200 puntos más que el estudiante 3 (650-450=200). Las diferencias tienen significado y se expresan en términos de una unidad fija, en este caso puntos.
Por ejemplo, 50°C > 40°C, la diferencia entre 30°C y 20°C (10°C) es igual a la diferencia entre 50°C y 40°C (10°C). No obstante, 0°C no significa ausencia de temperatura, es sólo un punto arbitrario en la escala.
Los años son un ejemplo de escala de intervalo, el año 2000 es posterior al año 1900, la diferencia entre 2000 y 1900 es de 100 años, igual que entre 1810 y 1710, pero el año 0 no significa ausencia de tiempo, sólo es un punto de referencia arbitrario.
Escala de razón
En una escala de razón, hay orden jerárquico (como en la escala ordinal), las diferencias numéricas tienen significado (como en la escala de intervalo), existe el cero absoluto, lo que significa que el cero representa la ausencia total de la variable. Además, las proporciones tienen sentido, se pueden hacer comparaciones como el doble o la mitad. Si una motocicleta cuesta $320,000 y otra cuesta $160,000, los precios se pueden ordenar $320,000 > $160,000, es posible calcular la diferencia $160,000 ($320,000-$160,000), un precio igual a $0 significa que la motocicleta sería gratuita. Además, la proporción tienen sentido, la primera motocicleta cuesta el doble que la segunda motocicleta.
Un viaje de 200 km es el doble de largo que uno de 100 km, y 0 km significa que no hay distancia. Variables como peso, altura, distancia, tiempo y costo son medidas con esta escala. Como el cero indica ausencia total de la variable, los valores pueden compararse en proporciones.
Datos cualitativos y cuantitativos
Los datos se clasifican en cualitativos y cuantitativos. Los datos cualitativos, también llamados categóricos, representan atributos o características mediante etiquetas, nombres o códigos numéricos, estos últimos sin significado matemático; usan las escalas nominal u ordinal. Los siguientes son datos cualitativos: el color de un automóvil (rojo, azul, negro, verde), la satisfacción del cliente: (excelente, muy buena, buena, regular, mala, muy mala, pésima), tipo de pago (efectivo, tarjeta), estado civil (soltero, casado). Tal y como se ha mencionado en los párrafos anteriores, los códigos numéricos solamente sirven como etiquetas y no tienen valor numérico. En una encuesta se puede usar 1 para malo, 2 para regular y 3 para bueno.
Por su parte, los datos cuantitativos, también llamados numéricos, expresan cantidades medibles, se pueden sumar, restar, multiplicar o dividir, por lo que las diferencias y proporciones tienen significado, indican cuánto o cuántos de algo hay, usan las escalas de intervalo o razón. Algunos ejemplos son la edad de una persona (30 años), la altura de un edificio (120 metros), la temperatura en grados Celsius (25°C), el número de empleados en una empresa (85 personas). Los datos cuantitativos son discretos (ej. el número de llamadas que un call center recibe cada hora, número de clientes atendidos en un día) o continuos (ej. peso, temperatura).
Tipo de dato | Ejemplo | ¿Es numérico? | ¿Se puede ordenar? | ¿Comparaciones? |
Cualitativo (Nominal) | Color de ojos (azul, café, verde) | No | No | No |
Cualitativo (Ordinal) | Nivel de satisfacción (malo, regular, bueno) | No | Sí | No |
Cuantitativo (Intervalo) | Temperatura en °C | Sí | Sí | Comparación por diferencias |
Cuantitativo (Razón) | Peso en kg | Sí | Sí | Comparación por diferencias y proporciones |
Si se realiza una encuesta a los empleados de una empresa sobre su nivel de satisfacción laboral y sus ingresos mensuales, la respuesta a la pregunta sobre la satisfacción laboral es un dato cualitativo ordinal: malo, regular y bueno. Hay un orden claro en las respuestas, pero no una diferencia numérica entre ellas. En cambio, la respuesta a la pregunta sobre el nivel de ingresos mensuales es un dato cuantitativo de razón: $30,000. Es posible realizar comparaciones de diferencias y proporciones, por ejemplo, alguien gana $10,000 más ($40,000) o alguien gana el doble ($60,000).
El tipo de variable, cualitativa o cuantitativa, determina las herramientas estadísticas que pueden usarse para analizar los datos. Las variables cualitativas contienen datos categóricos y su análisis es más limitado en comparación con las variables cuantitativas. En general, se puede contar cuántas observaciones hay en cada categoría, calcular qué porcentaje de los datos pertenece a cada categoría, organizar los datos en una tabla mostrando el número y porcentaje de cada categoría, usar diagramas de barras o gráficos de pastel para visualizar la distribución de categorías. Sin embargo, no se calculan promedios, ya que los valores son etiquetas sin significado aritmético. Si se encuesta a 100 personas sobre su color favorito y se obtienen los siguientes resultados:
- Rojo: 30 personas
- Azul: 60 personas
- Verde: 10 personas
Se puede afirmar que el 60% prefiere azul, el 30% rojo y el 10% verde, pero no es posible sumar ni promediar los colores.
Las variables cuantitativas presentan más opciones, se pueden analizar mediante medidas de tendencia central (ej. promedio, mediana y moda), medidas de dispersión (ej. desviación estándar, varianza y rango), tablas y gráficos (ej. histogramas, diagramas de caja y gráficos de dispersión). Si se registran los ingresos mensuales de 5 empleados, el promedio se calcula como sigue:

Datos de sección transversal y series de tiempo
Los datos transversales se recopilan en un mismo punto en el tiempo o en un periodo muy corto. En otras palabras, representan una fotografía de un fenómeno en un instante específico. Por ejemplo, valor de mercado de 500 empresas al cierre del año, tasa de desempleo en distintos estados de un país en un trimestre determinado, ventas de un modelo de teléfono en diferentes tiendas durante una semana, etc.
Las series de tiempo se componen de datos recopilados en diferentes periodos. Algunos ejemplos son la evolución del precio promedio diario del petróleo durante 2024, el precio promedio mensual del litro de gasolina en los últimos dos años, la tasa de inflación trimestral de un país desde 2010 hasta la actualidad.
Fuentes de datos
Los datos pueden obtenerse de diversas fuentes, ya sea de registros existentes o de nuevas recopilaciones.
Fuentes existentes
Los registros internos de las empresas y las bases de datos públicas son fuentes de datos existentes. En el caso de los registros internos, se puede consultar información de los empleados (ej. salario, antigüedad, edad, bonos), datos de ventas (ej. ventas por región, ventas por tipo de cliente), datos de clientes (ej. edad, nivel de ingresos), datos de producción (ej. cantidad producida, costo de la mano de obra), datos de inventario (ej. unidades disponibles, cantidad económica a ordenar), datos de créditos (ej. límite de crédito, cuentas por cobrar).
Las dependencias de gobierno recopilan, procesan y publican información sobre tasas de empleo, niveles salariales, tasas de cambio, etc. Estos datos son confiables gracias a que son recopilados con metodologías rigurosas, también son accesibles debido a que muchos son gratuitos y se pueden consultar en línea. Las bases de datos del gobierno ofrecen una cobertura amplia, informando sobre cuestiones económicas, sociales, medioambientales, etc. Además, se actualizan periódicamente. Una persona que desea abrir un negocio podrá consultar información sobre población, nivel de ingresos y crecimiento económico en una localidad determinada.
Otras bases de datos públicas son gestionadas por organismos internacionales (ej. Banco Mundial, ONU, FMI). Otra alternativa son las bases de datos científicas y académicas (ej. artículos de investigación).
Nuevas fuentes de datos
Cuando los datos no están disponibles, se recolectan respuestas sobre un tema específico (ej. encuesta de satisfacción del cliente). Algunas empresas se especializan en realizar estudios estadísticos, pero estos datos solamente se pueden consultar comprándolos o mediante acuerdos de licencia. Un ejemplo es Nielsen, una firma global de investigación de mercados. Una empresa quiere lanzar una nueva línea de snacks, por lo que necesita datos sobre el comportamiento del mercado y las estrategias de sus competidores, en lugar de recolectar la información por sí misma, recurre a una firma de investigación de mercados.
Las asociaciones industriales también recopilan y distribuyen datos de sectores específicos. Una asociación de agencias de viajes en una ciudad puede ofrecer información valiosa sobre hoteles, aerolíneas, agencias de viajes y otros actores del sector turístico. Antes de invertir en una nueva agencia, será útil informarse sobre las temporadas de mayor demanda y otras variables de interés, pero, en lugar de hacer estudios costosos desde cero, es posible recurrir a dicha asociación. Tanto pequeñas como grandes empresas pueden acceder a información valiosa sin realizar grandes inversiones en investigación.
Internet es una fuente de datos que ha crecido exponencialmente. Muchas empresas informan en su página web sobre diversos aspectos, como sus ventas, productos, etc. Asimismo, han aparecido empresas especializadas en la recopilación y distribución de datos en línea. Actualmente, es posible acceder en tiempo real a cotizaciones de acciones, precios de productos, niveles salariales, etc. Las personas que buscan empleo consultan plataformas para informarse sobre el sueldo y ambiente laboral, mismos que son reportados por los empleados. En la web, la información está disponible las 24 horas del día, se puede consultar desde cualquier lugar con conexión a internet, se actualiza en tiempo real (ej. cotizaciones de acciones), existe una gran diversidad de fuentes y el costo es prácticamente nulo.
Estudios estadísticos
Los estudios estadísticos se conducen cuando no existen los datos necesarios. En los estudios experimentales se identifica una variable de interés y se controlan otras variables para medir su impacto. La eficacia y seguridad son variables de interés para una vacuna y la dosis es una variable de control, para realizar el experimento se divide a los participantes en grupos y se administran diferentes dosis a cada uno. Conforme pasa el tiempo, se registra el número de participantes que desarrollan la enfermedad y también las reacciones secundarias. La eficacia y seguridad de la vacuna se determinan analizando estos datos. Los estudios experimentales son útiles en áreas como la medicina, la ingeniería y ciencias sociales.
Por otro lado, los estudios observacionales recopilan datos sin intervenir ni controlar variables, por ejemplo, el número de automóviles que cruzan una calle cada hora.
Siempre se deben considerar el tiempo y el costo asociados a la recolección y análisis de datos. Si se requiere la información con urgencia o se tienen limitaciones presupuestarias, lo mejor es recurrir a fuentes de datos existentes. No obstante, si los datos no están disponibles o no son suficientes, se deberá tener mucho cuidado en que los costos relacionados con el estudio estadístico no superen los beneficios económicos, en otras palabras, los beneficios por una mejor decisión deben justificar la inversión en datos.