Tabla de contenidos
Explicación regresión múltiple con datos categóricos
El tipo de vivienda (casa, apartamento), la región (norte, sur, este, oeste), la condición de un automóvil (bueno, regular), grado de estudios (licenciatura, posgrado) se pueden incluir en un modelo de regresión lineal como variables categóricas. Para ello toman valores de 0 o 1, lo que indica que cumple o no una condición. A las variables categóricas también se les conoce como variables ficticias, variables binarias, variables indicadoras o variables dummy.
Consideremos una empresa dedicada a la compra y venta de automóviles seminuevos. La gerencia cree que el precio de adquisición de un modelo en particular depende de su edad en años y de su estado, ya sea bueno o regular. Un modelo de regresión múltiple puede asistir a compradores novatos en el momento de adquirir un automóvil. La siguiente tabla muestra los datos relevantes para el problema.

La variable categórica es el estado en el que se encuentra el automóvil, el cual puede ser bueno o regular. La variable toma el valor de 1 cuando el estado es bueno y toma el valor de 0 cuando el estado se considera regular. En la tabla se omite la columna Regular por ser innecesaria, se sabe que, si se ha registrado 0 en la columna Bueno, el estado del automóvil es regular. La ecuación de regresión múltiple tendrá la siguiente forma:

La variable x2 será igual a 1 si el estado del automóvil es bueno y será igual a 0 si el estado del automóvil es regular. El número de variables ficticias debe ser igual al número de condiciones menos 1. Dado que se tienen dos condiciones, bueno y regular, solamente se necesita una variable (x2). La variable x1 corresponde a la edad del automóvil en años.
Después de utilizar la herramienta Análisis de datos de Microsoft Excel se tiene el modelo de regresión:


El valor crítico para el estadístico de prueba F es igual a 0.00889 y el coeficiente de determinación resulta 0.69, en consecuencia, el modelo se puede considerar aceptable para predecir el precio de adquisición de los automóviles.
El coeficiente de x2 indica que un automóvil en buen estado se venderá, en promedio, en $66,193.65 más que un automóvil en estado regular. La condición Regular es la categoría de referencia.
Coeficiente R2 ajustado
El coeficiente R2 ajustado considera el número de variables independientes en la ecuación de regresión. En general, una variable independiente debe añadirse al modelo si R2 ajustada aumenta. Para calcular R2 ajustada se tiene:

Cuando aumenta el número de variables (k), disminuye n-k-1 y el resultado de dividir SSE entre n-k-1 será más grande, salvo que la variable que se ha añadido disminuya SSE. En otras palabras, la reducción de errores asociada con la adición de una variable independiente debe compensar el cambio en el número de variables explicativas. El coeficiente R2 ajustada penaliza la introducción de variables independientes innecesarias. Se recomienda revisar los conceptos del coeficiente R2, SSE y SST. En el ejemplo, se tiene que:

La siguiente tabla muestra el kilometraje como una variable explicativa adicional en el problema de la compra y venta de automóviles.

Al incluir esta variable en el modelo de regresión, R2 aumenta y también lo hace R2 ajustada:


Por lo tanto, se recomienda mantener la nueva variable en el modelo de regresión. Además, el valor p para el estadístico de prueba F es igual a 0.00082, lo que es menor que un nivel de significancia igual a 0.05. Con estos resultados se confía en las predicciones que se obtengan con la ecuación de regresión múltiple. Por ejemplo, para predecir el precio de un automóvil con 80,000 kilómetros recorridos, 1.2 años y con una condición regular se tiene que:

Siendo x1 el número de kilómetros recorridos, x2 los años de antigüedad del automóvil y x3 es la variable dummy. El precio del automóvil disminuye $1.33 por cada kilómetro recorrido, cada año el precio se reduce $33,781.88 y si la condición es buena el precio aumenta $69,024.64 respecto al precio cuando la condición es regular.
Regresión y estacionalidad
La regresión múltiple con estacionalidad se utiliza cuando la demanda de un producto sigue un patrón recurrente en el tiempo. Si se pronostica la demanda trimestral de un producto, se incluyen variables dummies que representan cada trimestre del año. Además, se debe incluir el tiempo como una de las variables independientes.
Tal y como se ha explicado, cada variable dummy toman valores de 0 o 1, lo que indica que cumple o no una condición. En este caso la condición es la temporada del año: primer trimestre, segundo trimestre, tercer trimestre o cuarto trimestre. Se debe recordar que el número de variables ficticias debe ser igual al número de condiciones menos 1. Dado que se tienen cuatro trimestres, se necesitan tres variables.
Consideremos una tienda de muebles para exterior, las ventas aumentan en el segundo trimestre debido al clima de verano y en el cuarto trimestre por las promociones de fin de año. La tabla 24 muestra el número de sillones colgantes dobles que se han vendido en los últimos 16 trimestres.

Cuando se grafican los datos, se identifica el componente estacional.

Según lo que se ha explicado, la ecuación de regresión tendrá cuatro variables independientes, una de ellas es el tiempo (x1) y las otras tres indican la estación (x2, x3 y x4).

En la tabla se ha omitido la columna correspondiente al trimestre 2 porque es el que arbitrariamente se ha tomado como referencia para interpretar los coeficientes de x2, x3 y x4. Después de utilizar la herramienta Análisis de datos de Microsoft Excel se tiene el siguiente modelo de regresión:


El coeficiente de determinación es igual a 0.99 y el valor crítico para el estadístico de prueba F es menor que un nivel de significancia igual a 0.05, el modelo se considera confiable para realizar predicciones.
Los coeficientes de las variables ficticias se interpretan de la siguiente manera. En el primer trimestre se venderán, en promedio, 510.1 sillones menos que en el segundo trimestre. En el tercer trimestre se venderán, en promedio, 243.4 sillones menos que en el segundo trimestre. Por último, en el cuarto trimestre se venderán, en promedio, 478.2 sillones más que en el segundo trimestre.
El pronóstico de la demanda trimestral que se obtiene con el modelo de regresión se muestra en la siguiente tabla:

La siguiente gráfica muestra la demanda histórica de los últimos 16 trimestres y el pronóstico de los cuatro siguientes trimestres.

- ¿Qué es un pronóstico?
- Importancia de los pronósticos
- Pronóstico de la demanda y su relación con los inventarios
- ¿Qué es un buen pronóstico?
- Obtención de datos para el pronóstico
- Métodos de pronóstico
- Diagrama de dispersión
- Componentes de la demanda
- Ciclo de vida del producto
- Series de tiempo
- Último dato
- Promedio
- Promedios móviles
- Promedios ponderados
- Suavizado exponencial simple
- Desarrollo de la fórmula de suavizado exponencial simple
- Valores equivalentes de n y α
- Suavizado exponencial doble
- Pronosticar más de un periodo con suavizado exponencial doble
- Factores estacionales
- Suavizado exponencial triple
- Pronosticar más de un periodo con suavizado exponencial triple
- Métodos causales
- Regresión lineal simple
- Medición de la variabilidad del modelo de regresión
- Coeficiente de determinación
- Coeficiente de correlación
- Análisis de varianza de la regresión lineal simple
- Regresión lineal simple y análisis de varianza con Microsoft Excel
- Cuarteto de Anscombe
- Regresión múltiple con enfoque matricial
- Regresión múltiple y análisis de varianza con Microsoft Excel
- Medidas de desempeño del pronóstico
- Métodos cualitativos