Tabla de contenidos
Explicación regresión lineal simple para pronosticar la demanda
La regresión lineal simple se puede utilizar para predecir el comportamiento de una variable dependiente (y) debido a la relación de esta con una variable explicativa, la cual es la variable independiente (x). El modelo se expresa como:


Donde, β1 es la pendiente de la línea de regresión, β0 es la ordenada al origen y ε es el error. Los valores de β1 y β0 se encuentran aplicando el método de mínimos cuadrados. Luego, se realiza el pronóstico con la ecuación de regresión que se ha determinado. Las fórmulas para calcular β1 y β0 son las siguientes:

La calidad de un pronóstico obtenido con regresión lineal simple depende de la relación entre las variables y de la persistencia de tal relación en el tiempo. El pronóstico será inexacto si la relación de causalidad entre las variables no existe, o no es fuerte, o cambia con el tiempo.
Por ejemplo, las ventas mensuales de cubetas de pintura (y) se pueden estimar considerando el número de casas vendidas (x) en el mes previo. La siguiente tabla muestra los datos de los 12 meses previos. En el mes 3 se vendieron 147 cubetas de pintura y en el mes previo se vendieron 42 casas.

El diagrama de dispersión de los datos muestra un posible comportamiento lineal. Entre más casas se vendan, mayor será la demanda de cubetas de pintura.

Al aplicar las fórmulas de la regresión lineal simple se tiene que β1=1.787 y β0=34.523. El valor de β1 significa que por cada unidad que aumenta la variable independiente, la variable dependiente aumenta en 1.787 unidades.
Si el número de casas vendidas el mes pasado es igual a 137, se puede estimar el número de cubetas de pintura vendidas en el mes 13:

En el mes 13 se pronóstica vender aproximadamente 279 cubetas de pintura dado que se han vendido 137 casas en el mes anterior.

En el ejemplo β1 es positiva, lo que significa que las ventas de cubetas de pintura aumentan conforme aumentan las casas vendidas. Pero, en otros casos, puede ser negativa, lo que significa que la variable dependiente disminuye conforme los valores de la variable independiente aumentan.
También es importante resaltar que en el ejemplo existe un lapso entre la variable dependiente y la variable independiente. Se usa el dato de casas vendidas del mes previo para pronosticar el número de cubetas de pintura vendidas. Si este lapso no existiera, se tendría que pronosticar el valor de la variable independiente, lo que puede conllevar un mayor error al pronosticar el valor de la variable dependiente.
No es recomendable usar el tiempo como variable independiente. La razón principal es que las tendencias se relacionan con factores existentes en el mercado, como son la aparición de nuevas tecnologías o cambios en las preferencias de los consumidores. Si se utiliza el tiempo como variable independiente, se ignoran los factores que influyen en la demanda. Entre el tiempo y la demanda no existe una relación de causa y efecto, aunque así lo parezca. Las ventas aumentan o disminuyen en el tiempo, pero este no es la causa del crecimiento o decrecimiento de las ventas. Además, utilizar el tiempo como variable independiente obliga a extrapolar para pronosticar, lo cual no es recomendable.
A las variables dependientes también se les llama variables de respuesta. A las variables independientes también se les conoce como variables explicativas o predictoras.
Medición de la variabilidad del modelo de regresión
La medición de la variabilidad establece qué tan útil es el modelo de regresión para predecir la demanda u otra variable de interés. La suma de cuadrados totales (SST) es una medida de la variabilidad de yt con respecto a la media:

La suma de cuadrados de los errores (SSE) es una medida de la variabilidad de yt con respecto a la línea de regresión:

La suma de cuadrados debido a la regresión (SSR) es una medida de la variabilidad de la línea de regresión, es decir, la variabilidad que se explica por el modelo de regresión:

En la siguiente tabla, se muestran los valores para las tres sumas de cuadrados. En las tres últimas columnas se puede observar que el cuadrado elimina los signos negativos y penaliza las diferencias más grandes.

También, se debe resaltar que SSE es menor que SST, lo que significa que la ecuación de regresión reduce la variabilidad.

Esto es, la suma de cuadrados totales es igual a suma de cuadrados de los errores más la suma de cuadrados debido a la regresión:

Coeficiente de determinación (R2)
El coeficiente de determinación es una medida de la variabilidad que el modelo puede explicar. Se calcula como la variabilidad explicada (SSR) entre la variabilidad total (SST):

Alternativamente, se puede escribir como:

Para el ejemplo que se ha utilizado en los párrafos anteriores se tiene que:

Este resultado significa que el 93% de la demanda se explica por la variable independiente en el modelo de regresión lineal. Si el coeficiente de determinación fuera igual a 1, la variable independiente explicaría el 100% de la variabilidad de la demanda. Caso contrario, si el coeficiente de determinación fuera igual a 0, la variable independiente explicaría el 0% de la variabilidad de la demanda. En general, se considera muy bueno un coeficiente de determinación igual a 0.85 o mayor.
Coeficiente de correlación (R)
El coeficiente de correlación se calcula a partir del coeficiente de determinación de la siguiente manera:

Para el ejemplo analizado en los párrafos anteriores, se tiene que:

El resultado tiene signo positivo porque la ecuación de regresión tiene pendiente positiva. Se toma el signo negativo cuando la pendiente es negativa. Los valores del coeficiente de correlación se encuentran entre -1 y 1. Si el coeficiente de correlación es igual o cercano a 0, significa que no hay relación entre las variables.
La correlación no necesariamente implica causalidad, ya que los cambios en ambas variables podrían explicarse por una tercera variable no considerada. Un ejemplo muy conocido es la supuesta correlación entre el consumo de helados y el número de incidentes de ahogamiento. Algunas estadísticas pueden sugerir que cuando se incrementa el consumo de helados, también aumentan los incidentes relacionados con ahogamientos. Pero esto no significa que comer helado cause ahogamientos. Lo que sucede es que se consumen más helados y se practican más actividades acuáticas en la misma temporada, es decir, cuando la temperatura sube. Cuando el clima es cálido aumenta la demanda de bebidas refrescantes, la ropa de verano, el número de visitantes a las playas, etc.
Análisis de varianza de la regresión
Los errores del modelo de regresión se suponen con una varianza (s2) constante, cuya estimación es el cuadrado medio del error (MSE), también conocido como cuadrado medio de los residuos. Para calcular la varianza, se divide la suma de cuadrados de los errores entre el número de observaciones (n) menos el número de variables independientes (k) menos 1:

Para el ejemplo que se ha desarrollado en los párrafos anteriores se tiene:

Luego, la desviación estándar de los errores se calcula como:

El siguiente paso consiste en realizar una prueba de hipótesis para verificar que existe una relación entre las variables. La hipótesis nula (H0) establece que no existe una relación lineal entre las variables. Por otra parte, la hipótesis alterna (H1) establece que existe una relación lineal entre las variables. Entonces, se rechaza la hipótesis nula y se acepta la hipótesis alterna cuando se prueba que existe una relación entre las variables.
Se calcula el cuadrado medio de la regresión (MSR) dividiendo la suma de cuadrados debido a la regresión entre el número de variables independientes:

En el ejemplo de la demanda de cubetas de pintura, se tiene:

El siguiente paso es calcular el valor del estadístico F para determinar si existe una relación lineal entre las variables, para ello se divide el cuadrado medio de la regresión entre el cuadrado medio del error:

Un valor alto del estadístico F sugiere que la relación lineal entre las variables existe. Ahora, se determina el valor crítico del estadístico F con la siguiente función de Microsoft Excel:

El primer argumento (x) corresponde al valor del estadístico F que se ha calculado (134.07). El segundo argumento (grados_de_libertad1) es el número de grados de libertad en el numerador, el cual es igual a k, es decir, 1. El tercer argumento (grados_de_libertad2) se refiere al número de grados de libertad del denominador, el cual se calcula como n-k-1=10.
Después de evaluar la fórmula en Microsoft Excel se tiene que el valor crítico para el estadístico F es igual a 4.085×10-7 (0.0000004085), este valor es el nivel de significancia relacionado con el valor del estadístico F y también se le conoce como valor p. Entre más grande sea el estadístico F, menor el nivel de significancia relacionado. El valor p es la probabilidad de rechazar la hipótesis nula cuando es verdadera.
Dado que el nivel de significancia relacionado con el valor del estadístico F es menor que un nivel de significancia de 0.05, se rechaza la hipótesis nula y se acepta la hipótesis alterna. Esto significa que la variable independiente tiene un efecto significativo sobre la variable dependiente. En otras palabras, el número de casas vendidas en el mes previo es útil para predecir la demanda de cubetas de pintura.
El nivel de significancia que se ha elegido (0.05) es el umbral para decidir si se rechaza la hipótesis nula. Se puede elegir entre diferentes umbrales, los más comunes son: 0.25, 0.1, 0.05, 0.025 y 0.01. En nuestro caso, el valor p es menor que cualquiera de estos niveles de significancia. Con frecuencia, se suele elegir 0.05 como umbral.
También, se puede comparar el valor del estadístico de prueba F que se ha calculado con aquel que se obtiene de tablas para un nivel de significancia igual a 0.05, con 1 grado de libertad en el numerador y 10 grados de libertad en el denominador, esto es F0.05, 1,10.

Dado que el valor del estadístico de prueba F es mayor que F0.05,1,10, se confirma que se rechaza la hipótesis nula y se acepta la hipótesis alterna. Se concluye que existe una relación entre las variables.

En lugar de consultar tablas, se puede determinar el valor de F0.05,1,10 con la siguiente fórmula de Microsoft Excel:

El primer argumento (probabilidad) es la probabilidad de la distribución acumulativa de F, la cual es igual a 0.05. El segundo argumento (grados_de_libertad1) y el tercer argumento (grados_de_libertad2) son, como ya se ha mencionado, el número de grados de libertad en el numerador y denominador, los cuales son 1 y 10, respectivamente. Al evaluar la función se tiene que F0.05,1,10=4.96.
El que exista una relación entre las variables no significa que la relación sea fuerte, pero ya se ha calculado el coeficiente de determinación (R2=0.93) que mide la magnitud de la relación. Si el estadístico F es grande —lo cual implica que el valor p es pequeño— y el coeficiente de determinación es cercano a 1, entonces, se puede tener confianza en el modelo de regresión para realizar predicciones sobre la variable dependiente.
El valor del estadístico F puede indicar que el modelo de regresión es confiable para predecir el valor de la variable de respuesta, pero eso no quiere decir que no sea posible encontrar un mejor modelo. Al final de este texto, se puede consultar la tabla para el valor crítico de F para un nivel de significancia igual a 0.05.
Regresión lineal simple y análisis de varianza con Microsoft Excel
Microsoft Excel permite encontrar los coeficientes de la ecuación de regresión y también proporciona el análisis de varianza descrito en la sección anterior. Primero se selecciona Datos, en el lado izquierdo de la cinta se selecciona Análisis de datos. Aparecerá una ventana, se desliza la barra vertical hacia abajo y se selecciona Regresión. Por último, se da clic en Aceptar.

Ahora, se muestra una ventana en la que se solicita que se ingrese el Rango Y de entrada, esto es el rango de celdas que contiene los datos de la variable dependiente, en este caso la columna Ventas. Del mismo modo, se ingresa el Rango X de entrada, es decir, la columna Casas.
Dado que se ha incluido la cabecera en los rangos que se han especificado, se selecciona la opción Rótulos. En las Opciones de salida se elige En una hoja nueva.

Finalmente, se muestran las Estadísticas de la regresión, el Análisis de varianza y los coeficientes de la ecuación de regresión en una hoja nueva.

En la sección Estadísticas de la regresión se pueden corroborar los valores que previamente se han calculado para el coeficiente de determinación y el coeficiente de correlación.
También se pueden verificar los valores calculados para las sumas de cuadrados (SSR, SSE y SST), los cuadrados medios (MSR y MSE), el valor del estadístico F y el valor p.
En la segunda columna de la tercera sección, se encuentran los coeficientes de la ecuación de regresión, 34.52 para la ordenada al origen y 1.79 como el coeficiente de la variable independiente. Estos coeficientes son los mismos que se han calculado previamente, solamente se han redondeado para una mejor visualización del informe de la hoja de cálculo.
No es recomendable extrapolar, es decir, no deben usarse valores de la variable explicativa más allá del rango de los datos observados. Fuera de este rango, no hay garantías de que la relación que se ha modelado con una ecuación de regresión lineal simple se mantenga. Por ejemplo, las ventas de un producto aumentan cuando se invierte en publicidad, pero con el tiempo las ventas son menos sensibles a la publicidad y terminan por estancarse.
En la mayoría de los casos, la ordenada al origen está más allá del rango para el cual se poseen observaciones —evidencia empírica—. En esta situación, no se debe utilizar la ecuación de regresión para pronosticar el valor de la variable dependiente cuando la variable explicativa es igual a 0. En la última imagen, el valor p para el estadístico de prueba t es igual 0.16, lo que sugeriría dudas sobre la ordenada al origen, pero este resultado no es trascendente por lo anteriormente expuesto. Es decir, 0 está fuera del rango de las observaciones que se usan para determinar la ecuación de regresión, la ordenada al origen únicamente define la línea que mejor se ajusta al conjunto de puntos.
Valores críticos de F

- ¿Qué es un pronóstico?
- Importancia de los pronósticos
- Pronóstico de la demanda y su relación con los inventarios
- ¿Qué es un buen pronóstico?
- Obtención de datos para el pronóstico
- Métodos de pronóstico
- Diagrama de dispersión
- Componentes de la demanda
- Ciclo de vida del producto
- Series de tiempo
- Último dato
- Promedio
- Promedios móviles
- Promedios ponderados
- Suavizado exponencial simple
- Desarrollo de la fórmula de suavizado exponencial simple
- Valores equivalentes de n y α
- Suavizado exponencial doble
- Pronosticar más de un periodo con suavizado exponencial doble
- Factores estacionales
- Suavizado exponencial triple
- Pronosticar más de un periodo con suavizado exponencial triple
- Métodos causales
- Medidas de desempeño del pronóstico
- Métodos cualitativos