Unidad 10. REGRESIÓN LINEAL (IX)

Ejemplo 02

Tomemos como ejemplo el caso planteado al inicio de este capítulo sobre la producción agrícola española entre los años 1957 a 1976.

Haga un análisis completo de este problema tomando en cuenta los siguientes criterios:

Construya los diagramas de dispersión necesarios a fin de tener una idea clara sobre el modelo que explique la variabilidad de la producción agrícola

Obtenga una matriz de correlación a fin de realizar un análisis previo de relación entre pares de variables.

Obtenga una matriz de correlación a fin de observar el grado de correlación existente entre las variables de este problema.

Finalmente, a un nivel de significación del 5% ¿se puede afirmar que la producción agrícola depende de las otras tres variables?

Solución

Sea Yt la variable definida como la producción agrícola total

X_1t la variable definida como el volumen de fitosanitarios utilizado

X_2t la variable que representa el parque de maquinaria agrícola

X_3t la variable que representa el financiamiento público y privado

Ingresamos primero los datos a una hoja de Excel. Esto lo encontramos en el archivo Regresión lineal.

Construimos gráficas de dispersión de las variables. En ellas podemos apreciar que la producción agrícola depende de cada una de las otras variables; por lo tanto, es muy probable que un modelo lineal explique la variación de la producción agrícola.

Para obtener la matriz de varianzas y covarianzas:

Use la secuencia: [Datos] - [Análisis = de datos ] - [Covarianza].

Complete la ventana como se muestra en la siguiente imagen:

Luego de hacer clic en [Aceptar] obtendremos los resultados que se muestran

En la diagonal principal se encuentra la varianza de cada variable. Puesto que Excel calcula la varianza poblacional (Varp(…)), hemos reemplazado por la varianza de la muestra; es decir, Var (…).

La triangular inferior muestra la covarianza de pares de variables: Como se pudo apreciar en los gráficos de dispersión, cuando el volumen de fitosanitarios (X₁) aumenta, también aumenta la producción agrícola, esto se fundamenta en la covarianza de estas dos variables que es un número positivo (no interesa su valor, probablemente cuanto mayor sea la correlación entre ellas sea mayor).

Obtendremos ahora la matriz de correlación:

Usemos la secuencia: <[Datos] – [Análisis de datos] – [Correlación]. Completamos la ventana como se muestra en la siguiente imagen:

Luego de hacer clic en [Aceptar] obtendremos los siguientes resultados:

Podemos apreciar la altísima correlación entre las variables. Por ejemplo la producción agrícola y el financiamiento público y privado están correlacionados en el 99%; es decir, que la variación de la producción agrícola depende del financiamiento público en el 99% de los casos.

Pasamos a obtener la tabla del ANOVA, la que nos mostrará también la estimación de los coeficientes de regresión.

Para ello primero debemos seleccionar el rango de salida. Hemos dicho que se deben seleccionar 5 filas y tantas columnas como número de variables hay en el modelo.

Según esto,

Seleccionaremos el rango C89:F93

Ingresamos la fórmula:

=Estimacion.Lineal(C20:C39,D20:F39,1,1)

Teniendo presionada [Ctrl]+[SHIFT], presionamos una vez [Enter] Con lo cual obtendremos:

En la fila superior hemos añadido la secuencia de los coeficientes de regresión a fin de facilitar su reconocimiento.

En esta matriz de resultados tenemos:

El coeficiente de determinación: r² = 0.9875

El estadístico de la prueba: F_C = 421.6856

La desviación estándar de los errores totales: σ = 29363.70194

Encontramos también:

La suma de cuadrados de la regresión: SCR = 1.09077E+12

La suma de cuadrados de los residuos: SCE = 13795631861

Podemos hallara la suma de cuadrados totales: SCT = SCR + SCE

Número de grados de libertad para cada fuente

Los estimadores de los coeficientes de regresión:

β^s₀ = 166174.177; β^s₁ = 69.79667214, β ^s₂ = -0.706994337; β^s₃ = 2.077349096

Por tanto el modelo lineal ajustado para este problema será:

Y = 166174.177 + 69.79667214 X1 - 0.706994337X2 + 2.077349096X3

Las desviaciones típicas estimadas para cada uno de estos coeficientes son:

σ_(β ^s₀ )= 29684.20428

σ_(β ^s₁ )= 29.60358049

σ_(β^s₂ )= 0.251824119

σ_(β ^s₃)= 0.432673638

Formulación de las hipótesis:

Ho: El modelo no explica la variabilidad de la producción agrícola

H1: El modelo sí explica la variabilidad de la producción agrícola

Estadístico de la prueba:

F_C = 421.6856

El valor crítico: Cualquier valor crítico con un nivel de 5% es menor que Fc, por tanto rechazamos la hipótesis nula; esto significa que el modelo explica el comportamiento de los datos.

Del mismo modo, el coeficiente de determinación también indica el alto grado de explicación de los datos mediante el modelo estimado.

Pág. 10.9