6. Minitab y el Diseño de Experimentos (20)

5.  Inferencia y ANOVA en regresión lineal

 

Si  Y = bX + a  es la recta regresión a la que se ajusta un conjunto de datos X1, X2, ..., Xn, y los estadísticos     son los estimadores de dichos parámetros, entonces es claro que podamos encontrar sus respectivos intervalos de confianza así como realizar pruebas de hipótesis para cada uno de los parámetros.

 

Por otro lado, si tomamos en cuenta la diferencia entre los parámetros y sus estimadores, los elevamos al cuadrado y dividimos la suma de ellos entre el número de grados de libertad correspondientes, estaremos hablando del análisis de varianza de una línea de regresión.

 

Como por lo general se desconoce la varianza poblacional de cada uno de los parámetros y como el número de datos, por lo general no permite el uso de una distribución normal, el estadístico que se emplea tanto para la obtención de los intervalos de confianza como para las pruebas de hipótesis es aquella cuya distribución es t de Student con n – 2 grados de libertad.

 

En el caso del análisis de varianza, por su naturaleza misma seguiremos usando la distribución F y/o el p-value.

 

El estadístico a ser calculado,  se define como

 

              tal que  tc à t(n-2)

 

De manera que el Intervalo de Confianza de (1 - a)x100% para el coeficiente de regresión bi, será

 

 

 

Respecto a la docimasia, podríamos plantear una Prueba de Hipótesis de estos mismos coeficientes afirmando que no existe ninguna relación entre las variables predictoras y la variable predicha; esto es

 

H0: bi   =  0

H1: bi   ¹  0

 

La hipótesis nula será rechazada si el valor de p-value < 0.05; es decir, que existe una relación de dependencia entre las variables independientes (predictoras) y la variable dependiente(predicha). Por el contrario, si el p-value > 0.05, entonces afirmaremos de que no existe evidencia para rechazar la hipótesis de que una variable dependa de las otras.

 

Ejemplo 7

 

En el ejemplo anterior, puesto que el valor de p-value para el coeficiente de regresión es 0.002 < 0.05, entonces rechazamos la hipótesis nula; es decir, que el porcentaje de quejas depende de alguna manera, de la puntualidad de llegada de los vuelos. Sin embargo, si utilizamos el valor del tc calculado que, como se puede ver tc = -4.97 y el valor de t de Student con 7 grados de libertad t0.975(7) = 1.8946; debiéramos aceptar la hipótesis nula.

 

De manera que frente a esta disyuntiva, en regresión es más confiable utilizar el valor de r².

 

Cuán grande es la relación entre las dos variables, en términos cuantitiativos?, la prueba de hipótesis no nos permite responder a esta pregunta. El coeficiente de correlación será un indicador que nos permitirá extraer esta conclusión. En este ejemplo, el estimador del coeficiente de correlación, r² = 0.74 . Esto indica que el porcentaje de quejas no depende exclusivamente del porcentaje en la puntualidad de llegadas de los vuelos; es decir, existe otros factores.

 

Nota:

 

Existirá una correlación perfecta; es decir, existirá una relación de dependencia total si el coeficiente de correlación r à 1 o r à -1. En el primer caso existirá una correlación perfecta positiva y el segundo, una correlación perfecta negativa. Pero si r à0.5 ó – 0.5 entonces diremos que la correlación es moderada

 

Pág. 6.20

Atrás  Inicio  Adelante






Página inicial  Cursos Informática Gratuitos

Síguenos en:   Facebook       Sobre aulaClic            Política de Cookies