Calidad de Ajuste

6
Coeficiente de determinación El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente conociendo o suponiendo valores para la variable independiente. La confiabilidad de las proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del coeficiente de determinación y de los errores de los coeficientes de regresión. El coeficiente de determinación (R 2 ) nos dice qué tanto se ajusta la línea de regresión a los datos. Figura 4.2 Descomposición de la variación de Y Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuación ajustada a unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y. La distancia que hay entre el valor observado y la media , puede descomponerse en dos partes que son: la distancia entre el valor observado y el estimado con la ecuación de regresión y la distancia entre el valor estimado y el promedio , es decir: Siendo: : Distancia Total. : Distancia de una observación a la regresión o residuo : Distancia de la línea de regresión a la media o distancia de la regresión

description

estadistica inferencial 2

Transcript of Calidad de Ajuste

Page 1: Calidad de Ajuste

Coeficiente de determinación

El objetivo principal del análisis de regresión es proyectar el valor de la variable dependiente conociendo o suponiendo valores para la variable independiente. La confiabilidad de las proyecciones está dada por la confiabilidad de la ecuación, la cual se mide a través del coeficiente de determinación y de los errores de los coeficientes de regresión. El coeficiente de determinación (R2 ) nos dice qué tanto se ajusta la línea de regresión a los datos.

Figura 4.2 Descomposición de la variación de Y

Para deducir este coeficiente se tiene en cuenta la figura 4.2 en donde se tiene la ecuación ajustada a unos datos. Para un valor dado de X se ha tomado el correspondiente valor de Y. La

distancia que hay entre el valor observado y la media   , puede descomponerse en dos partes que son: la distancia entre el valor observado y el estimado con la ecuación de

regresión   y la distancia entre el valor estimado y el promedio   , es decir:

Siendo:

: Distancia Total.

: Distancia de una observación a la regresión o residuo

: Distancia de la línea de regresión a la media o distancia de la regresión

Como se tienen n observaciones, para cada caso se presenta la misma situación, por lo tanto se toma la suma de estas distancias al cuadrado:

Page 2: Calidad de Ajuste

En el anexo B se presenta la demostración de que:

Es decir: SCT = SCR + SCE    (4.4)

Lo cual indica que la SCT puede descomponerse en dos partes, una describe la variación de los residuos (SCR) y representa aquella parte de la SCT que no ha sido explicada por la ayuda de X y la otra parte describe los valores ajustados de Y, es decir, representa aquella porción de la SCT

que ha sido explicada por la regresión de Y sobre X.

Dividiendo la ecuación 4.4 por SCT se obtiene:

El segundo término es el coeficiente de determinación, así que:

Donde:

Como puede observarse, el coeficiente de determinación es la proporción de la variable dependiente explicada por la variable independiente y por lo tanto está entre 0 y 1. Es decir: 0 £

R 2 £ 1.

 

A medida que el R 2 se acerca a 1, la ecuación de regresión es más confiable, ya que de la expresión 4.5 se deduce que la SCR tiende a cero y entre más cercano esté el R 2 de cero, la

ecuación es menos confiable ya que la SCE tiende a cero.

 

Page 3: Calidad de Ajuste

Una medida estrechamente relacionada a R 2 pero conceptualmente diferente es el coeficiente de correlación (R) que es una medida del grado de asociación entre dos

variables. Puede calcularse como:

Donde: Sx y Sy son las desviaciones estándar de X y Y respectivamente.

A continuación se presentan algunas propiedades del coeficiente de correlación (R):

- -1   R   1

- El signo de R depende del signo de la covarianza o de la pendiente (   )

- R es de naturaleza simétrica; lo anterior implica que el coeficiente de correlación entre X y Y (Rxy ) es igual al coeficiente de correlación entre Y y X (Rxy ).

- Si X y Y son estadísticamente independientes, el coeficiente de correlación entre ellos es cero, pero si R=0, no se puede inferir que las dos variables sean independientes. En otras palabras,

una correlación igual a cero no implica necesariamente independencia.

- Es una medida de asociación lineal o dependencia lineal únicamente; por consiguiente no tiene sentido, utilizarlo para describir relaciones no lineales.

En el contexto del análisis de regresión, R2 es una medida más significativa que R, debido a que el primero muestra la proporción de la varianza en la variable dependiente explicada por la(s)

variable(s) explicativa(s) y, por tanto, proporciona una medida global de la magnitud del efecto que ejerce la variación existente en una variable sobre la variabilidad de la otra. De otro lado R

no nos permite realizar inferencias de este género. Además, la interpretación de R en un modelo de regresión múltiple es de un valor dudoso"1

El coeficiente de determinación (R2) es útil para evaluar la ecuación de regresión integralmente, pero es necesario evaluar la confiabilidad de cada uno de los coeficientes de regresión, lo cual se

hace con los errores de estos coeficientes y más específicamente con las pruebas de hipótesis para cada uno de ellos.

_____________________________________________________________

1Gujarati, Damodar. Econometría , Segunda edición. Pág 71-72. Editorial Mc Graw Hill. Bogotá, 1990.

COEFICIENTE DE CORRELACION

Page 4: Calidad de Ajuste

El coeficiente de correlación simple permite calificar la relación lineal que hay entre dos variables aleatorias, se define por:

Cuando el coeficiente toma el valor +1 ó -1 la asociación de las dos variables es perfecta, ideal, sí el resultado es cero no existe relación.

•  MATRIZ DE CORRELACION

A partir de un vector aleatorio n-dimensional se construye la matriz de correlación dada así:

NOTA 1. Si las X i son independientes, entonces no están correlacionadas. Por lo tanto:

•  

•  COV(X i X j ) = 0

•  

  En el ejemplo obtener la matriz de covarianzas S y de correlación R.

La relación lineal entre la producción de las líneas I y II es inversamente profesional pero es pequeña.

 

En el ejemplo, obtener la matriz de covarianzas S y de correlación R.

Page 5: Calidad de Ajuste

No existe correlación lineal entre la proporción del tiempo trabajado por el empleado A en un día de trabajo y la misma variable observada en el empleado B.