TEMA_2_ANALISIS_DE_LA_REGRESION.pdf

12
1 TEMA 2: ESTADÍSTICA DESCRIPTIVA BIVARIANTE O BIDIMENSIONAL 2. MEDIDAS DE RELACIÓN ENTRE DOS VARIABLES O CARACTERÍSTICAS. 2.3 ESTUDIO DE UNA VARIABLE CUANTITATIVA FRENTE A OTRA VARIABLE CUANTITATIVA: CORRELACIÓN Y REGRESIÓN. 2.3.2 ANÁLISIS DE LA REGRESIÓN Como se comprueba cuando representamos un gráfico de dispersión o nube de puntos como el de abajo, podemos observar de manera intuitiva cierto grado de asociación o correlación lineal entre las dos variables cuantitativas. Incluso se podría imaginar una recta, llamada Recta de Regresión, que se ajustase lo más posible a la nube de puntos. No obstante, la apreciación visual de la existencia de correlación o asociación no es suficiente. Fuerte relación directa. 30 40 50 60 70 80 90 100 140 150 160 170 180 190 200

Transcript of TEMA_2_ANALISIS_DE_LA_REGRESION.pdf

  • 1

    TEMA 2: ESTADSTICA DESCRIPTIVA BIVARIANTE O

    BIDIMENSIONAL

    2. MEDIDAS DE RELACIN ENTRE DOS VARIABLES O CARACTERSTICAS.

    2.3 ESTUDIO DE UNA VARIABLE CUANTITATIVA FRENTE A OTRA VARIABLE CUANTITATIVA: CORRELACIN Y REGRESIN.

    2.3.2 ANLISIS DE LA REGRESIN

    Como se comprueba cuando representamos un grfico de dispersin o nube de puntos como el de abajo, podemos observar de manera intuitiva cierto grado de asociacin o correlacin lineal entre las dos variables cuantitativas. Incluso se podra imaginar una recta, llamada Recta de Regresin, que se ajustase lo ms posible a la nube de puntos.

    No obstante, la apreciacin visual de la existencia de correlacin o asociacin no es suficiente.

    Fuerte relacindirecta.

    30

    40

    50

    60

    70

    80

    90

    100

    140 150 160 170 180 190 200

  • 2

    El objetivo del Anlisis de la Regresin es encontrar un procedimiento de seleccin de la relacin funcional entre las variables cuantitativas (que suele ser un polinomio de grado 1). En principio, hay que obtener la funcin matemtica que mejor explica una variable cuantitativa Y (variable dependiente o a explicar) a partir de otra variable cuantitativa X (variable independiente o explicativa o factor).

    Adems de la finalidad explicativa, y una vez encontrada la funcin que representa esta dependencia de las variables, el anlisis de la regresin permite predecir los valores de la variable dependiente para distintos valores de la variable independiente. Finalmente, podremos calcular la fiabilidad de esta prediccin o bondad del ajuste.

    La relacin funcional entre las variables se puede buscar sin ningn tipo de limitacin (es la Regresin General, escaso inters prctico) o limitndose a algn tipo de funcin sencilla como, por ejemplo, la funcin lineal o polinomio de grado 1 (y=a+bx), la funcin cuadrtica o polinomio de grado 2 ( 2y a bx cx= + + ), la funcin exponencial ( bxy ae= o a bxy e += ).

    El caso ms comn es el de la Regresin Lineal dado que diversos motivos avalan esta eleccin:

    a) La relacin ms o menos lineal entre variables es frecuente. Adems, en muchas situaciones en las que no se da originalmente esta relacin, ciertas transformaciones sencillas en las variables (transformaciones logartmicas, exponenciales, inversas, cuadrticas,...) permiten obtener la deseada linealidad.

    b) La relacin lineal es fcilmente interpretable.

    c) Los desarrollos matemticos se facilitan.

    Por tanto, la relacin funcional o regresin entre las variables puede o no representarse por una recta, es decir, se un polinomio de grado 1. En el caso de que elijamos una recta para ajustarla a la nube de puntos, estaremos hablando de Regresin Lineal. En otro caso, trataremos con una Regresin No Lineal.

    Asimismo, diremos que una Regresin Lineal es Simple cuando solamente exista una variable independiente o explicativa. Cuando sean ms de una las variables independientes diremos que la Regresin Lineal es Mltiple.

    Por tanto, vamos a obtener la funcin matemtica que mejor explica a la variable cuantitativa Y (variable dependiente o a explicar) a partir de otra variable cuantitativa X (variable independiente o explicativa o factor) que expresamos en la forma:

    ( )Y f X=

    Obsrvese que se ha escrito Y y no Y en la expresin del modelo lineal porque el resultado de ste es una aproximacin o estimacin de los valores de la muestra, Y. Para indicar este resultado se utiliza el acento circunflejo sobre la Y.

  • 3

    Por tanto, la estimacin no tiene porqu coincidir con Y en todos los puntos de la muestra y, por ello, se cometen errores. Veamos esta situacin en la siguiente representacin grfica en la se representan los pares de datos de la muestra (xi, yi) y las estimaciones, iy y los errores asociados, ie :

    Consideremos que un modelo de regresin lineal:

    Y a bX= +

    El problema que se plantea es cmo calcular las cantidades a y b a partir del conjunto de n observaciones o datos de la muestra:

    de forma que se minimicen los errores, ei que se expresan en la forma:

    i i e y y=

    Por tanto, para cada par de valores correspondiente a cada uno de los n individuos de la muestra, se tiene un error, ei.

    Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemtica, las que siguen:

    1.- Dadas dos variable X, Y se elige un modelo de regresin, en este caso, lineal: Y a bX= + , que se denomina Regresin de Y sobre X y que para cada valor de la

    muestra es:

    i iy a bx= +

    2.- Se define el error o Residuo ei asociado a cada valor de la muestra:

  • 4

    i i i ie y y y a bx= =

    3.- Medimos el error que se comete al aproximar yi mediante iy calculando la suma de las diferencias entre los valores reales yi y los aproximados iy al cuadrado. Se elevan al cuadrado para que dichas diferencias sean positivas y no se compensen los errores. De esta forma se define la funcin Error Total:

    ( ) ( )2 221 1 1

    ( , )n n n

    i i i i ii i i

    Error a b e y y y a bx= = =

    = = =

    donde se ha sustituido iy por su expresin segn el modelo lineal.

    Se observa que la funcin del error total Error(a,b) es una funcin que depende de dos variables: los parmetros a y b, que han de ser calculados. Obsrvese que xi e yi no son incgnitas ni variables, sino que son datos conocidos, los datos de la muestra.

    4.- Por tanto, hemos de calcular los parmetros que caracterizan a la recta de regresin: a y b. Esto se realiza en base al mtodo de los mnimos cuadrados. Su fundamento es que de entre todas las posibles rectas de regresin, buscaremos aquella que produzca los errores ms pequeo; en concreto, buscaremos aquellos valores de a y b o aquella recta de regresin que minimice la suma de los errores al cuadrado, es decir, que minimice la funcin error total.

    Los parmetros a y b que minimizan la funcin error total se calculan derivando el error total con respecto a los parmetros a y b, y se iguala a cero:

    ( , ) 0( , ) 0

    Error a ba

    Error a bb

    =

    =

    Consideramos la expresin de la funcin error total y la derivamos parcialmente respecto de a y de b:

    ( )

    ( )1

    1

    ( , ) 2 0

    ( , ) 2 0

    n

    i iin

    i i ii

    Error a b y a bxa

    Error a b y a bx xb

    =

    =

    = =

    = =

    Las anteriores expresiones se conocen como Ecuaciones Normales, que tambin pueden expresarse en la forma siguiente:

    ( )

    ( )1 1

    1 1

    ( , ) 2 2 0

    ( , ) 2 2 0

    n n

    i i ii in n

    i i i i ii i

    Error a b y a bx ea

    Error a b y a bx x b e xb

    = =

    = =

    = = =

    = = =

  • 5

    La resolucin del as Ecuaciones Normales (que no detallaremos) nos conduce a las siguientes expresiones para los parmetros a y b:

    - Ordenada en el Origen: a y bx= . Este coeficiente a nos da el valor de Y cuando X es cero (que no es siempre interpretable con sentido)

    - Pendiente: 2XY YXX

    Sb CS

    = = , denominado Coeficiente de Regresin de Y sobre X, y representa lo que crece o decrece Y cuando X crece en una unidad.

    Estos parmetros dan lugar a la Recta de Regresin Lineal Mnimo Cuadrtica.

    Regresin de X sobre Y

    El mismo procedimiento y semejantes conclusiones se obtienen cuando intentamos hacer la regresin de X sobre Y, pero, atencin!, para calcular la recta de regresin de X sobre Y es totalmente incorrecto despejar de la recta de regresin de Y sobre X, es decir,

    1

    aY a bX X Yb b

    = + = +

    La regresin de X sobre Y se hace aproximando X por , es decir, ix son los valores reales de la muestra y ix son las estimaciones dadas por la recta de regresin correspondiente como se observa en la siguiente figura:

    Entonces, los errores o residuos se definen en la forma siguiente:

    i i ie x x=

  • 6

    El procedimiento restante es anlogo al visto en el caso anterior, utilizndose tambin el mtodo de los mnimos cuadrados. Entonces, se define la Recta de Regresin de X sobre Y en la forma siguiente:

    X a bY= +

    o en notacin muestral:

    i ix a by= +

    donde puede deducirse que los parmetros de este modelo lineal son:

    2XY

    XYY

    Sb CS

    a x by

    = =

    =

    que son los parmetros que minimizan, en el sentido de los mnimos cuadrados, los errores ie entre las cantidades xi y las ix a by= + . De nuevo, el parmetro b se denominado Coeficiente de Regresin de X sobre Y (Cxy), y representa lo que crece o decrece X cuando Y crece en una unidad.

    Relaciones entre las dos Rectas de Regresin

    a) Si la correlacin es nula, rxy =0, las rectas de regresin son perpendiculares entre s, y sus ecuaciones son: y y= y x x= .

    b) Los dos Coeficientes de Regresin (CYX y CXY), en general, no son iguales, pero los dos tienen siempre el mismo signo que la covarianza y, por tanto,

    son los dos positivos o negativos.

    c) La anterior propiedad implica que las dos rectas de regresin son crecientes o decrecientes a la vez.

    d) El ngulo entre las dos rectas de regresin (el menor de los dos ngulos suplementarios formados) es agudo o como mximo recto. Cuanto menor sea este ngulo mayor ser la relacin lineal entre las variables X e Y.

  • 7

    Ejemplo En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes estadsticos:

    Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.

    Solucin:

    Lo que se busca es la recta, Y a bX= + , que mejor aproxima los valores de Y (segn el criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

    As, el modelo lineal tiene la siguiente expresin:

    Por tanto, si x=15, el modelo lineal predice un valor de Y de:

    En este punto hay que preguntarse si realmente la prediccin proporcionada por la recta de regresin puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a continuacin.

    2.3.3 MEDIDAS DE LA BONDAD DEL AJUSTE

    Error de prediccin

  • 8

    Para cada valor xi de X, se obtiene una diferencia o residuo entre el valor observado yi en la nube de puntos y el correspondiente valor terico iy obtenido a partir del modelo lineal:

    i i ie y y=

    que es una primera medida, intuitiva.

    Varianza Residual y Error Tpico de Estimacin

    La Varianza Residual es la media de todos los residuos elevados al cuadrado y elevada al cuadrado y viene dada por la siguiente expresin:

    ( )22 1

    n

    i ii

    e

    y yS

    n

    =

    =

    El Error Tpico de Estimacin es la raz cuadrada de la varianza residual:

    2e eS S=

    La interpretacin de la Varianza Residual es la siguiente:

    Si la varianza residual es pequea (cercana a cero), la dependencia entre las variables ser grande. Entonces, el ajuste entre la recta y la nube de puntos ser bueno.

    Si la varianza residual es grande los residuos sern grandes y la dependencia ser pequea. Entonces, el ajuste entre la recta y la nube de puntos ser malo.

    Varianza debida a la Regresin

    La Varianza debida a la Regresin nos sirve para ver en qu medida mejora la descripcin de la variable dependiente a travs de la independiente. Matemticamente, se demuestra que

    2 2 2Y eYS S S= +

  • 9

    La anterior expresin se conoce como Descomposicin de la Varianza. Y sirve para valorar la bondad de la recta de regresin. La anterior expresin nos dice que la varianza total de la variable Y, que es 2YS , es la suma de dos varianzas:

    la varianza de Y , 2YS , que representara la parte de la dispersin o variabilidad

    de la variable Y explicada por la regresin lineal (por la relacin lineal con la variable X);

    la varianza residual, 2eS , que representara la parte de la dispersin o variabilidad de la variable Y que no es explicada por la regresin.

    Por tanto, la variabilidad total o a explicar es la suma de la variabilidad de la regresin lineal ms la variabilidad residual o no explicada. As pues, cuando aumenta la varianza debida a la regresin, disminuye la varianza residual y el ajuste es bueno y al contrario.

    Coeficiente de Determinacin

    Un inconveniente de la varianza residual 2eS es que viene afectada por las unidades de medida de los datos (lo mismo que suceda con la covarianza) y esto imposibilita la comparacin de la dependencia entre grupos de variables.

    l

    Dividiendo la varianza debida a la regresin entre la varianza total de Y se obtiene una medida relativa de la bondad de ajuste que se encuentra entre cero y uno, denominada Coeficiente de Determinacion, R2:

    2 222 21

    eY

    Y Y

    S SR

    S S= =

    es decir, este coeficiente es la variabilidad explicada (por la regresin) sobre la variabilidad a explicar (la total) expresado, normalmente, en porcentaje. Este coeficiente permite evaluar la capacidad explicativa y predictiva del modelo propuesto.

    Cuando la regresin es lineal y slo se dispone de una variable independiente o explicativa, el coeficiente de determinacin es el cuadrado del coeficiente de correlacin lineal: R2 = r2xy, es decir, el coeficiente de determinacin (que mide la bondad del ajuste lineal) es igual al cuadrado del coeficiente de correlacin de Pearson (que mide la intensidad y el sentido de la relacin lineal).

    Interpretacin

    El coeficiente de determinacin multiplicado por cien representa el porcentaje de la variabilidad de Y que es explicada por la recta de regresin, es decir, por su relacin con la variable X.

  • 10

    0 R2 1. Si R2 = 1, todos los residuos valen cero y el ajuste es perfecto. Si R2 = 0 el ajuste es inadecuado.

    El coeficiente de determinacin de la recta de regresin de Y sobre X es el mismo que el de la recta de regresin de X sobre Y.

    El objetivo ltimo de la regresin es la prediccin de una variable dependiente a partir de un valor determinado de la variable independiente, es decir, hacer una prediccin. La prediccin de Y para X=x* ser el valor obtenido en la recta de regresin de Y sobre X al sustituir el valor de x por x* . La fiabilidad de la prediccin ser mayor cuanto mayor sea la correlacin entre las variables, R2 o rxy.

    Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente informacin:

    Calcule:

    1. La recta de regresin de Y sobre X. Explique el significado de los parmetros.

    2. El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de la variacin de Y que no est explicada por el modelo lineal de regresin.

    3.

    Si el modelo es adecuado, cul es la prediccin para x=4.

    Solucin:

    1.

  • 11

    En primer lugar calculamos las medias y la covarianza entre ambas variables:

    Con estas cantidades podemos determinar los parmetros a y b de la recta. La pendiente de la misma es b, y mide la variacin de Ycuando X aumenta en una unidad:

    Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:

    As, la recta de regresin de Y como funcin de X es:

    2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin:

  • 12

    Es decir, el modelo de regresin lineal explica el 68% de la variabilidad de Y en funcin de la de X. Por tanto queda un 32% de variabilidad no explicada.

    3. La prediccin que realiza el modelo lineal de regresin para x=4 es:

    la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior, hay una razonable cantidad de variabilidad que no es explicada por el modelo.