Regresión Lineal Simple -...

28
Dr. Víctor Aguirre Torres, ITAM. Guión 11. 1 Regresión Lineal Simple

Transcript of Regresión Lineal Simple -...

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

1

Regresión Lineal Simple

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

2

Propósito

Cuantificar el cambio en el valor esperado de una variable (y) en función de otra variable (x).y=var. Dependiente (cuantitativa)x=var. Explicativa (cuantitativa)

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

3

Ejemplo

y=Rendimiento semanal de una acción= (Pt-Pt-1)/Pt-1

x=Rendimiento semanal de la bolsaPropósito: ver que tanto varía la cotización en función de la variación del mercado. Se trata de medir el riesgo de la acción en función del riesgo del mercado.

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

4

Datos

Constan de parejas ordenadas (xi,yi). Son la observación de dos variables que corresponden al mismo caso.Ejemplo:

Y=Rendimiento cementeraX=Rendimiento del mercado

Obs X Y1 3.8 11.92 -0.5 13 3 6.94 4.4 6.95 1.2 6.96 -0.2 -0.87 1.5 7.38 7.8 15.19 3.9 3.610 5.9 9.811 1.9 1.412 6.8 11.613 3.3 1.314 3.3 6.515 0.1 1.916 1.1 2.317 6.8 16.318 2.8 5.119 2.8 1.1

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

5

Diagrama de Dispersión

Representación gráfica sobre el plano Cartesiano. Sirve para ver asociaciones.

Diagrama de Dispersión

-202468

1012141618

-2 0 2 4 6 8 10X

Y

Supuesto básico:el valor esperado de Y depende lineal-mente de X

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

6

El Supuesto Básico.Diagrama de Dispersión

-202468

1012141618

-2 0 2 4 6 8 10X

Y

Banda 0< X <2 Banda 6< X <8

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

7

Un Ejemplo del Supuesto Básico.

X5.05)X|Y(E +=

Y

XX=5 X=10 X=20

15)20X|Y(E ==

10)10X|Y(E ==

5.7)5X|Y(E ==5

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

8

Modelo Regresión Lineal Simple

Ecuación:y=var. Dependiente (cuantitativa)x=var. Explicativa (cuantitativa)β0=intercepto al origenβ1=pendiente (razón de cambio)ε=error del modelo(β0, β1)=parámetro desconocido

εββ ++= xy 10

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

9

Interpretación de los Parámetros

= intercepto al origen,= pendiente del modelo,=cambio de E(Y|X) debido a un

cambio unitario en X.1β

0β1β

Y

X

10β

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

10

Estimación de (β0, β1)

Función Suma de Cuadrados

El estimador de mínimos cuadrados resulta de minimizar esta función objetivo.Ilustraremos con Excel su minimización usando Solver.

( )2n

1ii

'1

'0i

'1

'0 XY),(SC ∑

=

−−= ββββ

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

11

Función Suma de Cuadradosbeta prima 0 8 Suma de Cuadradosbeta prima 1 0.5 524.7425

Obs X Y Recta Dif (Dif)^21 3.8 11.9 9.9 2 42 -0.5 1 7.75 -6.75 45.56253 3 6.9 9.5 -2.6 6.764 4.4 6.9 10.2 -3.3 10.895 1.2 6.9 8.6 -1.7 2.896 -0.2 -0.8 7.9 -8.7 75.697 1.5 7.3 8.75 -1.45 2.10258 7.8 15.1 11.9 3.2 10.249 3.9 3.6 9.95 -6.35 40.322510 5.9 9.8 10.95 -1.15 1.322511 1.9 1.4 8.95 -7.55 57.002512 6.8 11.6 11.4 0.2 0.0413 3.3 1.3 9.65 -8.35 69.722514 3.3 6.5 9.65 -3.15 9.922515 0.1 1.9 8.05 -6.15 37.822516 1.1 2.3 8.55 -6.25 39.062517 6.8 16.3 11.4 4.9 24.0118 2.8 5.1 9.4 -4.3 18.4919 2.8 1.1 9.4 -8.3 68.8920 0 0 8 0 0

-202468

1012141618

-2 0 2 4 6 8 10

X

YRecta

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

12

Función Suma de Cuadradosbeta prima 0 2 Suma de Cuadradosbeta prima 1 1 215.44

Obs X Y Recta Dif (Dif)^21 3.8 11.9 5.8 6.1 37.212 -0.5 1 1.5 -0.5 0.253 3 6.9 5 1.9 3.614 4.4 6.9 6.4 0.5 0.255 1.2 6.9 3.2 3.7 13.696 -0.2 -0.8 1.8 -2.6 6.767 1.5 7.3 3.5 3.8 14.448 7.8 15.1 9.8 5.3 28.099 3.9 3.6 5.9 -2.3 5.2910 5.9 9.8 7.9 1.9 3.6111 1.9 1.4 3.9 -2.5 6.2512 6.8 11.6 8.8 2.8 7.8413 3.3 1.3 5.3 -4 1614 3.3 6.5 5.3 1.2 1.4415 0.1 1.9 2.1 -0.2 0.0416 1.1 2.3 3.1 -0.8 0.6417 6.8 16.3 8.8 7.5 56.2518 2.8 5.1 4.8 0.3 0.0919 2.8 1.1 4.8 -3.7 13.6920 0 0 2 0 0

-202468

1012141618

-2 0 2 4 6 8 10

X

YRecta

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

13

Solución con Solverbeta prima 0 0.768742 Suma de Cuadradosbeta prima 1 1.700065 146.2466

Obs X Y Recta Dif (Dif)^21 3.8 11.9 7.22899 4.67101 21.818342 -0.5 1 -0.08129 1.08129 1.1691893 3 6.9 5.868938 1.031062 1.063094 4.4 6.9 8.249029 -1.349029 1.8198785 1.2 6.9 2.80882 4.09118 16.737756 -0.2 -0.8 0.428729 -1.228729 1.5097767 1.5 7.3 3.31884 3.98116 15.849648 7.8 15.1 14.02925 1.07075 1.1465069 3.9 3.6 7.398996 -3.798996 14.4323710 5.9 9.8 10.79913 -0.999126 0.99825311 1.9 1.4 3.998866 -2.598866 6.75410412 6.8 11.6 12.32918 -0.729185 0.53171113 3.3 1.3 6.378957 -5.078957 25.795814 3.3 6.5 6.378957 0.121043 0.01465115 0.1 1.9 0.938749 0.961251 0.92400416 1.1 2.3 2.638814 -0.338814 0.11479517 6.8 16.3 12.32918 3.970815 15.7673718 2.8 5.1 5.528924 -0.428924 0.18397619 2.8 1.1 5.528924 -4.428924 19.6153720 0 0 0.768742 0 0

-202468

1012141618

-2 0 2 4 6 8 10

X

YRecta

Estimador de Mínimos Cuadrados:

7000.1b7687.0b

1

0

==

X7.17687.0Y +=

Ecuación de regresión ajustada

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

14

Estimación de (β0, β1).Interpretación

Por cada punto porcentual que varía el rendimiento de la bolsa de valores, el rendimiento de la cementera varía alrededor de 1.7 puntos porcentuales.

Notación:En general denotaremos por (b0, b1) al

estimador de mínimos cuadrados de (β0, β1).

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

15

Cálculo con Excel

Herramientas...Análisis de datos...RegresiónRango Y de Entrada: $C$4:$C$23Rango X de Entrada: $B$4:$B$23Rótulos: marcarRango de Salida: $G$5Residuales: marcar

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

16

Cálculo con Excel.Resumen

Estadísticas de la regresiónCoeficiente 0.821244044Coeficiente 0.674441779R^2 ajusta 0.655291296Error típico 2.933042774Observacio 19

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadrados io de los cua F lor crítico de F

Regresión 1 302.9713162 302.9713 35.218 1.63E-05Residuos 17 146.2465785 8.60274

Total 18 449.2178947

Coeficientes Error típico Estadístico tProbabilidadInferior 95%Superior 95%Intercepción 0.76874228 1.123834979 0.684035 0.503172 -1.602346 3.13983014

X 1.700065271 0.286472696 5.934476 1.63E-05 1.09566 2.30447067

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

17

Modelo Ajustado

Ecuación de regresión ajustada

Valores ajustados

Residuos

Nota: error ≠ residuo.

XbbY 10 +=

iii YYˆ −=ε

i10i XbbY +=

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

18

Gráfica Modelo Ajustado

-5

0

5

10

15

20

-5 0 5 10

X

Y

X7.17687.0Y +=

11ε

Observación Pronóstico Y Residuos1 7.23 4.672 -0.08 1.083 5.87 1.034 8.25 -1.355 2.81 4.096 0.43 -1.237 3.32 3.988 14.03 1.079 7.40 -3.80

10 10.80 -1.0011 4.00 -2.6012 12.33 -0.73

60.200.44.1ˆ00.4)9.1(7.17687.0Y

11

11

−=−==+=

ε

67.423.79.11ˆ23.7)8.3(7.17687.0Y

1

1

=−==+=

ε

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

19

Bondad de Ajuste del Modelo.Propósito. Se desea contestar la pregunta: ¿Qué tan bien se ajusta el modelo?Consideración de distintos tipos de variación– Total– Explicada por el Modelo– Residual

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

20

Sumas de Cuadrados.

Suma de Cuadrados de Regresión. Variación explicada por el modelo.

Suma de Cuadrados del Error. Variación no explicada por el modelo.

Suma de Cuadrados del Total.Variación inherente a los datos. No depende de modelo alguno.

( ) 2n

1ii YYSST ∑

=

−=

( )2n

1ii YYSSR ∑

=

−=

∑=

=n

1i

2iˆSSE ε

Relación entre ellas: SST = SSR + SSE

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

21

Coeficiente de Determinación.

Este coeficiente da la proporción de variación de Y explicado por X por medio del modelo de regresión lineal simple.Siempre 0 ≤ R2 ≤ 1

SSTSSRR2 ión Determinac de eCoeficient ==

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

22

Ejemplo, Y=rendimientos cementera.

Resumen

Estadísticas de la regresiónCoeficiente 0.821244044Coeficiente 0.674441779R^2 ajusta 0.655291296Error típico 2.933042774Observacio 19

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadrados io de los cua F lor crítico de F

Regresión 1 302.9713162 302.9713 35.218 1.63E-05Residuos 17 146.2465785 8.60274

Total 18 449.2178947

Coeficientes Error típico Estadístico tProbabilidadInferior 95%Superior 95%Intercepción 0.76874228 1.123834979 0.684035 0.503172 -1.602346 3.13983014

X 1.700065271 0.286472696 5.934476 1.63E-05 1.09566 2.30447067

674.021.44997.302R2 ==

Un 67 % de la variación del rendimiento de la cementeraes explicado por la variación del mercado.

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

23

Prueba de Significancia

Una hipótesis de interés es HI: β1≠0Significado. Si hay evidencia que β1≠0, esto indica que la variable X explica cambios en el valor promedio de Y.El paquete calcula el intervalo de confianza para β1.

0

Hay evidencia de que β1 > 0

No hay evidencia de que β1 ≠ 0

Hay evidencia de que β1 < 0

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

24

Ejemplo, Y=rendimientos cementera.

Resumen

Estadísticas de la regresiónCoeficiente 0.821244044Coeficiente 0.674441779R^2 ajusta 0.655291296Error típico 2.933042774Observacio 19

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadrados io de los cua F lor crítico de F

Regresión 1 302.9713162 302.9713 35.218 1.63E-05Residuos 17 146.2465785 8.60274

Total 18 449.2178947

Coeficientes Error típico Estadístico tProbabilidadInferior 95%Superior 95%Intercepción 0.76874228 1.123834979 0.684035 0.503172 -1.602346 3.13983014

X 1.700065271 0.286472696 5.934476 1.63E-05 1.09566 2.30447067

Hay evidencia de que β1>0.El rendimiento del mercado essignificativo en explicar la variacióndel rendimiento de esta acción.Gráfico intervalo de confianza

0 1 2 3

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

25

Generación de Pronósticos.

Se pueden generar pronósticos puntuales y por intervalo con el modelo.Se requiere la varianza del error de pronóstico para calcular el margen de error.Las fórmulas para la varianza del error de pronóstico son demasiado complicadas, por lo que se omitirán.Se usará el paquete Minitab para calcular los intervalos de pronóstico.Cuando el tamaño de muestra es pequeño el intervalo de pronóstico puede ser prácticamente inútil.

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

26

Generación de Pronósticos con Minitab.

Pegar los datos (X,Y) desde Excel sobre la hoja de Minitab.Cascada de menues:

Stat...Regression...RegressionArgumentos:

Response: YPredictors: XOptions...Prediction intervals for new observations:

dar el o los valores de X para los cuales se desea el pronóstico

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

27

Generación de Pronósticos. Ejemplo.

Pronosticaremos el rendimiento de la cementera si el rendimiento del mercado es de tres puntos porcentuales.

Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 1 5.869 0.674 ( 4.447, 7.291) ( -0.481, 12.218) Values of Predictors for New Observations New Obs Mercado 1 3.00

Intervalo de pronósticopara el rendimientoobservado Y.

Intervalo de confianzapara rendimiento esperadoE(Y|X=3)

Dr. Víctor Aguirre Torres, ITAM. Guión 11.

28

Problemas recomendados Capítulo 14.

1415 sin c).39, graficando el modelo ajustado; verificando: el valor del coeficiente de determinación y si hay evidencia de que β1≠0.54 hacer inciso (a); graficando el modelo ajustado; verificando: el valor del coeficiente de determinación y si hay evidencia de que β1≠0.