Leticia Gracia Medrano. [email protected] 2 de ...

Regresión Simple

Leticia Gracia Medrano.

[email protected]

2 de agosto del 2012

La ecuación de la recta

Ecuación General de la recta

Ax + By + C = 0

Cuando se conoce la ordenada al origen y su pendiente

y = b + mx

Cuando se conocen dos puntos por donde pasay−y1x−x1

= y2−y1x2−x1

Cuando se conocen la pendiente y un punto por donde pasay−y1x−x1

= m

EjemploHallar la ecuación de la recta que pasa por (0,32) y por (100,212)y−y1

x−x1= y2−y1

x2−x1y−32

x−0= 212−32

100−0= 180

100= 9

5

y = 32 + 9

5x

o si tomamos el par (-40,-40) y (100,212)y+40

x+40= 212+40

100+40= 252

140= 9

5

y + 40 = (x + 40) 95

= 9

5x + 360

5

y = 9

5x + 72− 40 = 32 + 9

5x

Introducción

REGRESION

Las ideas de regresión y el término regresión se le atribuyen a

Francis Galton (1822-1911), un primo de Charles Darwin. El

término regresión originado en la regresión la altura de los hijos en

función de la altura de los padres; la altura de los hijos mostraba

una "regresión a la mediocridad� (i.e., hacia la media de la

población).

Coe�ciente de correlación

Correlación poblacional:

ρ(X ,Y ) = cor(X ,Y ) = cov(X ,Y )/√var(X )var(Y )

Correlación Muestral:

r(X ,Y ) =n∑

i=1

(xi − x)(yi − y)/

√√√√ n∑i=1

(xi − x)2n∑

i=1

(yi − y)2

¾Qué mide r?

Se puede demostrar una relación algebraica entre r y el análisis de

la varianza de la regresión de tal modo que su cuadrado

(coe�ciente de determinación) es la proporción de variación de la

variable Y debida a la regresión. En este sentido, r2 mide el poder

de explicación del modelo lineal.

¾Qué no mide r?

no mide la magnitud de la pendiente ("fuerza de la asociación")

tampoco mide lo apropiado del modelo lineal

El siguiente es un ejemplo donde todas las grá�cas tienen

coe�ciente de correlación de .7.

Siempre debemos acompañar a este número de la respectiva grá�ca

para ver realmente si la relación es lineal.

El modelo de regresión lineal

Este se puede escribir como:

Yi = β0 + β1Xi + εi con i = 1, . . . , nDonde

I Yi es el valor de la variable respuesta del elementoi

I Xi es el valor de la variable explicativa y se supone que es una

constante conocida.

I β0 y β1son los parámetros, los coe�cientes de la recta.

I εies un error aleatorio.

Los parámetros son desconocidos y deben ser estimados a través de

la muestra.

En el modelo de regresión se representan dos componentes:

I E [Yi ] = β0 + β1Xi es la parte sistemática del modelo;

E [Yi ]representa la esperanza deY dado el valor de la variable

explicativa X .

I εi es un error que representa la desviación de Y a la recta.

El Modelo se dice que es:

I simple porque tiene sólo 1 variable explicativa

I lineal por que la relación de Y es lineal en los parámetros

Relaciones no lineales entre Y y X pueden linealizarse o también

se puede hacer regresión por pedazos

Supuestos acerca del error

I E (εi ) = 0

I var(εi ) = σ2, (σ2 denota una constante ) homocedasticidad

I εi y εjson no correlacionados

I Supuesto adicional: εi normal, esto es εi ∼ N(0, σ2)

Supuestos acerca de X

Se supone que X es �ja controlada por el analista y prácticamente

sin error de medición.

Esto es, en realidad se está condicionando con la x observada,

cuando las x no son exactamente �jas:

E (y | x)=β0+β1xV (y | x) = V (β0 + β1x + ε) = σ2

Estimación de β0 y β1

Yi = β0 + β1Xi + εi con i = 1, . . . , nEl criterio de mínimos cuadrados es:

S(β0, β1) =∑n

i=1(yi − β0 + β1xi )2

Se deriva la función S y despues se iguala a cero para hallar los

valores que lo maximizan.

Encontrando que

β0 = y − β1xy que

β1 =∑n

i=1yixi−

(∑ni=1

yi )(∑ni=1

xi )

n∑ni=1

x2i−

(∑ni=1

xi )2

ncon

y =∑n

i=1yi

n

OJO Los estimadores de β0 y β1resultan ser una combinación lineal

de las observaciones yi

Para escribirlo más sencillo

Sxx =∑n

i=1(xi − x)2

Sxy =∑n

i=1 yi (xi − x)

β1 =SxySxx

de�nimos al residual ei como

ei = yi − yiLos estimadores de las betas son insesgados y de varianza

mínima (de entre todos los estimadores lineales), según el teorema

de Gauss Markov.

E (β0) = β0 y E (β1) = β1.Las expresiones para la varianza son:

V (β1) = σ2

Sxx

V (β0) = σ2( 1n

+ x2

Sxx)

Estimador de la varianza σ2

Notación

SSE =∑n

i=1 e2i

El estimador de la varianza es

σ2 = SSEn−2

= MSE

Prueba sobre pendiente β1

Aquí si se necesita suponer normalidad en el error, antes no la

habíamos supuesto.

Suponemos que los errores εi son N(0, σ2)Así que los errores le heredan la normalidad a β1 y se tiene que

Za = β1−β1a√σ2/Sxx

como no se conoce σ2 usamos una estimación, de manera que la

estadística de prueba a utilizar es entonces una t de Student

ta = β1−β1a√MSE/Sxx

Con esta prueba se determina si la regresión es signi�cativa o no.

Esta estadístic sirve tambien para calcular los intervalos de

con�anza.

*La β1 se interpreta como la razón de cambio en y al mover una

unidad en x .

Prueba sobre β0

Análogamente ocurre conβ0 y su estadística de prueba es

ta = β0−β0a√MSE (1/n+x2/Sxx )

Si el recorrido de las x 's incluye al cero, β0 es la media de respuesta

y cuando x = 0.

Si el recorrido de las x 's no incluye al cero no tiene sentido la

interpretación de β0.

Descomposición de la suma de cuadrados

Syy =∑n

i=1(yi − y)2 =∑n

i=1(yi − y)2 +∑n

i=1(yi − yi )2

Syy mide la variabilidad total de la variable respuesta.

SSR =∑n

i=1(yi − y)2

SSR es la suma de cuadrados de Regresión

y tambien se puede deducir la igualdad

SSR = β1SxySSE =

∑ni=1(yi − yi )

2

y SSE es la suma de cuadrados del Error.

La suma se descompone como:

Syy = SSR + SSE

ANOVA

Fuente de variación Suma de cuadrados Grados de lib. Cuadrados medios F0

Regresión SSR 1 MSRMSRMSE

Residuales SSE n-2 MSE

Total Syy n-1

La F del ANOVA

La estadística que se construye en la tabla del ANOVA es:

F0 =SSR1

SSE(n−2)

= MSRMSE

y también es la para probar la signi�cancia de la regresión, de

hecho la t0de Student vista anteriormente para probar β1 si se eleva

al cuadrado da esta mismaF0

Bandas de con�anza para la media de la respuesta

Si x0 es un valor donde se quiere estimar el valor medio de la

respuesta y entonces

E ( ˆy |x0) = β0 + β1x0Para hacer un intervalo de con�anza se requiere de conocer la

varianza de y0esta resulta ser

V (y0) = σ2[ 1n

+ (x0−x)2

Sxx]

Entonces cuando el valor de x0 se aleja de x el tamaño de la banda

se hace más grande

El intervalo está dado por

y0 +−tα/2,n−2

√MSE ( 1

n+ (x0−x)2

Sxx)

Bandas de con�anza para la predicción de nuevas

observaciones

El modelo de regresión se utiliza en muchas ocasiones para hacer

predicciones de observaciones futuras, hay que hacer notar que es

cualquier valor futuro, no precisamente el valor medio, es por esto

que la varianza para predicciones futuras es más grande:

V (y0) = σ2[1 + 1n

+ (x0−x)2

Sxx]

El intervalo está dado por

y0 +−tα/2,n−2

√MSE (1 + 1

n+ (x0−x)2

Sxx)

Evaluar el ajuste

Coe�ciente de regresión∑ni=1

(yi−y)2∑ni=1

(yi−yi )2

y que coincide conel cuadrado del coe�ciente de correlación r2.

R2 = variación deyiexplicada por la regresiónvariación total dey

Grá�cas de Residuales

Conviene hacer grá�cas de los residuales ei = yi − yi

I Grá�co de normalidad o qqnorm. Este debe apegarse a una

recta.

I ei versus yi . No debe mostrar patrones sino caer

aleatoriamente alrededor del cero. No conos, no curveado, no

doble cono. Para checar la homoscedasticidad.

I ei versus xi . Si se ve algo curveado sugiere una transformación.

Un cono por ejemplo sugiere heteroscedasticidad.

I ei versus i . Para checar posible correlación serial

I Detección de outliers a través de valores muy grandes de ei ,

Di de Cook

Leticia Gracia Medrano. [email protected] 2 de ...

Documents

Transcript of Leticia Gracia Medrano. [email protected] 2 de ...