Leticia Gracia Medrano. [email protected] 2 de ...
Transcript of Leticia Gracia Medrano. [email protected] 2 de ...
La ecuación de la recta
Ecuación General de la recta
Ax + By + C = 0
Cuando se conoce la ordenada al origen y su pendiente
y = b + mx
Cuando se conocen dos puntos por donde pasay−y1x−x1
= y2−y1x2−x1
Cuando se conocen la pendiente y un punto por donde pasay−y1x−x1
= m
EjemploHallar la ecuación de la recta que pasa por (0,32) y por (100,212)y−y1
x−x1= y2−y1
x2−x1y−32
x−0= 212−32
100−0= 180
100= 9
5
y = 32 + 9
5x
o si tomamos el par (-40,-40) y (100,212)y+40
x+40= 212+40
100+40= 252
140= 9
5
y + 40 = (x + 40) 95
= 9
5x + 360
5
y = 9
5x + 72− 40 = 32 + 9
5x
Introducción
REGRESION
Las ideas de regresión y el término regresión se le atribuyen a
Francis Galton (1822-1911), un primo de Charles Darwin. El
término regresión originado en la regresión la altura de los hijos en
función de la altura de los padres; la altura de los hijos mostraba
una "regresión a la mediocridad� (i.e., hacia la media de la
población).
Coe�ciente de correlación
Correlación poblacional:
ρ(X ,Y ) = cor(X ,Y ) = cov(X ,Y )/√var(X )var(Y )
Correlación Muestral:
r(X ,Y ) =n∑
i=1
(xi − x)(yi − y)/
√√√√ n∑i=1
(xi − x)2n∑
i=1
(yi − y)2
¾Qué mide r?
Se puede demostrar una relación algebraica entre r y el análisis de
la varianza de la regresión de tal modo que su cuadrado
(coe�ciente de determinación) es la proporción de variación de la
variable Y debida a la regresión. En este sentido, r2 mide el poder
de explicación del modelo lineal.
¾Qué no mide r?
no mide la magnitud de la pendiente ("fuerza de la asociación")
tampoco mide lo apropiado del modelo lineal
El siguiente es un ejemplo donde todas las grá�cas tienen
coe�ciente de correlación de .7.
Siempre debemos acompañar a este número de la respectiva grá�ca
para ver realmente si la relación es lineal.
El modelo de regresión lineal
Este se puede escribir como:
Yi = β0 + β1Xi + εi con i = 1, . . . , nDonde
I Yi es el valor de la variable respuesta del elementoi
I Xi es el valor de la variable explicativa y se supone que es una
constante conocida.
I β0 y β1son los parámetros, los coe�cientes de la recta.
I εies un error aleatorio.
Los parámetros son desconocidos y deben ser estimados a través de
la muestra.
En el modelo de regresión se representan dos componentes:
I E [Yi ] = β0 + β1Xi es la parte sistemática del modelo;
E [Yi ]representa la esperanza deY dado el valor de la variable
explicativa X .
I εi es un error que representa la desviación de Y a la recta.
El Modelo se dice que es:
I simple porque tiene sólo 1 variable explicativa
I lineal por que la relación de Y es lineal en los parámetros
Relaciones no lineales entre Y y X pueden linealizarse o también
se puede hacer regresión por pedazos
Supuestos acerca del error
I E (εi ) = 0
I var(εi ) = σ2, (σ2 denota una constante ) homocedasticidad
I εi y εjson no correlacionados
I Supuesto adicional: εi normal, esto es εi ∼ N(0, σ2)
Supuestos acerca de X
Se supone que X es �ja controlada por el analista y prácticamente
sin error de medición.
Esto es, en realidad se está condicionando con la x observada,
cuando las x no son exactamente �jas:
E (y | x)=β0+β1xV (y | x) = V (β0 + β1x + ε) = σ2
Estimación de β0 y β1
Yi = β0 + β1Xi + εi con i = 1, . . . , nEl criterio de mínimos cuadrados es:
S(β0, β1) =∑n
i=1(yi − β0 + β1xi )2
Se deriva la función S y despues se iguala a cero para hallar los
valores que lo maximizan.
Encontrando que
β0 = y − β1xy que
β1 =∑n
i=1yixi−
(∑ni=1
yi )(∑ni=1
xi )
n∑ni=1
x2i−
(∑ni=1
xi )2
ncon
y =∑n
i=1yi
n
OJO Los estimadores de β0 y β1resultan ser una combinación lineal
de las observaciones yi
Para escribirlo más sencillo
Sxx =∑n
i=1(xi − x)2
Sxy =∑n
i=1 yi (xi − x)
β1 =SxySxx
de�nimos al residual ei como
ei = yi − yiLos estimadores de las betas son insesgados y de varianza
mínima (de entre todos los estimadores lineales), según el teorema
de Gauss Markov.
E (β0) = β0 y E (β1) = β1.Las expresiones para la varianza son:
V (β1) = σ2
Sxx
V (β0) = σ2( 1n
+ x2
Sxx)
Estimador de la varianza σ2
Notación
SSE =∑n
i=1 e2i
El estimador de la varianza es
σ2 = SSEn−2
= MSE
Prueba sobre pendiente β1
Aquí si se necesita suponer normalidad en el error, antes no la
habíamos supuesto.
Suponemos que los errores εi son N(0, σ2)Así que los errores le heredan la normalidad a β1 y se tiene que
Za = β1−β1a√σ2/Sxx
como no se conoce σ2 usamos una estimación, de manera que la
estadística de prueba a utilizar es entonces una t de Student
ta = β1−β1a√MSE/Sxx
Con esta prueba se determina si la regresión es signi�cativa o no.
Esta estadístic sirve tambien para calcular los intervalos de
con�anza.
*La β1 se interpreta como la razón de cambio en y al mover una
unidad en x .
Prueba sobre β0
Análogamente ocurre conβ0 y su estadística de prueba es
ta = β0−β0a√MSE (1/n+x2/Sxx )
Si el recorrido de las x 's incluye al cero, β0 es la media de respuesta
y cuando x = 0.
Si el recorrido de las x 's no incluye al cero no tiene sentido la
interpretación de β0.
Descomposición de la suma de cuadrados
Syy =∑n
i=1(yi − y)2 =∑n
i=1(yi − y)2 +∑n
i=1(yi − yi )2
Syy mide la variabilidad total de la variable respuesta.
SSR =∑n
i=1(yi − y)2
SSR es la suma de cuadrados de Regresión
y tambien se puede deducir la igualdad
SSR = β1SxySSE =
∑ni=1(yi − yi )
2
y SSE es la suma de cuadrados del Error.
La suma se descompone como:
Syy = SSR + SSE
ANOVA
Fuente de variación Suma de cuadrados Grados de lib. Cuadrados medios F0
Regresión SSR 1 MSRMSRMSE
Residuales SSE n-2 MSE
Total Syy n-1
La F del ANOVA
La estadística que se construye en la tabla del ANOVA es:
F0 =SSR1
SSE(n−2)
= MSRMSE
y también es la para probar la signi�cancia de la regresión, de
hecho la t0de Student vista anteriormente para probar β1 si se eleva
al cuadrado da esta mismaF0
Bandas de con�anza para la media de la respuesta
Si x0 es un valor donde se quiere estimar el valor medio de la
respuesta y entonces
E ( ˆy |x0) = β0 + β1x0Para hacer un intervalo de con�anza se requiere de conocer la
varianza de y0esta resulta ser
V (y0) = σ2[ 1n
+ (x0−x)2
Sxx]
Entonces cuando el valor de x0 se aleja de x el tamaño de la banda
se hace más grande
El intervalo está dado por
y0 +−tα/2,n−2
√MSE ( 1
n+ (x0−x)2
Sxx)
Bandas de con�anza para la predicción de nuevas
observaciones
El modelo de regresión se utiliza en muchas ocasiones para hacer
predicciones de observaciones futuras, hay que hacer notar que es
cualquier valor futuro, no precisamente el valor medio, es por esto
que la varianza para predicciones futuras es más grande:
V (y0) = σ2[1 + 1n
+ (x0−x)2
Sxx]
El intervalo está dado por
y0 +−tα/2,n−2
√MSE (1 + 1
n+ (x0−x)2
Sxx)
Evaluar el ajuste
Coe�ciente de regresión∑ni=1
(yi−y)2∑ni=1
(yi−yi )2
y que coincide conel cuadrado del coe�ciente de correlación r2.
R2 = variación deyiexplicada por la regresiónvariación total dey
Grá�cas de Residuales
Conviene hacer grá�cas de los residuales ei = yi − yi
I Grá�co de normalidad o qqnorm. Este debe apegarse a una
recta.
I ei versus yi . No debe mostrar patrones sino caer
aleatoriamente alrededor del cero. No conos, no curveado, no
doble cono. Para checar la homoscedasticidad.
I ei versus xi . Si se ve algo curveado sugiere una transformación.
Un cono por ejemplo sugiere heteroscedasticidad.
I ei versus i . Para checar posible correlación serial
I Detección de outliers a través de valores muy grandes de ei ,
Di de Cook