Post on 06-Nov-2015
description
Una introduccion a los Modelos lineales
Walden Alberto Borja Guerrero
Maestra en EstadsticaFacultad de Ciencias
Universidad Nacional de Colombia
8 de junio de 2015
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
AntecedentesUna tecnica con 200 anos
1 A. M. Legendre (1755 1833), 1805.2 Gauss (1777 1855): Theoria motus corporum coelestium in
sectionibus conicis solem ambientum, 1809.
3 Francis Galton (1822 1911): Regression toward mediocrityin hereditary stature, 1885.
4 Karl Pearson (1857 1936) y Udny Yule (1871 1951)generalizaron los resultados estadsticos y ampliaron el alcancedel concepto de correlacion.
5 R.A. Fisher (1890 1962) Theory of statisticalestimationProceedings of the Cambridge. PhilosophicalSociety 22, 1925.
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Objetivo
Presentar el modelo clasico de regresion lineal de k variables (Y yX2, X3, . . . , Xk) en notacion de algebra matricial.
Yi = 1 + 2X2i + 3X3i + ...+ kXki + i
i = 1, 2, 3, ..., nSiendo 1 el intercepto, 2, ..., k coeficientes parciales dependientes, el termino de perturbacion estocastica e i la i-esimaobservacion, con n como tamano de la poblacionLa FRP se interpreta en la forma usual: la media o el valoresperado de Y condicionado a los valores fijos (en muestreorepetido) de X2, X3, . . . , Xk , es decir, E(Y |X2i ,X3i , ...,Xki ).
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
La ecuacion anterior es una expresion abreviada para el siguienteconjunto de n ecuaciones simultaneas:
Y1 = 1 + 2X21 + 3X31 + ...+ kXk1 + 1
Y2 = 1 + 2X22 + 3X32 + ...+ kXk2 + 2
.................................
Yn = 1 + 2X2n + 3X3n + ...+ kXkn + 2
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
La expresion matricial de este sistema de ecuaciones, se puedeexpresar,
Y1Y2...Yn
=
1 X21 X31 . . . Xk11 X22 X32 . . . Xk2. . . . .. . . . .. . . . .1 X2n X3n . . . Xkn
donde y = vector columna n 1 de observaciones sobre la variabledependiente YX = matriz n k , con n observaciones sobre las k 1 variables X2a Xk , y la primera columna de numeros 1 representa el termino delintercepto. (Esta matriz se conoce tambien como matriz dedatos.) = vector columna k 1 de los parametros desconocidos 1, 2, .. . ,k = vector columna n 1 de n perturbaciones ui
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Este sistema se conoce como representacion matricial del modelode regresion lineal general (de k variables). Se escribe en formamas compacta como[
yn 1
]=
[X +
n k k 1 n 1]
Donde no haya confusion sobre las dimensiones u ordenes de lamatriz X y de los vectores y , y , la ecuacion se escribe tan solocomo
y = X +
El objetivo es estimar los parametros de la regresion multiple yefectuar inferencias sobre ellos a partir de la informaciondisponible. En la notacion matricial esto equivale a estimar y ainferir sobre el. Para fines de estimacion, es posible utilizar elmetodo de mnimos cuadrados ordinarios (MCO) o el metodo demaxima verosimilitud (MV), pero ambos metodos producen valoresestimados identicos de los coeficientes de regresion.
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Supuestos de modelo de regresion lineal1)El valor esperado del vector de perturbaciones , es decir, decada uno de sus elementos es cero, E()= 0.
E
12...n
=
E(1)E(2)...
E(n)
=
00...0
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Supuestos de modelo de regresion lineal2) Homoscedasticidad y no correlacion serial: E() =2
E () = E
12...n
[1 2 . . . n
]
Al efectuar la multiplicacion y aplicar el valor esperado a cadaelemento de la matriz, se obtiene:
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
E () =
E (21) E (12) . . . E (1n)E (21) E (
22) . . . E (2n)
. . . . . .E (n1) E (n2) . . . E (
2n)
Debido a los supuestos de homoscedasticidad y de no correlacionserial, la matriz anterior se reduce a:
E () =
2 0 0 . . . 00 2 0 . . . 0. . . . . .0 0 0 . . . 2
= 2
1 0 0 . . . 00 1 0 . . . 0. . . . . . .0 0 0 . . . 1
= 2Idonde I es una matriz de identidad n n
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Supuestos de modelo de regresion lineal3)La matriz X de n k es no estocastica; es decir, consta denumeros fijos. El analisis de regresion es de regresion condicional,es decir, condicional a los valores fijos de las variables X4) No existe multicolinealidad. El rango de X es (X ) = k donde kes el numero de columnas en X y k es menor que el nu`mero deobservaciones, n. Es decir, las columnas de la matriz X sonlinealmente independientes.5)Normalidad de los residuos. El vector tiene una distribucionnormal multivariada, es decir N(0, 2)
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Estimacion por Mnimos Cuadrados Ordinarios
Este metodo consiste en determinar los valores de los parametrosj de tal manera que la suma de cuadrados del error (SCE) seamnima, es decir, que minimiza
= (y X )(y X )= y y 2X y + X X
Como X y es un escalar, es igual a su traspuesta y X . Esto selogra al diferenciar respecto del vector e igualar a cero lasexpresiones resultantes
()
= 2X X 2X y = 0
(X X ) = X y
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
La informacion conocida del problema es X ,y , X X y X y , y laincognita es . Mediante el algebra matricial, y dado que exite lainversa de (X X ), entonces premultiplicando por la (X X )1 setiene:
(X X )1(X X ) = (X X )1X y
hat = (X X )1X y
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Otras estimaciones del Modelo(1)
1) Matriz de Varianzas y Covarianzas: Para fines de estimacionestadstica, es necesario estimar las varianzas de y las covarianzasentre los elementos del vector . Equivalente a:
var cov() = E [ E ()][ E ()]
la cual se escribe explcitamente como
var cov() =
var(1) cov(1, 2) . . . cov(1, k)
cov(1, 2) var(2) . . . cov(2, k). . . . . .
cov(k , 1) cov(k , 2) . . . var(k)
Se obtiene a partir de:
var cov() = 2(X X )1
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
donde 2 es la varianza homoscedastica de i y (XX )1 es la
matriz inversa ya analizada. Un estimador insesgado de 2 en elcaso de k variables esta dado por
2 =
2i
n k =n k
donde, , es la suma de cuadrados de la regresion, se calcula dela siguiente manera:
= y y X y
2. Coeficiente de correlacion R2:
R2 =X y nY 2y y nY 2
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales
Algunas aplicaciones de la matriz Hat
La matriz Hat H = X (X X )1X ayuda a determinar muchos delos resultados de las estimaciones por Mnimos CuadradosOrdinarios. Por ejemplo, cuando premultiplica el vctor derespuestas y , se obtienen las predicciones de la variabledependiente, por eso en algunos textos de estadstica esdenominada Matriz de Prediccion, y a la matriz In H la llamanmatriz residual, puesto que al anteponersele a la variabledependiente y , se obtienen los respectivos residuales.
y = X = X (X X )1X y = Hy
= y y = y Hy = (In H)ySCE = = [(In H)y ][(In H)y ] = y (In H)y
SCT = y (In J)ySCR = SCT SCE = y (H J)y
donde J = 1n11
Walden Alberto Borja Guerrero Una introduccion a los Modelos lineales