Download - El modelo clásico de regresión lineal

7/21/2019 El modelo clsico de regresin lineal

1/22

Captulo 3

El modelo clsico de regresin lineal

(MCRL)

3.1 El modelo clsico de regresin lineal

El modelo clsico de regresin lineal contempla los supuestos de Gauss-Markov ms

elsupuesto clsico, el cual asume normalidad de los errores poblacionales.

Frmula: Distribucin de los errores en el modelo clsico

u|X=

u1|X...

un|X

nid(0,2)...

nid(0,2)

N(0n1,Inn2) (3.1)

(3.1)significa que cada erroride lasnobservaciones que se utilizarn en la regresin

fue generado por un PGD caracterizado por errores con distribucin normal e indepen-

diente (nid), con media cero y con varianza 2. En otras palabras, el error distribuye deforma normal, idntica (con la misma media y varianza) e independiente (niid).

Note que no fue necesario especificar nid en la expresin de la derecha en(3.1), debido

a que la MVC,Inn2, implica independencia al tener elementos no diagonales igualesa cero. As mismo basta con especificar un vector de media uniforme y un nico escalar

de varianza para denotar una distribucin idntica.

Con el supuesto de normalidad el PGD asumido es ahora

y(n1)

= X(nk)

(k1)

+ u(n1)

, u N(0,Inn2), rango(X) =k; (3.2)

donde yu son desconocidos para el investigador. El modelo a estimar sigue siendo

y(n1)

= X(nk)

(k1)

+ u(n1)

, (3.3)

cuya estimacin es la de MCO, con

= (XX)1Xy (3.4)

var() = 2(XX)1 , donde 2 = uun k (3.5)


2/22

38 Captulo 3. El modelo clsico de regresin lineal (MCRL)

La diferencia crucial respecto al modelo visto anteriormente es que ahora los erro-

res no slo tienen media y varianza definida, sino toda una forma funcional para su

distribucin. Como veremos esto implica que tanto y como tendrn una distribucinnormal. Siendo este el caso se puede indicar con precisin cul es la probabilidad de

que, por ejemplo, la variable aleatoria estudiada tome, por ejemplo, un valor que diste

ms de 3 desviaciones estndar sobre de la media. Tal como muestra la figura3.1,dicha

probabilidad es aproximadamente 199,7 %=0,3 %.

Figura 3.1:Distribucin Normal

68,2 %

95% 99,7 %

3 2 1 0 1 2 3Desviaciones estndar ()

Den

sidad

Como el error se distribuye normal, esto tambin se cumple paray, puesto que1

u|XN(0,2I)y|X=X+ u|XN(X,2I),

y para , puesto que

y|XN(X,2I)|X= (XX)1Xy|XN((XX)1XX, (XX)1X2X(XX)1)

N(,2(XX)1). (3.6)

Esta es la razn por la cual en el ejemplo del captulo anterior la distribucin de un

coeficiente j segua una distribucin normal tanto para y1 como para y2(ver figuras2.3a, 2.3by2.4). De haberse generado los datos con un error que no se distribuye de

forma (i) normal (ii) idntica y (iii) independiente (niid) posiblemente j no se hubiese

distribuido con una campana gausiana en muestreo aleatorio.

3.2 Pruebas de hiptesis sobre los coeficientes estimados

El supuesto de normalidad permite dar una forma funcional a la distribucin de

los coeficientes estimados y calcular la significancia asociada a algn test sobre los

coeficientes. Los test ms comunes son:

1Como regla general se tiene que siy N(,), entoncesAy + b N(A+ b,AA).
http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/


3/22

3.2 Pruebas de hiptesis sobre los coeficientes estimados 39

1. Eltest tde significancia individual, el cual indica si un coeficiente se encuentrasuficientemente alejado de un valor de referencia (usualmente fijado en cero).

2. Eltest F sobre significancia conjunta, el cual indica si un grupo de coeficien-te se encuentra suficientemente alejado de un vector de valores de referencia

(usualmente un vector de ceros).

Ambas pruebas tiene hiptesis nulas (H0) que corresponden a restricciones lineales

de la forma:

H0: R(qk)

(k1)

= r(q1)

(3.7)

Por ejemplo, en la tabla3.1se representan de la forma(3.7)algunas alternativas deH0para la regresiny=a + bx2+ cx3.

Tabla 3.1:Representacin matricial de restricciones lineales

Hiptesis nula Representacin de la forma (3.7) Test

H0:b=0

0 1 0ab

c

=0 tH0:c=5

0 0 1

abc

=5 tH0:a + b=1

1 1 0

abc

=1 tH0:a=b

1 1 0

a

b

c

=0 t

H0:a=1, b=2

1 0 0

0 1 0

abc

= 12

F

H0:a=b=c=0

1 0 00 1 00 0 1

abc

=00

0

F

Podemos estudiar la MVC, [R], de la restriccin lineal(3.7)a partir de nuestroresultado (3.6). Multiplicado porR a la izquierda se obtiene

R|XN(R,2R(XX)1R).SiH0es cierta, entoncesR=ry, por lo tanto,

(R r)|XN(0,2R(XX)1R). (3.8)De ahora en adelante, para no sobrecargar la notacin, obviaremos la condicionalidad

explcita aX, aunque esta siga mantenindose implcitamente.

3.2.1 Significancia individual (testt)

En el caso de una restriccin simple, es decir cuando q=1 , como el trminoRryR(XX)1R son escalares tendremos

(R r)2R(XX)1R N(0, 1)


4/22


Figura 3.2:Distribucin t

6 4 2 0 2 4 60

0,1

0,2

0,3

0,4

n k=1n

k=2n k=5n k=100N(0,1)

Por lo general 2 es desconocida y

debe ser estimada va uu

2(nk) . Cuandoel modelo se encuentra bien especifica-

doui

N(0, 1)implica u

N(0, 1)y por

ende uu

2(nk)2nky uu2(nk)2nk(ver tabla3.2).

Dividiendo por =

uu2(nk) 2nk

obtenemos

t= (R r)2R(XX)1R

tnk (3.9)

La distribucin de(3.9)sigue una forma

funcional conocida (figura3.2), por lo que

podemos calcular el area debajo de la curva dado n k.En la figura se muestra como cuandonkes elevado prcticamente no existe diferenciaentre la distribucin normal y la distribucin t.

Dada la simetra de la distribucin, en los test t H0se rechazar si:

Test de una cola:t tcrticoTest de dos colas: |t| tcrtico

Tabla 3.2:Distribuciones chi-cuadrado, t y F

Distribucin 2: Si Z1,

Z2, ...,

Zn

son variables normales estandarizadas indepen-

dientes, entonces

Z=n

i=1

Z2i 2n y

Z2n .

Distribucin t: Sean Z1 una variable normal estndar y Z2 una variable 2 con kgrados de libertad, vale decirZ1 N(0, 1)y Z2 2k, entonces

t= Z1

Z2/n

=

nZ1Z2

tn.

Distribucin F: Sean Z1 y Z2 variables 2 independientes con k1 y k2 grados delibertad, respectivamente, entonces

F=Z1/n1Z2/n2

Fn1,n2

Qu significa que una variable sea significativa?

Trabajos economtricos suelen presentar no solo el valor de los coeficientes estima-

dos y sus desviaciones tpicas, sino tambin el nivel de significancia o valor pde los

coeficientes estimados. El formato ms comn de presentacin es el que se muestra enla tabla3.3, donde algunos coeficientes vienen acompaados de asteriscos asociados a


5/22


los niveles de significancia respectivos. Qu significan, exactamente, esos niveles de

significancia?

Tabla 3.3:Regresiones MCO en base a la tabla 1.2

Variable dependiente: Ingreso en 2010

Modelo (M1) (M2) (M3)

const 5.99e+04 1.16e+04 4.92e+04

(8.57e+03) (3.84e+03) (1.06e+04)

Inequidad en 1950 1.94e+04 1.62e+04(4.14e+03) (4.42e+03)

Ingreso en 1950 1.79 0.848(0.704) (0.547)

n 13 13 13

R2 0.636 0.314 0.731

Desviaciones tpicas entre parntesis

* indica significativo al nivel del 10 por ciento

** indica significativo al nivel del 5 por ciento

Para entender su significado veamos primero el formato de presentacin que entregan

los software economtricos tras una estimacin por MCO. La tabla 3.5 muestra el

resultado de una regresin con gretl. En la primera columna aparecen los valores del

vector . Luego aparecen las desviaciones tpicas de cada regresor (las races de la

diagonal de la matriz de varianza covarianza de ). En la tercera columna aparece unestadstico t. Sabemos que el estadstico t corresponde a (3.9), pero hay componentes

del test que no son explcitos en la tabla. Primero, cul es la restriccin lineal asociada

al test?, es decir, cul es la hiptesis nula que se sostiene? La respuesta es:

Frmula: Estadstico t y su H0en un software:

H0: j N(0, var[j]) tj= j

var[j]=

j

sj tnk (3.10)

Tabla 3.4:Decisiones en la prueba de hiptesis

Decisin (resultado Estado de la naturaleza

del estadstico) H0 es verdadera H0es falsa

No se rechazaH0 no hay error error tipo II

Se rechazaH0 error tipo I no hay error

Por qu esa hiptesisnula y no otra? La razn es

que las hiptesis nulas se

suelen plantear de forma con-

servativa para poder refutar-

las. Asumimos, por ejemplo,

que el medicamento que re-

cibe un paciente no le sirve

para recuperarse, o que la inequidad no tiene efecto sobre el ingreso medio (es decir,

unj poblacional de cero). Luego calculamos un estadstico de prueba (el estadstico t

en este caso) y nos preguntamos qu tan improbable es obtener ese resultado. Mientrasmenos probable sea, ms seguridad tendremos para rechazar la hiptesis nula en favor
http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/


6/22


de la hiptesis alternativa (que la variable s tiene impacto con j =0).

En trminos generales (para todo tipo de test, no slo para el test t) stas son

interpretaciones precisas de lasignificancia (en general):Prob. de rechazarH0cuandoH0es cierta (error del tipo I, tabla3.4)

Prob. de obtener un estadstico de prueba asumiendo que se cumple H0Cuando nos referimos a la significancia de un coeficiente, tomamos en cuenta

(3.10) y la interpretacin es aun ms precisa. Formas alternativas de expresarla son:

Prob. de obtener un valor igual o superior a |tj|.Prob. de obtener un valor igual o superior a |j| dadaH0:j N(0,var[j]).Prob. de obtener valores j tan o ms distantes de cero, dada la normalidad de jy la varianza estimada

var[j]en muestreo repetido.

Es decir, una una variable se considera significativa cuando su coeficiente es signifi-

cativamente distinto de cero asumiendo que en muestreo repetido este se distribuye de

forma normal con la varianza estimada.

Note que ese es otro aspecto que por lo general no es explcito en los software: la

significancia del test t de las tablas3.3y3.5asume un test de dos colas.

Valor p de j en un software: El valor p osignificanciade un coeficiente esti-

mado (j) en un software estadstico corresponde a la probabilidad de rechazar la

hiptesis nula

H0:j N(0, var[j]) (3.11)

con un test t de dos colas. Es decir, corresponde a la prob.de obtener

|tj| tnk12 (3.12)

En trminos simples nos dice cul es la probabilidad de obtener un coeficiente tan o

ms distinto de cero cuando el su valor en el PGD es cero.

En ocasiones (por ejemplo en algunas publicaciones) no se reporta la significancia

sino solo el valor t o incluso solo los errores estndar. Esta informacin debiera bastarle

para saber si un coeficiente es significativo al 5% en un test a dos colas. Para ello puede

hacer uso de la siguiente regla prctica de significancia: podemos decir que jes

aproximadamente significativo al 5% si t=j/sj 2. Esta es solo una aproximacin.

Por ejemplo, si tenemosnk=30, para un nivel de 5% de significancia, el valor crticoestcrtico=2, 04; si tenemosn k=60, para un nivel de 5% de significancia, el valorcrtico estcrtico= 2, 00; sin , para un nivel de 5% de significancia, el valor crticotcrticotiende a 1,96 (al igual que en la normal estndar).

Podemos ilustrar la interpretacin de la significancia con dos ejemplos. Tomemos

primero el coeficiente Ingreso 1950de la tabla3.5.El resultado es Ingreso 1950= 0,848.Es este valor significativamente distinto de cero?

Para responder esta pregunta debemos tomar en cuenta que si la varianza de Ingreso 1950


7/22


Tabla 3.5:Resultados de regresin presentados engretl

MCO, usando las observaciones 113

Variable dependiente: Ingreso per cpita en 2010

Coeficiente Desv. Tpica Estadsticot Valor p

const 49246.9 10618.8 4.6377 0.0009

Inequidad1950 16167.6 4416.54 3.6607 0.0044Ingreso1950 0.848 0.54729 1.5498 0.1522

Media de la vble. dep. 20239.13 D.T. de la vble. dep. 7791.079

Suma de cuad. residuos 1.96e+08 D.T. de la regresin 4425.705

R2 0.731101 R2 corregido 0.677322

F(2, 10) 13.59437 Valor p (deF) 0.001406Log-verosimilitud 125.8782 Criterio de Akaike 257.7565Criterio de Schwarz 259.4513 HannanQuinn 257.4081

es alta, entonces es probable obtener dicho valor, mientras que si es baja, ser impro-

bable y el coeficiente puede ser considerado significativamente distante de cero. Por

convencin cientfica, consideraremos significativo un coeficiente si obtenemosun valor p asociado de= 10 %o menos, siendo lo ms comn un criterio de= 5 %.

La forma ms sencilla de plantear la significancia al 5% es por medio de la pre-

gunta: se encuetra el coeficiente a ms de 2 desviaciones estndar de cero? Con

sIngreso 1950= 0,547, en el caso de esta variable no se cumple la condicin, pues cae enel rango

2

0,547 indicado como IC 95% en el grfico inferior de la figura3.3.

Tambin podemos hacer la pregunta, cul es la probabilidad de obtener un valor

Ingreso 1950 0,848si en realidad H0:Ingreso 1950= 0? La probabilidad aparece mar-cada como el rea de franjas /2 en el grfico inferior. Si multiplicamos esa area pordos obtenemos exactamente 0.1522, el valor p de la tabla3.5.

En conclusin: Ingreso 1950no es significativamente distinto de cero (con un nivel designificancia=5 %), pues el valor 0,848se encuentra a tan slo 1,54desviacionesestndar (ver valor ten la tabla3.5) de cero. Sin embargo, la variable s sera significativa

a un nivel de, por ejemplo, 20% (valor demasiado alto como para ser considerado un

resultado serio).

Veamos ahora el coeficiente Inequidad 1950. El valor estimado es de 1,6104. Eseste un valor significativamente distinto de cero? En esta oportunidad nos encontramos a

ms de dos desviaciones estndar de cero y, por ende, la variable puede ser considerada

significativa al 5%. Cul es el valor exacto de la significancia del coeficiente? Ser dos

veces esa pequea area bajo la curva en el intervalo [ : 1,6104]que casi ningnojo humano es capz de ver en el grfico inferior de la figura 3.4.La variable es bastante

significativa, con un nivel de significancia inferior a 1%.

Es una variable significativa una con alto impacto sobre la variable dependiente?No necesariamente. Significancia estadstica es un concepto que poco tiene que ver


8/22


Figura 3.3:Significancia e IC de Ingreso 1950

2 1,5 1 0,5 0 0,5 1 1,5 2 2,5 30

0,2

0,4

H0: Ingreso 1950=0IC 95%

/2

3 2 1 0 1 2 3 4 5

0

0,2

0,4

t=Ingreso 1950

0,54729

2 1,5 1 0,5 0 0,5 1 1,5 2 2,5 3

0

0,2

0,4

Ingreso 1950

H0: Ingreso 1950=0,848IC 95%

/2

5 4 3 2 1 0 1 2 30

0,2

0,4

t=Ingreso 19500,848

0,54729

con frases como la donacin del millonario es un aporte muy significativo para la

fundacin. Note que la magnitud del impacto est medido por j. La significancia

slo nos cuenta cun seguros estamos de que el valor de j es poco probable desde la

perspectiva deH0:j= 0.

3.2.2 Intervalos de confianza para un coeficiente

Una forma alternativa de presentar la incertidumbre respecto a un coeficiente es-

timado, relacionada con el test t pero distinta de l, corresponde al intervalo deconfianza (IC).

Un IC de 95% para un coeficiente nos dice que el valor dej se encuentra con unaprob. de 95% dentro de un intervalo de valores determinado. Es decir, el IC nos entrega

un valor mximo y uno mnimo entre los cuales esperamos que se encuentre j con

cierta probabilidad.

Cmo se obtiene un IC? Si volvemos a (3.6), la ecuacin de normalidad de , se


9/22


tiene que

|XN(,2(XX)1)j|X

N(, var[j])

j |XN(0, var[j])j

var[j]|XN(0, 1) j var[j] |X tnk

Nuevamente, para no sobrecargar la notacin, podemos obviar la condicionalidad

explcita aX, aunque esta siga mantenindose implcitamente, y escribir:

j jsj

tnk.

Si deseamos un IC del(1)100% de confianza para el parmetro j, j=1, . . . , k,este ser:

1= P

tnk/2

j jsj

tnk1/2

=P

tnk

1/2 j j

sj tnk

1/2

(dada la simetra en t)

=P

tnk

1/2sj j j tnk1/2sj=Ptnk1/2sj j j tnk1/2sj

Finalmente obtenemos:

Frmula: IC de(1)100 % para un coeficiente

1= Pj tnk1/2Sj j j+ tnk1/2Sj

(3.13)

Figura 3.5:Realidades estadsticas

Unaregla prctica paradeterminar un IC de 95%

en una regresin es sumar y res-tar a al coeficiente estimado 2

veces el error estndar obtenido.

Por ejemplo, para el coeficien-

te deIngreso1950, una aproxima-

cin del IC sera Ingreso 1950 20,54729= [0,24658;1,94258]. Comparando con la tabla3.6vemos que el clculono es preciso (el valorta utilizar es 2.228 en lugar de 2), pero al menos da cuenta de

que el coeficiente no es significativo al 5%, debido a que el IC abarca valores 0.2

2La regla prctica tiene una precicin con un margen de error 2 %para valores de n kque estnentre 30 y . Para valores inferiores a 30 es recomendable calcular el valor t crtico exacto.


10/22


Figura 3.4:Significancia e IC de Inequidad 1950(escala 104)

3 2,5 2 1,5 1 0,5 0 0,5 1 1,5 20

0,2

0,4

H0: Inequidad 1950=0IC 95%

/2

7 6 5 4 3 2 1 0 1 2 3 4

0

0,2

0,4

t=Inequidad 1950

0,44165

3 2,5 2 1,5 1 0,5 0 0,5 1 1,5 2

0

0,2

0,4

Inequidad 1950

H0:Inequidad 1950= 1,617IC 95%

/2

4 3 2 1 0 1 2 3 4 5 6 7 80

0,2

0,4

t=Inequidad 1950+1,617

0,44165

El intervalo de confianza deInequidad1950, en tanto, no se intersecta con cero, lo

que es consecuente con un coeficiente que es significativamente distinto de cero.

Como el IC de 95% de Ingreso 1950 s abarca =0 mientras el de Inequidad 1950no abarca=0 se muestra en los grficos inferiores de las figuras 3.3 y 3.4.Comose aprecia, la diferencia entre el anlisis de IC y el anlisis de significancia es sutil:

simplemente se centra la distribucin en otra posicin y con ambos procedimientos es

posible evaluar si una variable es o no significativa a un nivel .

Tabla 3.6:Intervalos de confianza para los coeficientes del modelo M3

Valor exacto det:t(10;2,5 %) =2,228

Regresor(xj) Coeficiente(j) IC de 95%

j 2,228

var[j]

const 49246.9 25586.8 72907.0

Inequidad en 1950 16167.6 26008.3 6326.95Ingreso en 1950 0.848176 0.371266 2.06762


11/22


3.2.3 TestFde significancia conjunta

El test F se aplica cuando el nmero de restricciones es q>1 . La hiptesis alterna-tiva en este caso es que alguna de las restricciones impuestas no se cumpla.

Retomando (3.8), la distribucin deH0:R=rcuando ella es cierta es3

(R r) N(0,2R(XX)1R)(2R(XX)1R)

12

qq(R r)

q1N(0,I)

Es decir, cada uno de losq elementos del vector distribuye como una normal estndar.

Como la sumatoria deq variables normales estndar cuadradas se distribuye como una

2n , tendremos:

(R r)1q [

2

R(XX)1

R]1

qq (R r)q1

2

q

Luego, como2 habitualmente no es conocida, se utiliza

uu2 2nk

y el cociente entre ambas distribuciones 2, llamado test oestadstico F (en gene-ral):

[(R

r)[R(XX)1R]1(R

r)]/q

uu/(n k) Fq,nkCuandoH0contempla que un grupo de coeficientes es igual a cero, despus de una

serie de pasos que omitiremos para no desviar la atencin, la expresin anterior puede

ser reescrita como

F=(urur uu)/(q)

uu/(n k) Fq,nk (3.14)

donde urcorresponden a los residuos de una regresin MCO restringida (con los q

regresores excluidos),q denota el nmero de regresores que han sido restringidos a cero

y urepresentan los residuos del modelo MCO original.

(3.14)es un estadstico de uso comn en tests economtricos. Su interpretacin es

simple: como el modelo MCO reducido siempretendr un peor ajuste, la diferencia

urur uu captura cunto mejora el ajuste con los regresores adicionales. A mayordiferencia entre urury uu, ms poder explicativo se gana con los q regresores y mssignificativo figura estadstico. Es decir, si existe una alta discrepancia entre un modelo

con, digamos 5 regresores y otro con 8 regresores (incluyendo los 5 del modelo ante-

rior), entonces(3.14)tendr un valor elevado y significativo, dando cuenta de que los

q=3regresores adicionales son relevantes (estadsticamente distintos de cero en forma

3Ac se hace uso de la expresin(2R(XX)1R)12 . Sabemos que existe debido a que R(XX)1R es

una matriz simtrica.


12/22


conjunta). Para que la significancia de F sea alta basta que al menos uno de los q =3coeficientes sea relevante.

En la parte inferior de la tabla3.5puede encontrar el valor F(2;10) =13,59437ysu significancia asociada de 0.001406. Cmo interpretamos este estos valores? Como

veq=2. Esto tiene relacin con la hiptesis nula:

Frmula: H0del test F de una regresin en un software

H0: 2=3=...=k= 0 (3.15)

Es decir, todas las pendientes, salvo la constante son iguales a cero. En otras palabras,

corresponde a la significancia total del modelo.

3.3 Proyecciones con ICTomemos como ejemplo el modelo de estimado en (1.4):

precio=877,830,433aoCul es nuestra mejor estimacin del precio del watt de energa solar en 2015? Simple-

mente:

precio=877,830,4332015=5,335Tomando ahora el modelo M3 (p.10), si quisiramos predecir el nivel de ingreso en

2010 para una un pas con las caractersticas que tuvo Argentina en 1950, es decir con

sus niveles de inequidad e ingreso en 1950, la prediccin o pronsticosera

PIB2010=49246,9 116167,6 2,5048 + 0,848 4934,41=12935,5Asimismo, si deseamos obtener un vector de y0 den0 pronsticos dada una matrixX0

de regresores imputados, nuestra proyeccin ser

y0

(n01)= X0

(n0k)

(k1)(3.16)

Por ejemplo, si usted desea predecir simultneamente el nivel de ingreso de un pas

que tuvo el PIB y la inequidad de Argentina junto con el nivel de ingreso de un pas quetuvo el PIB de Argentina pero la inequidad de Japn, su pronstico sera:

X0

(n0k)=

1 2,5048 4934,411 1,7226 4934,41

y0

(n01)=

12935,525581,8

Denominaremos error de prediccin e0 a la diferencia que ocurrir entre la

observacin efectivay0 (por lo general desconocida ex ante) y la prediccin y0:

e0

(n01)=y0 y0 =X0+ u0X0=X0( ) + u0.

En la ltima expresin se manifiesta la existencia de dos fuentes del error de predic-cin:
http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/http://0.0.0.0/


13/22

3.3 Proyecciones con IC 49

1. El error en la estimacin del vector 2. El error estocsticou0 inherente al PGD

La suma de ambos componentes da lugar a la diferencia e0 =y0

y0 mientras el

primer componente aislado es el culpable de la diferencia que pueda surgir entre el valor

esperado de E[y0|X0](dado por la FRP) y la prediccin y0 (dado por la FRM). Esta ltimadiferencia se denomina error de prediccin de la media, que denotaremos con e0.

Si consideramos que el estimador MCO es insesgado, entonces E[e0|X,X0] =E[X0( ) + u0|X,X0] = 0 y = (XX)1Xu. Con esto, y considerando lossupuestos de Gauss-Markov, la MVC del error de estimacin se encuentra dada por,

e0|X,X0=E(e0E[e0])(e0E[e0])|X,X0=Ee0e0|X,X0=E(X

0(

) + u0)(X0(

) + u0)

|X,X0=E(X0(XX)1Xu + u0)(X0(XX)1Xu + u0)|X,X0

=E

(X0(XX)1Xu + u0)(uX(XX)1X0 + u0)|X,X0=E

X0(XX)1XuuX(XX)1X0 (X0(XX)1Xu)u0

u0(uX(XX)1X0) + u0u0|X,X0=X0(XX)1XE

uu|X,X0X(XX)1X0X0(XX)1XEuu0|X,X0

Eu0u|X,X0X(XX)1X0 + Eu0u0|X,X0Los erroresu y u0 sonortogonales(es decir, independientes), motivo por el cual

se cumple Eu0u|X,X0=0 y E uu0|X,X0=0. Por lo tanto,

e0|X,X0=X0(XX)1X2InnX(XX)1X0 +2In0n0=2X0(XX)1X0

(1)

+2In0n0 (2)

, (3.17)

donde aparecen nuevamente ambas fuentes del error de prediccin.

La MVC del error de prediccin de la media condicional E[y0|X0]ser simplemente

E[y0] y0|X,X0

e0|X,X0

=2X0(XX)1X0

(1). (3.18)

A partir de(3.17)y (3.18)podemos construir dos tipos de IC: (i) el IC de la media

de y0 y (ii) el IC de y0, incluyendo el error, lo que ampla su IC.

Aplicando el mismo procedimiento que con un coeficiente j podemos obtener unIC de la prediccin:

1= P

y0 tnk1/2se0 y0 y0 + tnk1/2se0

,

donde se0= diag[e0|X,X0]con[e0|X,X0] = 2[X0(XX)1X0 +In0 ]. Sin0 esmayor a 1 tendremos una MVC[e0]con dimendionesn0n0, cuyo elemento diagonal


14/22


es el relevante para la construccin del IC de cada prediccin.

Anlogamente, IC de prediccin de la media es

1= P y0 tnk1/2se0 E[y0|X0] y0 + tnk1/2se0 ,donde se0= diag

[e0|X,X0]y[e0|X,X0] = 2[X0(XX)1X0].En la figura3.6se muestra la diferencia grfica entre ambos ICs. En ambos casos el

IC se ampla con la distancia respecto a la media de X, siendo el IC en3.6ams acotado

que en3.6b.

Figura 3.6:Intervalos de confianza de prediccin ...

(a)... para la media condicional E[y0

|X0]

101 103 105 107 109 1011

100

100,3

100,6

100,9

101,2

MW producidos acumulados [escala log]

Costo[$/W,escalalog]

IC 95% de y

Pred. media

(b)... paray0 =E[y0

|X0] + u0

101 103 105 107 109 1011

100

100,3

100,6

100,9

101,2

MW producidos acumulados [escala log]

A modo de ejemplo, para la proyeccin para Argentina en los dos escenarios pro-

puestos tenemos 2 =19586868,038,

[e0] =

25291296,02 1371228,441371228,44 23074370,36

,

[E(y0) y0] =

5704427,98 1371228,44

1371228,44 3487502,32

,

y los resultados de la tabla3.7,donde el valor crtico de la distribucin t es 2.22814.

Tabla 3.7:Intervalor de confianza de 95%

Media IC de la pred. de la media IC de la prediccin

12935.49122 7613.816779 18257.16565 1730.080129 24140.9023

25581.8004 21420.78326 29742.81753 14878.7596 36284.8412

En qu circunstancias se invalida el clculo de los intervalos de confianza de

prediccin? Naturalmente cualquier violacin de los supuestos del MCRL tiene impactosobre la validez del IC que se calcule. Si el modelo est incorrectamente especificado


15/22

3.4 Diagnstico residual del MCRL 51

(por ejemplo, excluyendo una variable importante), entoces se invalida todo el anlisis

desde el clculo de en adelante. Si los errores son heterocedsticos, por ejemplo, no

se invalida la proyeccin pero s sus intervalos de confianza.

En otras palabras, el IC nos dice cul es la confianza que se tiene de la proyeccin

cuando todo lo asumido se cumple. Si usted no confa en un investigador, tampoco

debiera confiar en los intervalos de confianza que publica.

3.4 Diagnstico residual del MCRL

Si no se cumplen todos los supuestos del MCRL, la regresin que usted estime en

un software estadstico ser invlida. La tabla3.8muestra las consecuencias de algunas

violaciones de supuestos del MCRL.

Tabla 3.8:Algunas violaciones de los supuestos del MCRL

Propiedad invalidada de e y

Problema Insesgamien-

to Desv. estndar

Significancia

e ICs

Muestreo inadecuado x x x

Causalidad incorrecta x x x

No linealidad x x x

Omisin de variable relevante x x x

Errores heterocedsticos x x

Autocorrelacin deu x x

Anormalidad deu x

Por ejemplo, si se viola el supuesto de especificacin correcta (cualquiera de los

primeros 4 casos de la tabla 3.8, entre otros), se invalidan prcticamente todos los

clculos mostrados hasta ahora. Si nicamente se viola, por ejemplo, la normalidad de

los errores poblacionales, siguen siendo vlidos el clculo de la varianza y el teorema

de Gauss-Markov, pero no el clculo de tests t, tests F o el IC de un coeficiente, como

tampoco ser vlido el clculo del IC de prediccin.

Lamentablemente suele ser difcil verificar si se viola el supuesto de muestreo res-

presentativo o el de causalidad correcta. Por este motivo en la prctica es importante

que el investigador se asegure sobre la calidad de los datos y que se informe sobre lasposibles relaciones causales que podran existir entre las variables. Otros supuestos,

como el de linealidad en las variables, el de homocedasticidad de los herrores o el de nor-

malidad de los errores pueden ser fcilmente verificados va anlisis residual: si losresiduos se comportan de forma contraria a la que se debieran comportar los errores po-

blacionales, entonces se puede rechazar la hiptesis nula sobre alguno de estos supuestos.

Las figuras3.7 y 3.8muestran el patrn grfico que emerge cuando se producen

ciertas violaciones particulares de los supuestos del MCRL. Si tenemos un solo regresor,

la no linealidad y la heterocedasticidad son muy fciles de detectar grficamente. La

deteccin de una variable omitida, en tanto, no es tan fcil en la prctica, pues requiere deque se tenga a disposicin la variable omitidaz(podramos haberla omitido por no contar


16/22


con ella en la base de datos). La deteccin grfica de la autocorrelacin tambin es algo

insegura. En el ejemplo de las figuras3.7ey3.8evemos como los residuos se encuentran

agrupados (para ciertos rangos dexson particularmente altos o bajos), lo que nos permite

concluir que existe una relacin sistemtica entre los errores, correspondiente a una

funcin de x. Pero tambin puede que la autocorrelacin sea funcin sistemtica de

una variable no observada (por ejemplo una funcin de cules fueron los grupos de

estudiantes que se prepararon conjuntamente para una prueba) y que no se vea en un

grfico residual en funcin de x.

Figura 3.7:Regresiones con algunos problemas

(a)Sin problema

x

y

(b)No linealidad

x

y

(c)Heterocedasticidad

x

y

(d)Variable omitida

x

y

(e)Autocorrelacin

x

y

(f)Heterocedasticidad

x

y

Figura 3.8:Anlisis grfico de residuos

(a)Sin problema

x

u

(b)No linealidad

x

u

(c)Heterocedasticidad

x

u

(d)Variable omitida

variable omitidaz

u

(e)Autocorrelacin

x

u

(f)Heterocedasticidad

x

u

Vemos que cuando tenemos un nico regresor x, el anlisis grfico resulta til nosolo para reconocer outliers con apalancamiento, sino tambin para detectar violaciones


17/22


de los supuestos de homocedasticidad, linealidad y, si tenemos suerte, de autocorrelacin

e incluso detectar variables omitidas. Con ms regresores el anlisis grfico se torna

progresivamente difcil a medida que aumenta k, motivo por el que en regresiones

mltiples se recomienda utilizar algn test de diagnstico como los que se presentan

a continuacin. En todos ellos la idea bsica es que si el modelo se encuentra bien

especificado, entonces los residuos no debieran tener alguna forma funcional particular

que puede ser estimada con una alto grado de significancia conjunta o alta bondad de

ajuste.

3.4.1 Contrastes de no linealidad

Los test de linealidad/no linealidad tienen como hiptesis:

H0: la relacin entreXey es lineal.

H1: la relacin entreXey es no-lineal.

Una forma sencilla de verificar la existencia de no linealidades es correr unaregre-

sin auxiliar,

y=X+Z+, (3.19)

dondeZes una matriz que contiene versiones no lineales (cuadrados, logaritmos, etc.)

de regresores contenidos en X. Si el test F asociado a laH0:= 0es significativo, serechaza laH0de linealidad.

Otra forma ms popular de verificar la existencia de no linealidades es correr la

regresin auxiliar,

u=X+Z+, (3.20)

con los residuos udel la regresin original como variable dependiente y dondeZes ahora

una matriz que contiene cuadrados, cubos, logaritmos, etc. (segn se especifique) por lo

general de cada regresor contenido enX(slok1columnas, pues se ignora la constan-te). Si, por ejemplo, se corre la regresin u = x +x2 +con los datos de la figura3.7b,elR2 ser alto, mientras que para la misma regresin con los datos de la figura 3.7aelR2

ser bajo. Es decir, un mayorR2 de(3.20)es indicativo de la presencia de no linealidades.

Cun alto debe serR2 de(3.20)para rechazar estadsticamente linealidad? Podemos

utilizar elestadstico de prueba nR2,

LM= n R2 2gl, (3.21)que corresponde a una forma particular de la familia de estadsticos del multiplicador

de Lagrange (estadsticos LM), que estudiaremos ms adelante. Por ahora podemosadelantar que(3.21)se distribuye asintticamente como una chi-cuadrado con grados de

libertad iguales al nmero de restricciones en el modelo reducido ( u=Xen este caso,siendo k1 el nmero de restricciones lineales enH0: = 0, lo que implica nR2 2k1).

Para evaluar no linealidad tambin es comn utilizar el test RESET (RegressionEquation Specification Error Test) de Ramsey, basado en la regresin auxiliar

y= X+ 1 y2 + ... +k1 yk+, (3.22)


18/22


donde y= X. Si no existen relaciones no lineales entrey y los regresores, entonces secumple1= 2=. . .=k1= 0. As, si se cumple la hiptesis nula, el estadstico Fasociado con dicha hiptesis nula arrojara un valor que no es significativo.

3.4.2 Contrastes de heterocedasticidad

Los test de homocadasticidad/heterocedasticidad tienen como hiptesis:

H0:ui se distribuye con varianza constante a lo largo de X (homocedasticidad).

H1:ui se distribuye con varianza cambiante a lo largo de X (heterocedasticidad).

Figura 3.9:u2i de fig.3.8c

x

u2 i

El primer paso en un contraste de hete-

rocedasticidad es cuadrar los residuos de

la regresin como se ilustra en las figuras

3.9y3.10. Eltest de Breusch-Pagantiene como regresin auxiliar la relacin

lineal

u2i1n u

2i

=Xi+i, (3.23)

donde Xi representa la fila i de X. Si la

regresin auxiliar(3.23)tiene buen ajuste

(un alto R2 o un bajo valor p del test F),

entonces se concluye que la varianza resi-

dual es una funcin de X y se rechaza la homocedasticidad. Estadsticamente esto se

puede hacer mediante el test F o un test nR2. Sin embargo, el estadstico de prueba ms

comn para evaluar significancia en el test de Breusch-Paga es

u u2 2k1,

donde u u es la suma de cuadrados explicada de la regresin (anloga a y y en unaregresin MCO dey respecto deX). Intuitivamente, si la suma de cuadrados explicada

de la regresin auxiliar es alta, entonces el ajuste es bueno y se rechaza la H0 de

homocedasticidad.

Figura 3.10:u2i de fig.3.8f

x

u2 i

La figura 3.9 muestra la idea del

test de Breusch-Pagan: si la recta (que

puede ser multidimensional) tiene unapendiente significativa o un alto ajus-

te, entonces estamos ante heterocedas-

ticidad. Una debilidad evidente de es-

te contraste se ilustra en la figura

3.10. Ah vemos como un modelo li-

neal del tipo (3.23) no captura la po-

sibilidad de heterocedasticidad no li-

neal.

Esta es la ventaja que tiene eltest deWhite, cuya regresin auxiliar tiene como variable dependiente el cuadrado de los


19/22


residuos y como variables independientes tanto a los regresores de X como a sus

cuadrados y productos cruzados. Por ejemplo, si la regresin original es

yi= 1+ 2x2,i+ 3x3,i+ui,

entonces se corre la regresin auxiliar

u2i = 1+2x2,i+3x3,i+4x22,i+5x

23,i+6x2,ix3,i+i.

Luego,a partir del estadstico de pruebaLM=n R2 2k

se evala se rechaza significa-

tivamente la homocedasticidad.

3.4.3 Tests de normalidad

Si los errores poblacionales se distribuyen de forma normal, entonces los residuos

de una regresin tambin debieran distribuirse de forma normal. La forma tradicional deverificar este supuesto es mediante la comparacin de laasimetray la curtosisde losresiduos. Como toda distribucin normal es simtrica (asimetra S=0) y mesocrtica(curtosisK= 3), se puede construir el estadstico de prueba de Jarque-Bera,

JB =n

6

S2 +

1

4(K3)2

22 , (3.24)

el cual toma mayor valor a mayor asimetra (S) y a mayor discrepancia de la curtosis

respecto de 3. Es decir, a mayor JB, ms anormal es la distribucin de los residuos. Si

JB es suficientemente elevado se puede rechazar la hiptesis nula de normalidad. La

distribucin asinttica de (3.24) esJB 22 .Con el tiempo se ha hecho popular el contraste de Doornik-Hansen de nor-

malidad multivariada, una variacin del contraste de Jarque-Bera cuyo estadstico de

prueba distribuye igualmente como una chi-cuadrado.

Por ltimo cabe mencionar el diagnstico va un grfico QQ. En l se graficanlos percentiles de la distribucin de la variable en cuestin versus los cuantiles de la

distribucin normal y una lnea de 45. Si los residuos se distribuyen normales, entoncescada percentil de la distribucin debe asimilarse al percentil de la distribucin normal y

las observaciones deben estar cercanas a la lnea de 45. La figura3.11muestra un casoen que los residuos s distribuyen de forma normal y otro en que no.


20/22


Figura 3.11:Grficos QQ de la distribucin normal

(a)Caso normal (b)Caso no-normal

3.4.4 Tests de inestabilidad

Tabla 3.9:Estimacin de la tasa de crecimiento

de Mxico (1960-2005)

Var dep.: log. PIB per cpita

1960-2005 1960-1981 1982-2005

const

22.8

55.9

3.39

(2.21) (1.79) (3.26)

Ao 0.0159 0.0327 0.00616

(0.00112) (0.000911) (0.00164)

n 35 21 14R2 0.821 0.985 0.364

Desviaciones tpicas entre parntesis

* indica significativo al nivel del 10 por ciento

** indica significativo al nivel del 5 por ciento

En la tabla 3.9 se presentan los

resultados de la regresin

ln(PIB)= 0+ 1Ao + u

para tres submuestras del PIB per c-

pita mexicano. La primera toma to-

da la muestra presentada en la figura

3.12, mientras las columnas siguien-

tes se restringen a antes de 1981 y des-

pus de 1981 respectivamente. Como

el modelo es log-nivel, el coeficiente

1se interpreta como la tasa de creci-

miento anual del nivel de ingreso en

el pas.

Los resultados son muy distintos.

Si tomamos el periodo completo la tasa de crecimiento del ingreso de los mexicanos fue

de 1,6 %. Pero durante ese periodo hubo una diferencia notable entre lo que se vio entre

1960 y 1981, con un crecimiento de 3,3% y luego entre 1982 y 2005, con un crecimientode tan slo 0.6%. Este cambio, el cual resulta evidente a simple vista en la figura 3.12,

corresponde a lo que se denominacambio estructural.

Si tenemos un modelo con varios regresores es probable que no sea fcil encontrar

cambios estructurales con un simple anlisis grfico, caso en el que podemos recurrir

a un test F denominadocontraste de Chow de cambio estructural. El test planteacomo hiptesis nula que un todas las observaciones provienen de un mismo PGD y

como hiptesis alternativa plantea que, dividiendo la muestra en dos, ambas submuestras

provienen de PGD distintos (por ejemplo, que la economa mexicana tuvo tasas de

crecimiento distintas en los dos periodos analizados).


21/22


Supongamos que H1 plantea un cambio estructural de la economa mexicana en

1981. Para construir el estadstico de prueba partimos creando una variable binaria

(llammosla Dummy), que toma el valor 0 en la submuestra 1960-1981 y el valor 1 en

la submuestra 1982-2005. Con ella corremos la regresin auxiliar

ln(PIB)= 0+ 1Ao + 0Dummy + 1Dummy Ao +,Note que el valor ajustado de esta regresin es

ln(PIB)=

0+ 1Ao, si Ao 1980

0+ 0+ (1+1)Ao, si Ao>1980

As, cuando Ao >1980 la contante de la recta aumenta en 0 y su pendienteaumenta en 1. Bajo la hiptesis nula de que no hay diferencia entre los PGDs de ambasmuestras se cumple H0:0= 1= 0. Para rechazarla evaluamos el estadstico F (ver

(3.14)) de restricciones lineales mltiples,

F=(urur uu)/(q)

uu/(n k) Fq,nk (3.25)

donde urcorresponden a los residuos de una regresin MCO restringida (con los q

regresores excluidos),q denota el nmero de regresores que han sido restringidos a cero

y urepresentan los residuos del modelo MCO original.

Figura 3.12:Ingreso per cpita en Mxico

(a)1 modelo vs. 2 modelos

1960 1970 1980 1990 2000

8,2

8,4

8,6

8,8

9

Ao

ln(PIB)

(b)Test de Chow

1960 1965 1970 1975 1980 1985 1990 1995 2000 2005

0

50

100

150

Ao

EstadsticoF

La figura 3.12 ayuda a

ilustrar la lgica del contras-

te. Si la suma de residuoscuadrados de la regresin

subdividida en muestras es

mucho menor que la suma de

residuos cuadrados de la re-

gresin restringida, entonces

el estadstico F ser elevado.

En la figura ?? se muestra co-

mo el estadstico F del test de

Chow alcanza un mximo en

el ao 1983, indicando que

esa en esa fecha se registra el

mayor cambio de tendencia

del crecimiento del PIB en

Mxico (el grfico se obtuvo

efectuando el test de Chow

para cada ao). Pero tambin

los valores cercanos a 1983

tienen un estadstico de prue-

ba elevado. As, por ejemplo,

el resultado de la regresin auxiliar para un cambio estructural en 1981,

ln(PIB)= 55,56 + 0,0327Ao + 52,47Dummy0,0265Dummy Ao,


22/22


tiene un contraste F asociado aH0:0=1=0de F2;41= 83,885, cuya significanciaes prcticamente cero (3,231015).

Fjese que el resultado de la regresin auxiliar corresponde al resultado obteni-

do el segundo y tercer modelo de la tabla 3.9(sume a la constate y a la pendiente los

coeficientes asociados a Dummy y obtendr el resultado de la regresin para 1981-2005).

Pendiente: ejemplo outliers.