1 Conceptos estadísticos

110
Chapter 2 Conceptos Estadísticos 2.1 Funciones Aleatorias Uno de los elementos más importantes de la econometría y estadística se reere al concepto de función o variable aleatoria. En esta sección se desar- rollan los conceptos necesarios para entender a profundidad en qué consiste una función o variable aleatoria, ilustrada con una serie de ejemplos. Denición. Sea S un conjunto y sea S una familia de subconjuntos de S. S se denomina σ-algebra si se dan tres condiciones. 1. ,S S 2. A S A c = S ÂA S 3. A n S ,n =1, 2, 3...., ⇒∪ n=1 A n S Ejercicio. S = {1, 2, 3, 4}. Evaluar si S = {, {1, 2, 3, 4}} es σ-algebra. Este ejemplo muestra que la condición (1) se cumple. Además si A = {} entonces vemos que su complemento A c = {{1, 2, 3, 4}} también pertenece a S (condición 2). Por último, vericando la condición (3), si A 1 = ,A 2 = {1, 2, 3, 4} entonces la unión de ambos conjuntos también pertenece al σ- algebra: 2 n=1 A n S .¥ Ejercicio. S = {1, 2, 3, 4}. Evaluar si el conjunto S es σ-algebra: S = {, {1}, {2}, {2, 3, 4}, {1, 3, 4}, {1, 2}, {3, 4}, {1, 2, 3, 4}} 3

Transcript of 1 Conceptos estadísticos

Page 1: 1 Conceptos estadísticos

Chapter 2

Conceptos Estadísticos

2.1 Funciones Aleatorias

Uno de los elementos más importantes de la econometría y estadística serefiere al concepto de función o variable aleatoria. En esta sección se desar-rollan los conceptos necesarios para entender a profundidad en qué consisteuna función o variable aleatoria, ilustrada con una serie de ejemplos.Definición. Sea S un conjunto y sea S una familia de subconjuntos de S.

S se denomina σ-algebra si se dan tres condiciones.

1. ∅, S ∈ S

2. A ∈ S ⇒ Ac = SÂA ∈ S

3. An ∈ S, n = 1, 2, 3....,⇒ ∪∞n=1An ∈ S

Ejercicio. S = 1, 2, 3, 4. Evaluar si S = ∅, 1, 2, 3, 4 es σ-algebra.Este ejemplo muestra que la condición (1) se cumple. Además si A = ∅

entonces vemos que su complemento Ac = 1, 2, 3, 4 también pertenece aS (condición 2). Por último, verificando la condición (3), si A1 = ∅, A2 =1, 2, 3, 4 entonces la unión de ambos conjuntos también pertenece al σ-algebra: ∪2n=1An ∈ S.¥

Ejercicio. S = 1, 2, 3, 4. Evaluar si el conjunto S es σ-algebra: S =∅, 1, 2, 2, 3, 4, 1, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4

3

Page 2: 1 Conceptos estadísticos

4 CHAPTER 2 CONCEPTOS ESTADíSTICOS

Aquí se puede apreciar que las dos primeras condiciones se cumplen fá-cilmente. Para el caso de la segunda condición, si por ejemplo se defineA = 2, entonces su complemento Acestá en el conjunto S y esto se dá paratodo conjunto potencial A. Cada uno de los ocho elementos que pertenecen aS pueden ser operados con el operador Union para todo n, y siempre es posi-ble verificar que dicha unión pertenece al conjunto S, el conjunto σ-algebra.¥

Ejercicio. S = 1, 2, 3, 4. Evaluar si el conjunto S es σ-algebra: S =∅, 1, 2, 2, 3, 4, 1, 3, 4, 1, 2, 3, 4Aquí se puede apreciar que las dos primeras condiciones se cumplen fá-

cilmente. Para el caso de la segunda condición, si por ejemplo se defineA = 2, 3, 4, entonces su complemento Acestá en el conjunto S y esto sedá para todo conjunto potencial A. Cada uno de los seis elementos quepertenecen a S pueden ser operados con el operador Union para todo n. Eneste caso es posible verificar que dicha unión no siempre pertenece al conjuntoS, por ejemplo 1, 2 /∈ S. Luego, el conjunto S no es σ-algebra.¥

Definición. Un par (S,S), conformado por un conjunto S y su σ-algebraS de sus subconjuntos se denomina espacio medible. Cualquier conjuntoA ∈ S se denomina conjunto medible.

Definición. Sea A el conjunto de intervalos abiertos en < :

(−∞, b), (a, b), (a,+∞), (−∞,+∞)Cada σ-algebra que contenga A debe también contener todos los inter-

valos cerrados (complementos). La menor σ-algebra que contenga todos losconjuntos o intervalos abiertos se denomina Borel-algebra, y se denota porB. Cualquier conjunto que pertenezca a B se denomina conjunto de Borel.

Definición. Sea (S,S) un espacio medible. Una medida es una funciónreal extendida µ : S → <, tal que se dan las siguientes tres condiciones(< ≡ < ∪ −∞,+∞):

1. µ(∅) = 0

2. µ(A) ≥ 0,∀A ∈ S3. Si An∞n=1 es un conjunto de secuencias disjuntas numerables (conta-bles) en S, entonces µ (∪∞n=1An) =

P∞n=1 µ(An).

Page 3: 1 Conceptos estadísticos

2.1 FUNCIONES ALEATORIAS 5

Definición. Un espacio medida es una tripleta (S,S, µ), donde S es unconjunto, S es el σ-algebra de sus subconjuntos, y µ es una medida definidaen S.Definición. Si µ(S) = 1, entonces µ no se denomina medida sino que

medida de probabilidad, y la tripleta (S,S, µ) se denomina espacio de prob-abilidad, en lugar de espacio de medida. Luego en este caso el conjuntomedible A ∈ S se denomina evento, y µ(A) se denomina probabilidad delevento A. Aquí usualmente se cambia la notación a P(A), es decir la tripletaes (S,S,P).Definición. Dado un espacio medible (S,S), una función de valor real η

es medible con respecto a S, es decir es S-medible, si:

ω ∈ S|η(ω) < x ∈ S, ∀x ∈ < (2.1)

Si este espacio es un espacio de probabilidad, entonces η se denominaVARIABLE ALEATORIA.

Ejemplo. Considere el conjunto S = 1, 2, 3, 4, y el σ-algebra S =∅, 1, 2, 2, 3, 4, 1, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4. Sea η : S → <,donde:

η (1) = 20

η (2) = 5

η (3) = 6

η (4) = 7

Para verificar si η es una función medible, se debe analizar la condiciónrepresentada en la definición de lo que es una función medible:

Si x = 1⇒ ω ∈ S|η(ω) < x = ∅ ∈ SSi x = 6.5⇒ ω ∈ S|η(ω) < x = 2, 3 /∈ SSi x = 7.5⇒ ω ∈ S|η(ω) < x = 2, 3, 4 ∈ SLuego dado que para x = 6.5 la condición no se cumple, entonces η no es

una función medible¥.11S hubiese sido el caso que η(3) = η(4) = c, para alguna constante c, entonces la función

η habría sido medible.

Page 4: 1 Conceptos estadísticos

6 CHAPTER 2 CONCEPTOS ESTADíSTICOS

Finalmente, dado que ω ∈ S|η(ω) < x ∈ S, se le puede aplicar eloperador µ, puesto que µ : S → <, es decir:

µ (ω ∈ S|η(ω) < x) ∈ <en donde si µ es una medida de probabilidad, entonces:

P (ω ∈ S|η(ω) < x) ∈ [0, 1]

2.2 Funciones de Distribución de Densidad

Toda variable aleatoria X puede ser representada a través de una función deprobabilidad de conjuntos, la cual en su representación contínua se denotapor:

P (A) =ZA

f (x) dx

o para el caso generalizado de un conjuntoA con k = 1, 2, ...,K elementos:

P (A) =Z

...

ZA

f (x1,x2,x3,...xK) dx1dx2dx3...dxK

La función de probabilidades asociada a un evento se puede represen-tar por la figura N2.1, donde el área sombreada denota la probabilidad deocurrencia del evento A = X = x|a < x < b, asociada a que la variablealeatoria X tome un valor entre a y b.Considerando que A ∈ S, las funciones de probabilidad son no negativas,

es decir f (x) ­ 0, y tienen la característica de que P(S) = 1, lo cual puedeser representado por:

P (S) =ZS

f (x) dx = 1

o para el caso generalizado de un conjunto S con n elementos:

P (S) =Z

...

ZS

f (x1,x2,x3,...xn) dx1dx2dx3...dxn = 1

Ejemplo. Considere el evento A = x|0 < x < 1. Si f(x) = e−x,entonces:

P (A) =ZA

f (x) dx =

Z 1

0

e−xdx = 1− 1e¥

Page 5: 1 Conceptos estadísticos

2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 7

Figure 2.1: Función de Distribución Univariada

Ejercicio. Sea la función de densidad f(x, y) =

6x2y si x ∈ (0, 1), y ∈ (0, 1)0 en otro caso

.La probabilidad de que ocurra el evento A =

©(x, y)|0 < x < 3

4, 13< y < 2

ªse denota por

R 340

R 1136x2ydxdy = 3

8.¥

2.2.1 Distribuciones Condicionales y Marginales

El teorema de Bayes que di existen dos eventos A y B, entonces P [A,B] =P [A] · P [B|A] = P [B] · P [A|B] y que para el caso en que A,B son eventosindependientes, P [A,B] = P [A] · P [B].De igual manera podemos analizar funciones de distribución contínuas. Si

por ejemplo x1, x2 son v.a. con una función de distribución conjunta f (x1, x2)entonces podemos definir a la función de distribución marginal de x1 y de x2

Page 6: 1 Conceptos estadísticos

8 CHAPTER 2 CONCEPTOS ESTADíSTICOS

respectivamente como:

f 0 (x1) =Z ∞

−∞f (x1, x2) dx2

f 0 (x2) =Z ∞

−∞f (x1, x2) dx1

Dado la definición de la función de distribución marginal y en conjuntocon el teorema de Bayes, es posible definir la distribución para x1 condicionalen x2, y la distribución para x2 condicional en x1 respectivamente como:

f (x1|x2) = f (x1, x2)

f 0 (x2)

f (x2|x1) = f (x1, x2)

f 0 (x1)

donde es posible verificar queR∞−∞ f (x1|x2) dx1 =

R∞−∞ f (x2|x1) dx2 = 1:Z ∞

−∞f (x1|x2) dx1 =

Z ∞

−∞

f (x1, x2)

f 0 (x2)dx1

=1

f 0 (x2)

Z ∞

−∞f (x1, x2) dx1 =

1

f 0 (x2)· f 0 (x2)

= 1

Ejercicio. Si f (x1, x2) =

2, si 0 < x1 < x2 < 1

0 en otro caso

, entonces:f 0 (x1) =

Z ∞

−∞f (x1, x2) dx2 =

Z 1

x1

2dx2 = 2|1x1 = 2 (1− x1)

f 0 (x2) =Z ∞

−∞f (x1, x2) dx2 =

Z x2

0

2dx1 = 2|x20 = 2x2

f (x1|x2) = f (x1, x2)

f 0 (x2)=

2

2x2=1

x2

f (x2|x1) = f (x1, x2)

f 0 (x1)=

2

2 (1− x1)=

1

(1− x1)Z ∞

−∞f (x1|x2) dx1 =

Z ∞

−∞

2

2x2dx1 =

1

x2(x2 − 0) = 1Z ∞

−∞f (x2|x1) dx2 =

Z ∞

−∞

2

2 (1− x1)dx2 =

1

(1− x1)(1− x1) = 1¥

Page 7: 1 Conceptos estadísticos

2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 9

2.2.2 Función Generadora de Momentos

La función generadora de momentos, si existe (condición de integrabilidad),y dado que es única, permite obtener todos los momentos de una distribuciónque sea factible generar. Para el caso en que tenemos X1, X2, ....,Xn v.a.,podemos definir a la función generadora de momentos M como:

M (φ1, φ2, ..., φn) = E£eφ1X1+φ2X2+...φnXn

¤= E

£eφ1X1eφ2X2 ...eφnXn

¤= E

£eφ1X1

¤E£eφ2X2

¤.....E

£eφnXn

¤= M (φ1)M (φ2) .....M (φn)

= Πni=1M (φi)

expresión válida si las v.a. son independientes entre sí.Al deribar dos veces la función generadora de momentos con respecto al

parámetro φi y evaluando tales deribadas en un vector de φi = 0, se obtiene:

∂M (0, 0, ..., 0)

∂φi= E [Xi]

∂2M (0, 0, ..., 0)

∂φ2i= E

£X2

i

¤de manera que la varianza de una v.a. Xi se puede generar a partir de:

σ2 =∂2M (0, 0, ..., 0)

∂φ2i−·∂M (0, 0, ..., 0)

∂φi

¸2= E

£X2

i

¤− [E [Xi]]2

2.2.3 Independencia Estocástica

Sean X1, X2, ....,Xn v.a. Entonces serán estocásticamente independientes sise da que la función f (x1, x2, ...., xn) que se denomina de verosimilitud, sepuede expresar como multiplicaciones de densidades marginales de cada v.a.,es decir:

f (x1, x2, ...., xn) = f 0 (x1) f 0 (x2) ...f 0 (xn) = Πni=1f

0 (xi)

Page 8: 1 Conceptos estadísticos

10 CHAPTER 2 CONCEPTOS ESTADíSTICOS

Ejercicio. Verifiquemos si X1,X2 son estocásticamente independientes,cuando la función de densidad conjunta está definida por:

f (x1, x2) =

½x1 + x2 si 0 < x1 < 1 y 0 < x2 < 1

0 en otro caso

¾

En este caso tenemos que las funciones marginales serán:

f 0 (x1) =½R 1

0(x1 + x2) dx2 = x1 +

12si 0 < x1 < 1

0 en otro caso

¾f 0 (x2) =

½R 10(x1 + x2) dx1 =

12+ x2 si 0 < x2 < 1

0 en otro caso

¾

Luego es posible verificar si f (x1, x2)?= f 0 (x1) f 0 (x2).

½x1 + x2 si 0 < x1 < 1 y 0 < x2 < 1

0 en otro caso

¾?=

½x1 +

12

0

¾½12+ x20

¾

Claramente (x1 + x2) 6=¡x1 +

12

¢ ¡12+ x2

¢, luego X1, X2 NO son estocásti-

camente independientes.¥

2.2.4 Funciones de Distribución más Conocidas

Existen diversas formas funcionales para describir una variable aleatoria,dependiendo primordialmente de si es contínua o discreta. A continuación sedetalla las principales funciones de probabilidades para variables aleatoriasdiscretas y continuas, presentando las principales características de cada unade ellas.

Page 9: 1 Conceptos estadísticos

2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 11

Table 2.1: Funciones de Distribución Discretas

Nombre Notación Función FGM Media-Varianza

Binom ial x ∼ b (n, p)

n!x!(n−x)!p

x1 (1− p1)

n−x , x = 0, 1, 2, ....

[(1− p1) + p1et]n

np1 np1 (1− p1)

Trinom ial x, y ∼ t (n, p1, p2)

n!x!y!(n−x−y)!p

x1p

y2 (1− p1 − p3)

n−x−y , x, y = 0, 1, 2, ....

[(1− p1 − p2) + p1et1 + p2e

t2]n

E [X]=np1 E [Y ]=np2

σ2x=np1 (1− p1) σ2y=np2 (1− p2)

Poisson x ∼ P (λ)

λxe−λx!

, x = 0, 1, 2, ....

eλ(et−1)

λ λ

Una de las funciones más utilizadas en econometría con el fin de testearhipótesis sobre algun parámetro (o combinación lineal de parámetros) es lat-Student. Como anécdota, W. S. Gossett fue quien descubrió esta distribu-ción mientras trabajaba en la empresa de cervezas Guinness. Esta estipulabaque no era permitido publicar el trabajo de los miembros de su equipo, locual lo llevó a publicarla bajo el pseudónimo de Student. La siguiente figurapresenta una gráfica entre la normal estandarizada y una t-Student de 4 gra-dos de libertad.

Page 10: 1 Conceptos estadísticos

12 CHAPTER 2 CONCEPTOS ESTADíSTICOS

420-2-4

0.5

0.375

0.25

0.125

0

x

y

x

y

Función de Distribución N(0, 1) y t-Student con λ = 5 (azul)

Existen teoremas que permiten relacionar distintas funciones de distribu-ción. Entre los más utilizados consideremos los siguientes:

Teorema. Si una v.a es generada por una función de distribución normalestandarizada, entonces el cuadrado de esa variable se distribuye según unachi-cuadrada con un grado de libertad. Es decir, analíticamente, si x˜N(0, 1)enronces x2˜χ2 (1).

Teorema. Si existe un vector de v.a cada una generada por una distribu-ción χ2 cada una con sus respectivos grados de libertad, entonces la sumade ellas también posee una distribución chi-cuadrada y posee los grados delibertad que resultan de sumar individualmente los grados de libertad de suscomponentes. Es decir, analíticamente, si x1˜χ2 (r1), x2˜χ2 (r2), x3˜χ2 (r3),...., y xn˜χ2 (rn), entonces

Pni=1 xi˜χ

2 (Pn

i=1 ri).

Ejercicio. Considere una función de distribución Poisson definida por:

f (x) =

λxe−λx!

para x = 0, 1, 2, .....

0 de otra manera

La función generadora de momentos para esta Poisson es:

M (t) =∞Xx=0

λxe−λ

x!etx = e−λ

∞Xx=0

(λet)x

x!

Page 11: 1 Conceptos estadísticos

2.2 FUNCIONES DE DISTRIBUCIÓN DE DENSIDAD 13

y se sabe queP∞

x=0ϕx

x!→ eϕ, entonces:

M (t) = e−λeλet

= eλ(et−1)

=⇒ M 0 (0) = λ

M 00 (0) = λ+ λ2

=⇒ σ2P = λ

Dado lo anterior, si asumimos que λ = 2, entonces ¿ cuál es la probabili-dad de que x ≥ 1?

P [X ≥ 1] = 1− P [X = 0]

= 1− f (0)

= 1− 20e−2

0!= 1− e−2

= 0.865

Siguiendo con la función de distribución Poisson, ¿ cuál es la probabilidadde que X esté entre 0 y 8, excluyendo 0 y 8?

P [0 < X < 8] = P [X ≤ 7]− P [X = 0]

= 0.949− 0.018= 0.931¥

Ejercicio. Si sabemos que:

x1˜N (µ1, σ21) =⇒Mx1 (t) = e

µµ1t+

σ21t2

2

x2˜N (µ2, σ22) =⇒Mx2 (t) = e

µµ2t+

σ22t2

2

entonces ¿cuál es la distribución de Y = X1 +X2, si ambas son variablesestocásticamente independientes?

My (t) = E£etY¤= E

£et(X1+X2)

¤= E

£etX1

¤E£etX2

¤= e

µµ1t+

σ21t2

2

¶e

µµ2t+

σ22t2

2

= e

Ã(µ1+µ2)t+

(σ21+σ22)t22

!

=⇒ Y ˜N¡µ1 + µ2, σ

21 + σ22

¢¥

Page 12: 1 Conceptos estadísticos

14 CHAPTER 2 CONCEPTOS ESTADíSTICOS

Ejercicio. Si X˜N (0, 1), entonces ¿cuál es la distribución de Y = X2?Para responder esta pregunta podemos partir de la función generadora demomentos de Y :

My (t) = E£etY¤= E

hetX

2i=

Z ∞

−∞

etx2

√2π

e−x2

2 dx

=

Z ∞

−∞

1√2π

e−(1−2t)x2

2 dx

Mediante una transformación de variables z = xp(1− 2t), por lo tanto:

z2 = x2 (1− 2t)dz = dx

√1− 2t

es decir que:

My (t) =

Z ∞

−∞

1√2π

e−z2

2√1− 2tdz

pero comoR∞−∞

1√2πe−

z2

2 dz = 1, entonces:

My (t) = (1− 2t)−12

Recordando que la función generadora de momentos para una chi-cuadradoes

Mχ2 (t) = (1− 2t)−r2

entonces podemos decir que Y ˜χ2 (1) .¥Ejercicio. Sabemos que si V ˜χ2 (r) yW˜N (0, 1), entonces T = W√

Vr

˜t (r).

Dado lo anterior, ¿cuál es la distribución de t2?Sabemos que t2 = W 2

Vr

donde en numerador es χ2 (1) y el numerador del

denominador sigue una χ2 (r). ESto implica que la función t2 sigue unadistribución Fisher, con grados de libertad 1 y r, es decir t2˜F (1, r) .¥

2.3 Momentos de una Distribución

Sea x una v.a. cuya pdf se representa por f(x).Definición. La expectativa matemática de U(X) se representa por:

Page 13: 1 Conceptos estadísticos

2.3 MOMENTOS DE UNA DISTRIBUCIÓN 15

E [U (X)] =

Z ∞

−∞U (x) f (x) dx =

Xx

U (x) f (x)

Para el caso de un vector de eventos X1,X2,X3, ..., Xn se tiene que:

E [U (X1, X2, X3, ...,Xn)] =

Z ∞

−∞.....

Z ∞

−∞U (x1, x2, x3, ..., xn)

f (x1, x2, x3, ..., xn) dx1dx2dx3....dxn

Como tal, es posible demostrar que la expectativa matemática de unapoderación de v.a. es equivalente a la ponderación de las expectativas matemáti-cas, es decir:

E

"nXi=1

hixi

#=

nXi=1

hiE [xi]

Ejercicio. Sea f (x) =

2 (1− x) , x ∈ (0, 1)0, x /∈ (0, 1)

.

E [X] =

Z ∞

−∞xf (x) =

Z 1

0

2 (1− x) dx =1

3

E£X2¤=

Z ∞

−∞x2f (x) =

Z 1

0

2x (1− x) dx =1

6

E£6X2 + 3X

¤= 6E

£X2¤+ 3E [X] = 2¥

2.3.1 Media y Varianza

Los primeros momentos más comunes en el análisis de cualquier serie esla media y la varianza (o desviación estándar). Utilizando la nomenclaturaanterior, es posible decir que para el caso especial donde U (X) = x, entoncesla media poblacional se define por, E [X] = µ, y si ahora U (X) = (X − µ)2 ,entonces la varianza poblacional se definirá por: E

£(X − µ)2

¤= σ2.

El cálculo de la varianza se simplifica al utilizar el siguiente resultado,que indica que la varianza de una v.a es equivalente a la diferencia entre elvalor esperado del cuadrado de la variable y el cuadrado del valor esperado

Page 14: 1 Conceptos estadísticos

16 CHAPTER 2 CONCEPTOS ESTADíSTICOS

de la variable, es decir:

σ2 = E£(X − µ)2

¤= E

£X2 − 2Xµ+ µ2

¤= E

£X2¤− 2µE [X] + µ2

= E£X2¤− E [X]2

De esta última expresión se verifica por qué en el campo de las finanzases usual asumir que la varianza de los retornos de un activo son equivalentesal promedio de los retornos históricos del activo, especialmente cuando setrabaja con series de tiempo de alta frecuancia como pueden ser datos diarios.Es común asumir que el valor esperado de un activo utilizando datos diarioses nulo, de manera que tal aproximación es válida. En capítulos posterioresse analizan aplicaciones cuando la volatilidad de los retornos de un activoes variable y se modela a partir de los retornos históricos (véase modelosGARCH).

2.3.2 Skewness

El tercer momento de una pdf se denomina skewness, y determina el gradode asimetría que posee una distribución. Para el caso de funciones simétricascomo la normal o la t-student, este coeficiente es cero, y analíticamente serepresenta por:

Sk =1

Tσ3

TXt=1

(xi − µ)3

donde T representa al tamaño muestral.Este indicador indica si la cola más larga de la distribución se encuentra

desviada hacia la derecha, centrada o desviada hacia la izquierda de la dis-tribución. Si la cola más larga se encuentra hacia la izquierda (derecha) dela distribución, el coeficiente de skewness será negativo (positivo) y se diráque la distribución es sesgada a la izquierda (derecha).Como todo estimador, el coeficiente tiene su propia distribución que se

deriva asintóticamente, y que permite hacer inferencia con muestras finitas.La distribución es una normal, con media cero y varianza 6/T , lo cual rep-

Page 15: 1 Conceptos estadísticos

2.3 MOMENTOS DE UNA DISTRIBUCIÓN 17

resentamos para T = 20, 50, 100 por la función de densidad:

f (s) =1q2π¡6T

¢e−0.5³ s2

6/T

´

Ska

˜N

µ0,6

T

210-1-2

1.5

1.25

1

0.75

0.5

0.25

0

x

y

x

y

Funciones de Distribución para el Coeficiente de Skewness: T = 20, 50, 100

La hipótesis nula H0 : Sk = 0 se evalúa a través de una tabla normalestandarizada con el siguiente estadístico:

zSk =Skq6T

˜N (0, 1)

En la medida que este estadístico sea superior en valor absoluto a 1.96 sedirá que rechazamos la hipótesis nula de que el coeficiente de skewness tieneun valor cero, es decir cumple con una de las características que posee unadistribución normal.Una alternativa es trabajar con los valores de probabilidad, que entregan

el área bajo la curva evaluada desde el valor del estadístico zSk y el infinito.Si esta probabilidad P [ψ > zSk ] > α%, entonces diremos que rechazamos lahipótesis nula con un α% de significancia.

Page 16: 1 Conceptos estadísticos

18 CHAPTER 2 CONCEPTOS ESTADíSTICOS

2.3.3 Kurtosis

El cuarto momento se denomina kurtosis, y determina si las colas tienen unamasa o altura superior, igual, o inferior a la de una distribución normal. Elcoeficiente de Kurtosis adopta un valor de 3 si las v.a. son generadas de unanormal, y analíticamente se representa por:

K =1

Tσ4

TXt=1

(xi − µ)4

La medida de referencia de este coeficiente para una distribución normales de 3 (mesokúrtica), de manera que si el estadístico es mayor que 3, entoncesla función tiene características de leptokurtosis (K > 3), mientras que sila distribución tiene un coeficiente menor a 3, entonces esta se denominaplatykúrtica (K < 3).

La función de distribución del coeficiente de kurtosis es 1/ 2p(2 · π · 24/100)·

exp¡−0.5 · ¡(x− 3)2 / (24/100))¢¢

f (s) =1q

2π¡24T

¢e−0.5µ(s−3)224/T

Ka

˜N

µ3,24

T

Page 17: 1 Conceptos estadísticos

2.3 MOMENTOS DE UNA DISTRIBUCIÓN 19

6420

1

0.75

0.5

0.25

0

x

y

x

y

Funciones de Distribución para el Coeficiente de Kurtosis: T = 20, 50, 100

Para testear la hipótesis nula de que K = 3 debemos calcular el estadís-tico:

zK =K − 3q

24T

˜N (0, 1)

En la medida que este estadístico sea superior en valor absoluto a 1.96 sedirá que rechazamos la hipótesis nula de que el coeficiente de kurtosis tieneun valor de tres, es decir cumple con una de las características que posee unadistribución normal.

2.3.4 Test de Normalidad de Jarque-Bera

Tal como se menciona en la sección de funciones de distribución, si sumamosdos funciones de distribución chi-cuadradas, la función resultante tambiénobedece a una distribución chi-cuadrada, teniendo los grados de libertadque resultan de sumar los grados de libertad de las funciones de densidadindividuales.Con este antecedente Jarque y Bera desarrollaron un estadístico que

evalúa en forma conjunta la hipótesis nula si el coeficiente de skewness yKurtosis toman valores de 0 y 3 respectiva y conjuntamente.

Page 18: 1 Conceptos estadísticos

20 CHAPTER 2 CONCEPTOS ESTADíSTICOS

Para generar el estadístico requiero sumar el cuadrado de dos funcionesde distribución estandarizadas como son zSk y zK:

(zSk)2 + (zK)

2 ˜χ2 (2)

=⇒ Skq

6T

2

+

K − 3q24T

2

˜χ2 (2)

=⇒ JB =T

6

·S2k +

1

4

³K − 3

´2¸˜χ2 (2)

Tal como se genera el estadístico cabe mencionar que este indicador tieneuna cota inferior en cero, es decir que no puede ser inferior a cero, de maneraque en la medida que se aleja de 0, ya sea porque el coeficiente de skewnessse aleja de 0 o porque el coeficiente de kurtosis difiere de 3, aumenta laprobabilidad de rechazar la hipótesis nula de que la distribución generadorade los datos proviene de una distribución normal.

2.3.5 Aplicación: Indice Accionario NASDAQ

Utilizando datos diarios del índice NASDAQ desde el 5 de febrero de 1971(fecha de su creación) al jueves 8 de marzo del año 2001, analicemos lasconclusiones que podemos obtener al analizar los cuatro primeros momentosde la distribución de los retornos de este índicador. La figura N2.2, elaboradaentrega los estadísticos relevantes para este análisis, junto con un histogramade los retornos accionarios del NASDAQ.El retorno promedio diario es de 0.044518% de manera que el retorno anu-

alizado (multiplicando por 240 días hábiles) corresponde a 10.68% promedio.De igual manera la desviación estándar diaria del NASDAQ alcanza a 0.89%,lo cual a tasa anualizada (multiplicando por

√240 ) representa un 13.78%.

El coeficiente de skewness del −1.24 genera un estadístico z de:

zSk =−1.24q

67106

= −42. 674

lo cual permite rechazar la hipótesis nula de que el coeficiente de skewnesses cero.

Page 19: 1 Conceptos estadísticos

2.3 MOMENTOS DE UNA DISTRIBUCIÓN 21

0

500

1000

1500

2000

2500

-12.5 -10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5

Serie: Retornos del NASDAQSample Febrero 1971 - Marzo 2001Observations 7106

Media 0.044518Mediana 0.109189Máximo 7.086021Mínimo -12.04784Dev. St. 0.889491Skewness -1.238488Kurtosis 17.14976

Jarque-Bera 61097.15Probabilidad 0.000000

Figure 2.2: Histograma y Estadísticos Básicos del NASDAQ

De igual manera el coeficiente de kurtosis que alcanza a 17.15, genera unestadístico z de:

zK =17.15− 3q

247106

= 243. 48

es decir rechazamos con fuerza que los retornos puedan ser representados poruna función con coeficiente de kurtosis de 3. Las características de leptokur-tosis son muy típicas de los retornor de precios de activos financieros. Granpresencia de retornos alejados del centro de la distribución (outliers) posi-tivos y negativos hacen que esta sea muy concentrada en la media y ademásen los extremos de la distribución.

El test de Jarque-Bera viene a complementar este resultado. El estadísticotoma un valor de 61,097.15, lo cual claramente queda fuera del nivel críticode una chi-cuadrado con dos grados de libertad. La probabilidad que sereporta es cercana a cero, indicando en este caso que la probabilidad de quelos retornos del NASDAQ provengan de una distribución normal es casi nula.

Page 20: 1 Conceptos estadísticos

22 CHAPTER 2 CONCEPTOS ESTADíSTICOS

Código GAUSS: Estadísticos Descriptivos

Un código en GAUSS que se puede utilizar para generar el cálculode estos estadísticos se presenta a continuación (utilizando los datosdel NASDAQ):

load p[7107,1]=a:\nasdaq.txt;r=ln(p./lag1(p))*100;r=r[2:rows(r)];”La Media es : ”;;meanc(r);”La STDC es : ”;;stdc(r);”La STDCs es : ”;;stdc(r)*sqrt((rows(r)-1)/rows(r));”La Minc es : ”;;minc(r);”La Maxc es : ”;;maxc(r);s=1/(rows(r)*stdc(r)^3)*sumc((r-meanc(r))^3);”La Skewness : ”;;s;” El P-Value del Skewness es : ”;;cdfnc(abs(s));k=1/(rows(r)*stdc(r)^4)*sumc((r-meanc(r))^4);”La Kurtosis : ”;;k;” El P-Value del Kurtosis es : ”;;cdfnc(abs(k));jb=rows(r)/6*(s^2+.25*(k-3)^2);” El Jarque-Bera Statistic es : ”;;jb;” El P-Value del JB es :”;;cdfchic(jb,2);

2.4 Inferencia

Dado que no es posible conocer los valores de los parámetros poblacionales,la econometría nos ayuda a obtener una aproximación de estos a través delos parámetros estimados con al muestra disponible. El punto consiste entener una métrica para evaluar la exactitud de estos estimadores puntuales.Sesgo, eficiencia y error cuadrático medio son tres propiedades que se puedenestudiar para los estimadores.

Page 21: 1 Conceptos estadísticos

2.4 INFERENCIA 23

2.4.1 Sesgo

Definición. Un estimador λ de un parámetro poblacional λ se dice insesgadosi su media muestral es λ. Es decir:

Ehλi= λ

O alternativamente, si definimos sesgo como la diferencia entre el valoresparado y el valor poblacional de un parámetro, entonces λ se dirá insesgadosi su sesgo es cero, es decir:

Sesgohλ|λi= E

hλ− λ

i= 0

Ejercicio. Demuestre que la definición para la varianza poblacional s2 esinsesgada:

s2 =

Pt=Tt=1 (xt − x)2

T − 1Para demostrar esta proposición, es suficiente recordar que el siguiente

estadístico tiene una distribución chi-cuadrado con (T−1) grados de libertad,es decir que:

(T − 1) s2

σ2˜χ2 (T − 1)

Como el valor esperado de una chi-cuadrado es equivalente a sus grados delibertad, es decir en este caso T − 1 (y la varianza es igual al doble de susgrados de libertad, 2(T − 1)), entonces dado que:

E£χ2 (T − 1)¤ = (T − 1)

=⇒ s2˜σ2

(T − 1)χ2 (T − 1)

=⇒ E£s2¤=

σ2

(T − 1) (T − 1)=⇒ E

£s2¤= σ2¥

es decir el valor esperado del estimador s2 es insesgado pues su esperanzamatemática es igual al valor poblacional del parámetro analizado σ2.

Page 22: 1 Conceptos estadísticos

24 CHAPTER 2 CONCEPTOS ESTADíSTICOS

2.4.2 Eficiencia

Puede darse el caso en que se tenga dos estimadores insesgados y sea necesariodecidir cuál se utilizará para hacer la estimación del parámetro poblacional.Idealmente si tenemos dos estimadores insesgados "es mejor" escoger aquelque es "más certero" en su estimación, es decir aquel que posee una distribu-ción "más angosta" o centrada en su valor medio. Un concepto que estáligado a este segundo momento de la distribución es el de eficiencia.Definición. Un estimador insesgado λ1 es más eficiente que otro estimador

insesgado λ1, si la varianza muestral del primer estimador es inferior a lavarianza muestral del segundo estimador. Es decir, λ1 es más eficiente queλ2 si:

V³λ1´< V

³λ2´

Sin embargo, existe la posibilidad de verse obligado a escoger entre dosestimadores, uno de los cuales es insesgado pero de gran varianza, mientrasexiste otro que está levemente sesgado pero es de menor varianza. Parasolucionar tal ambiguedad se ha desarrollado el concepto de Error CuadráticoMedio (ECM), el cual pondera de manera equivalente el sesgo (al cuadrado)y la varianza de los estimadores, de manera que uno puede descanzar en estecriterio para escoger el estimador que posee menor ECM.Definición. El Error Cuadrático Medio (ECM) se define por:

ECM³λ´= E

·³λ− λ

´2¸= E

·³λ−E

³λ´+E

³λ´− λ

´2¸= E

·³λ−E

³λ´´2¸

+Eh2³λ−E

³λ´´³

E³λ´− λ

´i+

E

·³E³λ´− λ

´2¸= E

·³λ−E

³λ´´2¸

+E

·³λ−E

³λ´´2¸

=hSesgo

³λ´i2

+ V arianza³λ´

Ejercicio. Los estimadores más conocidos para la varianza poblacional

Page 23: 1 Conceptos estadísticos

2.4 INFERENCIA 25

son el s2 y el estimador de máxima verosimilitud σ2MLE. Analice las carac-terísticas de los ambos estimadores:

s2 =

Pt=Tt=1 (xt − x)2

T − 1σ2MLE =

Pt=Tt=1 (xt − x)2

T

Es útil considerar que (T − 1) s2

σ2˜χ2 (T − 1) de manera que analicemos

primero las características de sesgo de ambos estimadores:

s2˜ σ2

(T−1)χ2 (T − 1)

σ2MLE˜σ2

Tχ2 (T − 1) = (T−1)

Ts2

Al aplicar operador expectativa podemos ver que el estimador σ2MLE es ses-gado mientras que s2 es insesgado:

E [s2] = Eh

σ2

(T−1)χ2 (T − 1)

i= σ2

(T−1)E [χ2 (T − 1)] = σ2

E£σ2MLE

¤= E

hσ2

Tχ2 (T − 1)

i= (T−1)

TE [s2] = (T−1)

Tσ2 < σ2

E£σ2MLE

¤< σ2 = E [s2]

Esto nos indica que el sesgo de σ2MLE es distinto de cero:

E£σ2MLE − σ2

¤=(T − 1)

Tσ2 − σ2

=−1T

σ2 < 0

Con respecto a la varianza de ambos estimadores, sabemos que la varianzade una distribución chi-cuadrado es equivalente al doble de sus grados delibertad, de manera que fácilmente podemos verificar el valor de las varianzaspara ambos estimadores:

V [s2] = Vh

σ2

(T−1)χ2 (T − 1)

i=³

σ2

(T−1)´2

V [χ2 (T − 1)] =³

σ2

(T−1)´22 (T − 1)

V£σ2MLE

¤= V

hσ2

Tχ2 (T − 1)

i=³(T−1)T

´2V [s2] =

³σ4

T 2

´2 (T − 1)

V£σ2MLE

¤< V [s2]

Page 24: 1 Conceptos estadísticos

26 CHAPTER 2 CONCEPTOS ESTADíSTICOS

podemos constatar que la varianza del estimador σ2MLE es menor a lavarianza del estimador insesgado s2, de manera que para escoger procedamosa calcular el ECM de cada estimador, y el criterio consistiría en escoger aquelestimador con menor ECM:

ECM (s2) =³

σ4

(T−1)2´2 (T − 1) = σ4

h2

(T−1)i

ECM¡σ2MLE

¢= σ4

T 2+³σ4

T 2

´2 (T − 1) = σ4

£2T−1T2

¤Considerando que ECM

¡σ2MLE

¢< ECM (s2), vemos que el estimador ses-

gado es más preciso pues la menor varianza de este más que compensa laponderación que recibe el sesgo en la función ECM.¥

2.5 Generación de Números Aleatorios

Page 25: 1 Conceptos estadísticos

2.5 GENERACIÓN DE NÚMEROS ALEATORIOS 27

Table 2.2: Funciones de Distribución Continuas

Nombre Notación Función FGM Media-Varianza

Gamma x∼ Γ (α, β)

1Γ(α)βα

xα−1e−xβ , 0 < x <∞

(1− βt)−α

αβ αβ2

Exponencia l x∼ Γ¡1, 1

λ

¢ λe−λx, 0 < x <∞¡1− t

λ

¢−11λ

1λ2

Chi-Cuadrada x∼ χ2 (r, θ)

1

Γ( r2)2r2xr2−1e

−x2 , −∞ < x <∞

(1− 2t)− r2 e

tθ(1−2t)

r + θ 2r + 4θ

Normal x∼ N (µ, σ2)

1√2πσ2

e−12(x−µ)2σ2 , −∞ < x <∞e

³µt+σ2t2

2

´

µ σ2

T-Student t ∼ t(r)T = z∼N(0,1)q

V ∼χ2(r)r

0 rr−2

F-Fisher F (r1, r2) F =u∼χ2(r1)

r1v∼χ2(r2)

r2

Page 26: 1 Conceptos estadísticos
Page 27: 1 Conceptos estadísticos

Part II

Modelos de Regresión

29

Page 28: 1 Conceptos estadísticos
Page 29: 1 Conceptos estadísticos

Chapter 3

Modelo con una VariableExplicativa

3.1 Modelo Simple

El modelo de regresión simple con una variable explicativa la podemos rep-resentar por:

yt = β0 + β1xt + εt para todo t = 1, 2, ...., T (3.1)

Esta expresión se puede representar gráficamente considerando por ejem-plo un modelo cuyo coeficiente de posición es 100 y cuya pendiente o coefi-ciente de sensibilidad (semielasticidad) es 0.9, es decir para el modelo teóricoy = 100 + 0.9 · x.

31

Page 30: 1 Conceptos estadísticos

32CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

52.50-2.5-5

104

102

100

98

96

x

y

x

y

Ecuación de la Lineal Recta: y = 100 + 0.9 · x

Dado que E [yt|xt] = β0 + β1xt entonces se puede decir que:

yt = E [yt|xt] + εt

En general toda variable puede descomponerse en una parte determinís-tica y una estocástica ε. Una vez que estimamos el modelo poblacional condatos muestrales llegamos a que la variable dependiente o endógena yt sedescompone en una parte estimada y un residuo muestral:

yt = β0 + β1xt + et

yt = β0 + β1xt

yt = yt + et

et = yt − β0 + β1xt

El método de los mínimos cuadrados ordinarios consiste en estimar loscoeficientes a través de un proceso de minimización de la siguiente funciónde pérdida, conocida como la suma de los residuos al cuadrado (SRC ):

$ (β0, β1) =t=TXt=1

e2t

=t=TXt=1

³yt − β0 − β1xt

´2

Page 31: 1 Conceptos estadísticos

3.1 MODELO SIMPLE 33

Analíticamente lo que el método de mínimos cuadrados hace es encontrarun punto mínimo en la superficie de una cierta función $ encontrando el parde coeficientes β0 y β1 a través restringir que el gradiente o las pendientesde esta función es cero en ambas dimensiones. Graficamente se representapor la siguiente función correspondiente al sigueinet problema cuto mínimose encuentra en el punto (0.005, 0.4158):P

xi = 6P

yi = 3P

yixi = 15Px2i = 36

Py2i = 10 T = 100

Vizualización del Método de los Mínimos Cuadrados

Para esto se requiere de obtener las condiciones necesarias de primer orden(CNPO) que correspponden a las primeras derivadas las cuales se igualan acero para generar un óptimo:

∂$ (β0, β1)

∂β0= 0

∂$ (β0, β1)

∂β1= 0

Según nuestro modelo estas ecuaciones se denominan ecuaciones normalesy se pueden escribir como:

Page 32: 1 Conceptos estadísticos

34CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

−2t=TXt=1

³yt − β0 − β1xt

´= 0

−2t=TXt=1

xt³yt − β0 − β1xt

´= 0

o de manera equivalente y de más fácil recordación (al dividir por −2):

t=TXt=1

et = 0

t=TXt=1

xtet = 0

El número de ecuaciones normales es equivalente al número de incógnitasdel modelo, es decir el conjunto de parámetros a estimar. Utilizando unarepresentación extensiva de las ecuaciones normales, estas se pueden escribircomo:

t=TXt=1

yt = T β0 + β1

t=TXt=1

xt

t=TXt=1

ytxt = β0

t=TXt=1

xt + β1

t=TXt=1

x2t

lo cual implica que la solución (en representación recursiva) de este sis-tema es:

β0 =

Pt=Tt=1 ytT

− β1

Pt=Tt=1 xtT

= y − β1x

β1 =

Pt=Tt=1 (xt − x) (yt − y)Pt=T

t=1 (xt − x)2=

Pt=Tt=1 (xt − x) ytPt=Tt=1 (xt − x)2

Ejercicio. A partir de la siguiente información para Y y X, determine losestimadores mínimo cuadrados para β0 y β1.

Y 2 4 6 8 10

X 1 2 3 4 5

Claramente los valores estimados corresponden a β0 = 0 y β1 = 2.¥

Page 33: 1 Conceptos estadísticos

3.1 MODELO SIMPLE 35

3.1.1 Aplicación: Betas Financieros en Indice Dow Jones

Consideremos los datos semanales (marzo 1994 a marzo 2001) del índicede precios de acciones americano Dow Jones y a seis de sus componentes(Citigroup, General Electric, Wal-Mart, Microsoft, Exxon, y Phillip Morris).El parámetro estimado β1 representa el coeficiente ”beta” que representa lacorrelación que existe entre los retornos de una acción y el valor de mercado.Analíticamente el modelo a estimar corresponde a:

(Rit −Rft) = β0 + β1 (RDJt −Rft) + εt, ∀i = 1, 2, ...6, y ∀t.

donde Rit corresponde al retorno en t de la acción i, Rft es la tasa librede riesgo, medida a través de la letra del tesoro americano a tres meses, yRDJt es el retorno diario del Dow Jones en t.

Activo β0 β1

Citigroup 0.135131 1.609109

General Electric 0.115481 1.205445

Wal-Mart 0.040995 1.150044

Microsoft 0.383609 0.941912

Exxon 0.077849 0.639781

Phillip Morris 0.110858 0.631160

La gran volatilidad relativa de la acción de Citigroup versus los retornosdel mercado se deduce de que el parámetro beta asociado alcanza un valorde 1.61, es decir que si el Dow Jones cae en 2%, entonces el valor de lasacciones de Citigroup caerá en 3.2%, es decir un 61% adicional. De igualmanera si el Dow Jones sube en un 5% entonces la acción de Citigroup subiráen un 8% aproximadamente. Esta característica hace que esta acción seaaltamente riesgosa y deba tener una baja (alta) ponderación en un portafolioconservador (agresivo).Phillip Morris tiende a ser la acción más estable en relación al mercado,

por lo que su porcentaje debiera ser alto (bajo) en un portafolio conservador(agresivo).

Page 34: 1 Conceptos estadísticos

36CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

3.2 Características del Modelo de Regresión

La metodología de la estimación de mínimos cuadrados, introduce ciertascaracterísticas a los residuos y estimaciones de la variable dependiente queson interesantes de destacar.

3.2.1 Suma de residuos muestrales es nulo

La primera tiene que ver con que el valor medio de los residuos es nulo, locual implica que la suma de los residuos es igual a cero.

t=TXt=1

et = 0

Esta característica es bastante trivial pues se deduce de la misma metodologíade los mínimos cuadrados, la cual impone a través de su primera ecuaciónnormal que esta suma sea cero.

Si el modelo de regresión posee una constante entonces la primera derivadaparcial, o primera expresión de ecuación normal, indicará que la suma de losresiduos muestrales es cero. Sin embargo si el modelo no posee una constanteen su formulación, esta condición no necesariamente se cumplirá pues nuncasurge como condición necesaria de primer orden al no tener nunca que derivarcon respecto a este parámetro. Puede sin embargo darse el caso que la rep-resentación de la data haga que este parámetro sea efectivamente cero, porejemplo si las series Y,X se entregan en forma de desviación de sus propiasmedias, lo cual implicaría que la suma de estos residuos también lo será.

3.2.2 Las series actuales y estimadas tienen igual me-dia

Esta característica se deduce de la noción que el valor actual de la variabledependiente se puede descomponer en lo que estima el modelo y el residuo

Page 35: 1 Conceptos estadísticos

3.2 CARACTERíSTICAS DEL MODELO DE REGRESIÓN 37

(lo que no estima el modelo):

yt = yt + et

=⇒t=TXt=1

yt =t=TXt=1

yt +t=TXt=1

et

=⇒ 1

T

t=TXt=1

yt =1

T

t=TXt=1

yt +1

T

t=TXt=1

et

pero como sabemos los residuos muestrales tienen una media de cero, esdecir su sumatoria es nula, luego:

1

T

t=TXt=1

yt =1

T

t=TXt=1

yt

=⇒ y =_

y

Una implicania de esta condición es que la metodología de los mínimoscuadrados hace que la curva de regresión que pasa a través de la nube depuntos pase justo por el punto que representa a la media de X y la media deY .

3.2.3 Los residuos no se correlacionan con la variableindependiente

Sabemos que el coeficiente de correlación entre es

ρeX =

Pt=Tt=1 (et − e) (xt − x)qPt=T

t=1 (et − e)2qPt=T

t=1 (xt − x)2

=

Pt=Tt=1 et (xt − x)qPt=T

t=1 (et − e)2qPt=T

t=1 (xt − x)2

Luego para verificar si el coeficiente de correlación muestral entre elresiduo y la variable independiente es nulo, bastaría con demostrar que lacovarianza entre ellos es nula tambien. Es así coo trabajando numéricamentecon el numerador se tiene:

t=TXt=1

et (xt − x) =t=TXt=1

etxt − xt=TXt=1

et

Page 36: 1 Conceptos estadísticos

38CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

Pero como sabemos de las condiciones de ortogonalidad, las ecuacionesnormales para β0 y β1 nos indican que los residuos ponderados por unos ypor la variable independiente x suman cero, es decir:

t=TXt=1

et = 0

t=TXt=1

xtet = 0

luego podemos decir quePt=T

t=1 et (xt − x) = 0, de manera que el coefi-ciente de correlación es también cero: ρeX = 0.

3.2.4 Los residuos no se correlacionan con la variabledependiente estimada

Al igual que para el caso anterior, es suficiente analizar que el numerador dela definición sea nulo, es decir:

ρeX =

Pt=Tt=1 (et − e) (yt − y)qPt=T

t=1 (et − e)2qPt=T

t=1 (yt − y)2

=

Pt=Tt=1 et (yt − y)qPt=T

t=1 (et − e)2qPt=T

t=1 (yt − y)2

luego debemos analizar siPt=T

t=1 et (yt − y) = 0.Dado que yt = β0 + β1xt, entonces podemos decir que:

t=TXt=1

etyt − yt=TXt=1

et =t=TXt=1

etyt =t=TXt=1

et³β0 + β1xt

´= β0

t=TXt=1

et + β1

t=TXt=1

etxt

= 0

Esta última igualdad proviene de las dos ecuaciones normales arriba men-cionadas:

Pt=Tt=1 et = 0 y

Pt=Tt=1 etxt = 0.

Page 37: 1 Conceptos estadísticos

3.3 EVALUACIÓN DEL AJUSTE: R2 39

3.3 Evaluación del Ajuste: R2

Qué tan buen ajuste efectúa el modelo a los datos es la pregunta que con-testa el coeficiente de determinación R2. Este explica que porcentaje de lavolatilidad de la variable dependiente es explicada por el modelo.Para llegar a tal representación es necesario recordar que:

yt = yt + et

=⇒ yt = β0 + β1xt + et

=⇒ yt =z | y − β1x+β1xt + et

=⇒ yt − y = β1 (xt − x) + et

=⇒ (yt − y)2 = β2

1 (xt − x)2 + e2t + 2β1 (xt − x) et

=⇒t=TXt=1

(yt − y)2 = β2

1

t=TXt=1

(xt − x)2 +t=TXt=1

e2t + 2β1

t=TXt=1

(xt − x) et

pero sabemos que el término de la derechaPt=T

t=1 (xt − x) et es igual acero, luego:

=⇒t=TXt=1

(yt − y)2 = β2

1

t=TXt=1

(xt − x)2 +t=TXt=1

e2t

=⇒ SCT = SCE + SCR

=⇒ R2 =SCE

SCT= 1− SCR

SCT= 1−

Pt=Tt=1 e

2tPt=T

t=1 (yt − y)2

De esta última expresión se puede concluir que el método de los mínimoscuadrados lo que hace indirectamente es maximizar el R2 de un modelo, puesel denominador no es modificable ni dependiente del vector de parámetrosβ, de manera que exiete una dualidad en ambos objetivos, es decir MinPt=T

t=1 e2t ⇐⇒Max R2.

Adicionalmente n o es difícil demostrar que existe una equivalencia entreel coeficiente de determinación y el coeficiente de correlación entre Y y X.Para esto, recordemos que SCE = β

2

1

Pt=Tt=1 (xt − x)2 y que el parámetro de

semielasticidad β1 =Pt=T

t=1 (xt−x)(yt−y)Pt=Tt=1 (xt−x)2

, entonces reemplazando esta expresión

en la definición de R2 llegamos a:

Page 38: 1 Conceptos estadísticos

40CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

R2 =SCE

SCT= β

2

1

Pt=Tt=1 (xt − x)2Pt=Tt=1 (yt − y)2

=

=⇒ R2 =

"Pt=Tt=1 (xt − x) (yt − y)Pt=T

t=1 (xt − x)2

#2Pt=Tt=1 (xt − x)2Pt=Tt=1 (yt − y)2

=⇒ R2 =

hPt=Tt=1 (xt − x) (yt − y)

i2Pt=T

t=1 (xt − x)2Pt=T

t=1 (yt − y)2

=⇒ R2 =

Pt=Tt=1 (xt − x) (yt − y)qPt=T

t=1 (xt − x)2qPt=T

t=1 (yt − y)2

2

=⇒ R2 = [ρY X ]2

Ejercicio. Considere la siguiente información generada de una base dedatos de coeficiente intelectual (variable y) y horas promedio de ver televisión(variable exógena x) de un grupo de n = 50 adolecentes:

y = 30 x = 15 n = 1, ..., 50P(yi − y)2 = 200

P(xi − x)2 = 80

P(xi − x) (yi − y) = −45

Se le pide computar el valor de los coeficientes considerando un modelo deregresión lineal del tipo yi = β0 + β1xi + i. Adicionalmente obtenga el R2

de la regresión estimada.Para primero determinar el valor de los coeficientes debemos recordar las

fórmulas de ambos estimadores y de allí comenzar a reemplazar los datos quese nos entregan en la matriz anterior:

β1 =

Pi=Ni=1 (xi − x) (yi − y)Pi=N

i=1 (xi − x)2=

Pi=50i=1 (xi − x) (yi − y)Pi=50

i=1 (xi − x)2

⇒ β1 =−4580

= −0.562 5

Reemplazando en la función que determina el coeficiente de posición β0:

β0 = y − β1x

⇒ β0 = 30− (−0.562 5) · 15 = 38. 438

Page 39: 1 Conceptos estadísticos

3.4 SUPUESTOS BÁSICOS SOBRE LOSRESIDUOS POBLACIONALES41

Ahora para calcular el coeficiente de deternminación R2 debemos calcular larazón de la suma de los cuadrados del modelo (o explicada) con la suma delos cuadrados totales, es decir R2 = SCE

SCT.

R2 =SCE

SCT= β

2

1

Pi=50i=1 (xi − x)2Pi=50i=1 (yi − y)2

= (−0.562 5)2 · 80200

= 0.126 56

Es decir el modelo explica solamente un 12.656% de la volatilidad de lavariable endógena o dependiente y, y la relación encontrada y = 38. 438−0.562 5 · x, se puede representar por la siguiente gráfica:

52.50-2.5-5

41.25

40

38.75

37.5

36.25

x

y

x

y

Representación Gráfica del Modelo Estimado

3.4 Supuestos Básicos sobre los Residuos Pobla-cionales

Un paso absolutamente necesario para hacer inferencia consiste en imponerciertos supuestos sobre los residuos poblacionales del modelo de regresión lin-eal. Estos permitirán que las distribuciones resultantes nos permitan efectuardiferentes tests de hipótesis a partir de las estimaciones de los coeficientes.Consideremos el modelo

yt = β0 + β1xt + εt

Page 40: 1 Conceptos estadísticos

42CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

La siguiente lista conforma los supuestos estándares que permitirán hacerinferencia sin tener que correjir el modelo estimado, y que permite tenerestimadores insesgados y eficientes (consistentes):1. Los errores teóricos tienen un valor esperado cero, es decir que de

existir una distribución para estos residuos, ella se asume centrada en cero:

E [εt] = 0 ∀t

2. Existe homoscedasticidad de los residuos teóricos, de manera que lavarianza de los errores poblacionales es similar e independientemente de t:

V [εt] = σ2 ∀t

3. No hay autocorrelación de los residuos, esto indica que los residuosentre si son ortogonales:

Cov [εt, εt±k] = 0 ∀t y ∀k 6= 0

4. No hay correlación entre el residuo poblacional εt y la variable exógenaxt, es decir con esto se impone una condición de ortogonalidad de los residuoscon la variable exógena:

Cov [xt, εt±k] = 0 ∀t y ∀k

5. Finalmente el supuesto más importante se refiere a la necesidad de quelos residuos provengan de una distribución normal:

εt˜N

Estas cinco condiciones se asumen presentes en un modelo de regresiónsimple y se pueden resumir notacionalmente al decir que el residuo tiene unadistribución normal, idéntica, e independiente distribuida, con valor esperadocero y varianza constante σ2. Es decir:

εtiid

˜N¡0, σ2

¢ ∀tEstos supestos permitiran determinar cuál es la distribución de los esti-

madores mínimo cuadrados de manera de que podamos comenzar a evaluarhipótesis que involucren a los parámetros poblacionales β0 y β1.

Page 41: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 43

3.5 Distribución de los Estimadores

Partamos del supuesto general ya discutido que señala que εtiid

˜N (0, σ2) ∀t.El procedimiento de determinación de las distribuciones de los estimadorespasa por distorcionar o cambiar la forma de la distribución de los residuospara así llegar finalmente a la distribución de β0 y β1.Entonces si modificamos la distribución por una constante β0 + β1xt (es

decir se traslada o "mueve" por una constante β0 + β1xt) se obtiene:

β0 + β1xt + εtiid

˜N¡β0 + β1xt, σ

2¢ ∀t

pero sabemos que yt = β0 + β1xt + εt lo cual indica que la distribución dela variable endógena es equivalente a la distribución del residuo poblacional,pero desplazada por una constante:

ytiid

˜N¡β0 + β1xt, σ

2¢ ∀t

Esto indica que E [yt|X = xt] = β0 + β1xt pues el residuo tiene un valoresperado de cero E [εt] = 0.Teniendo esto en cuenta recordemos que:

β1 =

Pt=Tt=1 (xt − x) (yt − y)Pt=T

t=1 (xt − x)2=

Pt=Tt=1 (xt − x) ytPt=Tt=1 (xt − x)2

Si reemplazamos la definición de yt en el modelo y multiplicamos cada factorse llega a:

β1 =

Pt=Tt=1 (xt − x) ytPt=Tt=1 (xt − x)2

=

Pt=Tt=1 (xt − x) (β0 + β1xt + εt)Pt=T

t=1 (xt − x)2=

= β0

Pt=Tt=1 (xt − x)Pt=Tt=1 (xt − x)2

+ β1

Pt=Tt=1 (xt − x)xtPt=Tt=1 (xt − x)2

+

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

Pero se puede demostrar quePt=T

t=1 (xt − x) = 0 y quePt=T

t=1 (xt − x)xt =Pt=Tt=1 (xt − x)2, de manera que llegamos a que el estimador para β1 se rep-

resenta por:

β1 = β1 +

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

Page 42: 1 Conceptos estadísticos

44CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

A partir de la expresión anterior es posible derivar los dos primeros mo-mentos de este estimados, como una primera etapa antes de determinar es-pecíficamente cuál es la función de distribución que la genera.

3.5.1 Sesgo

Sabemos que:

β1 = β1 +

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

=⇒ Ehβ1

i= E

"β1 +

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

#

=⇒ Ehβ1

i= β1 +E

"Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

#

=⇒ Ehβ1

i= β1 +

Pt=Tt=1 (xt − x)E [εt]Pt=T

t=1 (xt − x)2

pues las covarianzas son nulas, entonces dado que el valor esperado del errores cero se llega finalmente a que el estimador β1 es un estimador insesgadode β1:

Ehβ1

i= β1

3.5.2 Varianza

Al igual que en caso del sesgo, partimos de la ecuación fundamental que nosseñala que:

β1 = β1 +

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

=⇒ Vhβ1

i= V

"β1 +

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

#

=⇒ Vhβ1

i= V [β1] + V

"Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

#+ 2Cov

"β1,

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

#

Page 43: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 45

sin embargo las covarianzas entre los errores y la variable exógena son nulas,y además la varianza de una constante como β1 también es nula, de maneraque:

Vhβ1

i= V

"Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

#

=⇒ Vhβ1

i=

VhPt=T

t=1 (xt − x) εti

³Pt=Tt=1 (xt − x)2

´2=⇒ V

hβ1

i=

Pt=Tt=1 (xt − x)2 V [εt]³Pt=T

t=1 (xt − x)2´2

luego dado que por supuesto de homoscedasticidad V [εt] = σ2 entonces:

Vhβ1

i=

Pt=Tt=1 (xt − x)2 σ2³Pt=Tt=1 (xt − x)2

´2 = σ2Pt=T

t=1 (xt − x)2³Pt=Tt=1 (xt − x)2

´2Vhβ1

i= σ2

1Pt=Tt=1 (xt − x)2

Con este procedimiento se ha demostrado entonces que:

β1˜

Ãβ1, σ

2 1Pt=Tt=1 (xt − x)2

!de igual manera para el estadístico β0:

β0˜

Ãβ0, σ

2

"1

T+

x2Pt=Tt=1 (xt − x)2

#!

3.5.3 Gauss-Markov

Bajo las condiciones de Gauss-Markov, que indican ∀t:(i) E [εt] = 0,(ii) V [εt] = σ2,(iii) Cov [εt, εt+k] = 0,∀k 6= 0,

Page 44: 1 Conceptos estadísticos

46CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

(iv) Cov [xt, εt+k] = E [xtεt]− xE [εt] = E [xtεt] = 0,∀k = 0,entonces los estimadores mínimo cuadrados, serán los mejores estimadores

lineales insesgados, es decir los estimadores que son una función lineal a ladata, insesgados y de menor varianza.La demostración consiste en demostrar que un estimador que cumple con

estas condiciones, efectivamente es el estimador de mínimos cuadrados.Demostración Teorema Gauss-Markov para β1Sabemos que el estimador de mínimos cuadrados para β1 es:

β1 =

Pt=Tt=1 (xt − x) ytPt=Tt=1 (xt − x)2

=t=TXt=1

atyt

donde at =(xt−x)Pt=T

t=1 (xt−x)2.

Supongamos que existe un estimador alternativo definido por:

βGM

1 =t=TXt=1

atyt

La demostración consiste en encontrar at y verificar que efectivamentesea equivalente al at definido en el estimador β1.Que deba ser linela a la muestra significa que el potencial estimador debe

cumplir con la condición de que:

βGM

1 =t=TXt=1

atyt

Utilizando la definición del modelo yt = β0 + β1xt + εt, podemos generar larestricción de insesgamiento requerido:

βGM

1 =t=TXt=1

atyt =t=TXt=1

at (β0 + β1xt + εt)

βGM

1 = β0

t=TXt=1

at + β1

t=TXt=1

atxt +t=TXt=1

atεt

EhβGM

1

i= β0

t=TXt=1

at + β1

t=TXt=1

atxt

Page 45: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 47

puesPt=T

t=1 atεt =Pt=T

t=1 atE [εt] = 0. Luego las condiciones de insesgamientoserán que:

t=TXt=1

at = 0

t=TXt=1

atxt = 1

Ya hemos exigido a nuestro potencial estimador que sea lineal e insesgado,y lo que queda ahora es exigir que sea el ”mejor”, es decir el de menor varianzadisponible. Para esto definamos la varianza del estimador β

GM

1 :

VhβGM

1

i= V

"β0

t=TXt=1

at + β1

t=TXt=1

atxt +t=TXt=1

atεt

#

=t=TXt=1

a2tV [εt]

= σ2t=TXt=1

a2t

Luego el problema se reduce a encontrar el parámetro at que cumplacon las condiciones de insesgamiento y de mínima varianza, problema quepodemos representar por:

Mint=TXt=1

a2t

s.a.t=TXt=1

at = 0

t=TXt=1

atxt = 1

El lagrangeano asociado a este problema será:

$at,λ,µ

=t=TXt=1

a2t + λt=TXt=1

at + µ

Ã1−

t=TXt=1

atxt

!

Page 46: 1 Conceptos estadísticos

48CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

Las condiciones necesarias de primer orden (CNPO) son:

∂$

∂at= 2at + λ− µxt = 0

∂$

∂λ=

t=TXt=1

at = 0

∂$

∂µ= 1−

t=TXt=1

atxt = 0

De la primera CNPO podemos decir que:

2atxt + λxt − µx2t = 0

=⇒ 2t=TXt=1

atxt + λt=TXt=1

xt − µt=TXt=1

x2t = 0

=⇒ 2 + λt=TXt=1

xt − µt=TXt=1

x2t = 0

Además sumando directamente sobre la primera CNPO se tiene:

2t=TXt=1

at + Tλ− µt=TXt=1

xt = 0

pero comoPt=T

t=1 at = 0, entonces:

λ = µx

Reemplazando esta última expresión en:

2 + λt=TXt=1

xt − µt=TXt=1

x2t = 0

2 + µxt=TXt=1

xt − µt=TXt=1

x2t = 0

=⇒ µ =2Pt=T

t=1 x2t − Tx2

Page 47: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 49

luego dado que 2at + λ− µxt = 0 entonces reemplazando para µ llegamos a:

at =µxt − λ

2=

µ

2(xt − x)

at =(xt − x)Pt=T

t=1 x2t − Tx2

=(xt − x)Pt=T

t=1 (xt − x)2

Queda así demostrado que el estimador que cumple con las condiciones deGauss-Markov es el estimador de mínimos cuadrados ordinarios.¥

3.5.4 Normalidad

A partir del supuesto de normalidad de los residuos es posible determinar ladistribución que adoptan los estimadores mínimo cuadrado. Sabemos que:

εt˜N¡0, σ2

¢/ (xt − x)

(xt − x) εt˜N¡0, (xt − x)2 σ2

¢/t=TXt=1

t=TXt=1

(xt − x) εt˜N

Ã0,

t=TXt=1

(xt − x)2 σ2

!/

1Pt=Tt=1 (xt − x)2Pt=T

t=1 (xt − x) εtPt=Tt=1 (xt − x)2

˜N

0, σ2 " 1Pt=Tt=1 (xt − x)2

#2 t=TXt=1

(xt − x)2

Pt=T

t=1 (xt − x) εtPt=Tt=1 (xt − x)2

˜N

Ã0,

σ2Pt=Tt=1 (xt − x)2

!/+ β1

β1 +

Pt=Tt=1 (xt − x) εtPt=Tt=1 (xt − x)2

˜N

Ãβ,

σ2Pt=Tt=1 (xt − x)2

!

β1˜N

Ãβ1,

σ2Pt=Tt=1 (xt − x)2

!Siguiendo igual procedimiento para el estimador β0 podemos resumir la

distribución multinormal del vector de estimadores del modelo de regresiónsimple como:µ

β0β1

¶˜N

·β0β1

¸,

σ2h1T+ x2Pt=T

t=1 (xt−x)2i− σ2xPt=T

t=1 (xt−x)2

− σ2xPt=Tt=1 (xt−x)2

σ2Pt=Tt=1 (xt−x)2

Page 48: 1 Conceptos estadísticos

50CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

Pero aquí surge el primer problema al querer efectuar un análisis inferen-cial. Se desconoce la varianza del error σ2.Dado que el residuo tiene una distribución εt˜N (0, σ

2), entonces sabe-mos que σ2 = E [ε2t ] − (E [εt])2 = E [ε2t ]. Luego parecería natural que el

estimador de la varianza fuera σ2 =Pt=T

t=1 ε2tT

. Sin embargo este estimadorno cumple con la condición de insesgamiento. Recordemos que el estadístico(T − k) s2

σ2˜χ2 (T − k). Entonces s2˜ σ2

(T−k)χ2 (T − k), lo cual implicará que

dado que el valor esperado de una función de distribución chi-cuadrada esequivalente a sus grados de libertad, entonces:

E£s2¤= E

·σ2

(T − k)χ2 (T − k)

¸E£s2¤=

σ2

(T − k)E£χ2 (T − k)

¤E£s2¤=

σ2

(T − k)(T − k)

E£s2¤= σ2

Luego el estadístico s2 =Pt=T

t=1 e2tT−k será un estimador insesgado de la varianza

poblacional σ2. El costo de utilizar un estimador para la varianza poblacionalconsiste en que ya no es posible teóricamente utilizar la distribución normalpara hacer inferencia.Recordemos que si tenemos dos variables aleatorias independientes z˜N (0, 1)

y V ∼ χ2(r), entonces la razón z√Vr

tiene una distribución t de student con

r grados de libertad. Es decir en nuestro caso tenemos:

tβ1 =

β1−β1rσ2P t=T

t=1 (xt−x)2r(T−k) s2

σ2

(T−k)

tβ1 =β1 − β1q

s2Pt=Tt=1 (xt−x)2

˜t (T − 2)

De igual manera para β0:

Page 49: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 51

tβ0 =

β0−β0sσ2·1T+ x2Pt=T

t=1 (xt−x)2

¸r

(T−k) s2σ2

(T−k)

tβ0 =β0 − β0r

s2h1T+ x2Pt=T

t=1 (xt−x)2i˜t (T − 2)

Este estadístico nos permite hacer inferencia respecto al valor que tomael parámetro estimado β0 y β1. Además podemos construir intervalos deconfianza para los parámetros a partir de un nivel de significancia subjetivo γy de las estimaciones de varianzas de los parámetros. Por ejemplo si definimoscomo la desviación estándar estimada del parámetro estimado β0 como σβ0 ,entonces el intervalo de confianza para β0 será:

β0 ∈ β0 ± |tγ| σβ0Es decir:

β0 − |tγ| σβ0 ≤ β0 ≤ β0 + |tγ| σβ0De igual manera para el parámetro β1 se tiene:

β1 − |tγ| σβ1 ≤ β1 ≤ β1 + |tγ| σβ1

3.5.5 Areas de Confianza

Dado que sabemos que µβ0β1

¶˜N

µ·β0β1

¸, σ2 (x0x)−1

¶donde C = (x0x)−1 es una matriz simétrica y definida positiva, entoncesexiste una matriz P que cumple con la condición C−1 = P 0P .Definamos las variables z1 y z2 como:·

z0z1

¸= P

·β0 − β0β1 − β1

¸

Page 50: 1 Conceptos estadísticos

52CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

entonces la varianza del vector será:

V

·z0z1

¸= PV

·β0 − β0β1 − β1

¸P 0

V

·z0z1

¸= Pσ2CP 0

como C−1 = P 0P =⇒ C = P−1 (P 0)−1, entonces:

V

·z0z1

¸= Pσ2CP 0

= Pσ2³P−1 (P 0)−1

´P 0

= σ2I

lo que nos indica que z0σ˜N (0, 1) y z1

σ˜N (0, 1). Es decir que z0˜N (0, σ2) y

z1˜N (0, σ2), de manera que los cuadrados de estos estadísticos obedecen a

una distribución chi-cuadrada con un grado de libertad:½z20˜σ

2χ (1)

z21˜σ2χ (1)

¾=⇒ ¡

z20 + z21¢˜σ2χ (2)

Trabajando este concepto matricialmente llegamos a que:

hz0 z1

i z0

z1

=

·β0 − β0β1 − β1

¸0P 0P

·β0 − β0β1 − β1

¸

=

·β0 − β0β1 − β1

¸0C−1

·β0 − β0β1 − β1

¸˜σ2χ (2)

Dado que desconocemos σ2 la estimamos a través de s2, lo cual nos obliga autilizar una distribución alternativa para el test o creación del átrea de confi-anza. Como (T − k) s2˜σ2χ2 (T − k), entonces la razón de dos chi-cuadradasponderadas por sus grados de libertad genera una F de Fisher:

ϕ =

[β0−β0β1−β1]0C−1[β0−β0β1−β1]2σ2

(T−k)s2σ2(T−k)

=

£β0−β0β1−β1

¤0C−1

£β0−β0β1−β1

¤2s2

˜F (2, T − k)

Page 51: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 53

La región o área de confianza es equivalente a:

P (ϕ < Fα) = 1− α

y estará definido por la siguiente ecuación de la elipse:

ϕ = a00³β0 − β0

´2+ a11

³β1 − β1

´2+ 2a01

³β0 − β0

´³β1 − β1

´con aij =

C−1ij

2s2= 1

2s2(x0x)−1ij.

Ejercicio. Consideremos un modelo que entrega los siguientes resulta-dos como producto del proceso de estimación de una base de datos de 100observaciones: β0

β1

1.450.84

con una matriz de varianzas y covarianzas estimada para los parámetros de:

Σβ =

0.136 31 −0.171 48−0.171 48 0.266 04

La inversa de la matriz de varianzas y covarianzas estimada de los parámet-

ros estimados obtenida será:

Σ−1β≡V

β0

β1

−1 = 38.8 25.01

25.01 19.88

Como sabemos que la expresión para calcular la región o área de confianza es

ϕ = a00³β0 − β0

´2+ a11

³β1 − β1

´2+ 2a01

³β0 − β0

´³β1 − β1

´, entonces

reemplacemos los valores que se obtienen de los cálculos anteriores, con-siderando un nivel de significancia del 95% y 99%, para T − k = 100 − 2grados de libertad, es decir para F0.95 (2, 98) ∼= 2.9 y F0.99 (2, 98) ∼= 4.4.1

2

£38.8 (1.45− β0)

2 + 19.88 (0.84− β1)2 + 2 · 25.01 (1.45− β0) (0.84− β1)

¤= 2.9

1

2

£38.8 (1.45− β0)

2 + 19.88 (0.84− β1)2 + 2 · 25.01 (1.45− β0) (0.84− β1)

¤= 4.4

Page 52: 1 Conceptos estadísticos

54CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

Si desearamos evaluar la hipótesis puntual de que ambos estimadores sumaranpor ejemplo 2, es decir si H0 : β0+β1 = 2, entonces podemos vizualizar dichahipótesis en el gráfico incorporando la ecuación β0+β1 = 2 en la figura sigu-iente. Si esta pasa por la región de confianza entonces no rechazamos lahipótesis. La elipse más grande representa el área de confianza del 99%mientras que la elipse concentrica interior representa el área de 95%.

32.521.510.50

3

2

1

0

-1

Beta 0

Beta 1

Beta 0

Beta 1

Areas de 95 y 99% de Confianza para β0, β1.

Ejercicio. A partir de estimar el siguiente modelo de regresión Y =Xβ + ε, y considerando la siguiente información:

e0e = 100

T = 70

x0x =

50 0

0 50

x0y =

0

300

Encuentre analítica y gráficamente el intervalo de confianza del 95% paralos coeficientes (β0, β1). A la luz de su figura, ¿rechazaría la hipótesis H0 :

Page 53: 1 Conceptos estadísticos

3.5 DISTRIBUCIÓN DE LOS ESTIMADORES 55

β0 + β1 = 0?El área de confianza se obtiene de aplicar la fórmula:

F =1

2

³β − β

´0 hV³β´i−1 ³

β − β´∼ F95% (2, T − k)

Para esto requerimos de los estimadores de los parámetros y de la matriz devarianzas y covarianzas estimada de estos parámetros:

β = (x0x)−1 x0y =

50 0

0 50

−1 0

300

=

0.06.0

V³β´=

e0eT − k

(x0x)−1 =140

72− 2

50 0

0 50

−1 = 0.04 0.0

0.0 0.04

Luego aplicamos la fórmula:

F =1

2

³β − β

´0 hV³β´i−1 ³

β − β´∼ F95% (2, T − k)

F =1

2

³0− β1 6− β2

´ 0.04 0.0

0.0 0.04

−1 0− β1

6− β2

F =

1

2

³0− β1 6− β2

´ 25.0 0.0

0.0 25.0

0− β1

6− β2

F = 12. 5β21 + 12.5(6− β2)

2 = 3.13 = F95% (2, 70)

Esta es la ecuación de un circulo que está centrado en las ordenadas (0, 6).Recordemos que la fórmula del círculo es:

(β1 − β1)2 + (β2 − β2)

2 = r2

lo cual aplicado a nuestro problema será:

12.5β21 + 12.5(6− β2)2 = 3.13

β21 + (6− β2)2 =

3.13

12.5= 0.250 4 = 0.50042

Page 54: 1 Conceptos estadísticos

56CHAPTER 3MODELOCONUNAVARIABLEEXPLICATIVA

De manera que el radio de esta circunferencia será de 0.500 40 para una áreade confianza generada con 95%. El círculo concentrico exterior se generó conun nivel de confianza del 99%:

F = 12. 5β21 + 12.5(6− β2)2 = 4.92 = F99% (2, 70)

10.50-0.5-1

7

6.5

6

5.5

5

x

y

x

y

Gráfico de la Elipse (Círculo)

52.50-2.5-5

5

2.5

0

-2.5

-5

x

y

x

y

Gráfico de la Restricción o Hipótesis NulaCon respecto al análisis de la hipótesis nula, desde un punto de vista gráfico,dado que la recta que representa a la hipótesis nula β0 = β1 no pasa cercadel área de confianza calculado, locual nos haría rechazar la hipótesis nula.

Page 55: 1 Conceptos estadísticos

Chapter 4

Modelo de Regresión Múltiple

El modelo de regresión múltiple permite estudiar la relación existente entreuna variable dependiente y y un conjunto k − 1 de variables independienteso exógenas, además de la constante. Su forma general se representa por:

yt = β1 + β2x2t + β3x3t + ...+ βkxkt + εt

Los supuestos asociados a este modelo difieren levemente del caso simple,y se presentan a continuación:

1. Los errores teóricos tienen un valor esperado cero:

E [εt] = 0

E [ε] = E

ε1

ε2

...

εT

Tx1

=

E [ε1]

E [ε2]

...

E [εT ]

= 0=⇒ E [Y ] = Xβ

2. Existe homoscedasticidad y no autocorrelación de los residuos teóricos,de manera que la varianza de los errores poblacionales es similar V [εt] = σ2,Cov [εt, εt±k] = 0. Matricialmente recordemos que dado el supuesto (1),

57

Page 56: 1 Conceptos estadísticos

58 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

entonces la matriz de varianzas y covarianzas puede representarse por:

E [εε0] = E

ε1ε1 ε1ε2 ε1ε3 ... ε1εT

ε2ε1 ε2ε2 ... ... ε2εT

ε3ε1 ... ... ... ε3εT

... ... ... ... ...

εTε1 ... ... ... εTεT

=

E [ε1ε1] E [ε1ε2] E [ε1ε3] ... E [ε1εT ]

E [ε2ε1] E [ε2ε2] ... ... E [ε2εT ]

E [ε3ε1] ... ... ... E [ε3εT ]

... ... ... ... ...

E [εTε1] ... ... ... E [εTεT ]

=

σ2 0 0 ... 0

0 σ2 ... ... 0

0 ... ... ... 0

... ... ... ... ...

0 ... ... ... σ2

= σ2IT

Una manera alternativa de analizar estos dos supuestos es utilizando la de-scomposición matricial de la matriz de varianzas y covarianzas. Esta seconforma de tres matrices:

E [εε0] = ΣΘΣ

Page 57: 1 Conceptos estadísticos

59

donde cada matriz se define por:

Σ =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

Θ =

1 ρ1,2 ... ρ1,T−1 ρ1,T

ρ2,1 1 ρ2,T

... ... ...

ρT−1,1 ... ...

ρT,1 ρT,2 ... 1

Luego se puede escribir la anterior expresión como:

E [εε0] =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

1 ρ1,2 ... ρ1,T−1 ρ1,T

ρ2,1 1 ρ2,T

... ... ...

ρT−1,1 ... ...

ρT,1 ρT,2 ... 1

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

Al asumir homoscedasticidad estamos diciendo que la matriz Σ es una matrizescalar con σ en su diagonal, es decir la matriz identidad multiplicada por σ:

Σ =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

=

σ 0 ... 0 0

0 σ 0

... ... ...

0 ... ...

0 0 ... σ

= σ

1 0 ... 0 0

0 1 0

... ... ...

0 ... ...

0 0 ... 1

Σ = σIT

Page 58: 1 Conceptos estadísticos

60 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

De igual forma si incorporamos el supesto de no autocorrelación de losresiduos estamos imponiendo la condición que la matriz Θ sea la identidad,cuyos elementos fuera de la diagonal (unos) son nulos. Es decir entonces:

Θ =

1 0 ... 0 0

0 1 0

... ... ...

0 ... ...

0 0 ... 1

= IT

Con esto entonces podemos representar los dos supuestos de la siguienteforma:

E [εε0] = ΣΘΣ = σIT · IT · σIT = σ2IT

3. No hay correlación entre el residuo poblacional εt y la variable exógenaxt:

Cov [xt, εt±k] = 0 ∀t y ∀k4. No existe multicolinealidad, es decir se garantiza que la matriz X 0X es

no singular, es decir su inversa existe y es única, lo cual ayuda a determinarcon unicidad el vector de parámetros a estimar.5. Finalmente el supuesto más importante para fines de inferencia se re-

fiere a la necesidad de que los residuos provengan de una distribución normal:

εt˜N

Los anteriores supuestos pueden resumirse en que el vector de residuostiene distribución normal multivariada, idéntica e independiente, con mediacero y matriz de varianzas y covarianzas σ2IT , es decir ε˜IIDN (0, σ2IT ).A partir del modelo en su versión matricial y = xβ + e, donde x es la

matriz de datos de las variables exógenas incluyendo una primera columnade unos, podemos obtener los estimadores mínimo cuadrados optimizando lasiguiente función de pérdida:

minβ

$ =³y − xβ

´0 ³y − xβ

´= e0e

Page 59: 1 Conceptos estadísticos

61

Tomando la gradiente o derivada vectorial sobre el vector β estimamos losparámetros del modelo, es decir:

∂$

∂β= x0xβ − x0y = 0

lo cual puede representarse alternativamente por el siguiente sistema de ecua-ciones normales, denominadas condiciones de ortogonalidad:

x0e = 0

Una representación ampliada y similar a la utilizada en el modelo deregresión simple consiste en escribir este sistema de ecuaciones normales ocondiciones necesaria de primer orden como:

∂$

∂β1= −2

X³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

∂$

∂β2= −2

Xx2t³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

∂$

∂β3= −2

Xx3t³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

....∂$

∂βk= −2

Xxkt³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

lo que al simplificar por −2 nos deja un sistema de k ecuaciones con k incog-nitas:

∂$

∂β1=X³

yt − β1 − β2x2t − β3x3t − ...− βkxkt´= 0

∂$

∂β2=X

x2t³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

∂$

∂β3=X

x3t³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

....∂$

∂βk=X

xkt³yt − β1 − β2x2t − β3x3t − ...− βkxkt

´= 0

Al recordar que la expresión entre paréntesis no es más que el residuo mues-

Page 60: 1 Conceptos estadísticos

62 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

tral, podemos simplificar aún más la última expresión:

∂$

∂β1=X

et = 0

∂$

∂β2=X

x2tet = 0

∂$

∂β3=X

x3tet = 0

....∂$

∂βk=X

xktet = 0

lo que en el fondo nos lleva a repetir la expresión de ortogonalidad men-cionada más arriba:

x0e = 0

Asumiendo rango completo de la matriz x0x es decir que esta es invertible(de aquí la importancia del supuesto de no multicolinealiad), entonces elvector de estimadores se puede obtener de despejar el vector β del sistemaanterior llegando a:

β = (x0x)−1 x0y

Una forma alternativa de determinar la expresión anterior consiste enpartir del modelo estimado y = xβ + e. Si a esta expresión se le multiplicapor x0 (debe ser por la izquierda pues la multiplicación debe hacerse sobrematrices conformables) nos queda:

x0y = x0xβ + x0e

pero la expresión de la derecha x0e no es más que la representación matricialdel sistema de ecuaciones normales que es igual a cero, luego de aquí tambiense deduce que β = (x0x)−1x0y.Ejercicio. Un profesor de la Escuela de Economía desea evaluar si la playa

que está a minutos de la universidad, es una mala influencia en el desempeñode los alumnos, medido por las notas finales promedio de cada alumno. Paraesto se toma una muestra de diez alumnos con el sigueinet resultado de laencuesta:Estime los parámetros de un modelo de regresión lineal simple. Obtenga

la matriz de varianzas y covarianzas y evalúe la hipótesis al 95% de que laplaya no tiene influencia en las notas obtenidas por los alumnos.

Page 61: 1 Conceptos estadísticos

63

Promedio de Notas 5.5 6 4.8 5 5.1 6.1 6.2 4.2 5.5 4.9

Horas Semanales en Playa 2 3 1 4 3 2 1 5 1 2

Dada la información sabemos que:

x0 =

1 1 1 1 1 1 1 1 1 12 3 1 4 3 2 1 5 1 2

y0 =

h5.5 6 4.8 5 5.1 6.1 6.2 4.2 5.5 4.9

iDe manera que el vector de estimadores se obtiene de resolver:

β = (x0x)−1 x0y

β =

1 1 1 1 1 1 1 1 1 12 3 1 4 3 2 1 5 1 2

1 2

1 3

1 1

1 4

1 3

1 2

1 1

1 5

1 1

1 2

−1

1 1 1 1 1 1 1 1 1 12 3 1 4 3 2 1 5 1 2

5. 5

6

4. 8

5

5. 1

6. 1

6. 2

4. 2

5. 5

4. 9

β =

5. 932 9

−0.251 22

La matriz de varianzas y covarianzas se obtiene de resolver la siguiente ex-

Page 62: 1 Conceptos estadísticos

64 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

presión:

V (β) =e0e

T − k(x0x)−1 =

y0y − y0xβT − k

(x0x)−1

como x0y =

53. 3

123. 8

, y0y =X y2 = 287. 85

V (β) =y0y − y0xβT − k

(x0x)−1

=

287. 85−h53.3 123.8

i 5. 932 9

−0.251 22

10− 2 · 0.451 22 −0.146 34

−0.146 34 6. 097 6× 10−2

= 0.340 93

0.451 22 −0.146 34−0.146 34 6. 097 6× 10−2

=

0.153 83 −4. 989 2× 10−2−4. 989 2× 10−2 2. 078 9× 10−2

Para testear H0 : β1 = 0 debemos efectuar un test t:

tc =β1 − β1σβ1

∼ t (T − k)

Reemplazando con los datos obtenidos se tiene:

tc =−0.25122

2√2. 078 9× 10−2 = −1. 742 4

De manera que al comparar con un test t-Student al 95% para 8 grados delibertad (test de dos colas) cuyo valor es t0.975 (8) = 2.306 vemos que el testcalculado es inferior al t de tabla luego no rechazamos la hipótesis de que elparámetro es cero, es decir la playa no tendría incidencia en el desempeñoacadémico de los alumnos.

Page 63: 1 Conceptos estadísticos

4.1 TEST DE RESTRICCIONES 65

4.1 Test de Restricciones

Es común estar interesado en testear si combinaciones lineales de parámetrosobedecen a cierto valor en particular, o de manera general, si un conjunto decombinaciones de parámetros obedece a valores específicos.

4.1.1 Testeo de Restricciones Escalares H0 : r0β = q

Ejercicio. A partir de la siguiente información y considerando el modelo

yt = β0 + β1x1t + β2x2t + β3x3t + t

evaluar la hipótesis nula H0 : 3β1 − β2 = 5:

β1

β2

=

4.85.7

e0e = 60

T = 34

(x0x)−1 =

60 13 20 −100

5 3 −258 −15

9

Para resolver esta pregunta debemos generar el estimador de la matriz de

Page 64: 1 Conceptos estadísticos

66 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

varianzas y covarianzas de los parámetros estimados:

V (β) =e0e

T − k(x0x)−1

V (β) =60

34− 4

60 13 20 −10013 5 3 −2520 3 8 −15−100 −25 −15 9

V (β) =

120.0 26.0 40.0 −200.026.0 10.0 6.0 −50.040.0 6.0 16.0 −30.0−200.0 −50.0 −30.0 18.0

De manera que el test corresponde a un t-Student pues tenemos una solarestricción que evaluar:

tc =3β1 − β2 − (3β1 − β2)

2

rV³3β1 − β2

´ ∼ t (T − k)

tc =3 · 4.8− 5.7− (5)

2p32 · (10) + (16)− 2 · 3 · 6 = 0.442 23

Al comparar con un test t con 95% (de dos colas, es decir con 0.975) y conT − k = 34 − 4 = 30 grados de libertad se tiene que t0.975 (30) = 2.042 essuperior al nuestro tc = 0.442 23 de manera que no rechazamos la hipótesisnula.

4.1.2 Testeo de Restricciones Vectoriales H0 : Rβ = q

Ejercicio. Supongamos que hemos estimado la siguiente ecuación para unamuestra de 17 observaciones (T = 17) utilizando la metodología de los mín-imos cuadrados ordinarios (todas las variables están en logaritmos):

yt = β0 + β1x1t + β2x2t + εt

Page 65: 1 Conceptos estadísticos

4.1 TEST DE RESTRICCIONES 67

encontrándose los siguientes resultados:

β =

1.37

1.14

−0.83

y0³I − x (x0x)−1 x0

´y = 0.0028

(x0x)−1 =

510.89 −254.35 0.42

132.7 −6.827.11

Calcule las varianzas estimadas de los estimadores β0, β1, β2. Si la variablex1 aumenta en un 1% y la variable x2 lo hace en un 2%, ¿cuál será el efectofinal sobre la variable dependiente y? Finalmente utilice el test F y evalúela hipótesis nula H0 : β1 = 1, β2 = −1.Para calcular las varianzas estimadas del vector de parámetros β debemos

calcular s2(x0x)−1:

V (β) =e0e

T − k(x0x)−1 =

0.0028

17− 3

510.89 −254.35 0.42

−254.35 132.7 −6.820.42 −6.82 7.11

V (β) =

0.102 18 −0.050 87 8. 4× 10−5−0.050 87 0.026 54 −1. 364× 10−38. 4× 10−5 −1. 364× 10−3 1. 422× 10−3

V (β0)

V (β1)

V (β2)

=

0.102 18

0.026 54

1. 422× 10−3

Si la variable x1 se incrementa en 1% y la variable x2 lo hace en 2%, entoncesy lo hara en:

∆y = 1.14 · 1− 0.83 · 2 = −0.52%

Page 66: 1 Conceptos estadísticos

68 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

Es decir la variable dependiente y cae −0.52%.Para testear la hipótesis conjunta H0 : β1 = 1, β2 = −1 hay que aplicar

la siguiente fórmula de test F:

Fc =

³R · β − q

´0 £Rs2 (x0x)−1R0

¤−1 ³R · β − q

´J

donde R =

0 1 00 0 1

y q =

1

−1

entonces reemplazando los resultados conseguidos anteriormente:

Fc =

0 1 00 0 1

·1.37

1.14

−0.83

− 1

−1

0

0 1 00 0 1

0.102 18 −0.050 87 8. 4× 10−5−0.050 87 0.026 54 −1. 364× 10−38. 4× 10−5 −1. 364× 10−3 1. 422× 10−3

0 1 00 0 1

0

−1

0 1 00 0 1

·1.37

1.14

−0.83

− 1

−1

2

Fc =

³0.14 0.17

´ 39. 633 38. 01638. 016 739. 7

0.140.17

2

= 11. 982

Al comparar con un F0.05(2, 14) = 3.74 vemos que rechazamos la hipótesisnula.

Page 67: 1 Conceptos estadísticos

4.2 SIGNIFICANCIA DE LA REGRESIÓN 69

4.2 Significancia de la Regresión

Supongamos que tenemos elmodelo de regresión y = xβ + ε, modelo que ensu forma extendida se puede representar por:

yt = β1 + β2x2t + ...+ βkxkt + εt

Se sabe que si redefinimos a las variables en desviaciones de sus propiasmedias, los estimadores mínimos cuadrados no se ven modificados y queahora la constante no debiera ser incluida en la estimación pues se obtienede las medias de las otras variables a través de β1 = y − β2x2 − ... − βkxky que por supuesto en el caso hipotético de que los parámetros asociadosa las variables explicativas sean nulos, entonces este parámetro solamenteestará capturando la media de la variable dependiente. Este hecho hacerecomendable que el test no se contamine con el valor de la constante almomento de evaluar la significancia del vector de parámetros.

En este caso entonces analicemos la hipótesis nula de que todos los parámet-ros son cero (recordemos que la constante está fuera de este conjunto deparámetros analizados), es decir testeemos H0 : β2 = β3 = ... = βk = 0.Paea testear esta hipótesis podemos utilizar nuestra expresión del test Fdefinido por (J = k − 1):

Fc =

³Rβ − q

´0 £R (x0x)−1R0

¤−1 ³Rβ − q

´/ (k − 1)

e0e/(T − k)

Page 68: 1 Conceptos estadísticos

70 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

Dado que en este caso es fácil verificar que:

R =

1 0 0 0 0

0 1 0 0 0

0 0 1 0 0

... ... ... ... ...

0 0 0 0 1

= Ik−1

q =

0

0

0

...

0

k−1

entonces podemos reescribir el test F como:

Fc =β0 £(x0x)−1

¤−1β/ (k − 1)

e0e/(T − k)

Fc =β0(x0x) βe0e

T − k

k − 1

pero sabemos que β = (x0x)−1x0y y ademas que a partir de y = xβ + e esposible deducir que:

e0e = y0y − y0xβ

de manera que reemplazando estas dos representaciones en la expresión delFc, y recordando que la expresión β

0x0y es equivalente a y0xβ pues ambas son

expresiones escalares, nos queda:

Fc =β0(x0x) (x0x)−1 x0y

y0y − y0xβ

T − k

k − 1

Fc =y0xβ

y0y − y0xβ

T − k

k − 1

Page 69: 1 Conceptos estadísticos

4.2 SIGNIFICANCIA DE LA REGRESIÓN 71

dividiendo por y0y que es equivalente a la suma de los cuadrados totales(recordemos que las variables están en desviación de sus propias medias) yrecordando que el coeficiente de determinación R2 = 1− e0e

y0My:

Fc =

y0xβy0y

y0y−y0xβy0y

T − k

k − 1

Fc =

µR2

1−R2

¶µT − k

k − 1¶

Esta última expresión nos indica que aquellas regresiones que tienen bajocoeficiente de ajuste, es decir un bajo R2, tienen a su vez un test F tambiénmuy bajo lo cual perimtiría decir que la probabilidad de aceptar la hipotesisnula es muy alta, o lo que esw lo mismo, que la probabilidad de rechazar lahipótesis es muy baja. Este concepto se conoce como el valor de la probabili-dad (P-Value) y está definido para este test como la integral de la función dedensidad f(s) desde el valor del test calculado (Fc) a infinito (∞), es decir:

PV alue =

∞ZFc

f (s) ds

Ejercicio. Supongamos que se dispone de la siguiente información pro-ducto de estimar una regresión con T = 500 observaciones para el APT deuna acción i con un factor f asociado al volumen de actividad del sectorindustrial asociado a la acción:

Rit = α+ βRmt + γft + εt

= 0.03 + 1.14Rmt + 0.19ft

(0.08) (0.28) (0.03)

R2 = 0.67

El nivel de significancia de la regresión se puede evaluar analizando el testF de esta ecuación bajo la hipótesis nula de que todos los parámetros soncero en la regresión, a excepción de la constante. La hipótesis a testear esH0 : β = γ = 0 versus la alternativa de que al menos uno de estos parámetrosno es cero. Aplicamos la expresión Fc =

³R2

1−R2´ ¡

T−kk−1¢considerando que

Page 70: 1 Conceptos estadísticos

72 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

T = 500, k = 3 y que R2 = 0.67:

Fc =

µR2

1−R2

¶µT − k

k − 1¶

=

µ0.67

1− 0.67¶µ

500− 33− 1

¶= 504. 53

Si contrastamos este test Fc = 504.53 con el valor respectivo de tabla aun nivel de significancia del 5%, F95% (k − 1, T − k) = F95% (2, 497) = 3,entonces rechazamos la hipótesis nula de que ambos parámetros son estadís-ticamente iguales a cero.

4.3 Modelo Restringido - No Restringido

Una plicación adicional del test F corresponde al analisis de modelos re-stringidos versus no restringidos, entendiendo como que un modelo estarárestringido en la medida que un subconjunto de los parámetros tome valoresespecíficos asociados a una determinada hipótesis nula. Ejemplos podríanser estimar una función Cobb-Douglas asumiendo que la eslasticidad capital-producto es igual a 0.5, o estimar una función de demanda por dinero conun coeficiente de elasticidad producto igual a 1.Representemos a ambos modelos no restringidos y restringidos (identifi-

cados con el sub-índice R) por:

y = xβ + e

y = xβR + eR

Partiendo de la definición del residuo restringido eR podemos decir:

eR = y − xβReR = y − xβR + xβ − xβ

eR = y − xβ − xβR + xβ

eR = e− xβR + xβ

eR = e+ x³β − βR

´de manera que el valor de e0R será igual a:

e0R = e0 +³β − βR

´0x0

Page 71: 1 Conceptos estadísticos

4.3 MODELO RESTRINGIDO - NO RESTRINGIDO 73

Multiplicando estas dos últimas expresiones para generar una relación entre lasuma del cuadrado de los residuos entre modelos restringidos y no restringidosllegamos a (note que las multiplicaciones cruzadas no aparecen pues sabemospor condiciones de ortogonalidad que x0e = e0x = 0):

e0ReR = e0e+³β − βR

´0x0x³β − βR

´≥ e0e

Modelos Restringidos versus No Restringidos

Reordenando la expresión anterior podemos encontrar una relación entreesta y el numerador del test F analizado en la sección anterior:

e0ReR − e0e =³β − βR

´0x0x

³β − βR

´=³Rβ −RβR

´0 hR (x0x)−1R0

i−1 ³Rβ −RβR

´De esta forma podemos ver la relación que existe entre el análisis de la difer-encia de la suma de los residuos al cuadrado entre ambos modelos y el testF analizado. El test para la hipótesis nula de que H0 : β = βR se puederepresentar entonces como (J es el número de parámetros involucrados en lahipótesis nula):

Fc =(e0ReR − e0e) /Je0e/(T − k)

∼ F (J, T − k)

Considerando que la variable dependiente en ambos modelos es la misma,entonces la suma de los cuadrados totales es también similar, de manera quepodemos dividir el numerador y el denominador por y0My para encontrar unarelación de esta expresión en términos de los coeficientes de determinación

Page 72: 1 Conceptos estadísticos

74 CHAPTER 4 MODELO DE REGRESIÓN MÚLTIPLE

de ambos modelos:

Fc =

³e0ReRy0My

− e0ey0My

´/J

e0ey0My

/(T − k)

Fc =(R2 −R2R) /J

(1−R2) /(T − k)∼ F (J, T − k)

Ejercicio. Una empresa de asesorías financieras y de marketing está es-timando dos modelos de ventas de supermercado considerando dos modelosalternativos:

vt = β1 + β2yt + β2gt + β3pt + εt

vt = β1 + β2yt + β2gt + εt

donde v indica ventas del supermercado, y el nivel de actividad de la economía(PIB), g representa el gasto en publicidad en medios como la TV, diarios yrevistas, y finalmente p mide el gasto en volantes distribuídos a residenciasvecinas y automóviles del sector.Los resultados al estimar ambos modelos son los siguientes:

Modelo sin Restricciones

vt = 0.14 + 1.15yt + 0.21gt + 0.47pt

e0e = 370.45

R2 = 0.89

T = 670

Modelo con Restricciones (β3 = 0)

vt = 0.29 + 1.42yt + 0.35gt

e0ReR = 399.23

R2R = 0.88154

T = 670

Con estos antecedentes podemos analizar el modelo no restringido (modelo 1)versus el modelo restringido (modelo 2) al cual se le ha impuesto la condiciónde que el parámetro asociado al gasto el volantes tiene un valor de cero.Para este ejercicio compararemos los resultados de analizar el test en fun-

ciónde las diferencias de las sumas de los residuos al cuadrsdo entre modelos

Page 73: 1 Conceptos estadísticos

4.3 MODELO RESTRINGIDO - NO RESTRINGIDO 75

restringidos versus no restringidos, con el del test basado en diferenciales deR2 entre ambos modelos. Si vemos primero la fórmula en función de lassumas de los cuadrsdos de los residuos tendremos:

Fc =(e0ReR − e0e) /Je0e/(T − k)

∼ F (J, T − k)

Fc =(399.23− 370.45) /1370.45/(670− 4) ∼ F (1, 670− 4)

Fc = 51. 741

Como este valor es superior a F95%(1, 666) = 3.84 entonces rechazamos lahipótesis de que le parámetro es cero, lo cual implica que la variable gastosen volantes es relevante como variable explicativa de las ventas del superme-rcado.Alternativamente podemos testear esta hipótesis utilizando el test en fun-

ción de los R2:

Fc =(R2 −R2R) /J

(1−R2) /(T − k)

Fc =(0.89− 0.881 45) /1(1− 0.89) /(670− 4)

Fc = 51.741

De igual manera que con el formato de test anterior podemos decir que rec-hazamos la hipótesis de que la variable p sea no significativa, recomendandosu inclusión en la estimación.

Page 74: 1 Conceptos estadísticos
Page 75: 1 Conceptos estadísticos

Chapter 5

Evaluando QuiebresEstructurales

5.1 Variables Mudas

Si es posible definir con certeza el momento del eventual quiebre estructuralya sea en un parámetro como en una combinación de parámetros entoncespodemos aplicar lo que se conoce como variables mudas.Una variable muda o ficticia generalmente se asocia a una función indi-

cadora de un evento determinado. Esta nueva variable artificial tomará valorunitario si el evento está presente y cero si no es así. Ejemplos de este tipode funciones son innumerables, por ejemplo:

Guerra Paz

Hombre Mujer

Profesional Técnico

Gobierno A Gobierno B

Crisis Bancaria Normalidad

Tipo de Cambio Fijo Tipo de Cambio Flexible

Si estas variables no son directamente cuantificables entonces surge laalternativa de utilizar variables dicotómicas mudas. Volvamos al modelo deregresión simple para entender cómo testear cambios estructurales en algún

77

Page 76: 1 Conceptos estadísticos

78 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

t yt xt dt

1 y1 x1 0

2 y2 x2 0

... ... ... ...

s ys xs 0

s+ 1 ys+1 xs+1 1

s+ 2 ys+2 xs+1 1

... ... ... ...

T yT xT 1

o algunos parámetros utilizando esta variable. Supongamos que el modelo aestimar es:

yt = β1 + β2xt + εt ∀t = 1, 2, ..., s, s+ 1, ..., T

donde hemos identificado el período s, s + 1 como el del eventual quiebreestructural. Para incorporar este hecho econométricamente, creamos unanueva serie artificial (muda) dt que tomará valores de cero antes del períodos y de uno desde s + 1 hasta T . Una tabla ayudará a comprender estarepresentación:

Con esta nueva variable podemos testear cambio en el coeficiente de in-tercepto β1 y/o en el de pendiente β2.

5.1.1 Cambio Estructural de Intercepto

Para analizar esta hipótesis representada por:

H0 : β1 = β ∀t ≤ s

: β1 6= β ∀t > s

Page 77: 1 Conceptos estadísticos

5.1 VARIABLES MUDAS 79

podemos reescribir el modelo a estimar como:

yt = β1 + β2xt + β3dt + εt ∀t = 1, 2, ..., T

yt =

β1 + β2xt + εt dt = 0 ∀t = 1, 2, ..., s

β1 + β2xt + β3 + εt

(β1 + β3) + β2xt + εtdt = 1 ∀t = s+ 1, s+ 2, ..., T

El test consiste en evaluar si el parámetro β3 es significativamente distintode cero o no. Para esto generamos un test t con la siguiente hipótesis nula:

H0 : β3 = 0

tc =β3 − β3rV³β3

´ = β3σβ3

Si tc (en valor absoluto) es menor a un test t(1−α2 )(T − k) de tabla entonces

no rechazamos la hipótesis de que el parámetro es cero, no habiendo indiciosde quiebre estructural en el parámetro del intercepto.

5.1.2 Cambio Estructural de Pendiente

Para analizar esta hipótesis representada por:

H0 : β2 = β ∀t ≤ s

: β2 6= β ∀t > s

podemos reescribir el modelo a estimar como:

yt = β1 + β2xt + β4dtxt + εt ∀t = 1, 2, ..., T

yt =

β1 + β2xt + εt dt = 0 ∀t = 1, 2, ..., s

β1 + β2xt + β4xt + εt

β1 + (β2 + β4)xt + εtdt = 1 ∀t = s+ 1, s+ 2, ..., T

Page 78: 1 Conceptos estadísticos

80 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

El test consiste en evaluar si el parámetro β4 es significativamente distintode cero o no. Para esto generamos un test t con la siguiente hipótesis nula:

H0 : β4 = 0

tc =β4 − β4rV³β4

´ = β4σβ4

Si tc (en valor absoluto) es menor a un test t(1−α2 )(T − k) de tabla entonces

no rechazamos la hipótesis de que el parámetro es cero, no habiendo indiciosde quiebre estructural en el parámetro de la pendiente.

5.1.3 Cambio Estructural en Pendiente e Intercepto

Para analizar esta hipótesis representada por:

H0 : β1 = β, β2 = β ∀t ≤ s

: β1 6= β, β2 6= β ∀t > s

podemos reescribir el modelo a estimar como:

yt = β1 + β2xt + β3dt + β4dtxt + εt ∀t = 1, 2, ..., T

yt =

β1 + β2xt + εt dt = 0 ∀t = 1, 2, ..., s

β1 + β2xt + β3 + β4xt + εt

(β1 + β3) + (β2 + β4)xt + εtdt = 1 ∀t = s+ 1, s+ 2, ..., T

El test consiste en evaluar si los parámetros β3 y β4 son en forma conjuntasignificativamente distinto de cero o no. Para esto es necesario evaluar lahipótesis a través de un test F de Fisher pues los test t no son capaces detestear más de una restricción en la hipótesis nula

H0 : β3 = β4 = 0

Fc =(Rβ −Rβ)0

£Rs2 (x0x)−1R0

¤−1(Rβ −Rβ)

J∼ F (J, T − k)

Fc =

(Rβ−Rβ)0[R(x0x)−1R0]−1(Rβ−Rβ)Je0eT−k

∼ F (J, T − k)

Page 79: 1 Conceptos estadísticos

5.2 SPLINES 81

lo cual aplicado a nuestro test implica:

Fc =

(Rβ−Rβ)0[R(x0x)−1R0]−1(Rβ−Rβ)2e0eT−4

∼ F (2, T − 4)

Si Fc es menor a un test F(α2 )(2, T − 4) de tabla entonces no rechaz-

amos la hipótesis de que ambos parámetros son cero, no habiendo indiciosde quiebre estructural en los parámetros de la pendiente y el intercepto.

5.2 SPLINEs

5.2.1 Regresión Spline

Los SPLINES son métodos de interpolación no-paramétrico de los cuales laregresión spline es la más usual. Una regresión spline consiste en estimaruna regresión por segmentos discretos pero continuos de la muestra. Se es-tima una regresión desde la observación 1 hasta la observación s1, despuésse estima el modelo para el intervalo s1, s2, después se estima para el inter-valo s2, s3, etc... hasta estimar un modelo con el intervalo final (hasta T ).Analíticamente para el caso de dos parámetros se representa por:

yt = βs11 + βs12 xt + εt si t = 1, 2, ..., s1

yt = βs21 + βs22 xt + εt si t = s1 + 1, s1 + 2, ..., s2

yt = βs31 + βs32 xt + εt si t = s2 + 1, s2 + 2, ..., s3...

yt = βT1 + βT2 xt + εt si t = ..., T

Esta discontinuidad de pendientes se logra con la introducción al modelo dediferentes variables mudas asociadas a los vértices de la curva estimada. Esasí como definimos a cada variable muda en función del intervalo de tiempoasociado tomando un valor cero si la condición del intervalo correspondiente

Page 80: 1 Conceptos estadísticos

82 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

no se cumple:

d1 = 1 si t = s1 + 1, s1 + 2, ..., s2

d2 = 1 si t = s2 + 1, s2 + 2, ..., s3...

dJ = 1 si t = ..., T

La expresión analítica de esta secuencia de curvas se representa por:

yt = β1 + β2xt + λ1d1 + θ1d1xt + λ2d2 + θ2d2xt + ....+ λJdJ + θJdJxt + εt

Lo cual en términos de segmentos muestrales se traduce en:

yt = β1 + β2xt + εt ∀di = 0yt = β1 + β2xt + λ1d1 + θ1d1xt + εt

yt = (β1 + λ1) + (β2 + θ1)xt + εtd1 = 1

yt = β1 + β2xt + λ1d1 + θ1d1xt + λ2d2 + θ2d2xt + εt

yt = (β1 + λ1 + λ2) + (β2 + θ1 + θ2)xt + εtd2 = 1

... ...

yt = β1 + β2xt + λ1d1 + θ1d1xt + ...+ λJdJ + θJdJxt + εt

yt =³β1 +

PJi=1 λi

´+³β2 +

PJi=1 θi

´xt + εt

dJ = 1

Esta expresión puede ser representada gráficamente por una secuenciade líneas rectas que deben cumplir con la condición de ser contínuas paratomar la connotación de una regresión spline. Analíticamente la continuidadse representa por las siguientes condiciones:

β1 + β2xs1 = (β1 + λ1) + (β2 + θ1)xs1(β1 + λ1) + (β2 + θ1)xs2 = (β1 + λ1 + λ2) + (β2 + θ1 + θ2) xs2

etc...

Simplificando cada restricción llegamos a:

λi = −θixsi ∀i = 1, 2, ..., J

Page 81: 1 Conceptos estadísticos

5.2 SPLINES 83

Figure 5.1: Regresión por Segmentos o Spline

Incorporando estas condiciones en la expresión generalizada llegamos a:

yt = β1 + β2xt + λ1d1 + θ1d1xt + λ2d2 + θ2d2xt + ....+ λJdJ + θJdJxt + εt

yt = β1 + β2xt + θ1d1 (xt − xs1) + θ2d2 (xt − xs2) + ....+ θJdJ (xt − xsJ ) + εt

5.2.2 Cubic Spline y B-Splines

Un spline de orden n es una aproximación polinómica, con polinomios degrado n y diferenciables n− 1 veces en toda su extensión. Donde se juntanlos polinomios adyacentes se conocen como nudos (knots). Por ejemplo uncubic-spline es una curva representada por un polinomio de grado 3 en cadaintervalo, y que es diferenciable dos veces en todo punto de la curva. Tiene lacaracterística de que en cada nudo las pendientes deben ser iguales y ademáslas curvaturas de cada lado de esots nudos debe coincidir.Una representación general del cubic-spline es:

s (t) =3X

i=0

αiti

| z Polinomio Cúbico

+1

3!

n−1Xp=1

βp¡t− ξp

¢3+| z

Diferenciable 2 veces en los nudos

donde¡t− ξp

¢+= max

¡t− ξp, 0

¢. Es así como para un spline de n+1 nudos

ξ0, ξ1, ..., ξn, un spline cúbico tiene n+3 parámetros©α0, α1, α2, α3, β1, β2, ..., βn−1

ª.

Page 82: 1 Conceptos estadísticos

84 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

En general un δ−grado spline tiene un equivalente a n + δ parámetros queestimar.

Sin embargo es común utilizar versiones generales de s(t) que se puedenrepresentar por combinaciones lineales de de splines generales, entre las cualesse encuentran las B-Splines. Para un conjunto de n+1 nudos ξ0, ξ1, ..., ξn,y para p = 0, 1, .., n− 4 definimos un spline cúbico Bp (t) por:

Bp (t) =

p+4Xi=p

Ãp+4Q

l=p,l 6=i

1

(ξl − ξi)

!¡t− ξp

¢3+

Aquí podemos ver que claramente la función B-Spline es nula o cero paraintervalos que esten fuera de

£ξp, ξp+4

¤.

Ejercicio. Consideremos la siguiente estructura de tasas de interés nom-inales:

Madurez Tasa

1 día 4.75

1 mes 4.52

3 meses 4.45

1 año 4.98

2 años 5.65

8 años 7.00

20 años 7.91

Aplicando la opción spline deMATLAB a través del siguiente código podemosestimar un cubic-spline con la siguiente estructura interpolada:

y=[4.75 4.52 4.45 4.98 5.65 7 7.91];

x=[1/365 30/365 90/365 1 2 8 20];

xx=0:.25:20;

yy = spline(x,y,xx);

Page 83: 1 Conceptos estadísticos

5.3 TEST DE CHOW 85

plot(x,y,’o’,xx,yy);

0 2 4 6 8 10 12 14 16 18 204

4.5

5

5.5

6

6.5

7

7.5

8

Cubic-Spline de Estructura de Tasas

Ejercicio. Aplicaremos la interpolación cubic-spline para proyectar elcomportamiento de una variable en una muestra estimada. Utilizando la es-timacion del ejercicio anterior podemos analizar cuál sería la tasa que un pa-pel de 10 años debiera tener. Analizando la curva estimada esta tasa debieraser del orden de 6.896%, cifra obtenida con la instrucción spline(t,y,10)en MATLAB.

5.3 Test de Chow

La idea de este estadístico es testear la hipótesis de que al menos un parámetrode los coeficientes de la regresión no es igual para toda la muestra. La filosofía

Page 84: 1 Conceptos estadísticos

86 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

consiste en evaluar estadísticamente si el vector de parámetros estimado paratoda la muestra difiere de aquel que se calcula considerando dos o más sub-muestras.Un modelo sin restricciones para cada submuestra permite tener vectores

de parámetros que difieren entre estas submuestras. Por ejemplo considere-mos un modelo aplicado a tres períodos que conformarán un tamaño muestraltotal de T :

t = 1, ..., s1 y1 = x1β1 + ε1

t = s1 + 1, ..., s2 y2 = x2β2 + ε2

t = s2 + 1, ..., T y3 = x3β3 + ε3

En términos matriciales este sistema se puede representar por:y1

y2

y3

Tx1

=

x1 0 0

0 x2 0

0 0 x3

Tx3k

β1

β2

β3

3kx1

+

ε1

ε2

ε3

Tx1

Aplicando la fórmula de los mínimos cuadrados ordinarios β = (x0x)−1 x0ypodemos estimar el vector de parámetros β:

β1

β2

β3

=x01x1 0 0

0 x02x2 0

0 0 x03x3

−1

x01y1

x02y2

x03y3

El Modelo restrtingido se obtine de estimar la ecuación y = xβ + ε sin

considerar ninguna subdivisión o partición muestral, es decir considerandotoda la base de datos:

y = xβ + ε t = 1, ..., T

de manera que el vector de parámetros estimados será β = (x0x)−1 x0y orig-inándose una suma del cuadrado de los residuos para el modelos restringidoe0ReR.Para testear la hipótesis nula de que los parámetros son iguales en cada

submuestra debemos aplicar el test F que se genera de comparar las sumas

Page 85: 1 Conceptos estadísticos

5.4 TEST DE WALD 87

de los cuadrados de los residuos de cada sumuestra en relación con la delmodelo restringido (e0ReR):

e0e = e01e1 + e02e2 + e03e3

La ecuación del test F que aplicaremos en esta situación corresponde a:

Fc =(e0ReR − e0e) / (T − k − (T −mk))

e0e/(T −mk)∼ F (J, T − k)

⇒ Fc =(e0ReR − e0e) / ((m− 1) k)

e0e/(T −mk)∼ F (J, T − k)

donde m corresponde al numero de submuestras consideradas (en nustroejemplo 3), T es el tamaño total de la muestra, y k es el número de parámetrosa estimar en cada modelo.

5.4 Test de Wald

Una manera alternativa de testear quiebres estructurales consiste en el testde Wald. Este test analiza eventuales quiebres entre submuestras. Si recor-damos el teorema que dice que el cuadrado de una distribución normal mul-tivariada estandarizada de dimensión J tiene una distribución Chi-cuadradocon J grados de libertad, entonces podemos parámetros estimados de paresde regresiones de la siguiente manera:

β1 ∼ Nk (β1,Σ1) Primera Regresión

β2 ∼ Nk (β2,Σ2) Segunda Regresión

Al asumir la hipótesis nula de que ambos vectores de parámetros kx1 es-timados son similares (H0 : β1 = β2) al calcular la diferencia entre ambosvectores y estandarizando tenemos:

β1 − β2 ∼ Nk (0,Σ1 + Σ2)

de manera que aplicando la defición de la Chi-cuadrado tendremos:

W =³β1 − β2

´0[Σ1 + Σ2]

−1³β1 − β2

´∼ χ2 (k)

Page 86: 1 Conceptos estadísticos

88 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

La expresión muestral para calcular este test asume conocida las matrices devarianzas y covarianzas Σ1 + Σ2, de manera que finalmente el test será:

Wc =³β1 − β2

´0 hΣ1 + Σ2

i−1 ³β1 − β2

´∼ χ2 (k)

Si se observa que el valor Wc es superior al valor de referencia obtenido detabla, entonces rechazamos la hipótesis nula de que los parámetros son losmismos, es decir existiría evidencia de que hay cambio estructural en estassubmuestras. Alternativamente, al igual que lo que se hizo con el test F ,se puede analizar el valor de probabilidad (P − V alue) correspondiente altest Wc y si este es inferior a 0.05 entonces rechazamos la hipótesis al 5% designificancia.

5.5 Tests CUSUM y CUSUMQ

Hasta ahora hemos asumido que conocemos el momento del eventual quiebreestructural. es aquí donde se presenta la debilidad de los métodos de testeoanteriores. Si el investigador no posee una claridad de cuando ocurrió elquiebre (de existir) y a qué variable asociarlo, entonces es necesario aplicartest que no requieran de esta información y más bien que entregen o anuncienel momento eventual de quiebre (denuevo, de existir).Los tests que se aplican actualmente son los conocidos como CUSUM

y CUSUMQ, siglas que se refieren a la suma de los residuos o los residuosal cuadrado de una secuencia de modelos estimados. La hipótesis nula es laestabilidad de los parámetros del modelo H0 : βt = β,∀t versus la alternativade que para todo o algún t esta relación se quiebra.Conceptualmente estos tests se generan del análisis de los residuos esti-

mando recursivamente ecuaciones lineales incorporando cada vez una base dedatos más completa hasta que finalmente agotamos toda la muestra. Analíti-camente se representan por:

cusumt =j=tP

j=k+1

cjs

cusumqt =

Pj=tj=k+1 c

2jPj=T

j=k+1 c2j

Page 87: 1 Conceptos estadísticos

5.5 TESTS CUSUM Y CUSUMQ 89

donde:

cj =yj − xjβ[j−1]s³

1 + x0j¡X 0

j−1Xj−1¢−1

x0j´

| z Varianza Predicha del Residuo (por σ2)

∼ N¡0, σ2

¢

s2 =

Pj=Tj=k+1 (cj − c)2

T − k − 1c =

Pj=Tj=k+1 cj

T − k∼ N

µ0,

σ2

T − k

¶Los intervalos de confianza para el CUSUM se generan por la conexión

de dos líneas¡k,±η√T − k

¢y¡T,±3η√T − k

¢, donde el valor de η es 0.948

si se desea un intervalo del 95% y 1.143 si el intervalo es del 99%.Para generar los intervalos de confianza del CUSUMQ hay que partir de

la distribución de la media de c:

c ∼ N

µ0,

σ2

T − k

¶cqσ2

T−k

∼ N (0, 1)

Al aplicar la definición del test t− student a esta distribución sabremos cuáles el intervalo que debemos agregar al coeficiente cusumq:

cqσ2

T−kqs2

σ2(T − k − 1) /(T − k − 1)

=cs√T−k∼ t(T − k − 1)

es decir el intervalo para CUSUMQ será:Pj=tj=k+1 c

2jPj=T

j=k+1 c2j

−tα (T − k − 1) cs√T−k≤ cusumqt ≤

Pj=tj=k+1 c

2jPj=T

j=k+1 c2j

+tα (T − k − 1) cs√T−k

Su popularidad se debe a que estos han sido incorporados el softwareeconométrico y que adicionalmente para su testeo no es necesario contrastarel estadístico con ningun valor de tabla o P-Value. Es suficiente hacer una

Page 88: 1 Conceptos estadísticos

90 CHAPTER 5 EVALUANDO QUIEBRES ESTRUCTURALES

inspección visual a un par de figuras que presentan estos tests. Si los es-tadísticos generados secuencialmente (CUSUM y CUSUMQ) se salen de losintervalos de confianza predefinidos (por ejemplo la línea que se sale por ellímite superior de las figuras) entonces podemos decir que se rechaza la es-tabilidad del modelo. Adicionalmente este test estaría indicando cuando seproduce el quiebre estructural.

Test CUSUM: Intervalos de Confianza

Test CUSUMQ: Intervalos de Confianza

Page 89: 1 Conceptos estadísticos

Chapter 6

Distorsiones del Modelo deRegresión

El modelo de regresión simple multivariado asume que los residuos se dis-tribuyen en forma identica e independiante con valor esperado 0 y matriz devarianzas y covarianzas σ2I. Este capítulo explora las implicancias y métodosdisponibles para corregir el procedimiento de estimación de mínimos cuadra-dos cuando la matriz de varianzas y covarianzas no es σ2I.

6.1 Heteroscedasticidad

Una vez asumido que la matriz de varianzas y covarianzas de los residuos esσ2I, podemos devolvernos a entender el por qué de este resultado. Recorde-mos que una matriz de varianzas y covarianzas puede ser descompuesta entres matrices, dos de las cuales son idénticas:

E [εε0] = Λ = ΣΘΣ

91

Page 90: 1 Conceptos estadísticos

92CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

donde cada matriz se define por:

Σ =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

Θ =

1 ρ1,2 ... ρ1,T−1 ρ1,T

ρ2,1 1 ρ2,T

... ... ...

ρT−1,1 ... ...

ρT,1 ρT,2 ... 1

Luego se puede escribir la anterior expresión como:

E [εε0] =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

1 ρ1,2 ... ρ1,T−1 ρ1,T

ρ2,1 1 ρ2,T

... ... ...

ρT−1,1 ... ...

ρT,1 ρT,2 ... 1

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

Al asumir homoscedasticidad estamos imponiendo que las matrices Σ

sean σ-escalares es decir Σ = σI, y a su vez al imponer no autocorrelaciónla matriz Θ corresponde a la identidad, Θ = I.Al levantar el supuesto de homoscedasticidad ya no es posible definir a la

matriz de varianzas y covarianzas como σ2I, pues existirá una matriz Σ queno es escalar, en donde los elementos de su diagonal no son constantes. Poresta razón es que la matriz de varianzas y covarianzas se define ahora asum-iendo solamente no autocorrelación pero si errores heteroscedásticos por:

E [εε0] = ΣΣ

Page 91: 1 Conceptos estadísticos

6.1 HETEROSCEDASTICIDAD 93

Si factorizamos la matriz ΣΣ por σ2 entonces podemos renombrar a la matrizde varianzas y covarianzas como:

E [εε0] = Λ = ΣΣ = σ2Ω

donde la matriz Ω corresponde a una matriz diagonal definida por:

Ω =

ω1 0 ... 0

0 ω2 ... 0

... ... ... ...

0 0 ... ωT

Considerando la notación anterior entonces ahora analizaremos los efectos

que produce en los estimadores mínimos cuadrados el asumir heteroscedasti-cidad en los residuos, es decir ahora asumiremos que:

ε ∼ N¡0, σ2Ω

¢donde Ω no es la identidad.

6.1.1 Implicancias para Estimación

Para verificar si existe algún efecto sobre los estimadores mínimo cuadradosconsideremos el caso de un modelo general en su versión matricial comoy = xβ + ε, donde asumiremos que ε ∼ N (0, σ2Ω). lo más interesante esverificar si los primeros momentos de este estimador se ven afectados, para locual primero analizaremos el sesgo y segundo la varianza de los estimadoresbajo este nuevo escenario.

1. Sesgo. Si sabemos que β = (x0x)−1 x0y entonces reemplacemos el mod-elo en esta expresión:

β = (x0x)−1 x0y

= (x0x)−1 x0 (xβ + ε)

= (x0x)−1 x0xβ + (x0x)−1 x0ε

= β + (x0x)−1 x0ε

Page 92: 1 Conceptos estadísticos

94CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

Al aplicar el operador expectativa y considerando que E (ε) = 0, ten-dremos que:

E³β´= β + (x0x)−1 x0E (ε)

E³β´= β

de manera que aun bajo presencia de errores heteroscedásticos los es-timadores mínimo cuadrados siguen siendo insesgados.

2. Varianza. A partir de la expresión β = β+(x0x)−1 x0ε podemos analizarsi los estimadores cumplen con la característica de ser los mejores esti-madores, es decir aquellos que tienen la mínima varianza.

Al aplicar varianza sobre esta expresión, y recordando que V (ε) = Λ =σ2Ω y que las x son variables determinísticas, llegamos a:

β = β + (x0x)−1 x0ε

V³β´= V

³β + (x0x)−1 x0ε

´V³β´= (x0x)−1 x0V (ε)x (x0x)−1

V³β´= (x0x)−1 x0Λx (x0x)−1

V³β´= σ2 (x0x)−1 x0Ωx (x0x)−1

Sabemos que de ser la matriz Ω = I, entonces los estimadores mínimocuadrados son eficientes (es decir de mínima varianza), de manera quesabemos entonces que:

I < x0Ωx (x0x)−1 , ∀Ω 6= I

La implicancia es que indudablemente los valores de las varianzas de losestimadores serán mayores, de manera que si asumimos homoscedasti-cidad y calculamos la varianza como σ2 (x0x)−1 claramente estaremossubestimando la verdadera volatilidad de los estimadores, creyendoloseficientes cuando en realidad no lo son, lo cual implica que al aplicartests t−student estemos rechazando hipótesis nulas cuando en realidadestas son verdaderas (aumentando la probabilidad de error tipo I o er-ror tipo α). En resumen, en presencia de errores heteroscedásticos losestimadores mínimo cuadrados son ineficientes y los test estadísticospierden validez.

Page 93: 1 Conceptos estadísticos

6.1 HETEROSCEDASTICIDAD 95

6.1.2 Tests de Heteroscedasticidad

Para iniciar el procedimiento de testeo de heteroscedasticidad es común en se-ries de tiempo partir con el análisis visual de los residuos, puesto que al asumirque su valor esperado es nulo entonces los cuadrados de estos pueden ser unabuena aproximación de la varianza residual, es decir, dado que E (ε) = 0,entonces V (εt) = σ2t = E (ε2t )− E (εt)2 = E (ε2t ).Estadísticamente los tests de heteroscedasticidad se construyen con la

idea de encontrar alguna dependencia o relación de causalidad entre los resid-uos (típicamente sus cuadrados o el logarítmo de ellos) y alguna otra variableutilizando una ecuación auxiliar (típicamente lineal) a estimar. La hipótesisnula se representa por:

H0 : σ2t = σ2 ,∀t (Homocedasticidad)

versus la hipótesis alternativa de que para algun t esta relación no se cumple,representada por la ecuación auxiliar siguiente:

Ha : σ2t = ω0 + ztφ

donde zt es un vector fila de tamaño 1xm compuesto por m variables can-didatas a explicar la heteroscedasticidad en el período t, φ es el vector detamaño mx1 constante para todo t, y ω0 corresponde al escalar que repre-sentaría el valor de la varianza (σ2) de existir homoscedasticidad, es decir sino se rechaza la hipótesis de que φ = 0:

σ2t = ω0 + ztφ

σ2t = ω0 + zt0

σ2t = ω0

Empíricamente la batería de tests que se han diseñado se focalizan enevaluar si este vector φ es estadisticamente cero, para lo cual se efectúa unaestimación por mínimos cuadrados de la ecuación auxiliar σ2t = ω0 + ztφpero reemplazando la varianza por los cuadrados de los residuos del modelo

principal y = xβ+ε, es decir se reemplaza σ2t = e2t =³yt − xtβ

´2y se estima

alguna transformación de e2t = ω0 + ztφ.A continuación se presentan los test más utilizados para verificar la exis-

tenia de errores heteroscedásticos:

Page 94: 1 Conceptos estadísticos

96CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

1. Breusch-Pagan-Godfrey (BPG, 1978-1979). Se estima la siguiente re-gresión:

e2t = ω0 + ztφ+ νt

y se testea según el estadístico ΨBPG = T ·R2[a] ∼ χ2 (m). T correspondeal número de observaciones consideradas en la estimación del modeloauxiliar y R2[a] es el coeficiente de determinación de la ecuación auxiliar.

Si el test calculado Ψ supera el valor de tabla entonces rechazamoshomoscedasticidad.

2. Glejser (1969). Aquí la variable dependiente es el valor absoluto de losresiduos muestrales, de manera que se estima:

|et| = ω0 + ztφ+ νt

y el test que se distribuye como chi-cuadrado con m grados de libertadse representa por (ν es el vector de residuos estimados de la regresiónauxiliar):

ΨG =SCT[a] − v0vh¡1− 2

π

¢s2[a]

idonde s2[a] =

v0vT−(m+1) , y SCT[a] corresponden a la varianza residual

y la suma de los cuadrados totalesP³

|et|−³ _

|et|´´2

de la ecuación

auxiliar respectivamente. Luego si el estadístico ΨG supera al χ2α (m)de tabla entonces rechazamos la hipótesis nula de homoscedasticidadexistiendo evidencia de errores heteroscedásticos.

3. Harvey (1976). Andrew Harvey en su artículo "Estimating RegressionModels with Miltiplicative Heteroskedasticity" (ECONOMETRICA,Vol. 44, pag. 461-465) utiliza como variable explicativa el logaritmo delos residuos al cuadrado, de manera que la ecuación a estimar es:

ln¡e2t¢= ω0 + ztφ+ νt

y el test que se distribuye chi-cuadrado con m grados de libertad es:

ΨH =SCT[a]4.9348

Al igual que en los casos anteriores, si ΨH es superior al respectivovalor de tabla χ2α (m) entonces existe evidencia de heteroscedasticidaden los residuos.

Page 95: 1 Conceptos estadísticos

6.1 HETEROSCEDASTICIDAD 97

4. Modelo Heteroscedástico con Media Condicional. En este caso se asumeque la variable explicativa es la variable dependiente estimada del mod-elo principal (yt), de manera que el modelo a estimar es:

e2t = ω0 + φyt + νt

Para este caso el test posee un grado de libertad, y φ correspondeal parámetro que acompaña a yt. El test a aplicar aquí correspondeaun chi-cuadrado pero con un grado de libertad y se contrasta con elestadístico:

ΨMC = T ·R2[a]Si ΨMC supera a χ2α (1) entonces existe evidencia de heteroscedastici-dad.

5. Modelo Heteroscedástico con Media-Cuadrada Condicional. En estecaso se asume que la variable explicativa es la variable dependiente es-timada del modelo principal al cuadrado (y2t ), de manera que el modeloa estimar es:

e2t = ω0 + φy2t + νt

Para este caso el test posee un grado de libertad, y φ correspondeal parámetro que acompaña a y2t . El test a aplicar aquí correspondeaun chi-cuadrado pero con un grado de libertad y se contrasta con elestadístico:

ΨMCC = T ·R2[a]Si ΨMCC supera a χ2α (1) entonces existe evidencia de heteroscedastici-dad.

6. Modelo Heteroscedástico con log-Media-Cuadrada Condicional. En estecaso se asume que la variable explicativa es la variable dependienteestimada del modelo principal al cuadrado y en logaritmo (ln (y2t )), demanera que el modelo a estimar es:

e2t = ω0 + φ ln¡y2t¢+ νt

Para este caso el test posee un grado de libertad, y φ corresponde alparámetro que acompaña a ln (y2t ). El test a aplicar aquí correspondeaun chi-cuadrado con un grado de libertad y se contrasta con el es-tadístico:

ΨMLCC = T ·R2[a]

Page 96: 1 Conceptos estadísticos

98CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

Si ΨMLCC supera a χ2α (1) entonces existe evidencia de heteroscedasti-cidad.

7. Modelo Autoregresivo Heteroscedástico Condicional (ARCH). Este testsestá asociado a Robert Engle, quien en 1982 publica en el Journalof Econometrics el artículo "A General Approach to Lagrange Mul-tiplier Model Diagnostics". En este tipo de modelos la(s) variable(s)explicativa(s) es el propio rezago de la variable dependiente, es decirlos cuadrados de los residuos rezagados q veces, representación que porlo demás ha sido muy difundida para analizar retornos de precios deactivos (especialmente retornos accionarios).

La representación a estimar corresponde a:

e2t = ω0 + φ1e2t−1 + φ2e

2t−2 + ...+ φqe

2t−q + νt

El test evalúa si los coeficientes φj son conjuntamente cero (homoscedas-ticidad) para lo cual se compara el estadístico:

ΨARCH = (T − q)R2[a]

Si ΨARCH supera al test chi-cuadrado con q grados de libertad, χ2α (q),entonces hay evidencia de errores heteroscedásticos.

8. White (1980). En su artículo "A Heteroskedastic-Consistent Covari-ance Matrix and a Direct Test for Heteroskedasticity" (ECONOMET-RICA Vol. 48, pag. 421-48) presenta un test que no requiere de an-temano listar qué variable o variables son las candidatas a explicarel comportamiento heteroscedastico de los errores. Simplemente con-sidera como potenciales variables explicativas a todas las que estáninvolucradas en el modelo principal y = xβ + ε. Las introduce comovariables en la ecuación auxiliar de tres formas simultáneamente: enniveles, al cuadrado y multiplicándose entre ellas.

La expresión a estimar será entonces:

e2t = ω0 + ztφz + z2t φz2 +P

zitzjtφij + νt

es decir si el modelo original y = xβ + ε posee k parámetros a estimar(la constante y k−1 variables explicativas) entonces el modelo auxiliar

Page 97: 1 Conceptos estadísticos

6.1 HETEROSCEDASTICIDAD 99

de White tendrá que estimar un total de k0 =³(k+1)(k+2)

2

´parámet-

ros considerando la constante, las variables en niveles, las variablesal cuadrado, y los efectos cruzados de las variables (multiplicación devariables entre sí).

El test estadístico se distribuye chi-cuadrado con (k0 − 1) grados delibertad y se obtiene de:

ΨW = T ·R2[a]Si ΨW es superior al chi-cuadrado de tabla χ2α (k

0) entonces rechazamosla hipótesis nula de homoscedasticidad.

6.1.3 Corrección

Existen básicamente dos formas de corregir bajo la presencia de heteroscedas-ticidad. Una es el procedimiento de White o su versión más general conocidacomo elMétodo de Mínimos Cuadrados Generalizados o Mínimos CuadradosPonderados (MCG) y la segunda es estimación por máximo verosimilitud,esta última se deja para una discusión posterior.

1. Mínimos Cuadrados Generalizados (MCG). Dado que sabemos que engeneral la matriz de varianzas y covarianzas de los parámetros esti-mados se representa por (x0x)−1 x0Λx (x0x)−1 y sabemos que los esti-madores no son los de mínima varianza en este caso. Si conocieramosla matriz Λ podríamos generar residuos cuya matriz sea escalar de man-era que los estimadores generados a partir de ese modelo corregido sientrege estimadores de mínima varianza. En esto consiste el métodode mínimos cuadrados ponderados: aplicar mínimos cuadrados a unatransformación del sistema original y = xβ + ε.

Para esto, dado que Λ es una matriz simétrica y definida positiva,entonces podemos definir una matriz H que satisfaga la condiciónHΛH 0 = I. En otras palabras vemos que Λ = H−1H−10 de formaque Λ−1 = H 0H.

Si nuestro modelo original es:

y = xβ + ε

ε ∼ N (0,Λ)

Page 98: 1 Conceptos estadísticos

100CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

entonces el modelo transformado será:

Hy = Hxβ +Hε

Hy = Hxβ + η

η ∼ N (0, I)

pues V (Hε) = H 0V (ε)H = H 0ΛH = I. Luego en este sistema si sesabemos que los estimadores mínimo cuadrados son eficientes (de mín-ima varianza) de manera que podemos hacer inferencia con los erroresestandar estimados. Los estimadores MCG serán al igual que en elcaso de mínimos cuadrados ordinarios generados a partir de la fórmulaβ = (x0x)−1 x0y, lo cual aplicado a nuestro sistema modificado será:

βMCG = ((x0H 0) (Hx))

−1(x0H 0) (Hy)

pero como hemos definido anteriormente que H 0H = Λ−1, entoncessimplificamos la expresión anterior a:

βMCG =¡x0Λ−1x

¢−1x0Λ−1y

Dado que ahora el nuevo residuo η tiene una varianza identidad, lavarianza de los estimadores MGC se deducirá de al expresión anterior:

βMCG =¡x0Λ−1x

¢−1x0Λ−1y

βMCG =¡x0Λ−1x

¢−1x0Λ−1 (xβ + ε)

βMCG =¡x0Λ−1x

¢−1x0Λ−1xβ +

¡x0Λ−1x

¢−1x0Λ−1ε

βMCG = β +¡x0Λ−1x

¢−1x0Λ−1ε

Al aplicar varianza a la expresión³βMCG − β

´y simplificando nos

queda (recordando que V (ε) = Λ):

ΣβMCG= V

h¡x0Λ−1x

¢−1x0Λ−1ε

iΣβMCG

=¡x0Λ−1x

¢−1x0Λ−1V (ε)Λ−1x

¡x0Λ−1x

¢−1ΣβMCG

=¡x0Λ−1x

¢−1x0Λ−1ΛΛ−1x

¡x0Λ−1x

¢−1ΣβMCG

=¡x0Λ−1x

¢−1x0Λ−1x

¡x0Λ−1x

¢−1ΣβMCG

=¡x0Λ−1x

¢−1

Page 99: 1 Conceptos estadísticos

6.1 HETEROSCEDASTICIDAD 101

de manera que finalmente sabemos que la distribución de los esti-madores MCG será insesgada y con matriz de varianzas y covarian-zas (x0Λ−1x)−1. Dado que el estimador βMCG es de mínima varianzaen relación al estimador de mínimos cuadrados bajo presencia de het-eroscedasticidad entonces podemos decir que:

ΣβMCG≤ ΣβMCO¡

x0Λ−1x¢−1 ≤ (x0x)−1 x0Λx (x0x)−1

Naturalmente para hacer las estimaciones y la aplicación de este pro-cedimiento debemos tener un estimador de Λ. Una vez que se encuentreel estimador Λ generamos las representaciones muestrales (estimadas)de las expresiones para los estimadores βEMCG y la matriz de varianzasestimada ΣβMCG

:

βEMCG =³x0Λ−1x

´−1x0Λ−1y

ΣβMCG=³x0Λ−1x

´−1White entrega un estimador para Λ centrando su atención en corregir lamatriz de varianzas y covarianzas con el fin de hacer inferencia, dejandoinalterado los estimadores mínimos cuadrados.

2. White (1980). En su artículo se presenta cómo obtener consistenciapara la matriz de varianza y covarainzas y así poder calcular erroresestándar correctos de los estimadores y efectuar con confianza testst − student. Recordemos que en presencia de heteroscedasticidad lamatriz de varianzas y covarianzas se representa por:

Σβ = (x0x)−1 x0Λx (x0x)−1

La proposición de White es reemplazar Λ por su expresión muestral demanera que si εt ∼ N (0, σ2t ):³

β − β´= (x0x)−1 x0ε³

β − β´= (x0x)−1

TPt=1

x0tεt ∀t

Page 100: 1 Conceptos estadísticos

102CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

entonces al aplicar operador varianza:

Σβ = (x0x)−1 V·

TPt=1

x0tεt

¸(x0x)−1

Σβ = (x0x)−1·

TPt=1

x0tV [εt]xt

¸(x0x)−1

Σβ = (x0x)−1·

TPt=1

x0tσ2txt

¸(x0x)−1

Σβ = (x0x)−1·

TPt=1

x0txtσ2t

¸(x0x)−1

entonces la matriz de covarianzas consistente se obtiene de reemplazarσ2t = e2t en la expresión anterior:

Σβ = (x0x)−1

·TPt=1

x0txte2t

¸(x0x)−1

Esta matriz será consistente y puede ser utilizada para hacer inferenciasobre los parámetros estimados.

6.2 Autocorrelación

La discusión de la autocorrelación sigue un procedimiento muy similar la casode la heteroscedasticidad y los problemas que causa sobre los estimadoresmínimo cuadrados también.

Recordemos nuevamente que una matriz de varianzas y covarianzas puedeser descompuesta en tres matrices, dos de las cuales son idénticas:

E [εε0] = Λ = ΣΘΣ

donde al igual que en caso de la heteroscedasticidad cada matriz se define

Page 101: 1 Conceptos estadísticos

6.2 AUTOCORRELACIÓN 103

por:

Σ =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

Θ =

1 ρ1,2 ... ρ1,T−1 ρ1,T

ρ2,1 1 ρ2,T

... ... ...

ρT−1,1 ... ...

ρT,1 ρT,2 ... 1

Luego se puede escribir la anterior expresión como:

E [εε0] =

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

1 ρ1,2 ... ρ1,T−1 ρ1,T

ρ2,1 1 ρ2,T

... ... ...

ρT−1,1 ... ...

ρT,1 ρT,2 ... 1

σ1 0 ... 0 0

0 σ2 0

... ... ...

0 ... ...

0 0 ... σT

Al asumir no autocorrelación de los residuos estamos imponiendo que la

matriz Θ sea la matriz identiodad, Θ = I, y a su vez al imponer homoscedas-ticidad la matrices Σ corresponden a matrices escalares σI.Al levantar el supuesto de no autocorrelación ya no es posible definir

a la matriz de varianzas y covarianzas como σ2I, pues existirá una matrizΘ que no es la identidad. Por esta razón es que la matriz de varianzasy covarianzas se define ahora asumiendo homoscedasticidad pero si erroresautocorrelacionados:

E [εε0] = Λ = σ2Θ

Considerando la notación anterior analizaremos los efectos que produce enlos estimadores mínimos cuadrados el asumir autocorrelación en los residuos,

Page 102: 1 Conceptos estadísticos

104CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

es decir asumiremos que:ε ∼ N

¡0, σ2Θ

¢donde Θ no es la identidad.

6.2.1 Implicancias para Estimación

Para verificar si existe algún efecto sobre los estimadores mínimo cuadradosconsideremos el caso de un modelo general en su versión matricial comoy = xβ + ε, donde asumiremos que ε ∼ N (0, σ2Θ). lo más interesante esverificar si los primeros momentos de este estimador se ven afectados, para locual primero analizaremos el sesgo y segundo la varianza de los estimadoresbajo este nuevo escenario donde Θ 6= I.

1. Sesgo. Si sabemos que β = (x0x)−1 x0y entonces reemplacemos el mod-elo en esta expresión:

β = (x0x)−1 x0y

= (x0x)−1 x0 (xβ + ε)

= (x0x)−1 x0xβ + (x0x)−1 x0ε

= β + (x0x)−1 x0ε

Al aplicar el operador expectativa y considerando que E (ε) = 0, ten-dremos que:

E³β´= β + (x0x)−1 x0E (ε)

E³β´= β

de manera que aun bajo presencia de errores autocorrelacionados losestimadores mínimo cuadrados siguen siendo insesgados.

2. Varianza. A partir de la expresión β = β+(x0x)−1 x0ε podemos analizarsi los estimadores cumplen con la característica de ser los mejores esti-madores, es decir aquellos que tienen la mínima varianza.

Al aplicar varianza sobre esta expresión, y recordando que V (ε) = Λ =

Page 103: 1 Conceptos estadísticos

6.2 AUTOCORRELACIÓN 105

σ2Θ y que las x son variables determinísticas, llegamos a:

β = β + (x0x)−1 x0ε

V³β´= V

³β + (x0x)−1 x0ε

´V³β´= (x0x)−1 x0V (ε)x (x0x)−1

V³β´= (x0x)−1 x0Λx (x0x)−1

V³β´= σ2 (x0x)−1 x0Θx (x0x)−1

Sabemos que de ser la matriz Θ = I, entonces los estimadores mínimocuadrados son eficientes (es decir de mínima varianza), de manera quesabemos entonces que:

I < x0Θx (x0x)−1 , ∀Θ 6= I

La implicancia es que indudablemente los valores de las varianzas delos estimadores serán mayores, de manera que si asumimos no autocor-relación y calculamos la varianza como σ2 (x0x)−1 claramente estaremossubestimando la verdadera volatilidad de los estimadores, creyéndoloseficientes cuando en realidad no lo son, lo cual implica que al aplicartests t − student estemos rechazando hipótesis nulas cuando en real-idad estas son verdaderas (aumentando la probabilidad de error tipoI o error tipo α). En resumen, en presencia de autocorrelación de losresiduos, los estimadores mínimo cuadrados son ineficientes y los testestadísticos pierden validez.

6.2.2 Tests de Autocorrelación

Para iniciar el procedimiento de testeo de autocorrelación de los residuos elprimer paso consiste en una inspección gráfica de los residuos en el tiempo.Este procedimiento es estadíticamente muy débil y solamente si la autocor-relación es muy fuerte entonces se observará algo en la gráfica, pero de seruns correlación débil es necesario la aplicación de una batería de tests espe-cialmente diseñada para tal efecto.Estadísticamente los tests de heteroscedasticidad se construyen con la

idea de encontrar alguna dependencia o relación de causalidad temporal entre

Page 104: 1 Conceptos estadísticos

106CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

los residuos estimando una ecuación auxiliar al igual que con la heteroscedas-ticidad. La hipótesis nula se representa por:

H0 : ρ = 0 , ∀t (No Autocorrelación)

versus la hipótesis alternativa de que para algún t esta relación no se cumple.La ecuación auxiliar general se puede representar por:

Ha : εt = ρ1εt−1 + ρ2εt−2 + ...+ ρqεt−q

donde ρ es un vector de tamaño qx1. De no existir autocorrelación de losresiduos el vector de parámetros compuesto por q residuos rezagados paraexplicar la autocorrelación. De no existir autocorrelación residual de ordenq la hipótesis nula ρ = 0 no es rechazada.Empíricamente la batería de tests que se han diseñado se focalizan en

evaluar si este vector ρ es estadisticamente cero, para lo cual se efectúa unaestimación por mínimos cuadrados de la ecuación auxiliar pero reemplazandoεt por los residuos muestrales del modelo principal y = xβ + ε, es decir sereemplaza εt = et =

³yt − xtβ

´y se estima et = ρ1et−1+ρ2et−2+...+ρqet−q+

νt.A continuación se presentan los test más utilizados para verificar la exis-

tenia de errores autocorrelacionados:

1. Durbin-Watson (1950, 1951). El estadístico de Durbin y Watson (d) esuno de los test más tradicionales para evaluar autocorrelación residualde primer orden (q = 1). A partir de la estimación de modelo principalse generan los residuos muestrales et. A partir de estos se calcula elestadístico d como:

d =

PTt=2 (et − et−1)

2PTt=1 e

2t

Este estadístico tiene una estrecha relación con el coeficiente de au-tocorrelación ρ de la regresión auxiliar. Si estimamos ρ utilizandoel método de los mínimos cuadrados aplicado a la ecuación auxiliaret = ρet−1 + νt, el coeficiente estimado sería (recordemos que e→ 0):

ρ =

PTt=2 et−1etPTt=2 e

2t−1

Page 105: 1 Conceptos estadísticos

6.2 AUTOCORRELACIÓN 107

De la expresión para el test d se puede concluir que:

d =

PTt=2 (et − et−1)

2PTt=1 e

2t

d =

PTt=2

¡e2t + e2t−1 − 2etet−1

¢PTt=1 e

2t

d =

PTt=2 e

2tPT

t=1 e2t

+

PTt=2 e

2t−1PT

t=1 e2t

−PT

t=2 2etet−1PTt=1 e

2t

Dado que los dos primeros términos son bastante similares, y ademásreemplazando

PTt=1 e

2t ≈

PTt=2 e

2t−1 entonces podemos escribir esta úl-

tima expresión como:

d ≈ 2−PT

t=2 2etet−1PTt=2 e

2t−1

d ≈ 2

Ã1−

PTt=2 etet−1PTt=2 e

2t−1

!

Note sin embargo que esta última expresión también se puede escribircomo:

d ≈ 2Ã1−

PTt=2 etet−1PT

t=2 e2t

!donde hemos utilizado la aproximación

PTt=2 e

2t ≈

PTt=2 e

2t−1 de manera

que en la práctica el coeficiente ρ lo podemos extraer de una estimacióndel tipo et = ρet−1 + νt o una expresión auxiliar inversa como et−1 =ρet + νt−1. Este punto es relevante para otros tests que se presentaránmás adelante.

Finalmente reemplazando por el coeficiente estimado del factor de au-tocorrelación ρ llegamos a la expresión que relaciona el estadístico dcon el coeficiente de autocorrelación de primer orden ρ:

d ≈ 2 (1− ρ)

Claramente la hipótesis nula ρ = 0 indica implícitamente la hipótesisH0 : d = 0. Para verificar los extremos del estadístico d analicemos los

Page 106: 1 Conceptos estadísticos

108CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

valores posibles del coeficiente de autocorrelación:

ρ = −1 =⇒ d = 4 Autocorrelación Negativa

ρ = 0 =⇒ d = 2 No Autocorrelación

ρ = 1 =⇒ d = 0 Autocorrelación Positiva

Este test es uno de los pocos que se contrasta con dos valores de unamisma tabla. Considerando un nivel de significancia de α% se debe de-terminar el número de parámetros estimados en la ecuación o modeloprincipal y = xβ + ε sin considerar la constante (k − 1), y el númerode observaciones utilizadas en la estimación (T ). Con esta informaciónla tabla entrega dos estadísticos dl, du, donde dl < du. Dado que elestadístico d pertenece al intervalo [0, 4] los valores de tabla tambiénestarán acotados a ese mismo intervalo. Dependiendo del valor quetoma el estadístico d en relación a los valores de tabla, rechazaremos ono la hipótesis nula de no autocorrelación de primer orden de los resid-uos. La siguiente tabla entrega estas relaciones de la cual se concluyeque rechazamos la hipótesis nula de no autocorrelación si el estadísticod cae duera del intervalo [dl, 4− dl]:

d < dl

Rechazo H0

Autocorrelación Positiva

dl < d < du Región Inconclusa

du < d < 4− du No Rechazo H0

4− du < d < 4− dl Región Inconclusa

d > 4− dl

Rechazo H0

Autocorrelación Negativa

Ejercicio. Supongamos que estimamos un modelo de demanda porun producto q con dos variables explicativas: ingreso (y) y precio delproducto (p), con los siguientes resultados:

qt = 25.89− 1.12pt + 0.89ytd = 1.39

T = 85

Page 107: 1 Conceptos estadísticos

6.2 AUTOCORRELACIÓN 109

Si observamos los valores de tabla de referencia al 5% para k − 1 = 2con 85 observaciones se obtiene:

dl = 1.600

du = 1.696

Dado que el estadístico d = 1.39 < dl = 1.6 entonces rechazamos lahipótesis nula que los residuos no están autocorrelacionados en favorde que eventualmente existe autocorrelación positiva.

Asumamos que esa autocorrelación provendría del hecho de que de-jamos fuera una variable relevante como es el precio del producto susti-tuto (ps) y estimamos el modelo con esta variable incluída. Los resul-tados son:

qt = 23.19− 1.01pt + 0.94yt + 0.43pstd = 1.89

T = 230

Ahora el estadístico d = 1.89 con k − 1 = 3, y cae en el intervalo[du, 4− du] = [1.721, 2.279] de manera que ahora con el modelo cor-regido e incorporando la variable causante de la autocorrelación, norechazamos la hipótesis nula de no autocorrelación de los residuos.

2. Durbin-h (1970). Este test se utiliza cuando la ecuación principal tienecomo variables explicativas rezagos de la variable endógena o dependi-ente, es decir variables yt−j con j > 1. La hipótesis nula sigue siendo noautocorrelación de primer orden y el sistema a estimar se representarápor:

y = xβ + y−jγ + ε

εt = ρεt−1 + νt

donde en este caso el parámetro γ posee una dimensión jx1 donde j es elnúmero de rezagos que presenta la variable y como variable explicativa.Recordemos que el parámetro de autocorrelación ρ lo podemos tambiéncalcular de la expresión auxiliar inversa εt−1 = ρεt + νt−1En este caso el test h se distribuye asintóticamente como una normalestandarizada definida por:

h = ρ

"T − j

1− (T − j) V¡γ[−1]

¢# 12

∼ N (0, 1)

Page 108: 1 Conceptos estadísticos

110CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

donde j corresponde al número de rezagos utilizados de la variableendógena como variable explicativa, γ[−1] es el parámetro asociado alprimer rezago de estas variables endógenas explicativas, y T − j cor-responde al número de observaciones utilizadas en la estimación delmodelo principal.

Dado que h ∼ N (0, 1) entonces si este estadístico pertenece al intervalo[−1.96, 1.96] al 5% (o al intervalo [−1.645, 1.645] con un nivel de sig-nificancia del 10%) no rechazamos la hipótesis nula de que los residuosno siguen un proceso de autocorrelación de primer orden.

Ejercicio. Supongamos que en una regresión para estudiar la inflaciónse utilizan dos rezagos de la inflación como variables explicativas. Elresultado de las estimaciones es el siguiente (errores estándar entreparéntesis):

πt = 2.21 + 0.65πt−1 + 0.12πt−2 + 0.89 · mt

(0.04) (0.04) (0.06) (0.12)

d = 0.87

T = 180

donde π es la inflación en t, y m es la tasa de crecimiento de la cantidadde dinero en t.

A partir de estos resultados sabemos queno podemos aplicar el testtradicional de Durbin-Watson. En este caso al existir variables de-pendientes rezagadas en la ecuación entonces debemos aplicar el testh-Durbin:

h = ρ

"T − j

1− (T − j) V¡γ[−1]

¢# 12

h = 0.87

·180− 2

1− (180− 2) (0.04)2¸ 12

h = 13.725

Claramente este valor supera los valores relevantes de una tabla estadís-tica normal (1.645 ó 1.96), lo cual implica que rechazamos la hipótesisde no autocorrelación de primer orden de los residuos.

Page 109: 1 Conceptos estadísticos

6.2 AUTOCORRELACIÓN 111

3. Multiplicador de Lagrange para Correlación Serial. Este test es muyutilizado para evaluar modelos con procesos autoregresivos de los resid-uos superiores a uno. A diferencia de los test anteriores, la ecuaciónauxiliar a estimar contiene el conjunto de variables explicativas delmodelo principal además de los rezagos de los residuos por analizar:

y = xβ + ε

εt = xγ + ρ1εt−1 + ρ2εt−2 + ...+ ρqεt−q + νt

Reemplazando los residuos poblacionales por los muestrales (εt = et)implementamos el test como:

ΨLM = (T − q)R2[a] ∼ χ2 (q)

Al igual que en los casos anteriores donde se aplicaron test de estaclase, la hipótesis nula H0 : ρ1 = ρ2 = ... = ρq = 0 (no autocorrelaciónde orden q de los residuos) será rechazada si es que el estadístico ΨLM

supera a su similar de tabla χ2α (q).

4. Multiplicador de Lagrange para Correlación Serial con Rezagos de y.La diferencia de este test con respecto al del punto anterior es quees más general pues permite la existencia de variables rezagadas (y−j)como variables explicativas de y. La ecuación auxiliar a estimar con-tiene el conjunto de variables explicativas del modelo principal ademásde los rezagos de los residuos por analizar:

y = xβ + y−jγ + ε

εt = xβ + y−jγ + ρ1εt−1 + ρ2εt−2 + ...+ ρqεt−q + νt

Reemplazando los residuos poblacionales por los muestrales (εt = et)implementamos el test como:

ΨLME = (T − (j + q))R2[a] ∼ χ2 (q)

donde ahora restamos al número de observaciones T el número de ob-servaciones perdidas en estimar el modelo original j y las del mod-elo auxiliar q. Al igual que en el caso anterior, la hipótesis nulaH0 : ρ1 = ρ2 = ... = ρq = 0 (no autocorrelación de orden q de losresiduos) será rechazada si es que el estadístico ΨLME supera a su sim-ilar de tabla χ2α (q).

Page 110: 1 Conceptos estadísticos

112CHAPTER 6DISTORSIONESDELMODELODEREGRESIÓN

5. Box-Pierce (1970) o test Q. Este test se basa en el análisis conjunto delos coeficientes estimados de la ecuación auxiliar para verificar si sonestadísticamente ceros. Estos coeficientes son las correlaciones de losresiduos de manera que se analizan:

γεsεt =Cov (εs, εt)

V ar (εt)=

E (εs, εt)

E (ε2t )

Tal como sabemos este coeficiente es equivalente al parámetro de laecuación auxiliar inversa:

εt−s = γsεt + νt−s ∀s = 1, 2, ..., q

donde el γ se calcula como la razón entre las covarianzas y la varianzade la variable dependiente. Estimando la expresión anterior utilizandolos residuos et en lugar de εt estimamos un vector γ de dimensión qx1.Los autores demuestran que el estadístico relevante para evaluar lahipótesis nula de que no existe autocorrelación de residuos se definepor (expresiones equivalentes):

Q = TqP

s=1

γ2s ∼ χ2 (q)

Q = T γ0γ ∼ χ2 (q)

de manera que si este estadístico supera a su equivalente χ2α (q) entoncesrechazamos la nula presentándose evidencia de autocorrelación de ordenq de los residuos.

6. Ljung-Box (1978) o test Q’. Una perfección de este test lo presentanLjung y Box. Utilizando la misma ecuación auxiliar del test Box-Piercedefinen al estadístico:

Q0 = T (T + 2)qP

s=1

·γ2s

(T − s)

¸∼ χ2 (q)

Si el estadístico Q0 es mayor a su equivalente de tabla χ2α (q), entoncesrechazamos la hipótesis nula H0 : γ1 = γ2 = ... = γq = 0.