Microeconometr a Aplicada JM Benavente

210
Microeconometría Aplicada Notas de Clases José Miguel Benavente H. 1 8 de marzo de 2010 1 Departamento de Economía. Universidad de Chile. e-mail : [email protected]. Quisiera agradecer la eficiente ayuda de Javiera Vásquez en la transcripción de estos apuntes co- mo también los comentarios de Emerson Melo, Gonzalo Leyton y Osvaldo Larrañaga a versiones previas de estas notas. Todos los errores son responsabilidad del autor.

description

Microeconometria

Transcript of Microeconometr a Aplicada JM Benavente

Page 1: Microeconometr a Aplicada JM Benavente

Microeconometría AplicadaNotas de Clases

José Miguel Benavente H.1

8 de marzo de 2010

1Departamento de Economía. Universidad de Chile. e-mail : [email protected] agradecer la eficiente ayuda de Javiera Vásquez en la transcripción de estos apuntes co-mo también los comentarios de Emerson Melo, Gonzalo Leyton y Osvaldo Larrañaga a versionesprevias de estas notas. Todos los errores son responsabilidad del autor.

Page 2: Microeconometr a Aplicada JM Benavente
Page 3: Microeconometr a Aplicada JM Benavente

Capítulo 1

Modelos de Elección Discreta

1.1. Introducción

En muchos contextos, el fenómeno que se quiere modelar no es continuo sino discre-to. Así por ejemplo,la decisión de participar en el mercado del trabajo, opinión sobreun tipo de legislación, tipo de auto escogido por el consumidor entre varios modelosposibles. En general, todos los modelos que estudiaremos en este contexto tienen encomún que en ellos la variable dependiente toma los valores 0, 1, 2 ....En ocasionesestos valores tendrán significado en si mismo como el numeros de patentes a los quedenominaremos datos de recuento. Pero en la mayoría de los casos los valores que tomala variable dependiente no son mas que códigos utilizados para representar un resultadocualitativo. Por ejemplo, en el caso de la participación de mercado, un 0 puede significar“no participar” y un 1 puede significar “si participar”.

Aparentemente, en ninguno de estos casos parece posible, en principio, utilizar elanálisis de regresión clásico. Sin embargo, en todos ellos es posible construir modelosque enlazan la decisión o resultado con un conjunto de factores bajo la misma filosofíaque en el modelo de regresión. Lo que haremos será analizar cada uno de estos casosdentro del marco general de los modelos de probabilidad.

Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial ymultinomial, dependiendo de si el resultado es la elección entre dos alternativas o entremás. Si bien el segundo tipo es una extensión del primero, se pueden distinguir en estosúltimos situaciones donde los resultados son no ordenados, como el caso de la eleccióndel auto o bien ordenados como el caso de las patentes.

En lo que sigue nos concentraremos en las diversas formas de estimar un modelo deelección binaria para luego continuar con casos de elección múltiples.

3

Page 4: Microeconometr a Aplicada JM Benavente

4 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

1.2. Modelo Básico de Elección Binaria

Supuesto básico:

latent variable threshold model

y∗i = x′iβ + εi

con:

yi =

1 si y∗i > 0;0 si y∗i ≤ 0

Luego,P [yi = 1]=P [x

′iβ + εi > 0] = F (x

′iβ)

Modelos Alternativos para F(·):

Probit:

Φ(z) =1√2π

·∫ z

−∞exp(−u2/2)du

Logit:

Λ(z) =1

1 + e−z

1.3. Estimación por Máxima Verosimilitud

L =n∏

i=1

F (x′iβ)yi [1− F (x

′iβ)]1−yi

Tomando logaritmo a la expresión anterior:

logL =n∑

i=1

yi · logF (x

′iβ) + (1− yi) · log[1− F (x

′iβ)]

Maximizando con respecto a beta obtenemos la función "score":

∂logL

∂β=

n∑

i=1

yi · fi

Fi− (1− yi) · fi

1− Fi

︸ ︷︷ ︸escalar

· xi︸︷︷︸vector

Page 5: Microeconometr a Aplicada JM Benavente

1.3. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 5

con Fi = F (x′iβ) y fi = f(x

′iβ); donde f es la densidad correspondiente a F.

Entonces:

∂logL

∂β=

n∑

i=1

yi − Fi

Fi(1− Fi)· fi · xi

y así, el estimador ML β es aquel que resuelve las ecuaciones de verosimilitud:

n∑

i=1

yi − Fi

Fi(1− Fi)· fi · xi = 0

1.3.1. Modelo Logit

Para este caso, si se considera la forma funcional antes vista, se tiene que :

Λ(z) =1

1 + e−z

entonces al derivar se puede obtener la siguiente expresión :

f(z) = Λ(z)[1− Λ(z)]

Demostración :

F (z) = Λ(z) = (1 + e−z)−1

dΛ(z)dz

= −1(1 + e−1)−2(−1 · e−z) = Λ(z)[1− Λ(z)]

Y en consecuencia las ecuaciones de verosimilitud son:

∂logL

∂β=

n∑

i=1

(yi − Λi) · xi

donde Λi = Λ(x′iβ).

La matriz de segundas derivadas (Hessiano) es la siguiente: (permite ver la velocidadcon que se acerca al máximo)

H =∂2logL

∂β∂β′= −

n∑

i=1

Λi(1− Λi)︸ ︷︷ ︸escalar

·xix′i

Page 6: Microeconometr a Aplicada JM Benavente

6 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Demostración:

∂logL

∂β=

n∑

i=1

yi − Fi

Fi(1− Fi)· fi · xi

=n∑

i=1

yi − Λi

Λi(1− Λi)· Λi(1− Λi) · xi

=n∑

i=1

(yi − Λi) · xi

∂2logL

∂β∂β′=

n∑

i=1

−xi∂Λi

∂β

= −n∑

i=1

Λi(1− Λi) · xix′i

La que es definida negativa para todos los β, asumiendo que los x’s no son perfec-tamente colineales ( si lo fueran H no es invertible, explota). Así, la log-likelihood esglobalmente cóncava. La esperanza de H es ella misma y no depende de y, por lo tantola matriz de información muestral es:

Jn(β) =n∑

i=1

Λi(1− Λi) · xix′i

1.3.2. Modelo Probit o Normit

En este caso, se tiene que :

∂logL

∂β=

n∑

i=1

yi − Φi

Φi(1− Φi)· φi · xi = 0

donde Φi = Φ(x′iβ)) y φi = φ(x′iβ) con φ la densidad de la normal estándar. Tambiénse puede escribir como:

∂logL

∂β=

yi=0

−φi

1− Φi· xi +

yi=1

φi

Φi· xi

Page 7: Microeconometr a Aplicada JM Benavente

1.4. MEDIAS CONDICIONALES DEL TÉRMINO DE ERROR 7

1.4. Medias condicionales del término de error

E(εi|yi = 1) = E(εi|x′iβ + εi > 0)

=φ(x

′iβ)

Φ(x′iβ)

y por otra parte:

E(εi|yi = 0) = E(εi|x′iβ + εi 6 0)

=−φ(x

′iβ)

1− Φ(x′iβ)

Si z v N(0,1):

Figura 1Distribución Normal(0,1)

densidad:

φ(z) =1√2π

· exp(−1/2z2)

Page 8: Microeconometr a Aplicada JM Benavente

8 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Medias Condicionales:

E(z|z < k) =1

P (z < k)·∫ k

−∞z · φ(z)dz

=1

Φ(k)·∫ k

−∞z · 1√

2π· exp(−1/2z2)dz

=1

Φ(k)

[− 1√

2π· exp(−1/2z2)

]k

−∞

=−φ(k)Φ(k)

De la misma manera:

E(z|z > k) =1

1− Φ(k)·∫ +∞

kz · φ(z)dz

=1

1− Φ(k)·∫ +∞

kz · 1√

2π· exp(−1/2z2)dz

=1

1− Φ(k)

[− 1√

2π· exp(−1/2z2)

]+∞

k

=φ(k)

1− Φ(k)

Así, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribirde la siguiente forma:

n∑

i=1

E(εi|yi) · xi = 0

︸ ︷︷ ︸

condición de ortogonalidad

La matriz Hessiana correspondiente es la siguiente:

∂2logL

∂β∂β′=

yi=0

−φi

(1− Φi)2[φi − xi′β(1− Φi)] · xix

′i +

yi=1

−φi

Φ2i

[φi + x′iβΦi] · xix′i

Dadas las expresiones para las medias condicionales, los valores entre paréntesiscuadrados son positivos y entonces la matriz Hessiana correspondiente es negativa defini-da, es decir, la log-likelihood es globalmente cóncava.

Tomando esperanzas, la matriz de información muestral para el modelo Probit es la

Page 9: Microeconometr a Aplicada JM Benavente

1.5. PROPIEDADES ASINTÓTICAS DEL ESTIMADOR ML 9

siguiente:

Jn(β) =n∑

i=1

φ2i

Φi(1− Φi)· xix

′i

1.5. Propiedades Asintóticas del estimador ML

Bajo “condiciones de regularidad generales”, el estimador ML es consistente y asin-tóticamente normal con una matriz de varianzas y covarianzas dada por el inverso dela matriz de información. Esta inversa es la cota inferior de Cramer-Rao y entonces, elestimador ML es también asintóticamente eficiente.

La varianza del vector Score:

Para ambos modelos el Score tiene la siguiente forma:

∂logL

∂β=

n∑

i=1

yi − Fi

Fi(1− Fi)· fi · xi

Donde Fi = F (x′iβ) y fi = f(x′iβ). Así, la varianza viene dada por:

E

(∂logL

∂β

)(∂logL

∂β

)′= E

n∑

i=1

(yi − Fi

Fi(1− Fi)

)2

· f2i · xix

′i

=n∑

i=1

f2i

Fi(1− Fi)· xix

′i

Dado que la Var(yi)=Fi(1− Fi).

Demostración:

V ar(yi) = E(yi − Fi)2 = E(y2i − 2Fiyi + F 2

i )

Dado que: E(yi) = Fi

V ar(yi) = E(yi)− F 2i = Fi(1− Fi)

Notar que esta última expresión es la misma que la matriz de información muestralderivada para cada uno de los modelos anteriores.

Page 10: Microeconometr a Aplicada JM Benavente

10 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Nota : Máximo Global: Aproximación de Taylor de logL(β) alrededor de βMLE

logL(β) = logL(β) +∂logL

∂β′

∣∣∣∣β︸ ︷︷ ︸

=0

(β − β) + 0,5(β − β)′∂2logL

∂β∂β′

∣∣∣∣β︸ ︷︷ ︸

<0

(β − β)

logL(β) < logL(β)

1.6. Propiedades de las densidades regulares y verosimili-tudes

Considere una muestra aleatoria obtenida de una función de densidad g(y:θ), la quedepende del parámetro θ (extendible al caso de un vector). El logaritmo de la funciónde verosimilitud viene dado por:

logL =n∑

i=1

log(g(yi; θ))

La densidad g es Regular de primer orden si la diferenciación con respecto a θ y laintegración sobre y puede ser llevada a cabo en ambos sentidos con un mismo resultado.(es decir, la integral de la derivada es igual a la derivada de la integral).

d

yg(y; θ)dy =

y

d

dθg(y; θ)dy

La densidad es Regular de segundo orden es lo mismo si se cumple para la segundaderivada.Si θ es un vector las condiciones anteriores deben cumplirse para todas las derivadascon respecto a cada uno de los elementos de θ.

Propiedades:

1.∫ +∞

−∞g(y; θ)dy = 1

Así, si g es regular de primer orden, entonces:

∫ +∞

−∞g′(y; θ)dy = 0

Page 11: Microeconometr a Aplicada JM Benavente

1.6. PROPIEDADES DE LAS DENSIDADES REGULARES Y VEROSIMILITUDES11

y entonces:

E

[g′(y; θ)g(y; θ)

]= 0

es decir,

E

[∂log(g(y; θ))

∂θ

]= 0

y entonces

E

[∂logL

∂θ

]= 0 score

2. Ahora consideremos la segunda derivada del logaritmo de g:

∂2log(g(y; θ))∂θ2

=g′′(y; θ)g(y; θ)

−[g′(y; θ)g(y; θ)

]2

Si g es regular de segundo orden, entonces:

∫ +∞

−∞g′′(y; θ) · dy = 0

es decir,

E

[g′′(y; θ)g(y; θ)

]= 0

y así,

E

[∂2log(g(y; θ))

∂θ2

]= −E

[g′(y; θ)g(y; θ)

]2

= −E

[∂log(g(y; θ))

∂θ

]2

Page 12: Microeconometr a Aplicada JM Benavente

12 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

3.

E

[∂logL

∂θ

]2

= E

[n∑

i=1

∂log(g(yi; θ))∂θ

]2

= En∑

i=1

[∂log(g(yi; θ))

∂θ

]2

Ya que el valor esperado de todos los términos cruzados (fuera de la diagonal) soncero. Ello debido al supuesto de independencia de las observaciones y el hecho deque:

E

[∂log(g(y; θ))

∂θ

]= 0

Así entonces:

E

[∂2logL

∂θ2

]= −E

[∂logL

∂θ

]2

Para el caso en que θ es vector:

E

[∂2logL

∂θ2

]= −E

(∂logL

∂θ

)(∂logL

∂θ

)′

4. Sumando sobre las observaciones el vector equivalente al de la propiedad (2) es:

Jn(θ) = E

[−∂2logL

∂θ∂θ′

]= E(Q)

Donde:

Q =n∑

i=1

(∂log(g(yi; θ))

∂θ

)(∂log(g(yi; θ))

∂θ

)′

Generalmente es más útil usar Q en vez de E(Q) para muestras grandes.

Page 13: Microeconometr a Aplicada JM Benavente

1.7. NOTA TÉCNICA 13

1.7. Nota Técnica

Estimación de la varianza asintótica del estimador MLSi la forma del valor esperado de la segunda(s) derivada(s) de la log-likelihood es cono-cida, entonces:

[Jn(θ)]−1 =−E

[∂2logL

∂θ∂θ′

]−1

Evaluada en θML entrega un estimador de la matriz de covarianzas del MLE. Sin em-bargo, este estimador rara vez esta disponible dado que son complicadas funciones nolineales de los datos. Existen dos alternativas:

1.

[Jn(θ)

]−1=

(−∂2logL

∂θ∂θ′

)−1

La que se obtiene al evaluar la matriz de segundas derivadas actual (no esperada)con el valor de MLE máximo obtenido. No obstante, a veces es difícil obtener lassegundas derivadas y programarlas en el computador.

2.

[Jn(θ)

]−1=

[n∑

i=1

(∂log(g(yi; θ))

∂θ

)(∂log(g(yi; θ))

∂θ

)′]

el que esta basado en el resultado de que el valor esperado de la matriz de segun-das derivadas es la matriz de covarianzas del vector de primeras derivadas.

[BHHH ó OPG (outer product of gradients)]

Este último estimador es muy conveniente pues no se necesita ningún cálculo másallá que estimar ecuación de verosimilitud. Además es siempre no negativa definida.

1.7.1. Ejemplo : Ingreso y Educación

Tabla 1. Observaciones de Ingreso y Educación.Observación Ingreso Educación Observación Ingreso Educación

1 20.5 12 11 55.8 162 31.5 16 12 25.2 203 47.7 18 13 29.0 124 26.2 16 14 85.5 165 44.0 12 15 15.1 106 8.28 12 16 28.5 187 30.8 16 17 21.4 168 17.2 12 18 17.7 209 19.9 10 19 6.42 1210 9.96 12 20 84.9 16

Page 14: Microeconometr a Aplicada JM Benavente

14 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Los datos fueron generados por la siguiente función:

f(yi, xi, β) =1

β + xiexp(−yi/(β + xi))

Donde y=Ingreso [miles de pesos] y x=Educación [años].

logL = −n∑

i=1

log(β + xi)−n∑

i=1

yi

β + xi

Score:∂logL

∂β= −

n∑

i=1

1β + xi

+n∑

i=1

yi

(β + xi)2= 0

Con la solución (única) βMLE=15.60275.

Para Computar la varianza asintótica del estimador MLE, se requiere:

∂2logL

∂β2=

n∑

i=1

1(β + xi)2

− 2 ·n∑

i=1

yi

(β + xi)3(1.1)

Dado que E(yi)=β+xi es conocido, la forma exacta del valor esperado de (1) es conocida(algo no común). Reemplazamos β + xi por yi e invirtiendo obtenemos 44.255 comoestimador de la varianza. Al insertar β=15.60275 e invirtiendo obtenemos el segundoestimador de la varianza: 46.164. Finalmente, al computar el inverso de la suma de loscuadrados de la primera derivada de la densidad evaluada en βMLE :[

Jn(β)]−1

=1

∑ni=1

[−1

(β+xi)+ yi

(β+xi)2

]2

Se obtiene un BHHH de 100.512.

Los tres estimadores son asintóticamente equivalentes, pero BHHH es mucho más fácilde obtener. Pero cuidado con los valores en muestras finitas:

Ho: β=0 sería rechazada solo con los estimadores de la varianza.

1.8. Violaciones de regularidad y propiedades

i. Discontinuidades de L

ii. Observaciones están correlacionadas

iii. Observaciones no están distribuidas idénticamente

iv. La densidad escogida no contiene la verdadera densidad

v. densidad g tiene un rango que depende de θ

vi. número de parámetros aumenta con el número de observaciones.

Page 15: Microeconometr a Aplicada JM Benavente

1.9. COMPARACIÓN ENTRE MODELOS PROBIT Y LOGIT 15

1.9. Comparación entre modelos Probit y Logit

La mayoría de los textos sugiere que un análisis detallado acerca de la elecciónentre un modelo u otro, no rinde muchos frutos.

modelos predicen en forma similar; estimadores (una vez corregidos para hacerloscomparables) son estadísticamente indistinguibles.

Si las muestras son muy grandes pueden aparecer diferencias ya que la distribuciónlogística tiene colas más altas (anchas) que la distribución normal (ver gráficos).

Para que los parámetros entre los modelos sean comparables, se deben realizarciertos ajustes:

βprobit = βlogit ∗√

βprobit = βlogit ∗ 0,625

Page 16: Microeconometr a Aplicada JM Benavente

16 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Page 17: Microeconometr a Aplicada JM Benavente

1.10. EFECTOS MARGINALES 17

1.10. Efectos Marginales

Sabemos que:

P [yi = 1] = F (x′iβ)

∂P [yi = 1]∂xi

= f(x′iβ) · β

estos son los llamados efectos marginales:

Probit: φ(x′iβ) · β

Logit: Λ(x′iβ)[1− Λ(x′iβ)] · β

También se pueden calcular los errores standard de estos efectos marginales. Si defini-mos γ = f · β donde f = f(x′iβ), entonces:

V ar.Asin.(γ) =(

∂γ

∂β′

)V

(∂γ

∂β′

)′

Donde V= Var. Asin. (β).

La matriz de derivadas viene dada por:(

∂γ

∂β′

)= f

(∂β

∂β′

)+ β

(∂f

∂z

)(ϑz

∂β′

)

= f I + β

(∂f

∂z

)βx′

Para los dos modelos:

Probit: dfdz = −z · φ, con z = x′β

V ar.Asin.(γ)probit = φ2[I − (x′β)βx′]V [I − (x′β)βx′]′

Logit: dfdz = (1− 2Λ)Λ(1− Λ)

V ar.Asin.(γ)logit = (Λ(1− Λ))2[I + (1− 2Λ)βx′]V [I + (1− 2Λ)βx′]′

Page 18: Microeconometr a Aplicada JM Benavente

18 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Al igual que los efectos marginales, los errores standard asintóticos también dependendel vector de variables x utilizado.

1.10.1. Comentarios sobre las estimación de los efectos marginales enModelos Probit y Logit

Efecto marginal: ¿evaluar en la media o la media de las evaluaciones individ-uales?.Según el teorema de Slutsky debería dar lo mismo ( plim g(xn)=g(plim xn)),pero en la práctica para muestras pequeñas se recomienda calcular los efectosmarginales individuales y luego promediarlos.

Efecto marginal de variables dummies: La forma correcta de estimar el efectomarginal de una variable independiente binaria, por ejemplo d, sería:

Prob[Y = 1/x∗, d = 1]− Prob[Y = 1/x∗, d = 0]

Donde x∗es la media de todo el resto de las variables independientes. En general,tomando la derivada con respecto a la variable binaria como si fuera continua en-trega resultados sorprendentemente certeros. Pero lo anterior solo es válido cuandose evalúa el efecto marginal para la media del resto de las variables independi-entes. Podemos analizar el efecto de la variable dummy en toda la distribución alcalcular Prob[Y=1] sobre el rango de x’β para los valores de la variable binaria.

1.10.2. Ejemplo: Efectos Marginales en Probit

GRADE: indicador si los alumnos mejoraron sus notas después de realizar un cursoespecial PSI.

GPA: promedio de notas.

TUCE: resultado de una prueba de diagnostico previo al programa.

PSI: indicador si el estudiante realizó el curso o no.Probit Logit

Variable βMLE f β βMLE f β

constante -7.425 - -13.021 -GPA 1.626 0.533 2.826 0.534TUCE 0.052 0.017 0.091 0.018PSI 1.426 0.469 2.379 0.499

f(x′β) 0.328 0.189

Usando estos coeficientes, tenemos las siguientes probabilidades como función de GPA(evaluadas en la media de TUC):

Page 19: Microeconometr a Aplicada JM Benavente

1.10. EFECTOS MARGINALES 19

PSI=0: Prob[GRADE=1]=Φ[-7.45+1.62GPA+0.052(21.938)]

PSI=1: Prob[GRADE=1]=Φ[-7.45+1.62GPA+0.052(21.938)+1.4263]

3.117

0.571

0.106

con PSI

sin PSI

Prob(GRADE=1)

GPA

El efecto marginal de PSI es la diferencia entre las dos funciones, el que va desde 0.06en GPA=2 hasta 0.5 en GPA=0.35. Así, la probabilidad de que el estudiante aumentesus notas dado que siguió PSI es más alta si mejores son sus notas!!. (Efecto marginalde PSI en x es 0.468).

1.10.3. Cálculo de errores estándar en Probit y Logit (repaso)

Efectos marginales:

Probit: φ(x′iβ) · βLogit: Λ(x′iβ)[1− Λ(x′iβ)] · β

si definimos γ = f · β donde f = f(x′iβ), entonces:

V ar.Asin.(γ) =(

∂γ

∂β′

)V

(∂γ

∂β′

)′

Donde V= Var. Asin. (β).

Entonces:

Page 20: Microeconometr a Aplicada JM Benavente

20 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Probit:

V ar.Asin.(γ)probit = φ2[I − (x′β)βx′]V [I − (x′β)βx′]′

Logit:

V ar.Asin.(γ)logit = (Λ(1− Λ))2[I + (1− 2Λ)βx′]V [I + (1− 2Λ)βx′]′

Así, se pueden realizar todas las pruebas de hipótesis ya conocida para los parámet-ros. Por ejemplo, los tradicionales test-t para restricciones simples los que están basadosen los errores estándar calculados a partir de la matriz de información (BHHH u otra).

Logit ProbitVariable Coef. t ratio Pendiente t ratio Coef. t ratio Pendiente t ratioConstante -13.021 -2.64 - - -7.452 -2.930 - -

(4.931) (2.542)GPA 2.826 2.238 0.534 2.252 1.626 2.343 0.533 1.761

(1.263) (0.237) (0.694) (0.303)TUCE 0.095 0.672 0.018 0.685 0.052 0.617 0.017 0.587

(0.142) (0.026) (0.084) (0.029)PSI 2.379 2.234 0.449 2.284 1.426 2.397 0.468 1.695

(2.234) (0.197) (0.595) (2.276)

En general, para un conjunto de restricciones Rβ=q, el estadístico de prueba es:

W = (Rβ − q)′

R(Est.V ar.Asin(β))R′−1

(Rβ − q)

Para una prueba general sobre un conjunto de coeficientes que sean igual a cero (porejemplo: los L últimos) el test de Wald requiere que:

R = [0|IL] y q = 0

con W= β′LV −1L βL

donde el subíndice L indica el subvector o submatriz correspondiente a las L variablesy V es la matriz de varianzas y covarianzas de β estimada.

De igual manera, el test de razón de verosimilitud puede ser realizado:

LR = −2[logLr − logL] a∼ χ2r

Page 21: Microeconometr a Aplicada JM Benavente

1.10. EFECTOS MARGINALES 21

donde Lr y L son las funciones log-likelihood evaluadas con los estimadores restringui-dos y no restringuidos respectivamente. Por ejemplo, la prueba típica de que todos loscoeficientes de las pendientes en el modelo Probit o Logit son cero (como un test F).Para esta prueba, sólo no se restringe el coeficiente de la constante. En este caso, el casono restringuido es el mismo para Logit y Probit:

LogL0 = n[P · logP + (1− P )log(1− P )]

donde P es la proporción de variables dependientes igual a 1.

Ejemplo anterior (ver tabla 19.1 Greene): P=11/32 → logL0=-20.5917, se sabe quelogLprobit=-12.819 y logLlogit=-12.890, χ2

probit=15.546 y χ2logit=15.404, con χ2

crit(3)=7.81,por lo tanto se rechaza la hipótesis nula de que todos los β′s son igual a cero.

1.10.4. Problemas de estimación en Probit

(1) Supongamos que tenemos una variable (observada) zi tal que:

yi = 1 si zi > 0;yi = 0 si zi ≤ 0

z se denomina clasificador perfecto. esto implica que el modelo no puede ser estimado(esta es una propiedad de los datos). Esto ocurre pues existe una combinación linealzi = x′iβ

∗ de tal forma que zi es un clasificador perfecto y entonces β no puede seridentificado.

(2) Otro problema de identificación ocurre cuando tenemos una combinación de muestrapequeña con un gran número de parámetros a ser estimados.

La regla que aplica aquí es la siguiente:

Si min[n·y, n·(1− y)]<k, entonces no se pueden estimar los β’s. Donde n es el tamañode muestra, k es la dimensión de β, n·y es el número de unos y n·(1− y) es el númerode ceros.

Lo anterior pues no existe una solución finita para las condiciones de primer ordeny por lo tanto β no puede ser identificado.

Page 22: Microeconometr a Aplicada JM Benavente

22 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

1.11. Test de Diagnóstico para el modelo Probit

Los temas aquí tratados son análogos para el caso del modelo Logit.

1.11.1. Residuos Generalizados

Para el caso de modelos con variable latente, los residuos generalizados se definencomo:

ηi = E(εi|yi)= E(y∗i |yi)− x′iβ= E(y∗i |yi)− E(y∗i )

En el modelo Probit habíamos visto que la media condicional tenia la siguiente estruc-tura:

E(εi|yi = 1) =φ(x′iβ)Φ(x′iβ)

E(εi|yi = 0) =−φ(x′iβ)

1− Φ(x′iβ)

De esta forma,

ηi =φ(x′iβ)Φ(x′iβ)

· yi − φ(x′iβ)1− Φ(x′iβ)

· (1− yi)

=(yi − Φi)

Φi(1− Φi)· φi

También vimos que las ecuaciones de verosimilitud (score) podrían escribirse como:

∂logL

∂β=

n∑

i=1

E(εi|yi) · xi = 0

o bien

∂logL

∂β=

n∑

i=1

ηi · xi = 0 (1.2)

donde la ecuación (2) es la condición de ortogonalidad.

La matriz Hessiana en el modelo Probit esta dada por:

∂2logL

∂β∂β′=

yi=0

−φi

(1− Φi)2[φi − x′iβ(1− Φi)] · xix

′i +

yi=1

−φi

Φ2i

[φi + x′iβΦi] · xix′i

o bien:

H = −n∑

i=1

ηi(x′iβ + ηi) · xix′i

Page 23: Microeconometr a Aplicada JM Benavente

1.11. TEST DE DIAGNÓSTICO PARA EL MODELO PROBIT 23

Recordemos que habíamos definido:

Q =(

∂logL

∂β

)(∂logL

∂β

)′

entonces este estimador puede escribirse como:

Q =n∑

i=1

η2i xix

′i

Notar que E(ηi) = 0 y V ar(ηi) = φ2i

Φi(1−Φi)(demostrar !!), ηi se conoce como el “residuo

del primer momento” (ηi es la contribución de cada observación i al score!!).

1.11.2. Pruebas que se pueden realizar con el Score

(i) Variable Omitida: Supongamos el siguiente Modelo de Variable Latente:

y∗i = x′iβ + z′iγ + εi

La hipótesis a testear es γ=0. El vector Score con respecto a γ es el siguiente:

∂logL

∂γ=

n∑

i=1

ηi · zi

Si usamos Q para estimar la matriz de varianzas, entonces el test puede ser calculadocomo:

c′R(R′R)−1R′c ∼ χ2(p)

Donde p es el número de restricciones, c es un vector de dimensión n de unos y R unamatriz cuyas fila i es: (ηi ·x′i, ηi · z′i). Este estadístico puede ser obtenido al regresionar csobre R. Si se trata de una sola variable omitida, el test t asociado a ηi · z′i al cuadradoes el estadístico χ2

1.

Alternativamente, se puede regresionar por MCO ηi · zi sobre ηi · xi y una constante (pregresiones) y calcular el estadístico:

W

1 + Wn

donde W es el estadístico de Wald para la hipótesis que todos los interceptos son cero.(De nuevo, si p=1, entonces Wald=t2 sobre la constante).

Algunas aplicaciones adicionales de variables omitidas:

Page 24: Microeconometr a Aplicada JM Benavente

24 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Reset-test: es decir, forma funcional correcta.

E(yi) = Φ[h(x′iβ)]

aquí zi son potencias de (x′iβ)

Endogeneidad: probar correlación entre xi y el error (ortogonalidad).

(ii) Heterocedasticidad: Suponga que bajo la hipótesis alternativa:

y∗i = x′iβ + σ · εi

con εi ∼ N(0,1), entonces:

∂logL

∂σ2=

n∑

i=1

E(ε2i − 1|yi)

El término al interior de la sumatoria es el “residuo del segundo momento”. Para el casode Probit:

∂logL

∂σ2=

n∑

i=1

−ηix′iβ

Ahora bien, si consideramos un modelo heterocedástico más general:

y∗i = xiβ + σi · εi

con σ2i =h(z′iγ) con h tal que h(0)=1 y ∂h(z′iγ)

∂γ

∣∣∣∣γ=0

= zi (por ejemplo si h(z′iγ)=1+z′iγ).

Entonces, bajo la hipótesis nula:

∂logL

∂γ=

n∑

i=1

(−ηi · x′iβ)zi

De esta forma, el estadístico de prueba puede calcularse como:

c′R(R′R)−1R′c ∼ χ2(p)

donde, en esta ocasión la i-fila de R es:

(ηi · x′i, ηi(x′iβ)zi)

el que puede ser obtenido al regresionar c sobre R. O bien, como mecanismo alternativo,regresionar ηi(x′iβ)zi sobre ηixi y una constante y testear con Wald.

(iii) Aplicaciones adicionales: Test de Normalidad (Pagan y Vella 1989):

Una forma de probar normalidad de los errores es asumir que zi=[(x′iβ)2 (x′iβ)3] yprobar mediante un Reset-test la significancia de estos términos. (también en Ruud1984).

Page 25: Microeconometr a Aplicada JM Benavente

1.11. TEST DE DIAGNÓSTICO PARA EL MODELO PROBIT 25

1.11.3. Pruebas sobre restricciones sobre los momentos

Todas las pruebas anteriores descansan sobre un concepto mas general, a saber, re-stricciones sobre los momentos.

En un modelo de regresión lineal:

yi = x′iβ + ui

se tiene que :

i E(ziui)=0

ii E(zi(u2i − σ2))=0 restricción sobre el segundo momento.

iii E(u3i )=0 tercer momento, distribución simétrica.

iv E(u4i )− 3σ4=0 cuarto momento/ kurtosis.

Si el modelo está correctamente especificado entonces los momentos poblacionales de-berían ser igual a cero.

A partir de la información muestral, se pueden obtener los análogos muestrales:

τ1 =1n·

n∑

i=1

zi · ui

τ2 =1n

zi(u2i − σ2)

para el caso particular del Probit:

yi = Φ(x′iβ) + vi

con vi = yi − E(yi) el cual tiene media cero y varianza Φi(1− Φi) con Φi = Φ(x′iβ).

De esta manera:

τ1 =1n

n∑

i=1

zi · φi · vi

Φi(1− Φi)

=1n

n∑

i=1

zi · φi · (yi − Φi)

Φi(1− Φi)

=1n

n∑

i=1

zi · ηi

Page 26: Microeconometr a Aplicada JM Benavente

26 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

De esta forma se construye entonces la prueba sobre los momentos, que en este casoutiliza los residuos generalizados. En particular, esta última expresión es la covarianzaentre los residuos generalizados y z. Así, al regresionar zi · ηi sobre xi · ηi y una constantees equivalente a un estadístico de prueba sobre la importancia de la variable z(Idénticoal test de score LM).

Consecuencias de la heterocedasticidad y variable omitida en Probit (Logit): incon-sistencia, a pesar de que no existe correlación en los errores.

1.11.4. Ejemplo de estas Pruebas:

t-statisticTest Moment Restriction Eligible Ineligible

Omitted E(SAL80∗η)=0 1.427 1.145Variables E(DSA79∗η)=0 1.101 1.365RESET E(PRED2η)=0 2.404 2.6

E(PRED3∗η)=0 2.287 0.525Heteroskedasticity E(SAL80∗PRED∗η)=0 1.364 0.891

E(MOVES∗PRED∗H)=0 2.879 7.670E(RACE∗PRED∗η)=0 1.090 1.855E(LSA79∗PRED∗η)=0 1.647 1.349E(MLE∗PRED∗η)=0 1.449 5.869E(ATBATS∗PRED∗η)=0 2.258 1.043E(ADJS∗PRED∗η)=0 2.194 0.083E(DFN∗PRED∗η)=0 1.981 4.626E(BYR∗PRED∗η)=0 2.197 2.595E(YSRM∗PRED∗η)=0 2.541 3.557

Otra Aplicación: Mroz data: participation equation as in applied Econometrics.

ProbitVariable Coeficiente s.eLWW1 0.240 0.094KL6 -0.879 0.115K618 -0.0321 0.0407WA -0.0345 0.0077WE 0.132 0.026UN -0.0107 0.0160CIT 0.0115 0.1075

PRIN/104 -0.212 0.047Constant 0.538 0.481

logL=-450.72, Jt. sig.=128.31(χ2(8))

Diagnostic Test statistic:

Page 27: Microeconometr a Aplicada JM Benavente

1.12. PROBIT HETEROCEDÁSTICO 27

Funcional Form: (square term only) χ2(1)=9.42.

Heteroskedasticity: (all RHS variables) χ2(8)=25.44.

Non.normality: χ2(2)=9.48.

1.12. Probit Heterocedástico

La idea aquí es incorporar la estructura de la forma funcional esperada o presuntade la heterocedasticidad en la estimación del modelo. Parecida a la idea de la correcciónde heterocedasticidad en OLS pero ahora en un contexto no lineal utilizando ML.

y∗i = x′iβ + εi εi ∼ N(0, σ2) con σ2i = [exp(z′iγ)]2

logL =n∑

i=1

yi · logΦ

(x′iβ

exp(z′iγ)

)+ (1− yi) · log

(1− Φ

(x′iβ

exp(z′iγ)

))

con la probabilidad predicha:

pi = Φ(

x′iβexp(z′iγ)

)

En general, (no demostrado aquí) los coeficientes obtenidos son un poco mayores y losintervalos de confianza (errores standard) mas amplios. Aunque algunos resultados em-píricos sugieren que el sesgo no es importante (ver Horowitz, Econometrica 1977).

1.13. Medidas del grado de ajuste

Si bien en modelos no lineales no se puede aplicar la idea de ajuste en la formatradicional de verla (i.e. cuanto de la variación total de la variable dependiente es ex-plicada por la variación de las variables independientes ponderadas por los betas) unaforma sencilla de tener una idea acerca de si las variables escogida como exógenas sonrelevantes es asumir que todas estas son cero excepto la constante y compararlas conuna especificación en que se incluyan todas las variables relevantes.

Page 28: Microeconometr a Aplicada JM Benavente

28 CAPÍTULO 1. MODELOS DE ELECCIÓN DISCRETA

Likelihood ratio index:

LRI = 1− logL

logL0

con logL0: verosimilitud calculado solo con una constante (es decir, asumir que todoslos betas son cero).

Propiedades:

Acotado entre 0 y 1

si Fi es siempre 1 cuando yi es uno y 0 cuando yi es 0, entonces logL es igual acero → LRI=1. (Pero cuidado con los predictores perfectos).

difícil la interpretación para los valores entre 0 y 1, recordar que ML no estádiseñado para maximizar un criterio de ajuste, como el R2 en OLS.

Page 29: Microeconometr a Aplicada JM Benavente

Capítulo 2

Econometría Semi y NoParamétrica

2.1. Introducción

Como se ha visto hasta el momento, la forma mas tradicional para estimar modelosde elección discreta es mediante la maximización de la función de verosimilitud. Ellopues la función a ser maximizada no es del tipo lineal en los parámetros y por tanto noes factible utilizar el mecanismo inherente al estimador por Mínimos Cuadrados Ordi-narios.

Sin embargo, esta forma de estimación la cual surge de encontrar los parámetrosde una función conocida que permita describir de la mejor manera posible la muestrade datos que se tiene, descansa, entre otras cosas justamente en el supuesto de que seconoce la distribución de probabilidades que está detrás de los datos. En consecuencia,la tarea se trataría principalmente de obtener los parámetros que la identifican de lafamilia de funciones posibles.

La pregunta natural que surge es, qué sucede si o bien desconocemos la distribuciónde probabilidades que está detrás de los datos de nuestra muestra o si al utilizar laestimación por MV nos equivocamos en la distribución escogida ?

El objetivo de este capítulo es introducirnos al mundo de las estimaciones semi yno paramétricas que responden en alguna medida a estas dos preguntas anteriores. Elobjetivo de éste es responderlas en el contexto de problemas con variable dependientebinaria y/o discreta. Pero para ello debemos revisar desde un comienzo los conceptosbásicos de estimaciones no paramétricas de densidades, funciones de valor esperado parafinalmente terminar en los tópicos que han motivado este capítulo.

Dentro de la econometría, este es un tema relativamente nuevo y no existe muchaliteratura que resuma los avances de estos aspectos en la disciplina. No obstante lo

29

Page 30: Microeconometr a Aplicada JM Benavente

30 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

anterior, existen dos buenos textos al respecto los cuales utilizaremos como guía paraeste capítulo:

A. Pagan y A. Ullah (1999) “Non Parametric Econometrics”. Cambridge UniversityPress.

A. Yatchew (2003)“Semiparametric Regression for the Applied Econometricians”.Cambridge University Press.

En el caso de ciertos temas ‘puntuales, en estas notas se sugieren trabajos específicospublicados en journals especializados.

El temario de este capítulo comprende los sigientes aspectos:

Estimación de densidades (Pagan y Ullah, Capitulo 2; Yatchew Capítulo 3)

• Métodos de Kernel

• Métodos teóricos de información

Estimación de momentos condicionales (Pagan y Ullah, Capitulo 3; Yatchew,Capítulo 5). Regresión no paramétrica.

Modelos de elección discreta (Pagan y Ullah, Capitulo 7; Yatchew, Capítulo 7)

2.2. Estimación de densidades

Una forma de estimar una densidad es la siguiente: tenemos observaciones de i=1,......,npara zi=yi, xi las que son obtenidas (son una realización) de una densidad f(z). Lapregunta que queremos resolver es: ¿cual será una buena estimación de f(z), trabajandosolamente con los zi’s?

La descomposición de z en y y x, cada una multivariada sugiere que algunas de estasvariables pueden ser consideradas como dependientes (es decir, de x), “ser explicadas”ó quizás “endógenas”. No obstante, por ahora no haremos prejuicios sobre este asunto.

De forma similar, la poca claridad de la aseveración del primer párrafo no nos dicenada acerca de si las observaciones son independientes e idénticamente distribuidas. Elrelajo de este supuesto de “idéntica” no será una gran barrera a lo que veremos másadelante, no obstante, el relajo del supuesto de “independencia” es un tema mucho máscomplejo.

Si llegamos a tener una buena estimación de f(z), por ejemplo f(z), entonces muchaspreguntas convencionales de la econometría pueden ser respondidas. Por ejemplo, unaestimación de E(y1|x1, x2) puede ser derivada a partir de la integración apropiada def(z).

Page 31: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 31

Para hacer las cosas más fáciles comenzaremos con la estimación de la densidad deuna sola variable: x. Veamos las metodologías alternativas para realizar esta tarea.

2.2.1. Estimación de Densidad I: Kernel

Una estimación “naive” de f(x) sería dar un “peso” 1/n a cada punto xi, i=1,...n. Lafunción de distribución correspondiente a este procedimiento, se conoce como “funciónde distribución empírica”. Una debilidad aparente de esta propuesta es que no asignaprobabilidades o valores de la densidad a valores de x que no ocurrieron o que no estánpresentes en la muestra, con la agravante que para la mayoría de los casos que estudi-amos en econometría se asume que f(x) hace un dominio (support) continuo.

Una alternativa natural es la de suavizar el peso 1/n asignado a cada punto xi sobreun area ’cercana’ a xi. Una forma de hacer esto podría ser estimar f(x) como una com-binación de densidades normales, cada una con una desviación standard σ centrada encada punto x. Usando φ(x; µ, σ2) para denotar la densidad normal estándar con mediaµ y varianza σ2 evaluada en cada x, entonces el estimador de f(x) tendría la siguienteforma:

f(x) =n∑

i=1

1n

φ(x;xi, σ2) =

n∑

i=1

1n· 1σ

(2π)−1/2 · e−1/2 ·[(x− xi)

σ

]2

(2.1)

donde, si σ es muy pequeño entonces tendríamos una estimación de la función con pun-tas agudas en cada xi. Si σ es mas grande, la estimación resultante es mas suave. Dadoque la ecuación anterior es una mezcla de funciones de densidad, entonces f(x) tambiénes una densidad.

Para simplificar un poco la notación, podemos ver que la expresión más a la derecha

de la ecuación anterior, (2π)−1/2 · e−1/2·

[(x−xi)

σ

]2

puede ser reemplazado por:

K

(x− xi

σ

)K

(x− xi

h

)

donde σ ha sido reemplazado por h sin alterar las propiedades fundamentales de f(x),

ello mientras K(·) comparta ciertas propiedades con (2π)−1/2 · e−1/2·[

(x−xi)

σ

]2

como ser:simétrica, no-negativa y que la integral sobre x sea igual a 1. También resulta naturalque K(0) ≥ K(x) ∀x.1 De esta manera la expresión en la ecuación anterior puede serreescrita como:

f(x) =1

n · h ·n∑

i=1

K

(x− xi

h

)(2.2)

1La condición de simetría implica que∫

y ·K(y)dy = 0, la que usaremos después

Page 32: Microeconometr a Aplicada JM Benavente

32 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

donde K(·) se denomina la función Kernel.

Estimador Kernel con un Kernel normal y dos observacionespara tres ancho de banda: pequeño (izquerda), intermedio(centro) y largo (derecha)

Estimación Kernel para la densidad de una muestra de tamaño 15 de unadensidad normal estándar para tres diferentes ancho de banda h=0.68(izquerda), h=1.82 (centro) y h=4.5 (derecha), usando Kernel Normal

Page 33: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 33

Page 34: Microeconometr a Aplicada JM Benavente

34 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Criterios para la elección de h

Pagan y Ullah (pag. 23-26) y la literatura en general, considera dos criterios paraelegir h; aquel que minimiza el error cuadrático integrado (ISE) o aquel que minimizael error cuadrático integrado promedio (MISE)

integrated square error ISE:

min

∫[f(x)− f(x)]2dx

mean integrated square error MISE:

minE

∫[f(x)− f(x)]2dx

las que corresponden a la noción de “pérdida” y “riesgo” respectivamente, donde laprimera depende de los datos que se tiene en la muestra pero la segunda no.

Para el caso de MISE se tiene que :

MISEf (f) =∫

Ef [f(x)− f(x)]2dx (2.3)

=∫

varf f(x)dx

︸ ︷︷ ︸varianza

+∫

[Ef f(x)− f(x)]2dx

︸ ︷︷ ︸sesgo2

Dado que f = f(x) = 1n·h ·

∑ni=1 K

(x−xi

h

), entonces, considerando la expresión anteri-

or, es claro que si escogemos un h pequeño, el sesgo en la estimación de la densidad espequeño pero la varianza (ruido) es grande. Por otra parte, un h muy pequeño significaque no habrán suficientes puntos en x para promediar o suavizar y en consecuencia, ob-tendremos una estimación de la densidad que presente “saltos” u “ondas” (sinusoidales).

Por otra parte, si escogemos un h grande el sesgo será grande pero la varianza (rui-do) menor, resultando en una estimación de densidad sobre suavizada y en conclusióncon una fuerte distorsión sobre la verdadera estructura de la densidad. En la práctica hse debe escoger de manera de alcanzar el mejor "trade-off"posible entre sesgo y varianza,lo que necesita de algún criterio.

Este criterio puede ser entregado por lo ques e conoce como AMISE, esto es unaaproximación de MISE mediante una expansión de Taylor la cual tiene la siguientecaracterística:

AMISE =h4

4· µ2

2

∫[f (2)(x)]2dx + (nh)−1

∫f(x)dx

∫K2(ψ)dψ (2.4)

=14· λ1 · h4 + λ2 · (nh)−1

Page 35: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 35

donde:

λ1 = µ22

∫[f (2)(x)]2dx

λ2 =∫

[K2(ψ)dψ

ψ =(

x− xi

h

)

µ2 =∫

ψ2K(ψ)dψ

para el caso de función kernel. Para obtener h∗ tal que minimize AMISE, diferenciamosla expresión anterior con respecto a h e igualamos a 0.

h3λ1 − 1n · h2

λ2 = 0 → h∗ = c · n−1/5

donde c=(λ2/λ1)1/5 el que depende del kernel y de la curvatura de la densidad (ver-dadera).

Elección de h en la práctica

Podemos notar que x depende de la varianza del Kernel y de∫

[f (2)(x)]2dx el queindica el grado de variabilidad de la densidad. Así, por ejemplo, si la verdadera densi-dad es más bien plana entonces λ1 → 0 y c → ∞ (ancho de banda muy grande). Encontraste, si la verdadera función es altamente variable, λ1 →∞ y c → 0 (h pequeño).

Con el fin de tener una idea sobra la magnitud de c suponga que K es la densidadnormal estándar y f(x) ∼ N(µ, σ2). Algebraicamente se puede determinar que c ∼ 1.06σ y entonces h=1.06 σ · n−1/5.

En Silverman (1986) se compara este último resultado con el h óptimo si la distribu-ción desconocida realmente fuera una mezcla de dos normales o que fueran funcionesaltamente simétricas, encontrandose que esta fórmula es una muy buena aproximación.Una mejora a este método es reemplazar σ por un estimador robusto de la dispersionde la muestra, por ejemplo:

h = 0,9A · n−1/5 donde A = minσ, (R/1,34)

con R, el rango intercuartil.

Page 36: Microeconometr a Aplicada JM Benavente

36 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Una forma alternativa y muy utilizada en muchas aplicaciones semi y no paramétricases la Validación Cruzada Generalizada (GCV). Cuando una decisión como suavizacióndebe realizarse, esta metodología sugiere que escoja el parámetro que optimiza el crite-rio de la función jackknife.

Jackknifing es un procedimiento general donde una cantidad desconocida se estimaal dejar fuera cada observación sucesivamente y estimar, usando las n − 1 observa-ciones restantes, algo acerca del n-ésimo punto. Por ejemplo, al dejar fuera x1 usamoslos restantes puntos para estimar logf(x1) el que denotaremos por f[−1](x1). De estaforma, escogemos h de tal modo de:

maxhi=1

n∑

i=1

logf[−i](xi)

Elección de K(·)Cabe hacer notar, que en términos de nomenclatura, Pagan y Ullah usan K(ψ) mien-

tras que Van der Vaart usa K(y). Pagan y Ullah - supuesto A.2 (Pág 21) - impone lascondiciones estándar para K(·) la que debe ser una función simétrica (no negativa ?) yque satisfaga los siguientes criterios:

(i)∫

K(ψ)dψ = 1

(ii)∫

K2(ψ)dψ = µ2 6= 0

(iii)∫

K2(ψ)dψ < ∞

bajo estas condiciones, se demuestra (pág. 27-28) que AMISE puede ser minimizadopara el caso del Kernel con bandwidth uniforme al escoger el siguiente kernel:

K(ψ) =

34(1− ψ2) |ψ| ≤ 1;

0 ∼

conocido como Kernel Epanechnikov(1969).2

Este tipo de Kernel es no negativo para todo el dominio de x y tiene forma de parábola.Existe una extensa literatura comparando el MISE de este Kernel con el de otros posiblesKernels. Los resultados indican que la diferencia entre estos es pequeña. Consecuente-mente, considerando simplicidad, costos computacionales y la velocidad de convergencia

2Recordar que ψ =(

x−xih

).

Page 37: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 37

del estimador de la densidad pueden determinar que Kernel escogemos como apropiadoal problema que estemos analizando. No obstante, cabe hacer notar que la elección deh tiene mucho mayor impacto que la elección de K(·).

Elección de K(·), Aspectos Adicionales

Si abandonamos el requerimiento que K(ψ) sea no negativo podemos reemplazar elsupuesto A.2 por A.6 y reducir el AMISE de f(x) en una cantidad apreciable ( O(n−4/5)→ O(n−2r/(2r+1))), con r el valor del orden del Kernel. Sea K perteneciente a la clasede Kernels simétricos, tal que:

∫ψjK(ψ)dψ = 1 si j = 0

= 0 si j = 1, · · · , r − 1; r ≥ 2< ∞ si j = r

(momentos de orden (r-1) son cero pero el r-ésimo momento es finito). Estos Kernels seconocen como “Kernels de orden superior” (orden r). Para emplearlos debemos asumirque la derivada de orden r es continua.

Se puede demostrar que Kernels de orden superior reducen su AMISE a O(n−2r/(2r+1))el cual para r grandes es cercano a la tasa paramétrica de O(n−1), ello al extender lostérminos en la expansión de Taylor). 3

Ejemplo:

Como se mencionó, Kernels de orden superior pueden necesitarse para:

reducir el sesgo en muestras pequeñas.

asegurar que la distribución asintótica de (nh)1/2 · (f − f) esta centrado en cero.

así debemos generar Kernels cuyos r − 1 momentos sean cero. Si r = 3 y K(ψ)=(a0 +a1 ·ψ+a2 ·ψ2) ·φ(ψ) donde φ(ψ) es una densidad N(0, 1), a0, a1, a2 deben determinarsede modo que

∫K(ψ)dψ = 1 y

∫ψK(ψ)dψ = 0 =

∫ψ2K(ψ)dψ.

Del hecho que los momentos impares de una normal (0,1) son cero y los pares son:

Eψ2j =2j

π· Γ

(2j + 1

2

)

3La secuencia xn de números se dice que es de orden nk, xn=O(nk), si xn

nk → c mientras n → ∞y c es constante.

Page 38: Microeconometr a Aplicada JM Benavente

38 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

tenemos que:∫

K(ψ)dψ = 0 ⇒ a0 + a2 = 1

∫ψK(ψ)dψ = 0 ⇒ a1 = 0

∫ψ2K(ψ)dψ = 1 ⇒ a0 + 3a2 = 0

donde las soluciones son: a0 = 3/2; a1 = 0, a2 = −1/2. Así, el Kernel es:

K(ψ) =12(3− ψ2)φ(ψ)

cuyos primeros momentos son cero. Este Kernel incluye una mezcla de polinomio degrado dos y una densidad normal el que puede alcanzar valores negativos !! (en vez desumar, datos lejanos se restan).

Otros Tipos de Kernels: bandwidth variable o estimadores de Kernel adap-tativo

¿Puede la reducción del sesgo lograrse sin tener que utilizar kernels de orden superi-or?. La respuesta es SI al escoger diferentes h para xi. En general, si xi esta en una areadensa, hi deberá ser pequeño; mientras las observaciones “outlying” deberán recibir unhi mayor. Hecho de manera correcta O(n−8/9) puede lograrse con Kernels adaptativos,no negativos (equivalente a kernels con r = 4). Pero, en la práctica, kernels adaptativosson más lentos que h uniforme y la teoría es muy compleja.

2.2.2. Estimación de Densidad II: Balanceo Exponencial

La función Kernel, a pesar de su popularidad y facilidad de uso, no permite repro-ducir momentos mayores de las muestras observadas. Por ejemplo, medianas, intercuar-tiles u otros similares no son posible de estimar utilizando Kernels.

Una forma novedosa y poco convencional de estimación de funciones de densidad, esuna variante de aquella propuesta por Barron y Sheu (1991) conocida como Balanceoexponencial (Exponencial Tilting).

Para ello definimos una función de densidad arbitraria f0(x) como también tambiénψ(x) como un vector de funciones de x con una dimensión m (es decir, pensar en un

Page 39: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 39

momento como E(x), E(x2), E(x3), si m=3); y t un vector de m parámetros. Consider-emos la siguiente densidad:

f(x; t) =et·ψ(x) · f0(x)∫et·ψ(x) · f0dx

(2.5)

Aquí t transforma f0(x) en otra densidad. Ahora, suponga que utilizamos la densidadf(x; t) como un modelo paramétrico de un conjunto de datos, con parámetro t descono-cido y a ser estimado. El logaritmo de la densidad es:

logf(x; t) = t · ψ(x) + logf0(x)− log

∫et·ψ(x) · f0(x)dx

= t · ψ(x) + logf0(x)−K(t)

Donde el último término de la derecha representa la función generadora de momentosacumulada. Entonces el log-likelihood es:

logL(t) =n∑

i=1

log[f(x; t)] = t ·n∑

i=1

ψ(xi) +n∑

i=1

logf0(xi)− n ·K(t)

La F.O.C para maximizar logL(t) con respecto a t:

∂logL(t)∂t

=n∑

i=1

ψ(xi)− n∂K(t)

∂to

∑ni=1 ψ(xi)

n=

∂K(t)∂t

(2.6)

Así la media de ψ se define para que sea igual a ∂K(t)∂t . Aquellos familiarizados con

funciones generadoras de momentos reconocerán que la ecuación anterior plantea queel estimador MLE de t es aquel donde Ef(x;t)ψ(x) = n−1 ·∑n

i=1 ψ(xi), es decir que lamedia poblacional de esta distribución "t-tilde"se iguala a la media muestral para cadacomponente de ψ.

Ello se puede obtener del siguiente cálculo:

∂K(t)∂t

=∂

∂tlog

∫et·ψ(x)f0(x)dx

=∫

ψ(x)et·ψ(x)f0(x)dx∫et·ψ(x)f0(x)dx

=∫

ψ(x)

et·ψ(x)f0(x)dx∫et·ψ(x)f0(x)dx

dx

=∫

ψ(x) · f(x; t)dx

= Ef(x;t)ψ(x)

Page 40: Microeconometr a Aplicada JM Benavente

40 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

la idea es obtener una representación paramétrica que tiene la propiedades de la muestraobtenida. Por ejemplo, si en la muestra µ=1 entonces:

ψ1 = x− 1 ; ψ2 = (x− 1)2 ; ψ3 = (x− 1)3 ; ψ4 = (x−mediana)

En el trabajo original de Barron y Sheu las funciones base ψ(x) eran secuencias de lasfunciones polinomiales, trigonométricas o spline y x fue reescalado para que estuvieraen el rango [0, 1]. Así, tomando f0(x) como la densidad uniforme sobre [0, 1], uno puedeusar polinomios ortogonales de la función uniforme para definir ψ(x). Pero cuantas deestas ψ’s deberían considerarse?. Si se sabe que el logaritmo de la verdadera densidadtiene r derivadas cuadráticamente integrables, (

∫ |Drlogf(x)|dx < 0) entonces definien-do m = n

12r+1 alcanza una tasa de convergencia de f a f igual a Op(n

−2r2r+1 ) el cual es

similar al alcanzado por los Kernels adaptativos (o de orden superior)

Algunas Propiedades del Estimador de Balance Exponencial

Los datos solo entran en la construcción del estimador a través de las medias mues-trales de las funciones bases ψ(x). En la práctica, de aplicaciones econométricasconstruimos las funciones base de tal forma que tengan media cero y las denomi-namos ”condiciones de momentos”. Por ejemplo, ψ(xi) = x3

i − (x3) (el cual tienemedia cero) en vez de ψ(xi) = x3

i .

La formulación de ψ fuera de la noción estadística de funciones "base"nos permitenser flexibles para imponer propiedades sobre la densidad estimada. Por ejemplo,podemos imponer una condición de mediana:

ψ(x) = 1(x > µ)− 1(x < µ)

donde µ es la mediana a ser impuesta.

La elección del número de condiciones de momentos m a ser impuestas es análogoa la elección del bandwidth de la estimación por Kernel. A menor m mayor es lainfluencia de f0(x) de la estimación f(x). A mayor m, mayor la influencia quetiene la secuencia de momentos en la apariencia de f(x). En el límite, a medidaque m se acerca a n (tamaño muestral) la función estimada tiende a reproducirla distribución empírica (no obstante cuando m = n los cálculos colapsan).

Estimación de Densidades Multivariadas

La extensión de la estimación de densidad por Balance Exponencial para el casomultivariado es simple: x ahora es multidimensional y ψ(x) deberá incluir momentos

Page 41: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 41

como xa1 ·xb

2 para pequeños valores de a y b, también como xa1 ·xb

2 ·xc3 y así sucesivamente

(notar también que la media de x puede ser restada de las expresiones anteriores paraimponer condiciones de momentos). No obstante, a medida que la dimensión aumenta,la integración numérica que define K(t) se hace mas compleja.

En general, para todos los métodos de estimación incluidos el de Kernel, la dificul-tad para obtener estimaciones de densidades precisas crece muy rápidamente con elnúmero de dimensiones.

Para el caso de funciones Kernel, la expansión a dimensiones mayores es bastante di-recta:

f(y, x) = f(z)1

n · hq+1·

n∑

i=1

K1

(zi − z

h

)

donde x tiene dimensión q e y es un escalar.

La ecuación anterior usa el mismo h para cada variable. Una práctica habitual es obien reescalar los datos componente a componente con el fin de obtener una varianzaunitaria, aplicar el estimador Kernel y transformar de vuelta. Otra alternativa es uti-lizar un Kernel normal multivariado con una matriz de covarianzas no diagonal dondela elección natural para la matriz de covarianzas sería proporcional a la matriz de co-varianzas muestral.

Por otra parte, la función Kernel multivariada K1 puede incluir la densidad normalestándar multivariada o bien el producto de q + 1 kernels univariados. Sorprendente-mente, Epanechmikov demostró que el Kernel normal multivariado ( y no el producto deKernels Epanechnikov) minimizan el MISE sobre toda la clase de productos de Kernels.

Cabe señalar que si tenemos f(x) podemos manipularlo y obtener:

f(x) =∫

f(y, x)dy

o bien:

f(y|x) =f(y, x)

f(x)

y así sucesivamente. De esto último se desprende que podremos calcular, entre otrosE(y|x) aunque no todos los estimadores no paramétricos de E(y|x) se obtienen de estaforma.

Page 42: Microeconometr a Aplicada JM Benavente

42 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

2.2.3. Ejemplos de Estimaciones de Densidad

Densidad de Retornos Accionarios: (Pagan y Schwart 1990)

Uno de los primeros trabajos que utiliza la estimación de densidades está relaciona-do con los retornos mensuales de activos financieros entre 1834 y 1925, con un total de1104 observaciones para xi. Después de determinar los valores mínimos y máximos, ungrupo de 100 observaciones fueron seleccionadas las que pertenecían a este rango. Lafigura 2.1. presenta la estimación de densidad para estos 100 puntos para una funciónGaussiana :

K(ψ) = (2π)−1/2e−12ψ2

y una Espanechnikov:

K(ψ) = 34(1− ψ2) si |ψ| ≤ 1

donde ψ = xi−xh y h=n−1/5σx, con n=1104.

Se observa que sólo hay pequeñas diferencias entre estimadores sugiriendo que la elec-ción entre tipos de kernel no es fundamental.

La figura 2.2 contrasta la densidad estimada con una Normal de una variable aleatoriacon la misma varianza muestral. También se entrega la cota inferior del intervalo deconfianza al 95%, el cual se calcula como :

Page 43: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 43

(nh)−1( 0,2821︸ ︷︷ ︸∫K2(ψ)dψ

·f(x))

No hay duda de que la densidad es diferente a la Normal y una de sus característicasprincipales es sus colas más anchas y gran peak en torno al valor cero. Esto significa quehay demasiados retornos o muy grandes o muy pequeños para que sean consistentes conuna distribución Normal. Adicionalmente, pareciera ser que hay mas retornos positivosque negativos dando una idea de que la distribución no es exactamente simétrica.

Complementario a lo anterior, sabemos que :

(nh)1/2(f −E(f)) d→ N

(0, f(x) ·

∫K2(ψ)dψ

)cuando n →∞

es decir, que asintóticamente sería una Normal si (nh)1/2h2 −→ 0 mientras n −→ ∞pero sabemos que h = n−1/5σx no cumple con este requerimiento y por tanto hay quedar cuenta de este sesgo asintótico de alguna forma.

La utilización de Kernels de mayor orden puede ser una forma de solucionar este prob-lema. En la Figura 2.3 muestra que el ajuste no mejora mucho existiendo un estimacióncon mas sinusoidales. Otra forma de solucionarlo es mediante Kernels adaptativos (ver

Page 44: Microeconometr a Aplicada JM Benavente

44 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

forma de estimación en pág. 74 de Pagan y Ullah). Los resultados que se presentan enla Figura 2.4 tampoco arrojan resultados satisfactorios.

Estimación de Densidad Dickey-Fuller

Como se mencionó, el output de experimentos de Monte Carlo pueden ser utilizadospara realizar análisis no paramétrico particularmente cuando se desea tener una visión

Page 45: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 45

completa de la densidad de un estimador en particular. Un caso interesante es el análisisde la densidad para el estimador del parámetro en un proceso autorregresivo de primerorden cuando el verdadero valor del parámetro es la unidad. Esto es :

yt = ρyt−1 + et donde ρ = 1

Fuller (1976) entrega tablas para la densidad n(ρols − 1) las que son ampliamente uti-lizadas para determinar el orden de integración de una serie.

De esta forma, este experimento es estimar por Montecarlo la densidad n(ρ − 1) conn = 1000 series de yt, t = 1, · · · 1000, y y0 y et obtenida de una N(0, 1). Si cada serie yt

es designada como y(i)t 1000

i=1 , entonces:

ρ(i) =

[1000∑

t=1

(y(i)t=1)

2

]1000∑

t=1

y(i)t−1 · y(i)

t , xi = 1000(ρ(i) − 1)

y donde xi1000i=1 .

La figura 2.5 muestra la estimación de la densidad de n(ρols − 1) cuando ρ = 1 usandoGaussian y Epanechnikov kernels con h = 0,9An−1/5, donde A=minσ, R

1,34 = 0,31 yσx = 3,47. Como se aprecia, existen pocas diferencias entre ambas.

Page 46: Microeconometr a Aplicada JM Benavente

46 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Page 47: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 47

2.2.4. Estimación de Densidad Univariada por Balanceo Exponencial

Suponga que queremos construir una densidad g(x) con ciertas propiedades y cuen-to con una estimación preliminar o densidad "base"f0(x) la que puede o no tener laspropiedades deseadas. En particular, las "propiedades"son condiciones sobre los mo-mentos, las que pueden ser expresadas como:

∫γ(x)g(x)dx = M (2.7)

Page 48: Microeconometr a Aplicada JM Benavente

48 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

donde asumiremos que el dominio de x es conocido (por ahora). Podemos reescribir laecuación anterior como sigue:

∫(γ(x)−M) · g(x)dx = 0 o bien

∫ψ(x)g(x)dx = 0

donde ψ(x) es una condición de momento construida deliberadamente (no confundircon ψ(x) = (x−xi

h )) la que se iguala a cero. Notar que ψ(x) puede tener una dimensiónm.

Considere:

f(x; t) =eλ·ψ(x) · f0(x)∫eλ·ψ(x)f0(x)dx

Definiendo:

Mo(t) =∫

et·ψ(x) · fo(x)dx

=∫

et·ψ(x) · f(x; o)dx

y, en forma similar:

Mλ(t) =∫

et·ψ(x) · f(x;λ)dx

=∫

et·ψ(x) · eλψ(x) · f0(x)M0(λ)

dx

Para hacer las cosas más fáciles, definamos:

logM0(t) ≡ K0(t)

Ahora, podemos definir λ en f(x; λ) de tal modo que f(x; λ) es la (o una) función g(x)que buscamos. Estos requiere que:

∫ψ(x) · eλψ(x) · f0(x)

M0(λ)dx = 0 (2.8)

donde podemos observar el término anterior es idéntico a ∂K0(λ)∂λ (ver notas anteriores).

De esta manera resolviendo ∂K0(λ)∂λ = 0 para λ nos entrega valores para λ que tenga las

propiedades requeridas.

Para el caso univariado, suponga que tomamos una secuencia de funciones γ(x) y cal-culamos su media muestral de forma de determinar µ. Si definimos ψ(x) = γ(x) − µy seguimos el procedimiento anterior para calcular f(x, λ), entonces si se escoge ade-cuadamente la secuencia γ(x) - la que incluye el número de funciones a medida que la

Page 49: Microeconometr a Aplicada JM Benavente

2.2. ESTIMACIÓN DE DENSIDADES 49

muestra aumenta, el estimador f(x) = f(x; λ) converge a la verdadera densidad a lamisma velocidad que los Kernels reducidores de sesgo, independientemente de la formaescogida para f0(x).

Ejemplos de condiciones de Momentos:

mediana: 1(x < µ)− 1(x > µ) = 0α quantil: α · 1(x < µ)− (1− α) · 1(x > µ) = 0

2.2.5. Estimación por Kernels: puntos adicionales

Deaton(1997), pág 174.

"....an adequate procedure is to consider a number of different bandwidths, to plot theassociate density estimates, and to judge by eye weather the plots are under smoothedor over smoothed...there should also be some preference for undersmoothing when usinggraphical methods; the eye can readly ignore variability that it judge to be spurious,but it cannot discern features than have been covered up by oversmoothing".

Ejemplo práctico : log PCE (per capita expenditure) en Sudáfrica

Este caso está ilustrado en el libro de Deaton, antes citado.

fw(x) =1h

n∑

i=1

vnK

(x− xi

h

)K = Epanechnikov

vn: pesos normalizados (pesos normalizados por su suma, es decir que sumen 1).

Page 50: Microeconometr a Aplicada JM Benavente

50 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Veamos algunos puntos respecto a estos gráficos.

Posiblemente en la realidad sea como A pues están incluidos blancos y negros conclaras diferencias en sus PCE’s.

h′s grandes o oversmoothing pueden esconder propiedades verdaderas de los datos.

Pero h′s pequeños hacen que la serie tenga muchos saltos, quizás exagerando laverdadera distribución de los datos.

2.3. Estimación de los Momentos Condicionales

2.3.1. Estimadores Tradicionales

Una vez revisado los aspectos generales de estimación no paramétrica de una den-sidad de probabilidades, el siguiente paso que debemos dar está relacionado con laestimación de funciones de momentos condicionales. Ello debido a que en general, losmodelos econométricos pueden ser visto como una función de momento condicional, enparticular como un valor esperado condicional. De esta manera, a diferencia de unaestimación de densidad bivariada o multivariada nos interesa determinar la forma quetiene la relación entre un conjunto de variables x y su contraparte y. Con este fin,adoptaremos la siguiente notación:

Y = E(Y |X = x) + u = m(x) + u

donde, en general diremos que Y , X son variables aleatorias poblacionales y xi, yi

pueden ser ya sea variables aleatorias o valores particulares de la muestra dependiendodel contexto.

En primer lugar, debemos notar que si tenemos valores repetidos de x, podemos prome-diar los valores correspondientes de y para obtener un estimador de m(x). No obstante

Page 51: Microeconometr a Aplicada JM Benavente

2.3. ESTIMACIÓN DE LOS MOMENTOS CONDICIONALES 51

lo anterior, si no tenemos varias observaciones de x, podemos tomar valores muestralesyi, xi donde xi esta cercano a x y promediar los y′s correspondientes. O bien, massofisticado aún, tomar un promedio ponderado de los y′s dependiendo cuan cerca estael correspondiente xi de x.

La idea en general, es analizar la estructura o dispersion que tienen los valores de y,los cuales son obtenidos a partir de los x en relación de como están distribuidos dichos x.

Veamos esto formalmente. A la luz de lo anterior, podemos definir el valor esperadode y condicional en x como :

m(x) =∫ ∞

−∞y · f(x, y)

f1(x)dy (2.9)

donde f1(x) es la densidad marginal de X en x. Si sustituimos estimadores de Kernels,los que se obtiene de la muestra, con ancho de ventana fijo h para f(y, x) y para f1(x),entonces obtenemos (después de un tortuoso camino algebraico, p. 83-84 de Pagan yUllah), la siguiente expresión para el estimador de dicha esperanza condicional.

m(x) =∑n

i=1 K(

xi−xh

) · yi∑ni=1 K

(xi−x

h

) (2.10)

el que se conoce como el estimador de Nadaraya-Watson.

Bajo este esquema, para estimar m(x) se pondera cada observación yi en proporción ala contribución que los x′s de cada yi hacen para la estimación de la densidad marginalde X a x.

El estimador de Nadaraya-Watson puede ser visto como una suma ponderada de aque-llos yi’s que corresponden a xi en una vecindad de x.

Una generalización de esta idea es la de estimar m(x) de la siguiente forma:

m(x) =n∑

i=1

wni(x) · yi (2.11)

donde wni = wn(xi, x). Si los wni son no negativos y suman 1, podemos pensar en elloscomo pesos probabilísticos.

Veamos esta situación en el siguiente gráfico donde se han considerado sólo dos puntos.

Page 52: Microeconometr a Aplicada JM Benavente

52 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

yi

m(x)

yj

xi X xj

m(x) =n∑

i=1

wni(x) · yi

ahora, si n=2, tenemos que :

= yi · wn(xi, x) + yj · wn(xj , x)

=K

(xi−x

h

) · yi + K(

xj−xh

)· yj

K(

xi−xh

)+ K

(xj−x

h

)

Pues bien, pensando ahora más en el contexto de un modelo de regresión, donde laespecificación tiene la estructura de una esperanza condicional, podríamos pensar enm(x) como una forma funcional conocida con parámetro β. De esta manera, el estimadorOLS de β se encontraría al minimizar la siguiente expresión:

n∑

i=1

(yi −m(xi, β))2

De esta forma, podríamos considerar el siguiente criterio:

n∑

i=1

w∗ni(x) · [yi −m(x)]2

mediante el cual se le entrega un ponderador mayor (peso mas alto) a aquellos xi queestán mas cerca de x. Si m(x) es considerado como un solo parámetro a estimar (pensaren la constante en un modelo de regresión), entonces tenemos que:

n∑

i=1

w∗ni(x) · [yi −m]2 (2.12)

Page 53: Microeconometr a Aplicada JM Benavente

2.3. ESTIMACIÓN DE LOS MOMENTOS CONDICIONALES 53

con una solución teniendo una estructura como en (2.11) donde:

wni =w∗ni

(x)∑ni=1 w∗ni

(x)

Notar, que lo que hacemos es tratar de estimar los β para lo que necesitamos unaestimación (en este caso no paramétrica) de la esperanza condicional. Para el casodel estimador de Nadaraya-Watson los pesos para la estimación de dicha esperanzacondicional son de tal forma que - al sustituir (2.12) en (2.14), escogemos los m de talforma de minimizar:

∑[yi −m]2 ·K

(x− xi

h

)

Una extensión natural a esta forma de estimación es la denominada "locally linearregression". En ésta se escoge m y β con el fin de minimizar la siguiente expresión :

n∑

i=1

[yi −m− (xi − x)β]2 ·K(

x− xi

h

)

De esta manera, mientras el estimador Nadaraya-Watson ajusta una constante a losdatos cercanos a x, el estimador LLR ajusta una línea recta. Claramente, funciones máscomplejas, por ejemplo, polinomios de (xi−x) pueden ser agregadas a esta formulaciónpara así obtener "locally polynomial regression".

El siguiente gráfico muestra una de estas LPR en que se han utilizados polinomiosde Hermite para aproximar la función.

1f1(x)=1

f2(x)

f3(x)

donde, en esta caso, f1(x) = 1, f2(x) = a + bx y f3(x) = c + dx + ex2. Así, la lineacontinua se aproxima mediante una combinación de las funciones fi(x).

Formalmente :

m(x) = E[Y |X = x] = G

[q∑

k=1

fk(xk)

]

Page 54: Microeconometr a Aplicada JM Benavente

54 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

con q=número de funciones

En el caso particular de utilización de polinomios de Hermite, se debe cumplir que:

∫f1(x) · φ(x) = 1

∫f2(x) · f1(x) · φ(x) = 1 pero

∫f2(x) · f1(x) = 0

y así sucesivamente, donde se imponen condiciones de ortogonalidad entre las funcionesescogidas.

Entre las ventajas de los modelos de LLR podemos destacar las siguientes:

pueden ser analizados con las técnicas de regresión estándar.

tiene las mismas propiedades estadísticas independientemente si xi son estocásti-cas o determinísticas.

2.3.2. Estimación de momentos condicionales mediante series

Una forma alternativa de estimar m(x) = E(y|x) es aproximar m(x) por una funciónlineal de un vector z de dimensión M , con z = z(x) donde el conjunto de funciones zse denomina "base". Elecciones obvias de la base pueden ser x, x2, x3, o similareso bien varios sistemas de polinomios ortogonales (por ejemplo, los ya mencionadosHermite). Una forma más compleja son series trigonométricas sin(kx), cos(kx) parak = 1, ....,M/2.

En general, la idea es estimar θ en el modelo:

y =n∑

i=1

zikθn + ui

De esta manera, m(x) puede ser aproximada por m(x) =∑M

k=1 zk(x)θk.

Esta forma "funcionaen el sentido asintótico si M crece en forma proporcional a n y sim(x) se aproxima a m(x) suficientemente bien. Una sugerencia de base que funcionabastante bien es una forma funcional flexible de series de Fourier donde las funcionesbase tienen las siguientes formas:

sin(x1 + x2), sin(x1 + x3), sin(x1 − x3),.....

sin(2(x1 + x2)), sin(2(x1 + x3)), sin(2(x1 − x3)),....

Page 55: Microeconometr a Aplicada JM Benavente

2.3. ESTIMACIÓN DE LOS MOMENTOS CONDICIONALES 55

junto con términos en cosenos y polinomios (ver Pagan y Ullah p.124-125).

En general, la aproximación multivariada mediante series de Fourier tiene la siguienteforma;

yi =L∑

l=1

J∑

j=1

[γjlcos(jk′lxi) + δjlsin(jk′lxi)]

con k′l vector de valores entre -1 y 2 (ver siguiente tabla ) y L y J relacionados con M/2.

La idea central de esta forma flexible, desarrollada por Gallant (1981), es que dichasseries aproximan bastante bien m(x) para el caso multivariado. En particular bajosciertos supuestos (B1-B7, en teorema 3.9 Pagan y Ullah), se cumple que:

u−1/2[E(m(x))−m(x)] → 0 mientras n →∞

con u = σ2(Z ′(Z ′Z)−1Z).

Page 56: Microeconometr a Aplicada JM Benavente

56 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Conditional Moment EstimationTabla3.1. Multi-indices kl for q=3. K∗=3k∗ 1 2 3

(1,0,0) (1,1,0) (1,1,1)(0,1,0) (1,0,1) (1,-1,1)(0,0,1) (0,1,1) (1,1,-1)

(1,-1,0) (1,-1,-1)(1,0,-1) (0,1,2)(0,1,-1) (0,2,1)

(1,2,0)(1,0,2)(2,1,0)(2,0,1)(0,1,-2)(0,2,-1)(1,-2,0)(1,0,-2)(2,-1,0)(2,0,-1)

Comparación entre regresión paramétrica y no paramétrica:

1. No es posible calcular la esperanza condicional para valores de x donde la densidades cero. Si x no puede ocurrir no tiene sentido condicionar, y en su ocurrencia elintento de calcular la regresión en estos caso implica dividir por cero.

2. No obstante, cálculos para valores cercanos a cero pueden ser obtenidos pero conintervalos de confianza (varianza) muy altos y por lo tanto, la imposición seráalta.

3. A diferencia de la regresión paramétrica, es imposible utilizar regresiones noparamétricas para calcular predicciones fuera de la muestra.

4. La gran ventaja de la regresión no paramétrica es el hecho que no asume for-ma funcional alguna permitiendo no solo que los datos .escojan"los parámetrosestimados sino que la forma de la curva también.

2.3.3. Sesgos en las regresiones usando Kernels

Existen dos fuentes de sesgos en una regresión mediante Kernel. Estos se ilustranen el siguiente gráfico.

Page 57: Microeconometr a Aplicada JM Benavente

2.3. ESTIMACIÓN DE LOS MOMENTOS CONDICIONALES 57

x1 x2 x3

y3

y2

y1

m1

m2Bandwidth

xa xb

y2*

y3*

Sources of Bias in kernel regressions

Los puntos x1, x2, x3 están igualmente espaciados y donde tenemos dos funciones deregresión, a saber, m1 la que es una línea recta y m2 una curva.

Partamos con el caso de la función m2. Dado el ancho de banda h los puntos x1,x2 y x3 contribuyen a la estimación de y2. En consecuencia, este valor será un promedioponderado entre y1, y∗2 e y∗3 donde y∗2 captura la mayor parte del peso y con y1 e y∗3tomando el mismo peso y con los pesos sumando 1.

Dado que la función de regresión es cóncava, este promedio ponderado será menor quey∗2 y por lo tanto la estimación estará sesgada hacia abajo. Si la verdadera función fueraconvexa, el sesgo será hacia arriba; sólo en el caso lineal no existiría sesgo. No obstante,el sesgo sería cada vez menor a medida que el tamaño de la muestra aumentara ya queel bandwidth será cada vez más chico y, en el límite, sólo x2 contribuirá a estimar lamedia condicional.

En consecuencia, transformaciones previas de los datos que tiendan a la linealización dela relación (como logs) serán útiles para eliminar esta clase de sesgo en la regresión porkernel. Desafortunadamente, no todo el sesgo puede ser eliminado mediante un modelolineal.

Al considerar los valores extremos también cierto sesgo puede aparecer. Suponga quex1 es el valor menor de las x’s en la muestra. Cuando tratamos de estimar la regresiónpor kernel en x1, el promedio de los puntos vecinos sólo incluirán aquellos que estána la derecha y por lo tanto existirá un sesgo hacia arriba en la estimación (si la regre-sión tiene pendiente positiva). Un problema análogo se observará en la otra parte de lamuestra. Este sesgo disminuye a medida que nos movemos de las puntas hacia el centropero si el bandwidth es amplio este sesgo puede ser distorsionador.

Page 58: Microeconometr a Aplicada JM Benavente

58 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

La pregunta que surge es, si a pesar de tener una relación lineal, la cual evita el primersesgo ya discutido, cómo se puede eludir el segundo sesgo. La respuesta sería ampliarla muestra (es decir, n →∞). Pero qué sucede si no podemos hacer esto en la práctica.Una forma, es la ya discutida aproximación utilizando series, pero existen otras, veamos.

Una forma es imponer una estructura de los momentos condicionales, el cual, entreotras cosas nos ayuda a solucionar el problema del çurse of dimensionality"que surge alutilizar las aproximaciones por series.

Por una parte, existen un tipo de aproximaciones que se denominan Modelos AditivosGeneralizados los que tiene la siguiente estructura :

yi =q∑

j=1

mj(xij) + ui

donde mj son funciones de variables unitarias con E[mq(xq)] = 0 condición necesariapara su identificación. Supongamos que el número de regresores q, es igual a 2.

m(x1, x2) = m1(x1) + m2(x2)

entonces, al aplicar valor esperado tenemos que:

∫m(x1, x2)f(x2)dx2 =

∫m1(x1) + m2(x2)f(x2)dx

= m1(x1) + 0

y de esta manera, estimadores de f(x2) y m(x1, x2) entregan un estimador de m1(x1).Este procedimiento se puede realizar en forma análoga con el fin de obtener m2(x2) yasí sucesivamente.

Por otra parte, si bien sabemos que :

m1(x1) =∫

m(x1, x2)f(x2)dx2

ya que∫

m(x2)f(x2) = 0 dado el supuesto de que E(m2(x2)) = 0. Entonces, m(x1, x2)puede ser estimado en forma no paramétrica m(x1, x2) =

∑nj=1 wj(x1, x2)yj dejando

sólo el problema de que hacer con f2(x2).

Una forma de llevar a cabo esta última etapa es mediante el reemplazo de f(x2) poruna función determinística f(x2) con la condición que integre a la unidad.

Page 59: Microeconometr a Aplicada JM Benavente

2.3. ESTIMACIÓN DE LOS MOMENTOS CONDICIONALES 59

De esta forma, finalmente, el estimador de m1(x1) será:

m1(x1) =∫

m(x1, x2)f(x2)dx2

=n∑

j=1

yj ·∫

wj(x1, x2)dF (x2)

=n∑

j=1

wj(x1)yj

donde: wj(x1) =∫

wj(x1, x2)f(x2)dx2.

Otra forma alternativa de la estimación de momentos condicionales es el modelo "LinealParcial". Supongamos que la variable y depende nuevamente de dos variables aleatoriasx1 y x2 estructura que puede ser descrita de la siguente forma:

yi = x′1iβ + g1(x2i) + ui

Dado que E(yi|x2i) = E(x1i/x2i)β + g1(x2i), tenemos que:

yi −E(yi/x2i) = [x1i − E(x′1i/x2i)]′β + ui

donde β puede ser estimado vía OLS una vez que E(yi|x2i) y E(x′1i|x2i) han sidoreemplazados por sus estimadores tipo kernel u otro similar. Así, g1(x2i) puede serrecobrado de la siguiente manera:

g1(x2i) = E(yi|x2i)− E(x′1i|x2i)′β

Notar la aparición de β en estas dos últimas ecuaciones. Ello nos lleva al mundo dela .estimación semi-paramétrica", donde existen parámetros de interés económico en unmodelo de características no paramétricas.

2.3.4. Ejemplos de aplicaciones de estimación de momentos condi-cionales

Habilidad y Salarios (Di Nardo y Tobias, JEP 2001

La pregunta estyá relacionada en la forma en que la habilidad cognitiva, medida porun aprueba estándar, y nivel de educación, medida como el máximo nivel de educaciónalcanzado por los individuos entrevistados afecta al salario por hora (en logaritmos).

Con este fin, se realiza una estimación por por kernel del tipo

yi = m(xi) + ui

Page 60: Microeconometr a Aplicada JM Benavente

60 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

donde el estimador de m(x0) es denotado por α∗o, el cual minimiza el siguiente problemade mínimos cuadrados ponderados:

mınα0,α1

n∑

i=1

[(yi − α0 − α1(xi − x0))2K

(xi − x0

h

)]

Para este caso particular, la variable educación, fue separada en 5 categorías y para lavariable habilidad cognitiva se creo una grilla de 20 puntos separados uniformementelos que denotaban aquellos individuos desde 0,3 desviaciones estándar bajo la media deesta variable hasta 1,5 desviaciones estándar sobre la media.

De esta manera se necesitaron cinco regresiones no paramétricas con el fin de describirla relación entre habilidad y (el log) de los salarios por hora al interior de cada grupoeducativo. Estos 5 valores estimados se agruparon de modo de graficar la esperanzacondicional del logaritmo de salario sobre el espacio habilidad-educación.

Page 61: Microeconometr a Aplicada JM Benavente

2.3. ESTIMACIÓN DE LOS MOMENTOS CONDICIONALES 61

Comentarios acerca de la estimación realizada:

Con respecto al Bandwidth: el gráfico de la izquierda se obtuvo con un h óptimode acuerdo con los criterios ya vistos. Aquel de la derecha es con h más pequeño,y por ende, más "saltos".

Con respecto a los resultados: salarios suben a medida que la educación subedado un nivel de habilidad; excepto en habilidad baja y educación alta, lo quees un problema de disponibilidad de datos más que de inconsistencia económica.También para niveles altos de educación existen retornos crecientes a los nivelesde educación más bajos donde tiene forma de U invertida.

Otro ejemplo

Ahora bien, veamos resultados mediante el uso del modelo semi paramétrico “par-tially linear model” entre otras cosas, para ver el aumento del “curse of dimensionality” ylos beneficios en términos de ahorro de costos computacionales. Para ellos consideremoseste sencillo modelo:

yi = ziβ + m(xi) + εi

Una forma de estimar un modelo como este, es la siguiente:

(i) Ordenar los datos por valores ascendentes de x (aquellos que deseamos tratar noparamétricamente). Calcular primeras diferencias de todos los datos ordenados.

(ii) Obtener un estimador de β usando diferencias de las variables z e y [esto es :∆yi =β0∆zi + ui]

(iii) Ajustar la variable dependiente original yi al sacar el efecto de las variables z.

y∗i = yi − z′iβ0

(iv) Obtener una regresión lineal local no paramétrica usando y∗i y xi para obtener unestimador de m.

Veamos una aplicación práctica de este modelo para el cual se ha generado 300 puntos elque incluye componentes paramétricos como también no paramétricos con la siguienteestructura:

y = 2z1 + z2 + m(x) + ε

donde m(x) = 0,3exp[−4(x + 1)2] + 0,7exp[−16(x− 1)2] y con ε ∼ N(0, 0,01In).

Además x es generado uniformemente en el intervalo [-2,2] y z1i ∼ N(0,5xi, 1) y z2

independientemente generado a partir de una t-student con 4 grados de libertad.

Los siguientes gráficos muestran la verdadera así como los resultados de las variadas

Page 62: Microeconometr a Aplicada JM Benavente

62 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

estimaciones, concentrándose en la parte no paramétrica.

2.4. Estimación Semiparamétrica de modelos de eleccióndiscreta

Finalmente retornamos al punto que habíamos dejado durante el primera secciónde estas notas y que tenía que ver con la estimación de modelos con variable depen-diente binaria. Recordando lo que se había mencionado, los modelos analizados paramodelar la elección discreta descansan en forma importante sobre los supuestos que seasuman acerca de la distribución de los errores. Particularmente, dada la no linealidaden los parámetros que resultan de escoger la función logística o normal acumulada paraestimar, la violación del supuesto acerca de la distribución de los errores generarán almenos estimadores ineficientes y en algunos casos inconsistentes (Amemiya, 1985).

Lo anterior motivó la búsqueda de especificaciones mas flexibles acerca de la distribu-ción de los errores. El mundo no paramétrico ofrece una alternativa de solución para

Page 63: Microeconometr a Aplicada JM Benavente

2.4. ESTIMACIÓN SEMIPARAMÉTRICA DEMODELOS DE ELECCIÓN DISCRETA63

estos casos.

No obstante lo anterior, vimos que si utilizamos especificaciones no paramétricas paradeterminar valores esperados condicionales nos enfrentaremos al problema de lamaldiciónde la dimensionalidad, el cual se agrava mientras mas regresores incorporamos en lasestimaciones.

Como vimos, una forma de salir al paso es realizar estimaciones del tipo semiparamétricapues así esquivamos este último problema y nos concentramos en la variable de interésó aquella generadora del problema.

Retornemos a la estimación paramétrica del modelo de elección binaria MEB el cualutilizaremos como benchmark.

y∗i = x′iβ + ui

donde y∗i es la variable no observada o latente y el econometrista sólo observa si y∗ espositivo o no (o yi es 1 o 0). Si asumimos que ui es i.i.d independiente de x, entonces:

P [yi = 1] = P [y∗i > 0] = P [x′iβ + ui > 0]= P [ui > −x′iβ]= F [x′iβ] =: Fi

bajo la condición que u esta simétricamente distribuido entorno a 0.4.

Como vimos, cuando u se distribuye normal, F (·) es la distribución normal acumu-lada y el modelo se denomina Probit; cuando u es una distribución logística F (·) es

eu

(1+eu) y el modelo se denomina Logit.

La función de verosimilitud para β en ambos casos 5 viene dada por:

logL =n∑

i=1

(1− yi) · log(1− Fi) + yi · logFi (2.13)

con las condiciones de primer orden siguientes:

∂logL

∂β=

n∑

i=1

(∂Fi

∂β

)F−1

i (1− Fi)−1(yi − Fi) = 0 (2.14)

Alternativamente, podríamos estimar el modelo no-lineal yi = F (x′iβ) + ui, el cualpresume una forma funcional conocida para F (·), por mínimos cuadrados no-lineales,el cual tiene las siguientes condiciones de primer orden:

n∑

i=1

(∂Fi

∂β

)(yi − Fi) = 0 (2.15)

4Si no deseamos imponer simetría, entonces P (yi = 1) = 1− F (−x′iβ) = g(x′iβ))5y en general, para cualquier modelo de elección binaria

Page 64: Microeconometr a Aplicada JM Benavente

64 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Una forma de interpretar las condiciones de primer orden del estimador máximo verosímiles que en ellas se "pesan"las FOC del mínimo cuadrado no lineales (NLS) en formaapropiada para corregir la heterocedasticidad presente del error (yi − Fi).

Es importante notar que F (·) es una función del escalar x′iβ; de ahí el nombre demodelo índice unitario (single-index model).

Debido a esta dependencia, la esperanza condicional está basada en este índice x′iβy no en xi. Si β fuera conocido, y deseáramos estimar la probabilidad de una decisiónpositiva (es decir, yi = 0 ó y∗i > 0) dadas las características del individuo xi, métodosno- paramétricos podrían ser empleados para estimar dicha esperanza condicional alusar yi y zi = x′iβ como datos (Notar que no se debería usar yi, xi pues no captarán lanaturaleza de índice único del modelo).

2.4.1. Normalización de los parámetros en un contexto semi-paramétrico.

En el mundo paramétrico, la escala de los errores se ha normalizado a 1 y una me-dida de su ubicación central.6 Si no deseamos imponer restricciones o supuesto algunosobre el error en el mundo no paramétrico, deberemos imponer, eso si, algún tipo denormalización sobre los parámetros a estimar (después de todo, menos restricciones so-bre los errores no pueden incrementar el número de parámetros identificables).

La normalización más conveniente (ver Pagan y Ullah) es imponer la condición deconstante igual a cero y escalar el coeficiente de uno de las componentes de x como 1,donde esta última variable escogida debe ser continua. Así, tenemos :

x′iβ = x2iβ2 + · · ·+ xqiβq

= β2(x2i + x3iθ1 + · · ·+ xqiθq−2)= β2 · v(xi, θ)

donde

v(xi, θ) = x2i + x3iθ1 + · · ·+ xqiθq−2

con θj = βj+2

β2j=1, · · · , q − 2 y donde θ es identificable. Todo esto dependerá de si

se puede identificar correctamente una variable independiente continua con coeficienteno-cero (es decir β2 6= 0). La función v(xi, θ) es denominada “el índice” y no tiene nece-sariamente que ser lineal. Lo esencial es que la forma funcional entre los parámetros,sea conocida y uno de estos parámetros puede ser normalizado a 1.

No olvidar que los modelos donde P (y = 1|x) = P (y = 1|v(x, θ) se denominan modelosde índice único (i.e. propensity score, el cual veremos mas trade en el curso !).

6en logit y probit la medida se define como cero

Page 65: Microeconometr a Aplicada JM Benavente

2.4. ESTIMACIÓN SEMIPARAMÉTRICA DEMODELOS DE ELECCIÓN DISCRETA65

Existen dos formas principales para evaluar θ semiparametricamnte, una al resolverlas condiciones de primer orden como (2.14) o (2.15), ó bien al maximizar (2.13) dondeF (·) y sus derivadas son reemplazadas por las estimaciones no paramétricas correspon-dientes de la media de yi condicional en v(xi, θ). El primero de ellos se denomina esti-mador Ichimura (1993) y el segundo el estimador de Klein y Spady (1993) donde ambosalcanzan el limite de eficiencia no paramétrica.7.

2.4.2. Estimador de Ichimura: Mínimos Cuadrados Semiparamétricos

La idea central de este estimador es la siguiente:

yi − E(y|xi) = yi − F (v(xi, θ0))= yi −m(v(xi, θ0))

donde F es desconocida y v es conocida, y θ0 es el verdadero valor del parámetro θ. Enconsecuencia, un estimador de θ (es decir, θ) puede surgir al aplicar mínimos cuadradosa la siguiente expresión:

n∑

i=1

yi − m(v(xi, θ))2

donde m puede ser estimado, por ejemplo, por Nadaraya-Watson asumiendo una formafuncional arbitraria para v. Aquí, m es el estimador no paramétrico de E(y|v(x, θ)).

Las condiciones de primer orden para θ son:

n∑

i=1

∂m[v(xi, θ)]∂θ

· (yi − m[v(xi, θ)] = 0

La eficiencia de esta técnica depende de la habilidad para estimar m[v(xi, θ)], es decir, dela velocidad de estimación. Ello impone ciertas restricciones sobre los anchos de banda hsi se utilizan métodos de kernel. No obstante, si son bien seleccionados se podrá obtenerconsistencia n1/2 y normalidad. Esto es:

n1/2(θ − θ0)d→ N(0, D−1V D−1)

con V = var(n1/2v(θ0, τo) (ver Pagan y Ullah p.280).

2.4.3. Estimador de Klein-Spady

Dado que v(x, θ) tiene un coeficiente no cero en una variable continua, entonces poseeuna distribución continua, por ejemplo, f(v). Usando v para abreviar v(x, θ) podemos

7análogo al límite de eficiencia de Cramer-Rao (Pagan y Ullah p.277, 280)

Page 66: Microeconometr a Aplicada JM Benavente

66 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

escribir la siguiente relación:

P (y = 1|x) = P (y = 1|v)

=f(y = 1|v)

f(v)

=f(v|y = 1) · P (y = 1)

f(v|y = 1) · P (y = 1) + f(v|y = 0) · P (y = 0)

Todas las cantidades que aparecen en este último término pueden ser estimadas; lasdensidades condicionales por estimadores de densidad no paramétrica y las probabili-dades incondicionales por las medias muestrales.

Usando P (y = 1|v) para denotar un estimador obtenido a partir de la sustituciónde los estimadores anteriores, una forma funcional análoga al ML paramétrico puedeser escrita de la siguiente manera:

logL =n∑

i=1

(1− yi)log(1− P (y = 1|v)) + yi · log(P (y = 1|v)) (2.16)

Diferenciando con respecto a θ, tenemos :

∂logL

∂θ=

n∑

i=1

(∂P (y = 1|vi)

∂θ

)· P (y = 1|vi)−1 ·

[1− P (y = 1|vi)

]−1·[yi − P (y = 1|vi)

]= 0

De nuevo este estimador dependerá de la velocidad en la estimación de P (y = 1|v). Deser así, el estimador encontrado alcanzará el límite de eficiencia NP.

‘Cómo se hace esto en la práctica?

Todos los estimadores se obtienen de procesos iterativos. En el caso de KSE,primero se escoge un β, digamos b

(0)ks , el cual permite obtener f(v|y = 1 y f(v|y =

0). Notar que los estimadores de P (y = 1) y P (y = 0) se pueden obtener de lamuestra.

A partir de ellos se obtiene un P (y = 1|v) en cual se incluye en (2.16) y semaximiza obteniendo b

(1)ks .

Este último se compara con b(0)ks y si es muy distinto se hace todo esto de nuevo.

Notar que en cada iteración se deben estimar los kernels de vuelta ahora condistintos v. En particular, para KSE:

f(v|y = 1) =1

n · P (y = 1) · hn·

n∑

i=1

yiK ·(

v − x′ibks

hi

)

Page 67: Microeconometr a Aplicada JM Benavente

2.4. ESTIMACIÓN SEMIPARAMÉTRICA DEMODELOS DE ELECCIÓN DISCRETA67

y

f(v|y = 0) =1

n · (1− P (y = 1)) · hn·

n∑

i=1

(1− yi)K ·(

v − x′ibks

hi

)

con n siendo el número de observaciones, hn el bandwidth correspondiente y K elkernel escogido.

Para extensiones del KSE ver Lee(95) especialmente en el caso de tener varias elec-ciones (policotómica), aspecto que se verá en el capítulo siguiente teniendo eso si, enconsideración, que el KSE en estos casos no llega al límite inferior NP.

Estimadores No Paramétricos Alternativos para los modelos de elección bi-naria

Obviamente los dos estimadores anteriormente descritos no son los únicos que pro-pone la literatura. Aquí entregamos una lista acotada de otros estimadores sugeridosaunque no son muy utilizados en la práctica. Una revisión detallada de éstos se pre-senta en Gerfin (1996) los que serán discutidos como parte de la primera tarea del curso.

1. Manski: Maximum Score EstimatorEsta basado en la siguiente función objetivo:

Qn(β) =n∑

i=1

yi · 1(x′iβ > 0) + (1− yi) · 1(x′iβ < 0)

el cual es n1/3 consistente, distribución límite no-normal y candidato natural parahacer inferencia vía bootstrap, la consistencia depende de F (0) = 0,5 (mediana).

2. Horowitz: Smoothed Maximum Score EstimatorLa idea básica es reemplazar la función indicador (1(·)) en el estimador de Manskipor una función suavizante la cual se acerque a la función indicador a medida quen crece.

Page 68: Microeconometr a Aplicada JM Benavente

68 CAPÍTULO 2. ECONOMETRÍA SEMI Y NO PARAMÉTRICA

Page 69: Microeconometr a Aplicada JM Benavente

Capítulo 3

Extensiones del Modelo Básico

Una vez que ya hemos analizado con cierto grado de detalle modelos de elecciónbinaria, tanto en su dimensión paramétrica como también no paramétrica, en este capí-tulo revisaremos algunas extensiones del modelo básico binario. Comenzaremos con elanálisis de datos grupales para luego continuar con modelos para situaciones con masde dos elecciones.

3.1. Análisis de datos Grupales

En general, existen dos formas de analizar respuestas binarias. Una en forma individ-ual, es decir, cada observación esta formada por la respuesta del individuo y un vectorde regresores asociados a él [yi, xi] la cual es la que hemos analizado hasta ahora. Lasegunda alternativa es en forma grupal. Bajo este marco, los datos consisten en propor-ciones de observaciones, los que se obtienen observando la respuesta de ni individuos,todos ellos con los mismos valores para el vector de características x.

Existen a lo menos dos formas de estimar modelos de datos grupales. Un mecanismo esmediante Máxima Verosimilitud y la otra es utilizando el estimador de Chi-Cuadrado.

3.1.1. Máxima Verosimilitud

Para este estimador, se asume que existen J clases de grupos de individuos dondelas características de éstos x son las mismas al interior de cada clase, entonces se tieneque :

P (yi = 1) = F (x′iβ)

pero cuidado, ahora xi es un conjunto de variables las que sólo difieren entre grupos yno al interior de ellos.

En forma análoga al caso individual, podemos definir la función de verosimilitud (en

69

Page 70: Microeconometr a Aplicada JM Benavente

70 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

logaritmos) para cada individuo, de la siguiente forma :

logL =n∑

i=1

yi · log(F (x′iβ)) + (1− yi) · log(1− F (x′iβ))

Ahora, si los x son constantes al interior de cada clase j entonces la función anteriorpuede ser re escrita como sigue :

logL =J∑

j=1

pj · log(F (x′jβ)) + (1− pj) · log(1− F (x′jβ))

(3.1)

donde pj = 1nj·∑nj

j=1 yi es la proporción de respuestas igual a "1.en la clase j y con n1,· · · , nj el número de observaciones al interior de cada clase j. Notar que la suma delMLE es solo sobre j términos y donde F puede ser la Normal o la Logística.

Ahora, dado que J < n tenemos lo que se denomina un modelo “completamente satura-do” con J parámetros. Esto significa que para cada clase de x asignamos un parámetrodiferente. Por ejemplo, δj con j = 1, ...J no imponiendo condición alguna de cómo lascovarianzas entre los δj pueden afectar las probabilidades.

De ser así, el log-likehood tiene la siguiente forma:

logL =J∑

j=1

[pj · log(δj) + (1− pj) · log(1− δj)] · nj

donde δjMLE = pj . Ahora, supongamos que la verdadera probabilidad de que la clase jtenga la experiencia del evento, sea πj . Entonces, se tiene que :

πj = F (x′jβ)

donde dim(β) = K con K < J . Si el modelo de datos agrupados es exitoso es porqueresume las J celdas o grupos en forma parsimoniosa como función de un número limi-tado de variables x.

Una forma de probar esto es realizar un prueba de Razón de Verosimilitud entre elmodelo completamente saturado y el original (3.1).

LR = −2[∑

j

njpj · log(F (x′jβ)) + (1− pj) · log(1− F (x′jβ))]

−[∑

j

njpj · log(pj) + (1− pj) · log(1− pj)]

el cual se distribuye χ2[J−K]

Page 71: Microeconometr a Aplicada JM Benavente

3.1. ANÁLISIS DE DATOS GRUPALES 71

3.1.2. Estimación por mínimos χ2

La idea es que en datos grupales debemos ajustar un número fijo de clases indepen-dientemente del número de observaciones. No olvidar que en el caso individual el númerode observaciones crece en la misma proporción que la muestra. La idea es transformarla variable dependiente y usar Mínimos Cuadrados Ponderados (WLS). En la siguientetabla se presentan algunos modelos con sus formas funcionales correspondientes.

Varios modelos de minimos χ2 para datos agrupadosModelo Probabilidad Variable Dependiente Varianza(ε)

Lineal pj = Xβ pjpj(1−pj)

nj

Log-lineal pj = exp(Xβ) log(pj)(1−pj)

njpj

Probit pj = Φ(Xβ) Φ−1(pj)pj(1−pj)

nφ(pj)2

Logit pj = Λ(Xβ) log(

pj

1−pj

)1

njpj(1−pj)

El procedimiento consiste en regresionar por OLS la variable dependiente de acuerdo ala tabla y donde se utilizan como pesos, la inversa de la raíz cuadrada de la varianzadada en la última columna de la tabla.

No obstante, debemos recordar que al ser los coeficientes de ponderación funcionesde parámetros desconocidos, éstos se deben estimar previamente (dos etapas). Ello me-diante un OLS en la primera etapa (sin pesos) donde los estimadores serán consistentespero no eficientes. Y luego, en la segunda etapa, con los pesos. Amemiya 1985: 275-280demuestra que el estimador χ2 de β tiene las mismas propiedades que el estimadorMLE, esto es, E(pj) = πj con la misma varianza.

Una derivación más formal (ver Amemiya 275 ó Greene 769)

pj = F (x′jβ) + εj = πj + εj

donde E(εj)=0 y V(εj) = πj(1−πj)nj

F−1(pj) = F−1(πj + εj) ≈ F−1(πj) +[dF−1(πj)

dπj

]εj

la última expresión corresponde a una expansión de Taylor en torno al punto εj = 0.

Pero, sabemos queF−1(πj) = x′jβ

y además se tiene que,dF−1(πj)

dπj=

1f(x′jβ)

Page 72: Microeconometr a Aplicada JM Benavente

72 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

luego se tinee que :F−1(pj) ≈ x′jβ +

εj

fj

obteniéndose así, el modelo de regresión lineal heterocedástico :

F−1(pj) = zi = x′jβ + uj

con E(uj) = 0 y V (uj) = Fj(1−Fj)

nj ·f2j

Para el caso de logit (ver tabla anterior), si se sabe que :

πj =exp(x′jβ)

1 + exp(x′jβ)

entonces,

x′jβ = log

(πj

1− πj

)

Un ejemplo

Veamos un ejemplo ilustrativo de la estimación de modelos binarios con datos agru-pados. Warner (1978) considera el problema de predicción de deserción para los enlis-tados en la marina de los EEUU. Para ello define las siguientes variables:

y = 1 si la persona deja la marina antes de terminar primer año de enlistamiento.

y = 0 en otro caso.

Warner estima cuatro modelos alternativos:

(a) un modelo de probabilidad lineal con observaciones individuales.(b) modelo de probabilidad lineal con observaciones en grupo.(c) modelo logit con observaciones individuales.(d) modelo logit con datos grupales.

La variable dependiente era si la persona se retiró anticipadamente del programa; nolo terminó. En este estudio, las variables independientes son : años de educación, ha-bilidad mental (Test AFQT), estado civil, edad y raza. La educación se dividió en trescategorías: menos de 12 años, 12 años y más de 12 años. El puntaje del test de habili-dad se dividió en cinco categorías. La edad en tres categorías (menos de 18, 18 ó 19 ymas de 19 años). Las distintas combinaciones de nivel de educación, habilidad mental,edad, raza y estado civil arrojaron un total de (3x5x3x2x2) 180 categorías o celdas enlas que los individuos pueden clasificarse. Estos son los datos grupales. La muestra con-sistió en 30.000 individuos extraído de un total de 67.000 reclutas hombres durante 1973.

Page 73: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 73

Para la estimación del modelo de probabilidad lineal se aplicó el método de correc-ción de heterocedasticidad sugerido por Goldberger. No obstante, en los casos que laestimación de p por OLS es menor que 0, Warner usa un p = 0,02, sugerido por Nerlovey Press (1973). Si bien este último procedimiento puede salir al paso del problema delos pesos negativos en la estimación por GLS de los β, los problemas de interpretacióndel modelo como una de probabilidad aún persisten.

En la siguiente tabla se presentan los resultados alcanzados para las cuatro especifi-caciones empíricas.

Comparación entre los parámetros estimados: datos individuales y por gruposVariable Lineal Individual Lineal Grupal Logit Individual Logit GrupalEd<12 -0.105 (17.04) -0.109 (14.14) -0.672 (21.23) -0.656 (14.42)Ed>12 0.028 (3.88) 0.032 (3.79) 0.349 (4.51) 0.284 (2.87)

Mental group I 0.084 (9.95) 0.084 (9.65) 1.179 (9.32) 1.040 (6.00)Mental group II 0.021 (3.96) 0.020 (3.09) 0.201 (4.50) 0.208 (3.6)Mental group III -0.053 (7.70) -0.052 (6.20) -0.345 (7.71) -3.42 (6.00)Mental group IV -0.098 (12.46) -0.097 (10.04) -0.581 (12.98) -0.571 (9.75)

Dependents -0.046 (4.82) -0.039 (3.61) -0.349 (5.52) -0.403 (5.21)Age<18 -0.031 (4.16) -0.024 (2.56) -0.145 (3.24) -0.166 (3.14)Age>19 -0.027 (4.30) -0.022 (3.51) -0.185 (4.13) -0.169 (3.24)Race 0.027 (3.61) 0.037 (4.15) 0.136 (3.04) 0.081 (1.28)

Constant 0.881 (25.70) 0.882 (20.79) 1.959 (61.96) 1.950 (40.87)N 30.000 137 30.000 137

(t values entre paréntesis)

Como se observa, las variaciones entre el modelo estimado en forma grupal y aquelindividual son poco significativas. Notar, eso sí, la menor cantidad de datos necesariospara la estimación de los datos en forma agrupada.

3.2. Modelos con más de una elección

Hasta el momento nos hemos concentrado en modelos donde la variable dependi-ente puede tener solo dos valores. No obstante, en la vida real nos podemos encontrarcon situaciones donde existan fenómenos que pueden ser descritos como procesos queinvolucran mas de una decisión.

En general pueden existir a lo menos dos tipos de situaciones cuando hay mas de unaelección, a saber: (i) individuos que tienen que tomar varias decisiones cada una deellas entre dos alternativas o bien (ii)una elección donde hay mas de dos alternativas(ordenadas o no ordenadas).

Para el primer caso se aplica generalmente modelos probit o logit multietápicos mien-tras que para el segundo caso se aplican los denominados multinomial logit cuandolas alternativas no tienen un orden pre establecido (no ordenados) o ordered probitcuando el orden de las alternativas importa (caso ordenado).

Comenzaremos con la revisión de aquellos casos donde existen mas de dos alternati-

Page 74: Microeconometr a Aplicada JM Benavente

74 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

va de elección pero donde hay sólo una elección. Como se mencionó, en este caso existena lo menos dos situaciones:

1. donde las probabilidades de elección de cada alternativa dependen solo de las car-acterísticas de quien decide. Bajo esta situación modelamos dichas probabilidadescon un Multinomial Logit (MNL).

2. donde además de lo anterior, las características de las alternativas en sí mismastambién influyen en la probabilidad de cada alternativa. Este caso será abordadopor el Conditional Logit atribuible a McFadden (1976).

3.2.1. Modelos para alternativas múltiples no ordenadas

Multinomial Logit Model

Suponga que hay m categorías, donde pj con j = 1, ..., m las probabilidades asoci-adas a la elección de estas m categorías. La idea detrás del multinomial logit es expresarestas probabilidades en forma binaria. Esto es, la probabilidad de escoger una alterna-tiva j o de no hacerlo. Veamos.

Sea:

p1

p1 + pm= F (β′1X)

p2

p2 + pm= F (β′2X)

pm−1

pm−1 + pm= F (β′m−1X)

esto implica que:

pj

pm=

F (β′jX)1− F (β′jX)

= G(β′jX) j = 1, 2, · · · ,m− 1.

ya que,

m−1∑

j=1

pj

pm=

1− pm

pm=

1pm

− 1

tenemos que:

pm =

1 +

m−1∑

j=1

G(β′jX)

−1

(3.2)

Page 75: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 75

y entonces:

pj =G(β′jX)

1 +∑m−1

j=1 G(β′jX)(3.3)

Podemos considerar que las observaciones son obtenidas de una distribución multino-mial con las probabilidades dadas según (3.2) y (3.3). Desde el punto de vista computa-cional la distribución logística para el error hacen que G(β′jX) sea igual a exp(β′jX) yentonces:1

pj =eβ′jX

Dj = 1, 2, ...m− 1 (3.4)

con D = 1 +∑m−1

k=1 eβ′jX

este modelo se conoce como multinomial logit.

Estimación del MNLCada uno de los n individuos escogerá la alternativa k con probabilidad dada por (3.4).Si xi es el vector de observaciones para el individuo i, entonces pij con j = 1, 2, ...m− 1son las probabilidades para el individuo i de escoger j.

Así yij = 1 si el individuo escoje la categoría j y yij = 0 en otro caso. De esta manera,la función de verosimilitud del MNL es la siguiente:

L =n∏

i=1

pyi1i1 · pyi2

i2 · · · pyimim

transformando en logaritmos, la función tiene la siguiente estructura:

logL =n∑

i=1

m∑

j=1

yij · logpij

donde i representa al individuo y j la alternativa.

Dado que :

pij =exp(x′iβj)

1 +∑m−1

k=1 exp(x′iβk)j = 1, 2, ....m− 1.

y también que :

pim =1

1 +∑n−1

k=1 exp(x′iβk)

1aunque técnicamente se puede asumir cualquier distribución para u en el modelo y∗ = β′X + u

Page 76: Microeconometr a Aplicada JM Benavente

76 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

podemos obtener las siguientes expresiones más simples:

∂pij

∂βj= pij(1− pij) · xi j, k = 1, 2, ......m− 1

∂pij

∂βk= −pij · pik · xi

∂pim

∂βj= −pij · pim · xi

Entonces el score viene dado por:

∂logL

∂βk=

n∑

i=1

yik

pik· pik(1− pik) +

∑j=1j 6=k

yij

pij(−pij · pik)

xi

=n∑

i=1

(yik − pik)xi = 0

después de simplificar y recordando que∑m

j=1 yij = 1, las ecuaciones del vector scorepueden escribirse como :

n∑

i=1

(yik − pik)xi = 0 k = 1, 2, ....m− 1 (3.5)

con una interpretación análoga que el caso del logit simple.

Las ecuaciones en (3.5) son no lineales en βk pues pik es una función no lineal detodos los β′s y en consecuencia se aplican métodos numéricos (i.e. Newton-Raphson).Por su parte, la matriz de segundas derivadas se obtiene a partir de:

∂2logL

∂βk · ∂β′k= −

n∑

i=1

pik(1− pik) · xix′i

∂2logL

∂βk · ∂β′l=

n∑

i=1

pikpil · xix′i

La cual es negativa definida lo que asegura una única solución. La estimación de éstapuede realizarse según los métodos ya vistos donde el estimador BHHH es un a alter-nativa sencilla.

Finalmente, para la iteración de las rutinas para encontrar los valores óptimos a partirdel score se pueden considerar como valores iniciales para obtener los β′s aquellos re-sultantes de los modelos logit simples para cada alternativa j ó bien los coeficientes deuna función discriminante.

Page 77: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 77

Conditional Logit Model

Como se advirtió, este modelo desarrollado por McFadden (1976) considera ciertascaracterísticas de las opciones (vista por los individuos) como los determinantes de laprobabilidades asociadas a cada elección, mas que las características de los individuosen sí.

Revisemos un ejemplo -Boskin (1976) que nos ayude a ilustrar este modelo. Supon-ga que existen m distintos trabajos cada uno caracterizado por tres variables (i) valorpresente de ganancias potenciales, (ii) costos de entrenamiento sobre ganancias netas y(iii) valor presente del tiempo en desempleo.

Sea yij : vector de valores de estas características para la ocupación j percibida porel individuo i.

Así, la probabilidad para el individuo i de escoger la alternativa j viene dado porla siguiente expresión :

pij =exp(β′yij)∑mi=1 exp(β′yij)

(3.6)

Notar que en el caso del MNL (ecuación 3.4), los pj tienen diferentes vectores de coefi-ciente βj . En cambio, en el conditional logit (ecuación 3.6) el vector β entrega el vectorde precios implícitos para las características. 2

Uno de los mejores usos de (3.6) es la de predecir la probabilidad que un individuodecida por una alternativa en particular (tipo de trabajo), para la cual tenemos el vec-tor de características de las alternativas yij .

Para el ejemplo anterior, un MNL modela la probabilidad de que un individuo concaracterísticas xi escoja el tipo de profesión i con i = 1, ....m, de la siguiente forma:

pij =exp(α′jxi)∑m

k=1 exp(α′kxi)(3.7)

Cabe señalar que en (3.6) el número de parámetros a estimar es igual al número decaracterísticas de las ocupaciones (alternativas). Pero en (3.7) el número de parámetrosa estimar es igual al número de características individuales multiplicadas por m − 1donde m es el número de alternativas. Así, en (3.7) dado un nuevo individuo, podemospredecir la probabilidad que escoja una de las m.

Por supuesto que uno puede combinar ambas cosas y escribir (3.6) y (3.7) como:

pij =exp(β′yij + αjxi)∑mk=1 exp(β′yij + α′kxi

2Aunque se necesita un tipo de normalización por ejemplo que el primer elemento de β sea igual a 1

Page 78: Microeconometr a Aplicada JM Benavente

78 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

donde la probabilidad de escoger la alternativa j por el individuo i depende de lascaracterísticas del decisor xi y de las características de la alternativa j percibidas porel individuo i, a saber yij .

Ejemplo

Veamos un ejemplo de un modelo conditional (tomado del caso 19.16 del Greene).Hensher (1986) estima un modelo de elección de viajes urbanos para una muestra deSydney. Las cuatro elecciones eran: auto/conductor (C/D), auto/pasajero (C/P), treny bus. Para el modelo básico, los atributos eran (1) constante especifica de C/D, (2)una constante especifica de C/P, (3) una constante especifica de tren, (4) tiempo deviaje, (5) tiempo de espera, (6) tiempo caminando, (7) costos de viaje, (8) costos deestacionamiento, (9) número de vehiculos requeridos para la familia y (10) porcentajede los gastos de transporte cubiertos por fuentes que no sean de la familia. La muestraconsistió en 1455 observaciones. Un resumen de los datos se presenta en la siguientetabla.

Resumen EstadísticasIn-Vehicle In-Vehicle Walk Wait NumberCost (dol) Time (min) Time (min) Time (min) Choosing

C/D 64.56 28.65 0.76 0.15 953C/P 4.37 28.32 0.71 2.89 78Train 98.23 43.84 10.50 8.37 279Bus 81.61 38.15 7.47 7.11 145

Las estimaciones de los parámetros asociados a cada alternativa se presentan en la sigu-iente tabla :

Parámetros estimados (t values entre paréntesis)(1) 0.8973 (4.86) (2) -2.2154 (-10.36)(3) 1.3286 (9.10) (4) -0.0227 (-4.7)(5) -0.1336 (-6.68) (6) -0.0672 (-5.44)(7) -0.0063 (-5.03) (8) -0.0086 (-5.05)(9) 0.4524 (1.83) (10) -0.0119 (3.71)Log likelihood para β=0, = -2017.1Log likelihood at convergence=-598.2

A partir de la información anterior se pueden determinar las probabilidades asociadasa la elección de cada alternativa junto a la predicción sobre la cantidad de personas quelas escogen.

Probabilidades predichas y frecuenciasC/D C/P Train Bus

Probability 0.88625 0.03799 0.01390 0.06186Predicted N 1290 55 20 90Actual N 953 78 279 145

Page 79: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 79

Nota Precautoria: Independencia de alternativas irrelevantes

Se había señalado que en el multinomial logit y en el conditional logit los coeficientesde las probabilidades eran independientes del resto de las alternativas. Esta caracterís-tica se conoce como la propiedad de independencia de alternativas irrelevantes.

En el ejemplo anterior, a la luz de los resultados presentados en la última tabla, pode-mos concluir que existen C/D

bus = 0,890,06 ∼ 14,8 a 1 mayores probabilidades de manejar un

auto propio en vez de tomar el bus.

Ahora bien, si la mitad de los autos que existen en el país son nacionales (o azules)entonces el cociente de probabilidades de ir a trabajar manejando en auto nacional o iren bus es ahora 7.4 a 1. Ello, ya que la relación de 14 a 1 se mantiene, erróneamentepodría asignarse el otro 7.4 al tren o como pasajeros en un auto.

Dicho de otro modo, si la utilidad relativa de viajar en auto versus viajar en bus esalta, no necesariamente implica que la utilidad relativa de viajar en tren versus viajaren bus será alta también. Pero si dicha utilidad es alta entre un auto rojo versus busaumenta la probabilidad que viajar en auto azul sea relativamente mas preferible a vi-ajar en bus.

De esta manera podemos notar que en el MNL se asume que la elección entre dosalternativas es independiente de las alternativas restantes. Específicamente se asumeque los términos de error en la ecuación de elección subyacente son independientes en-tre sí.

En general, la exclusión de variables irrelevantes genera ineficiencia pero no inconsis-tencia. La hipótesis de independencia es consecuencia de la hipótesis inicial de que lasperturbaciones son independientes y homocedásticas.

Hausman y McFadden (1984) indican que si un subconjunto de alternativas posibleses verdaderamente irrelevante, omitirlo del modelo no llevará cambios sistemáticos enlos estimadores de los parámetros. Ahora bien, si son relevantes las alternativas y sedeja(n) fuera, entonces los parámetros serán inconsistentes obtenidos mediante el MNL.

Siguiendo el espíritu de las pruebas de Hausman, se define el siguiente estadístico :

χ2 = (βs − βf )′[Vs − Vf ]−1(βs − βf ) ∼ χ2[k]

donde :s: conjunto restringuido.f : conjunto de todas las alternativas posibles.k: rango de la matriz [Vs − Vf ]

Si no se puede rechazar la hipótesis de independencia de las alternativas irrelevantes,

Page 80: Microeconometr a Aplicada JM Benavente

80 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

será necesario utilizar un modelo alternativo al logit multinomial ya que este últimoserá inconsistente. Existen a lo menos dos formas de resolver este problema. Una formaes mediante un Probit Multivariado y la otra, es mediante la utilización de un LogitAnidado (Nested Logit). Veamos cada uno de ellos.

Logit Anidado

El principio subyacente a este enfoque es modelar, de ser posible, la decisión entrelas alternativas como siguiendo un proceso de etapas consecutivas. Bajo este esquema,se agrupan las alternativas en subgrupos permitiendo que la varianza sea diferente encada grupo, relajando así el supuesto de homocedasticidad del logit condicional, peromanteniendo la hipótesis de independencia de alternativas irrelevantes dentro de cadagrupo. El modelamiento implica que el decisor puede escoger entre L subgrupos y luegoescoger entre una de las alternativas dentro del grupo, generándose una estructura deárbol.

Elección

Rama 1 Rama 2

C1/1 C2/2C1/2C2/1

Cabe señalar que este modelo surge, generalmente, como modificación de la especifi-cación estocástica del modelo logit condicional y no necesariamente como un modelo decomportamiento.

Supongamos que también los datos están formados por observaciones con atributosde las alternativas yj|l y atributos de los conjuntos alternativos zl con l = 1, ....L

Así:

P [subramaj , ramal] = pjl =eβ′yj|l+γ′zl

∑Ll=1

∑jlj=1 eβ′yj|l+γ′zl

la cual puede ser escrita como pjl = pj|l · pl donde

pj|l =eβ′yj|l

∑jlj=1 eβ′yj|l

Page 81: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 81

y

pl =eγ′zl+τlIl

∑Ll=1 eγ′zl+τlIl

donde Il = log∑jl

j=1 eβ′yj|l valor inclusivo de la l-esima rama y donde si τl = 1, entoncesse recupera el modelo original.

La estimación de un modelo logit anidado puede ser realizada por dos métodos al-ternativamente. En el primero de ellos, se estiman los β considerando la elección dentrode cada rama como un modelo logit condicional sencillo. Así se calculan los valoresinclusivos de todas las ramas del modelo. Y luego, se estima γ y todos los parámetrosτ considerando la elección entre ramas como un modelo logit condicional con atributoszl y Il. Este método se conoce como máxima verosimilitud con información incompleta(LIML).

La otra forma es utilizando toda la información disponible (FIML) donde la funciónde verosimilitud viene dada por:

logL =n∑

i=1

log[P (subrama|rama) · P (rama)]i

siendo esta última más eficiente que la estimación en dos etapas con Información Limi-tada.

Veamos un ejemplo de aplicación de Logit Anidado. Hesher y Greene (1995) reportanestimaciones de un modelo de elección de modos de viaje entre Sydney y Melbourne,Australia. La base de datos contiene 75 observaciones sobre la elección de cuatro alter-nativas: Aire, Tren, Bus y Auto. Los atributos usados para este ejemplo son constantesespecificas de las elecciones y dos medidas continuas: CG, una medida de el costo gen-eralizado del viaje y TTIME, tiempo de viaje. Además se utiliza el ingreso del hogar,HINC.

Se estima un modelo logit anidado con dos ramas: FLY=(aire) y GROUND=(tren,bus, auto). Notar que una de las ramas tiene solo una elección, entonces la probabil-idad condicional pj|fly = pavin|fly = 1. El modelo se estima por FIML y LIML comoasí también con un conditional logit con cuatro alternativas a modo comparativo. Losresultados encontrados se presentan en la siguiente tabla :

Nested Logit Models (Standard Errors in Perenthesis)FIML estimates Unconditional LIML estimates

βtrain 3.8895 (0.52374) 3.6630 (0.70882) 3.5029 (1.0511)βbus 1.0133 (1.5734) 0.84625 (0.97896) -0.03645 (1.4389)

βgcost -0.0233 (0.01026) -0.01968 (0.007572) -0.07256 (0.02121)βttime -0.066356 (0.01337) -0.06093 (0.015472) -0.02071 (0.02723)γair 3.8826 (0.1104) 3.3869 (1.1503) -1.8367 (0.7478)γhinc 0.02164 (0.01521) 0.02308 (0.01539) 0.03023 (0.01379)

τ 0.7758 (0.24159) 1.0000 (0.0000) 0.05578 (0.11453)logL -65.40806 -65.73624 -logL0 -82.68496

Page 82: Microeconometr a Aplicada JM Benavente

82 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

Como se mencionó, el LIML se estima en dos etapas. Hay dos pruebas acerca delanidamiento. El LR entre las dos formas de estimación -2(65.73-65.41)=0.65 resultaser bastante menor que el χ2 crítico de 3.84. Y la segunda prueba basada en un test deWald del FIML con χ2 = (0,7758−1)2

(0,24159)2= 0,861 entregando la misma conclusión.

Multinomial Probit

Una solución alternativa al problema de la no independencia de alternativa irrele-vantes es estimar un MP en el cual, las alternativas irrelevantes son generadas por unadistribución normal multivariada interdependiente conjunta.

Veamos el caso de tres alternativas:

Y ∗1 = V1 + ε1

Y ∗2 = V2 + ε2

Y ∗3 = V3 + ε3

con Vj vector de atributos de la variable j.

Asuma que los residuos (ε1, ε2, ε3) tiene una distribución trivariada normal con me-dia cero y matriz de covarianzas Σ.

Σ =

σ211 σ2

12 σ213

σ212 σ2

22 σ223

σ213 σ2

23 σ233

Considere la probabilidad que la primera alternativa sea escogida:

P (Y ∗1 > Y ∗

2 , Y ∗1 > Y ∗

3 ) = P (ε2 − ε1 < V1 − V2, ε3 − ε1 < V1 − V3)

si η21 = ε2 − ε1, η31 = ε3 − ε1, V12 = V1 − V2 y V13 = V1 − V3.

Entonces η21 y η31 tiene una distribución normal bivariada con matriz de varianzay covarianza:

Ω =[

σ21 + σ2

2 − 2σ12 σ21 − σ13 − σ12 + σ23

σ21 − σ13 − σ12 + σ23 σ2

1 + σ23 − 2σ13

]

Así la probabilidad de que la alternativa 1 sea escogida viene dada por:

P1 =∫ V12

−∞

∫ V13

−∞f(η21η31) · dη21dη31

donde f(η21η31) tiene una distribución normal bivariada con matriz de covarianza iguala Ω y media cero.

Page 83: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 83

Para el caso de cuatro (4) alternativas terminaríamos con la evaluación de integralestriples (tres variables).

Resumen

El siguiente cuadro nos permite contextualizar la discusión de los modelos que hemosanalizados hasta ahora y los que aún nos quedan por analizar.

variable discreta

Dicotómica

Policotómica

Probit

Logit

Lineal

No y semiparamétrico

no ordenada

ordenada

secuencial

multinomial logit

conditional logit

ordered probit

En las siguientes líneas, también se resumen algunas propiedades ya discutidas paramodelos de multiples alternativas no ordenadas.

No ordenado:

Multinomial Logit: probabilidades de escoger alternativa j dependen de las caracterís-ticas del individuo i. Interés en estimar la probabilidad de que el individuo i escoja laalternativa j: Yij = 1 si i escoge j (j=1, 2, ....m). Denotaremos πij = E(Yij)=probabilidadque i escoja j con

∑j πij = 1.

MNL:

E(yij = 1) = πij =e(αj+βjxi)

∑mj=1 e(αj+βjxi)

Theil Normalization ⇒ α1 = β1 = 0 notar que e0 = 1 permite una interpretación con-veniente de los datos.

Page 84: Microeconometr a Aplicada JM Benavente

84 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

MNL(τN ):

E(yi1) = πi1 =1

1 +∑m

j=2 e(αj+βjxi)

E(yi2) = πi2 =e(α2+β2xi)

1 +∑m

j=2 e(αj+βjxi)

...

esta normalización permite expresar la probabilidad relativa de observar el resultadoj=2 en contraposición a j=1.

πi2

πi1= exp(α2 + β2 · xi)

ó bien:

log

(πi2

πi1

)= α2 + β2 · xi

mas general

log

(πij

πin

)= x′i(βj − βn)

Conditional Logit Model: Incorpora a la probabilidad de escoger j por el individuoi, las características de la opción j junto a las características de i.

E(yij) = πij =e(αj+βjxi+γzizj )

∑mj=1 e(αj+βjxi+γzizj )

(3.8)

Efectos Marginales en MNL y CLM:

MNL:

∂πj

∂xk= πj

[βj −

K∑

k=0

πkβk

]

= πj

[βj − β

]

donde K es el número de variables independientes y con πj la probabilidad predicha deobtener la escogencia de la alternativa j evaluada en la media del vector x. Notar quepuede suceder que ∂πj

∂xkno tenga el mismo signo que βk.

CLM:

∂πj

∂zj= πj(1− πj) · β y

∂πj

∂zk= −πj · πk · β

Page 85: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 85

donde β es el vector de coeficientes estimados de (3.8).

Nested Logit: otra forma de salir al paso ante la situación de rechazo de la hipótesisde independencia de las alternativas irrelevantes.

Aquí "desarmábamos"la elección en varias ramas y asumíamos que existía indepen-dencia al interior de cada rama o grupos, pero no necesariamente entre grupos (ramas).Aquí los datos están conformados por observaciones con atributos de las alternativasyj/l y atributos de los conjuntos de alternativas zl

P [subramaj , ramal] = Pjl =eβ′yj/l+γ′zl

∑Ll=1

∑Jij=1 eβ′yj/l+γ′zl

que para la estimación se utiliza la propiedad de que Pjl = Pj/l · Pl.Vimos los métodos de LIML y FIML para estimar dichas probabilidades.

3.2.2. Modelos para alternativas múltiples ordenadas

A diferencia de los casos estudiados hasta el momento, en esta sección consider-aremos situaciones donde existe un orden natural entre las alternativas. Asumiremosque existe una variable latente :

y∗i = x′iβ + εi

donde la variable observada indica en cual intervalo o categoría cae la variable y∗ noobservada por el econometrista. Una forma de esquematizar el valor de la variableobservada es la siguiente :

yi =

1 si y∗i < µ1;2 si µ1 ≤ y∗i < µ2...

J si µj−1 ≤ y∗i µ1 < µ2 < . . . µj−1︸ ︷︷ ︸umbrales

el álgebra se simplifica bastante si se considera que:

µ0 = −∞ ∧ µj = +∞Así, la variable dependiente observada puede ser definida de la siguiente forma :

yi = j si µj−1 ≤ y∗i < µj j : 1...J

Para estos casos, se utiliza un modelo denominado Probit Ordenado para estimar estaecuación donde se asume que los errores se distribuyen:

εi ∼ N(0, σ2)

Page 86: Microeconometr a Aplicada JM Benavente

86 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

los que no son observables y luego deben ser estimados; es decir, son parámetros delmodelo.

Dado que los umbrales µ′s y los valores de y∗ no son observados, la escala y origende y∗ son arbitrarios. Así, podemos llevar a cabo la siguiente normalización: σ=1 yµ1=0.

De esta manera, tenemos :

P [yi = j] = P [µj−1 ≤ y∗i < µj ]= P

[µj−1 − x′iβ ≤ εi < µj − x′iβ

]

= Φ(µj − x′iβ)− Φ(µ(j − 1)− x′iβ)

es decir,

P [yi = 1] = Φ(−x′iβ) = 1− Φ(x′iβ)P [yi = 2] = Φ(µ2 − x′iβ)− Φ(−x′iβ)

...

P [yi = J ] = 1− Φ(µj−1 − x′iβ)

Como en el caso de los modelos no ordenados, podemos definir arbitrariamente:

yij =

1 si yi = j;0 si ∼

Entonces el log-likelihood de la muestra viene dado por:

logL =n∑

i=1

J∑

j=1

yij · log[Φ(µj − x′iβ)− Φ(µj−1 − x′iβ)

]

Las condiciones de primer orden son entonces:

∂logL

∂β=

n∑

i=1

J∑

j=1

yij · φ(µj−1 − x′iβ)− φ(µj − x′iβ)Φ(µj − x′iβ)− Φ(µj−1 − x′iβ)

y también :

∂logL

∂µk=

n∑

i=1

J∑

j=1

yij · 1(j = k) · φ(µj − x′iβ)− 1(j − 1 = k) · φ(µj−1 − x′iβ)Φ(µj − x′iβ)− Φ(µj−1 − x′iβ)

Para el caso de las segundas derivadas -ver Maddala 1986:49, el Hessiano es negativodefinido, y por lo tanto, el método de iteración usado (i.e. Newton-Raphson) convergerá

Page 87: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 87

al máximo global del log-likelihood.

Cabe señalar que la función de verosimilitud se debe maximizar con respecto a (β,µ2, µ3, . . ., µJ−1) es decir hay k + J − 2 parámetros por estimar.

Los efectos marginales del modelo probit ordenado son los siguientes:

∂P [yi = j]∂xi

=[φ(µj−1 − x′iβ)− φ(µj − x′iβ)

] · β∂P [yi = 1]

∂xi= −φ(x′iβ) · β

∂P [yi = J ]∂xi

= φ(µj−1 − x′iβ) · β

donde los dos últimos casos son aquellos en el extremo de la distribución. Si se asumeque el β obtenido es positivo entonces el signo de estas derivadas será negativo para elprimer umbral y positivo para el último. Para aquellas categorías o alternativas en elcentro, el efecto es ambiguo. Veamos lo que ocurre gráficamente para el caso de tenertres alternativas ordenadas (i.e. dos umbrales).3

y=0 y=1 y=2

-x'beta u1-x'beta

f(e)

e

P [y = 0] = 1− Φ(x′β)P [y = 1] = Φ(µ1 − x′β)− Φ(−x′β)P [y = 2] = 1− Φ(µ1 − x′β)

3aunque con la normalización sólo queda un solo umbral por estimar.

Page 88: Microeconometr a Aplicada JM Benavente

88 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

El siguiente gráfico ilustra los efectos marginales asociados al cambio en una de lasvariables independientes xi.

f(e)

e

Del gráfico anterior se observa que al aumentar una de las x manteniendo constante losβ y µ equivale a desplazar la distribución hacia la derecha. Si el β asociado a esta x espositivo, entonces inequivocamente P (y = 0) tendrá menos masa y P (y = 2) aumen-tará, no obstante en el medio el efecto no es concluyente ∂P (y=1)

∂xi

≥<0.

Ejemplo

El siguiente ejemplo muestra una aplicación de un modelo de probit ordenado. Mar-cus y Greene (1985) estimaron un modelo probit ordenado para estudiar como la armadaestadounidense asigna empleos entre sus reclutas. La armada intenta colocar a cada re-cluta en el puesto de trabajo en el que vaya a resultar más productivo. Los empleos sedividen en tres grupos genéricos: "de especialización media", de ”especialización alta” yde ”especialización alta con conocimiento de energía nuclear”.

Puesto que la asignación se hace tanto de factores específicos de los individuos como delas propias necesidades y criterios de la armada, se utilizo un modelo probit ordenadocon las siguientes variables explicativas: (1) FP=variable binaria que indica si el reclutaha obtenido previamente algún diploma en un instituto de formación profesional o no;(2) EM=nivel educativo de la madre del recluta; (3) EX=calificación obtenida en un ex-amen de ingreso; (4) AE=años de educación del recluta; (5) CAS=variable binaria queindica si el individuo estaba casado o no en el momento que se alistó; (6) EDAD=edaddel recluta en el momento que se alistó. La muestra obtenida fue de 5.641 observaciones.La siguiente tabla muestra los resultados obtenidos.

Page 89: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 89

Estimación de la ecuación de asignación de empleosVariable Estimador Estadístico La variableConstante -4.34 - -

FP 0.057 1.7 0.66EM 0.007 0.8 12.1EX 0.039 39.9 71.2AE 0.190 8.7 12.1CAS -0.48 -9.0 0.08EDAD 0.0015 0.1 18.8

µ 1.79 80.8 -

Es lógico el enorme valor del estadístico t asociado a la variable EX, pues la Armadatiene muy en cuenta el resultado de este examen cuando asigna un puesto de trabajo.Por otra parte, si se quieren obtener los efectos marginales de las variables continuas,es necesario evaluar la densidad normal estándar en −β′x=-0.8479 y en µ−β′x=0.9421.

De esta manera podemos obtener las probabilidades estimadas, las que son Φ(0,8479) =0,198, Φ(0,9421)−Φ(−0,8479)=0.628 y 1-Φ(0,9421)=0.173. Por su parte, las frecuenciasrelativas observadas eran: 0.25, 0.52 y 0.23. Las dos densidades son φ(−0,8479)=0.278y φ(0,9421)=0.255. Por lo tanto, las derivadas con respecto a las tres probabilidadescon respecto a la variable EX, por ejemplo, son:

∂P0

∂EX= (−0,278)0,039 = −0,01084

∂P1

∂EX= (0,278− 0,255)0,039 = 0,0009

∂P2

∂EX= (0,255)0,039 = 0,00995

Obsérvese que la suma de los efectos marginales es cero, lo que es consecuencia de quela suma de las probabilidades sea igual a 1. Este enfoque no resulta apropiado paraevaluar el efecto marginal de una variable binaria. Podemos analizar el efecto de estascomparando las probabilidades que se obtienen cuando la variable binaria se evalúa encada uno de sus dos valores posibles y las demás variables se evalúan en sus mediasmuestrales.

Por ejemplo, en la siguiente tabla se entregan los resultados que se obtienen para lavariable CAS.

Efecto marginal de una variable binaria.−β′x µ− β′x P[y=0] P[y=1] P[y=2]

CAS=0 -0.8863 0.9037 0.187 0.629 0.184CAS=1 -0.4063 1.3837 0.342 0.574 0.084cambio 0.155 -0.055 -0.100

Test de Diagnóstico para Modelos Probit Ordenados

El modelo de variable dependiente latente, y∗i , puede ser especificado como:

y∗i = x′β + εi εi ∼ N(0, 1)

Page 90: Microeconometr a Aplicada JM Benavente

90 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

La información observada nos da J intervalos en los cuales y∗i puede caer:

yi = j si θj−1 < y∗i < θj j = 1, . . . , J

donde θ0 = −∞ y θj = ∞. Para los datos de 1980 que son usados J=3, y para 1984J=5. Dado que el vector x contiene una constante, el conjunto completo de θ no estaidentificado. La normalización θ1 = 0 es adoptada. La log-likelihood está dada por:

logL =J∑

j=1

yi=j

log[Φ(θj − x′iβ)− Φ(θj−1 − x′iβ)

]

Este modelo difiere del modelo de variable dependiente en grupos (GDV) consideradopor Stewart (1983) en donde θj eran parámetros a estimar y no conocidos y constantes.El test score de GDV fue derivado por Chester y Irish (1987).

Los errores generalizados para este modelo están dados por:

E(y∗i − x′iβ/yi = j, xi) =φ(j−1)i − φji

Φji − Φ(j−1)i

donde φji = φ(wij) y wij = θj − x′iβ. Entonces los residuos generalizados o primermomento de los residuos están dados por:

e(1)i =

φ(j−1)i − φji

Φji − Φ(j−1)i

donde () denota que el parámetro desconocido ha sido reemplazado por su estimaciónMLE.

La "threshold score contribution.está dada por:

ηij =

φji

Φji−Φ(j−1)isi yi = j;

φji

Φji−Φ(j−1)isi yi = j + 1

0 ∼para j=1, ....2.

Momentos condicionales de orden mayor para la variable latente pueden ser especifi-cados en término de las funciones definidas por Stewart (1983) como:

Mτi =wτ

(j−1)iφ(j−1)i − wτjiφji

Φji − Φ(j−1)i

Los primeros cuatro momentos residuales son definidos como:

e(1)i = M0i

e(2)i = M1i

e(3)i = 2e

(1)i + M2i

e(4)i = 3e

(2)i + M3i

Page 91: Microeconometr a Aplicada JM Benavente

3.2. MODELOS CON MÁS DE UNA ELECCIÓN 91

El estadístico del test score reportado en este paper toman la forma de:

ξ = 1′F (F ′F )−1F ′1

donde 1 es un vector de unos de dimensión n y F una matriz de orden n, cada filacontiene la contribución del score de todos los parámetros del modelo. ξ es simplementen veces el R2 de una regresión de 1 sobre las columnas de F.

Test estadísticos:

Variable explicativas omitidas: El modelo general se asume que es:

y∗i = x′iβ + q′iα + εi

donde q es de dimensión q y no incluye la constante. Un test score es construido parala hipótesis nula de que α=0, el test estadístico es de la forma ξ de arriba, donde lasfilas de F están dadas por:

Fi = (e(1)i xi, . . . , η(J−1)i, e

(1)i qi)

Bajo la hipótesis nula ξ se distribuye como χ2(k).

Forma pseudo-funcional: forma modificada del test RESET (Ramsey), construido comoun caso particular del test previo donde qi contienen potencias de y∗i = x′iβ

Heterocedasticidad:

la varianza de ε se asume de la siguiente forma:

σ2i = 1 + q/α

las filas de F para el test score de que α=0 son:

Fi = (e(1)i xi, η2i . . . , η(J−1)i, e

(2)i qi)

bajo la hipótesis nula ξ se distribuye como χ2(k)

Normalidad:

Las filas de F en el test usual χ2(2) para asimetría y/o Kurtosis están dadas por:

Fi = (e(1)i xi, η2i . . . , η(J−1)i, e

(3)i , e

(4)i )

Heterogeneidad en los umbrales: bajo la hipótesis alternativa, los umbrales pueden vari-ar sistemáticamente sobre las observaciones.

θij = θj + q/αj

Page 92: Microeconometr a Aplicada JM Benavente

92 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

y el test score puede ser construido para la nula de que αj = 0, j=1, 2,.....,J-1. Las filasde F en este caso estarán dadas por:

Fi = (e(1)i xi, η2i . . . , η(J−1)i, η2iqi, . . . , η(J−1)iqi)

Bajo la hipótesis nula ξ se distribuye como χ2k(J−2)

3.3. Tópicos Especiales con Variable Dependiente Binaria

En este corto capítulo revisaremos dos aspectos adicionales de modelos de elecciónbinaria. Uno de ellos es el conocido análisis discriminante y el otro el modelamientomediante datos de panel de variables binarias. Si bien los aspectos de datos de panelserán abordados en un capítulo separado, se asume sólo un conocimiento básico de estetema.

3.3.1. Análisis Discriminante

El problema que se trata de modelar en esta situación es el de clasificar un individuoen una de las dos poblaciones posibles π1 π2 basada en un vector de características X =(x1, x2, ...., xk). De esta forma, se utiliza una combinación lineal de las observaciones:

y = λ1 · x1 + λ2 · x2 + . . . λk · xk

donde y es una variable binaria que representa si el individuo pertenece a un grupo enparticular. El objetivo entonces será escoger los coeficientes, de tal manera de maximizar:

φ =[λ′(µ1 − µ2)]2

λ′Σλ

donde µ1 y µ2 son la media del vector X en ambos grupos y donde Σ es la matriz devarianzas y covarianzas en cada grupo, la cual se asume igual para ambos.

λ = Σ−1(µ1 − µ2)

Si los parámetros poblacionales no son conocidos, como generalmente ocurre, los parámet-ros pueden ser estimados de la siguiente manera :

λ = S−1(X1 −X2)

con

S =1

n1 + n2 − 2

[∑

i

(X1i −X1)(X1i −X1)′ +∑

i

(X2i −X2)(X2i −X2)′]

donde X1 y X2 son las medias muestrales de cada grupo respectivamente.

Page 93: Microeconometr a Aplicada JM Benavente

3.3. TÓPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 93

Probabilidades previas y costos por clasificación errónea

Sea p1 la proporción del grupo π1 y p2 la proporción del grupo π2. Sea C1 el costo declasificar erróneamente a un miembro de π1 en π2 y C2 el costo de clasificar erróneamentea un miembro de π2 en π1. De esta forma, el costo esperado total CE viene determinadopor la siguiente expresión :

CE = C1 · p1

R1

f1(x)dx + C2 · p2

R2

f2(x)dx

donde R1 y R2 son regiones de tal manera que si la observación muestral cae en estaregión, se clasifica al individuo en el grupo π1 o bien π2 respectivamente. Adicional-mente, f1(x), f2(x) son las densidades de las distribuciones de características X en cadauna de las dos poblaciones.

Dado que:∫

R2

f2(x)dx +∫

R1

f1(x)dx = 1

entonces se tiene que el costo esperado total es :

CE = C1 · p1 +∫

R1

[C2 · p2 · f2(x)− C1 · p1 · f1(x)] dx

en consecuencia, el costo esperado total C es minimizado si se escoge una región R1 talque se cumpla lo siguiente :

C2 · p2 · f2(x) < C1 · p1 · f1(x) (3.9)

o bien

f2(x)f1(x)

>C2 · p2

C1 · p1(3.10)

Ahora si X se distribuye normal con media µ1 y µ2 y covarianza Σ, la misma paraambas poblaciones, entonces se tiene que :

fi(x) = (2π)−n/2 |Σ|1/2 exp

[−1

2(x− µ1)′Σ−1(x− µ2)

]

y en consecuencia:

f1(x)f2(x)

= exp

(x− µ1)′Σ−1x︸ ︷︷ ︸

f(x)

−12

(µ1 − µ2)′Σ−1(µ1 + µ2)︸ ︷︷ ︸constante

(3.11)

y así, la condición sobre R1 para que C sea minimizada queda determinada de la sigu-iente forma :

λ′x > lnC2 · p2

C1 · p1+

12λ′(µ1 + µ2)

Page 94: Microeconometr a Aplicada JM Benavente

94 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

ahora si Σ1 6= Σ2, entonces la expresión anterior tiene la siguiente forma :

lnf1(x)f2(x)

= −12x′(Σ−1

1 − Σ−12 )x + x′(Σ−1

1 µ1 − Σ−12 µ2) + constante (3.12)

la que es una función discriminante cuadrática en X la cual se reemplazo en (27).

Datos no normales y discriminación logística

El modelo discriminación lineal que hemos revisado descansa en los siguientes supuestos:

tanto f1(x) como f2(x) son normales multivariadas.

las matrices de covarianzas (Σ1 = Σ2) son iguales.

las probabilidades p1 y p2 son conocidas de antemano.

las medias µ1, µ2 y σ son conocidas.

Pero si sustituimos por los valores muestrales, los dos últimos supuestos están resueltos.Si usamos la ecuación (28) entonces el segundo supuesto también está resuelto. Veamosque hacemos con el primer supuesto:

Por Bayes, sabemos que :

P (πi|x) =P (x|πi) · pi

P (x|π1) · p1 + P (x|π2) · p2i = 1, 2

Si P (x|πi) es normal multivariada con media µi y matriz de covarianzas Σ entonces setiene que :

P (π1|x)P (π2|x)

=P (π1|x) · p1

P (π2|x) · p2= exp(α + β′x) (3.13)

con

α = logp1

p2− 1

2(µ1 − µ2)′Σ−1(µ1 + µ2) (3.14)

β = Σ−1(µ1 − µ2)

lo que se obtiene de (29). De esta manera reemplazando en (31) se tiene que :

P (π1|x) =exp(α + β′x)

1 + exp(α + β′x)

P (π2|x) =1

1 + exp(α + β′x)

Page 95: Microeconometr a Aplicada JM Benavente

3.3. TÓPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 95

donde el modelo representado en la ecuación (29) se conoce como modelo logístico, dis-tinto de modelo logit).

Estimación:

Sea :

yi = 1 si xi ∈ π1

yi = 0 si xi ∈ π2

entonces la función de verosimilitud vienen dada por la siguiente expresión :

L =∏

yi=1

exp(α + β′x)1 + exp(α + β′x)

·∏

yi=0

11 + exp(α + β′x)

(3.15)

Diversos autores señalan que si X no proviene de una normal entonces los estimadoresML de (3.15) son preferibles a aquellos de una función discriminante λ; más aún si Xson dummies ya que λ no es consistente. Cuando son más de dos grupos los que seanalizan, el modelo es análogo a un logit. Ver Maddala (p. 379) sobre si las muestras deyi = 1 y yi = 0 son muy diferentes en tamaño, lo que significa un ajuste en la constante.

3.3.2. Datos de Panel con Variable Discreta Binaria

Como se mencionó, si bien los temas de datos de panel serán revisados mas adelante,aquí analizaremos someramente la estimación de este tipo de estructura de datos cuan-do la variable dependiente es binaria. Partamos con un ejemplo presentado en Heckmany Willis (1977) denominado : Participación secuencial de mujeres en el mercado deltrabajo.

Sea yit = 1 si la persona i trabaja en el tiempo t e yit=0 en otra situación. Por otraparte, se define xit como el vector de características observadas de quien decide partic-ipar en el mercado laboral o no.

De esta manera, se puede determinar P (yit = 1) = F (x′itβ) con i = 1, 2, ...n paraun t fijo como la probabilidad que el individuo i decida participar. Como puede notarse,aquí solo se especifica una probabilidad marginal para un t fijo y por tanto, se necesitaespecificar la probabilidad conjunta P(yi1, yi2,...yiT ) con el fin de dar cuenta de toda lahistoria temporal de decisiones del individuo.

La forma más simple de especificar la probabilidad conjunta es asumir independenciaentre las decisiones. De esta manera, la probabilidad conjunta de observar la historiade decisiones viene dada por la siguiente expresión :

P (yi1, yi2, ....., yiT ) =T∏

t=1

P (yit)

Page 96: Microeconometr a Aplicada JM Benavente

96 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

lo que representa un modelo de elección discreta igual a los ya estudiado, con la únicadiferencia que tenemos N · T observaciones.

Cabe señalar que el supuesto de independencia implica lo siguiente :

P (yit = 1|yit−1 = 1) = P (yit = 1)

o sea, una vez que obtenemos xit el que la señora halla trabajado o no en el periodoanterior no nos dará ninguna información acerca de la situación de hoy; poco sostenibleempíricamente!!.

Existen a lo menos dos situaciones de porqué P (yit = 1|yit−1 = 1) 6= P (yit = 1),es decir que no sea creíble el supuesto de independencia:

Heterogeneidad: existen variables no observadas para el econometrista las quepueden afectar a las personas en forma diferente con respecto a tendencia a tra-bajar.

Dependencia entre estados: para cada persona, el estado presente influye en elestado futuro. Siguiendo la idea de cadenas de Markov.

Veamos cada una en forma separada.

Heterogeneidad

Para atacar el problema de la heterogeneidad no observable, supongamos el siguientemodelo :

P (yit = 1|ui) = F (x′itβ + ui)i = 1, . . . , n

t = 1, . . . , T(3.16)

asumiendo que los yit son serialmente independientes (sobre t) condicionales a ui,entonces se tiene que (descartando el subindice i):

P (yt = 1|yt−1)− P (yt = 1) =E

[F (x′tβ + u) · F (x′t−1β + u)

]

E[F (x′t−1β + u)

] − E[F (x′tβ + u)

]

=COV

[F (x′tβ + u), F (x′t−1β + u)

]

E[F (x′t−1β + u)

]

De esta manera, la probabilidad conjunta de yit con t = 1, 2, ...T viene dada por lasiguiente expresión :

P (yi1, yi2, ...yiT ) = Eui

T∏

t=1

F (x′itβ + ui)yit[1− F (x′itβ + ui)

]1−yit

(3.17)

donde la función de verosimilitud del modelo es el producto de esta ecuación sobre to-dos los individuos i = 1, 2, ...n. Para ello se asume que ui son i.i.d sobre los individuos.

Page 97: Microeconometr a Aplicada JM Benavente

3.3. TÓPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 97

En general si F = Φ y µ se distribuye normal, el cálculo del valor esperado en (3.17) esla única alternativa computacionalmente factible, por ejemplo con n = 1500 y T = 10,aunque muy demandante de tiempo de computador. Una forma mas simple de expresaresta esperanza es como el producto y razón de funciones gama (Beta Logistic Model).

En este caso, sea :

P (yit = 1|ui) = uii = 1, . . . , n

t = 1, . . . , T(3.18)

con ui distribuido beta, de la siguiente forma :

fi(ui) =Γ(ai + bi)

Γ(ai) · Γ(bi)· uai−1

i (1− ui)bi−1 0 ≤ ui ≤ 1ai > 0bi > 0

donde Γ(z) =∫∞0 xz−1 · e−xdx.

Notando que yit son serialmente independientes condicionales a ui, y que la inde-pendencia entre individuos existe, entonces se tiene que (omitiendo el subindice i) :

P (yt = 1|yt−1 = 1) =P (yt = 1, yt−1 = 1)

P (yt−1 = 1)=

E(u2)E(u)︸ ︷︷ ︸beta

donde

E(u2)E(u)

> E(u)

ya que E(u) está definido como P (yt = 1) donde se sabe que V (u) > 0. Heckman yWillis sugieren que ai = exp(x′iα) y bi = exp(x′iβ), donde xi es un vector de caracterís-ticas de los decisores el que no depende del tiempo para i.

Así reemplazando en (3.18) se obtiene :

P (yit = 1) = Λ[x′i(α− β)]

ello pues la media de una beta es (a + b)−1 · a. Si solo consideramos probabilidadesmarginales, tenemos un modelo logit y en este sentido un modelo beta logístico en unageneralización del modelo logit.

Al maximizar la siguiente expresión :

L =n∏

i=1

T∏

t=1

Λ[x′i(α− β)]

podremos obtener un estimador consistente de α−β. Sin embargo, podemos estimar α yβ consistentemente y también más eficientemente al estimar la función de verosimilitud

Page 98: Microeconometr a Aplicada JM Benavente

98 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

completa. Si la persona trabajó si periodos de un total de T entonces la función deverosimilitud del modelo beta logístico viene dada por :

L =n∏

i=1

E[usi

i (1− ui)T−si]

=n∏

i=1

Γ(ai + bi)Γ(ai) · Γ(bi)

· Γ(ai + bi) · Γ(bi + T − si)Γ(ai + bi + T )

Pudiendo estimarse entonces α, β en forma más eficiente. Cabe señalar, eso sí, que aúnpersiste el problema acerca del supuesto de que los xi son independientes del tiempo.

Modelos con Heterogeneidad y dependencia de estado

En esta sección generalizaremos aún más el modelo anterior incoporando no sólo laheterogeneidad, sino que también la dependencia del estado.

Para ello definiremos la siguiente relación :

P (yit = 1|ui) = F (x′itβ + ui)i = 1, . . . , n

t = 1, . . . , T(3.19)

donde se asume que existe una variable latente no observable la cual determina elresultado observado para yit mediante la siguiente regla:

yit =

1 si y∗it > 0;0 si ∼

Heckman 1981 sugiere la siguiente especificación para este modelo:

y∗it = x′itβ + γyi,t−1 + vit

donde si existe dependencia de estado entonces γ 6= 0 y si existe heterogeneidad, habríacorrelación serial en vit. De esta manera el modelo especificado en (3.19) surge siγ = 0 y además si vit = ui + εit con εit serialmente independientes. Este modelorestringido no solo asume que no existe dependencia de estado sino que también asumeuna forma especial de heterogeneidad (one factor-model).

Por de pronto se asumirá que que vit está serialmente correlacionado pero dondeyit se mantiene independiente entre individuos i. La función de verosimilitud por lotanto es el producto de las funciones individuales.

Formalmente,

yit =

1 si γyi,t−1 + x′itβ + ui + εit > 00 si ∼

donde ui ∼ iid(0, σ2u) y εit ∼ iid(0, σ2

ε ) sobre i y sobre t. Además ui y εit son indepen-dientes y para cualquier (t, s), se tiene que xit es independiente de εis.

Algunos comentarios:

Page 99: Microeconometr a Aplicada JM Benavente

3.3. TÓPICOS ESPECIALES CON VARIABLE DEPENDIENTE BINARIA 99

el término γyi,t−1 representa la existencia de dependencia entre estados. Por lotanto, siγ >0, se tiene que :

P [yi,t|xi,t, ui, yi,t−1 = 1] > P [yi,t|xi,t, ui, yi,t−1 = 0]

por otra parte, x′itβ puede capturar parte de la heterogeneidad. Sin embargo,aquella heterogeneidad no observada será capturada por ui.

si existe heterogeneidad no-observada, esto es var(ui) 6= 0 pero no se controlapor ella en la estimación, el estimador de γ estará sesgado hacia arriba. Esto es,concluiremos que toda la persistencia, una vez que controlamos por xit, se debea una "verdadera dependencia entre estadosçuando ello no es cierto. De hecho,puede que no exista tal dependencia.

Una importante diferencia con el modelo estático es que tenemos una variableexplicativa yi,t−1 la que no es exógena fuerte con respecto a uit. Es una variablepredeterminada: independiente de valores actuales y futuros de u pero dependientede valores previos de u.

Identificación de Problemas entre Heterogeneidad versus Dependencia

Si tenemos un panel largo, esto es con muchas observaciones por individuo, el prob-lema de identificación entre heterogeneidad y dependencia sería trivial. El problemaradica en que generalmente este no es el caso.

Por ejemplo, cuál de las siguientes historias de elección puede ser generada por unmodelo verdadero de dependencia entre estados?

A = 0, 0, 0, 1, 1, 1 B = 0, 0, 0, 1, 0, 0

Historia A: con una verdadera dependencia entre estados esperaríamos encontrar per-sistencia en los dos estados. Con heterogeneidad esperaríamos encontrar persistencia ensolo un estado.

De esta manera, necesitaríamos a lo menos cuatro observaciones por individuo parapoder identificar estos dos efectos.

0,0 0,0,0 0,1,0con T=2 0,1 con T=3 0,0,1 1,0,1

1,0 0,1,0 1,1,01,1 1,0,0 1,1,1

Page 100: Microeconometr a Aplicada JM Benavente

100 CAPÍTULO 3. EXTENSIONES DEL MODELO BÁSICO

Page 101: Microeconometr a Aplicada JM Benavente

Capítulo 4

Variable Dependiente Limitada

4.1. Introducción

Dentro del trabajo empírico propiamente tal, existen muchos casos donde debido ala forma en como recolectamos datos, disponemos de información incompleta acerca dela conducta de ciertos elementos o unidades de la muestra. Si esta información faltantefuera sistemática entonces aquellos modelos econométricos que ignoren este hecho po-drían estar sesgados. Veamos algunos casos donde este fenómeno ocurre.

Truncamiento: en este caso, la muestra está sistemáticamente restringida a solo unaparte de la población. Por ejemplo, una muestra puede solo incluir personas que estánempleadas, o gente sobre una cierta edad. Ahora, el que el truncamiento sea importantedependerá del tipo de pregunta que el investigador se haga.

Censuramiento (censura): este caso ocurre cuando la variable dependiente, perono así las variables independientes, son observadas dentro de un rango restringido. Bajoesta situación, todas las observaciones de la variable dependiente que están en o bajoel nivel límite son tratadas como si estuvieran en el nivel limite.

Selección Muestral o Truncamiento Accidental: esta situación combina aspec-tos de las dos anteriores y ocurre cuando el proceso por el cual la muestra es truncadainfluencia los parámetros del modelo estimando sobre la muestra restringida. Por ejem-plo, supongamos que estamos interesados en examinar los determinantes de los salariosde inmigrantes. El problema estriba en que los salarios son uno de los factores que ex-plicaría la decisión de migrar. Esto es claramente una forma de truncamiento, es decir,la muestra solo incluye a inmigrantes, pero es una forma donde los factores que deter-minan el truncamiento no son independientes de la conducta de la variable dependientedentro de la muestra truncada.

En los acápites que siguen revisaremos la forma de estimar modelos que incorporenexplícitamente estas situaciones. No obstante lo anterior, previo a esto revisaremos al-

101

Page 102: Microeconometr a Aplicada JM Benavente

102 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

guna propiedades de la distribución normal que son fundamentales para entender losproblemas antes señalados.

4.2. Algunas propiedades de la distribución Normal

Sabemos que si la variable aleatoria x ∼ N(µ, σ2), entonces :

f(x) =1√

2πσ2· e

−(x−µ)2

2σ2

ó en el caso de que z ∼ N(0, 1) con z = x−µσ , se tiene que :

φ(z) =1√2π

· e−z2

2

Lo anterior permite determinar ciertas propiedades de esta variable aleatoria.

φ(−z) = φ(z)

dφ(z)dz = −z · φ(z)

f(x) = 1σ · φ

[(x−µ)

σ

]= 1

σ · φ(z)

Φ(a) = P (z < a) =∫ a−∞ φ(z)dz

Φ(−a) = 1− Φ(a) = P (z ≥ a)

con estas propiedades a la mano discutiremos los aspectos problemáticos mencionadosen la introducción.

4.3. Truncamiento

Como se mencionó, este fenómeno se observa cuando la muestra está restringida auna parte de la población de tal forma que sólo observamos las variables X e Y dentrode una rango restringido. Por ejemplo, si estamos interesados en examinar el efecto dela escolaridad sobre los ingresos (salarios) pero solo disponemos una muestra de ingre-sos altos. O bien, si examinamos los determinantes de los ingresos a nivel de hogaresusando una encuesta sobre empleo e ingresos en vez de una encuesta de hogares, yaque la primera incluye, por definición, solo aquellos que están trabajado o aquellos quepagan impuestos.

Para analizar y con ello generar una forma de estimar un modelo cuya variable de-pendiente tenga esta característica debemos revisar las propiedades de una distribucióntruncada.

Page 103: Microeconometr a Aplicada JM Benavente

4.3. TRUNCAMIENTO 103

4.3.1. Propiedades de la Distribución Truncada

La densidad de una variable que es truncada a partir de a viene dada por la siguienteexpresión :

f(x|x > a) =f(x)

p(x > a)

esta definición asegura que la densidad truncada sume uno sobre el rango restringido.

f(x)

x-0.5 0.0 0.2E(x/x>-oo) E(x/x>-0.5)

E(x/x>0.2)

de esta forma sabemos que :

P (x > a) = 1− Φ[(a− µ)

σ

]

= 1− Φ(α)

esto último se obtiene de la última propiedad de la distribución normal ya vistas, dondeα = a−µ

σ .

Así tenemos entonces :

f(x|x > a) =f(x)

[1− Φ(α)]

=1σ

φ(z)[1− Φ(α)]

con z =x− µ

σ

en el gráfico anterior podemos observar que si el truncamiento es por abajo, la mediade la distribución truncada será mayor que la media de aquella sin truncar. Si ahora ladistribución estuviera truncada por arriba, sería análogo a lo anterior.

De esta forma, el valor esperado de una distribución truncada tiene la siguiente for-ma :

E(x|truncamiento) = µ + σ · λ(α)

Page 104: Microeconometr a Aplicada JM Benavente

104 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

donde,

λ(α) =φ(α)

[1− Φ(α)]

si el truncamiento es del tipo x > a, o bien,

λ(α) =−φ(α)Φ(α)

si el truncamiento es del tipo x < a

En ambos casos, λ(α) se conoce como el inverse mills ratio (ó hazard rate), la queestá asociada a la probabilidad condicional de observar α condicional en que α estáen la muestra. En otras palabras, mide el grado de ajuste requerido para la media sintruncar µ.

Por otro lado, la varianza de la distribución truncada viene determinada por la siguienteexpresión :

V (x|truncamiento) = σ2(1− δ(α))

donde

δ(α) =λ(α)

[λ(α)− α]con 0 < δ < 1 ∀α

lo que implica que la varianza de la distribución truncada siempre es menor que aquellade la distribución sin truncar.

En general, nos referimos al truncamiento en términos del grado de truncamiento, lo querepresenta la probabilidad de que x sea menor que a. Si el valor de a aumenta el gradode truncamiento aumenta ya que la probabilidad de que x sea menor que a aumenta.Así, una mayor proporción de la distribución se descarta y por consiguiente la mediade la distribución truncada aumenta.

E(x/x>a)

0P(x>a)

Page 105: Microeconometr a Aplicada JM Benavente

4.3. TRUNCAMIENTO 105

4.3.2. Regresión Truncada

Una vez definido el truncamiento y las propiedades de una distribución truncada,analizaremos a continuación la forma de estimación de un modelo en que la variabledependiente tiene esta característica. Para ello definiremos la siguiente regresión :

yi = βxi + εi εi ∼ N(0, σ2)

donde si yi es truncada de algún modo, sabemos que:

E(yi|yi > a) = βxi + σ · λi(αi) con αi =(a− βxi)

σ

No olvidar que a es el punto de truncamiento y αi es el valor estandarizado (pero no esla constante del modelo la cual esta incorporada en x).

De esta manera, el valor esperado de yi viene dado por la siguiente forma :

E[yi|yi > a] = βxi + σφ[(a− βxi)/σ]

1− Φ[(a− βxi)/σ]

expresión que sugiere que la media de la distribución truncada es una función no linealde x, β y σ y el punto de truncamiento a.

A partir de la fórmula de la varianza se puede determinar que:

V (yi|yi > a) = σ2[1− δi(αi)]

con δ(αi) = λi(αi)[λi(αi)−αi]

y además 0 < δi(αi) < 1, ∀α

donde λi(αi) = φ(αi)/(1− Φ(αi)) es el inverse Mills ratio.

4.3.3. Efectos Marginales

Para el caso de un modelo de regresión truncado, los efectos marginales pueden serobtenidos de la siguiente manera :

∂E[yi|yi > a]∂xj

= βj + σ

(∂λi

∂αi· ∂αi

∂xj

)

= βj + σ(λ2

i − αiλi

) (−βj

σ

)

= βj(1− λ2i + αiλi)

= βj(1− δ(αi))

ya que δ(αi)) < 1, ∀α, el efecto marginal de un cambio en xj sobre E(yi) cuando yi

tiene una distribución truncada es siempre menor que el correspondiente a βj .

Page 106: Microeconometr a Aplicada JM Benavente

106 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

También es importante notar que si estamos tratando de realizar inferencia sobre lasub-población entonces el parámetro relevante es βj(1− δ(α)). Ahora, si el interés estásobre inferencias concernientes a toda la población, entonces el coeficiente relevante seráβ.

+ ++

+++

+

++

+++ +

(+) (+): no observado

(+)

(+)(+)

(+)

(+) (+)

+ : observado

a

verdadera

OLS

Del gráfico podemos notar que ajustando un OLS a los datos truncados (muestra trun-cada) sesgará los coeficientes hacia cero. 1

4.3.4. Estimación:

Como se mencionó, si estimamos el siguiente modelo :

yi = βxi + εi εi ∼ N(0, σ2)

por OLS, pero usando una muestra truncada, entonces tendríamos un problema de ses-go por omisión de variable (el inverse Mills Ratio) relacionado con el truncamiento. Asílos β’s estarán sesgados y serán inconsistentes.

Mas aún, dado que el término de error en el modelo OLS está también truncado (esdecir, es una función de α) entonces el modelo anterior tendrá un término de errorheterocedástico con la siguiente estructura :

V (εi) = σ2(1− λ2i + λiαi)

el cual es una función de xi (ya que λi es función de xi).

Una forma alternativa de estimación es por Máxima Verosimilitud. Dada la funciónde densidad de yi, entonces se tiene que :

f(yi|yi > a) =1σφ[(yi − βxi)/σ]

1− Φ[(a− βxi)/σ]

1el caso de truncamiento por arriba es análogo

Page 107: Microeconometr a Aplicada JM Benavente

4.4. DATOS CENSURADOS 107

y en consecuencia, en logaritmos tenemos que :

logL = −n

2[log(2π) + logσ2

]− 12σ2

n∑

i=1

(yi − βxi)2 −n∑

i=1

log

[1− Φ

(a− βxi

σ

)]

Maximizando con respecto a β y σ2 se obtiene lo siguiente :

∂logL

∂β=

i

[yi − βxi

σ2− λi

σ

]· xi = 0

∂logL

∂σ2=

i

[− 1

2σ2+

(yi − βxi)2

2σ4− αiλi

2σ2

]= 0

donde αi = (a−βxi)σ y λi = φ(αi)

1−Φ(αi).

4.4. Datos Censurados

Como se había mencionado, en este caso observamos el vector de variables indepen-dientes x sobre todo el rango pero la variable dependiente y sólo es observada sobre unsubconjunto restringido de valores de la distribución. Por ejemplo, el gasto del hogar enbienes durables (Tobin 1958) u horas dedicadas al trabajo en Investigación y Desarrollo.

Notar que el sesgo introducido mediante la restricción del rango observado para y seráserio si la probabilidad de que y caiga por debajo del umbral no es despreciable.

a u

f(y)

y

toda la probabilidad se concentraen un punto

.

Sabemos que al sacar las observaciones censuradas nos quedamos con un modelo trunca-do (muestra truncada). Por lo tanto, debemos entonces ver un método para incorporarla presencia de censura. El problema de sacar los datos es que se pierde informaciónimportante. Con este fin primero estudiaremos la distribución de probabilidades cuandola variable analizada presenta censura.

Page 108: Microeconometr a Aplicada JM Benavente

108 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

4.4.1. Distribución Normal Censurada

Veamos nuevamente el modelo de variable latente:

y∗ ∼ N(µ, σ2)

y =

a si y∗ ≤ a;y∗ ∼

en este caso y∗ es sólo observable para los valores sobre el umbral a. La distribución deuna variable censurada puede pensarse como la combinación de dos partes. La primeraes un componente discreto la cual otorga todo el peso del componente censurado de ladistribución en un sólo punto. En cambio, la segunda comprende el componente contin-uo para el rango de valores de y para el que existe una distribución (truncada).

Así, el valor esperado de esta variable aleatoria esta compuestos por dos partes :

E(y) = P (y = a) · E(y|y = a) + P (y > a) · E(y|y > a)= P (y∗ ≤ a) · a + P (y∗ > a) · E(y|y > a)= Φ(α) · a + [1− Φ(α)] · [µ + σ · λ(α)]

donde α = (a−µ)σ y λ(α) es el Inverse Mills Ratio.

4.4.2. Modelo Tobit

En general, los modelos que tratan muestras censuradas se denominan modelos deregresión censurada donde el punto de censura puede cambiar entre observaciones. ElModelo Tobit (Tobin’s Probit Model) opera bajo la idea de que existe un único puntode censura el cual es fijo y generalmente normalizado a cero.

La estructura del modelo es la siguiente:

y∗i = βxi + εi εi ∼ N(0, σ2)

yi=0 si y∗i ≤ 0yi=1 si y∗i > 0

donde la media esta dada por: (aquí se asume que a = 0):

E(yi) = P (yi = 0) · E(yi|yi = 0) + P (yi > 0) · E(yi|yi > 0)

Veamos con mas detención esta última expresión:

si a = 0 entonces se tiene que E(yi|yi = 0) = 0

y en consecuencia, E(yi|yi > 0) = βxi + σ · λi

Page 109: Microeconometr a Aplicada JM Benavente

4.4. DATOS CENSURADOS 109

donde:

λi =φ[(0− βxi)/σ]

1− Φ[(0− βxi)/σ]

=φ(βxi/σ)Φ(βxi/σ)

por otro lado, se tiene que:

P (yi > 0) = P (βxi + εi > 0)= P (εi > −βxi)= P (εi < βxi)= Φ(βxi/σ)

Combinando los puntos anteriores se tiene que el valor esperado de yi viene dado porla siguiente expresión :

E(yi) = P (yi > 0) · E(yi|yi > 0)

E(yi) = Φ(

βxi

σ

)· [(βxi + σ · λi)]

donde:

λi =φ(βxi/σ)Φ(βxi/σ)

4.4.3. Efectos Marginales

En general, los efectos marginales dependerán si estamos interesados en saber algo sobrela media en la distribución censurada o los coeficientes del modelo latente. Por ejemplo,si tomamos el caso de los salarios de reserva, debemos preguntarnos si queremos estimarel cambio en las ganancias y en la educación (sea xj) para solo los que trabajan (muestracensurada) o bien la relación entre educación y ganancias (esperadas) para toda la ofertade trabajo.

∂E(yi|xi)∂xj

= βj · Φ(βxi/σ)︸ ︷︷ ︸

parte censurada

∂E(y∗i /xi)∂xj

= βj

︸ ︷︷ ︸toda la población

Page 110: Microeconometr a Aplicada JM Benavente

110 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

Así, si xj aumenta (educación medida como número de años en el colegio) primeroafecta la media condicional del valor de y∗ en la parte positiva de la distribución. El se-gundo efecto es que un aumento en xj va aumentar la probabilidad de que la observacióncaiga en la parte positiva de la distribución.

+++

++

+

++

++

(+) (+)(+)

(+)

(+)

(+)

verdadera

+

OLS muetracensurada

OLSmuestratruncada

4.4.4. Estimación Tobit

Considerando una distribución normal para los errores, la función de verosimilitud parael modelo Tobit tiene la siguiente forma :

logL =∑

yi>0

[−1

2log(2π) + log(σ2) +

(yi − βxi)2

σ2

]+

yi=0

log

[1− Φ

(βxi

σ

)]

La cual es una mezcla de observaciones con distribución continua (no censurada) y ob-servaciones con distribución discreta censurada. Esta es una expresión compleja peromanejable. Generalmente, los estimadores OLS se reportan también con fines compar-ativos.Del gráfico anterior se puede observar que los parámetros OLS son menores en valorabsoluto, a aquellos obtenidos por MLE. Resultados empíricos sugieren que los esti-madores MLE pueden aproximarse al dividir los estimadores OLS por la proporción deobservaciones no limitadas en la muestra.No obstante, existe una forma más adecuada de corregir los estimadores OLS cuandolos datos son censurados: método de Heckman en dos etapas, el cual discutiremos conmás detalle en "sesgo de selección".

4.4.5. Residuos Generalizados

Al igual que en los modelos de elección binaria, el supuesto de la distribución de loserrores así como también la presencia de heteroscedasticidad y autocorrelación generan

Page 111: Microeconometr a Aplicada JM Benavente

4.4. DATOS CENSURADOS 111

estimadores inconsistentes. Como se discutió anteriormente, ello se debe a la no lineal-idad presente en este tipo de modelos.

Dado esto, se desarrolló una batería de test basados en los residuos generalizados de lasestimaciones máximo verosímiles las que ahora se explican para el caso de un modeloTobit.

Sabemos que E(y∗i ) = x′iβ y además que las esperanzas condicionales son:

(i)

E(y∗i |yi = 0) = E(y∗i ≤ 0)= x′iβ + E(εi|x′iβ + εi ≤ 0)

= x′iβ − σ · E[−εi

σ|x′iβ

σ≤ −εi

σ

]

= x′iβ − σ · λ(αi)

con:

λ(αi) =φ

(x′iβσ

)

1− Φ(

x′iβσ

)

(ii) Además, E(y∗i |yi > 0) = yi

Uniendo ambos términos se tiene lo siguiente :

µi = E(y∗i |yi) =

yi si yi 6= 0;x′iβ − σ · λi si yi = 0

o bien, como una forma alternativa de re escribirlo, se tiene :

µi = Di · yi + (1−Di) · (x′iβ − σ · λi)

donde

Di =

1 si y∗i > 0;0 ∼

De esta manera, los residuos generalizados del modelo Tobit vienen dados por la sigu-iente expresión :

ηi = µi − x′iβ =

yi − x′iβ si yi 6= 0;−σ · λi si yi = 0

La función de verosimilitud asociada a estos residuos, tiene la siguiente forma :

logL =n∑

i=1

Di

logφ

(yi − x′iβ

σ

)− log(σ)

+ (1−Di) · log

[1− Φ

(x′iβσ

)]

Page 112: Microeconometr a Aplicada JM Benavente

112 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

A partir de esta expresión se pueden obtener los primeros momentos de los residuos loscuales tienen la siguiente forma :

e(1)i =

ηi

σ

e(2)i = Di

(yi − x′iβ

σ

)2

− 1

+ (1−Di) · λi ·

(x′iβσ

)

e(3)i = Di ·

(yi − x′iβ

σ

)3

− (1−Di) · λi ·2 +

(x′iβσ

)2

e(4)i = Di

(yi − x′iβ

σ

)4

− 3

+ (1−Di) · λi ·

3

(x′iβσ

)+

(x′iβσ

)3

4.4.6. Pruebas basadas en el Score

Siguiendo los aspectos metodológicos discutidos para el caso del Probit, en lo que siguese discuten algunas pruebas basadas en el score para el caso particular del modelo decensura Tobit.

1. Variable Omitida:Se asume que el modelo correctamente especificado tiene la siguiente forma :

y∗i = x′iβ + z′iγ + εi

donde la prueba nula, acerca de la inclusión de una variable relevante es Ho: γ = 0donde ∂logL

∂γ = 1σ2

∑ni=1 ηizi

En general, para el caso del Tobit, se tiene que :

∂logL

∂β=

n∑

i=1

Di

[yi − x′iβ

σ

]+ (1−Di)(−λi

xi

σ)

=1σ2

n∑

i=1

ηi · xi

a diferencia del caso Probit el vector de score incluye adicionalmente un términocon respecto a σ y por lo tanto debe ser este incluido en las pruebas de hetero-cedasticidad y/o normalidad mediante el segundo momento de los residuos.

Como en el caso de probit, para probar variable omitida definimos el siguienteestadístico:

c′R(R′R)−1R′c ∼ χ2(p) p : #restricciones

Page 113: Microeconometr a Aplicada JM Benavente

4.4. DATOS CENSURADOS 113

donde c es un vector de unos con dimensión n y por su parte R una matriz cuyafila i es: (e(1)

i x′i, e(1)i z′i, e

(2)i ), el cual se obtiene al regresionar c sobre R. Si se trata

de una sola variable omitida, el estadístico de student asociado a e(1)i z′i al cuadrado

es el χ21 necesario para la prueba. Recordar que:

e(1)i =

ηi

σ

e(2)i =

[e(1)

i ]2 − 1 si y > 0;

λix′iβσ si y = 0

2. Heterocedasticidad: aquí se aplica la misma idea que el caso anterior pero ahorala fila i del vector R es la siguiente : (e(1)

i x′i, e(2)i , e

(2)i zi) si se asume que el modelo

es:

y∗i = x′iβ + εi

con σ2 = h(z′iγ) donde ∂h(z′iγ)∂γ

∣∣γ=0

= zi. Por ejemplo, exp(ziγ).

3. Normalidad: para este caso se debe considerar el tercer y cuarto momento de ladistribución de los errores generalizados. Veamos esto en detalle.

Tercer momento:

E

[(εi

σ

)3|yi

]= 0

e(3)i =

[e(1)

i ]3 si y > 0;λ(2 + z2) si y = 0

o bien

e(3)i = Di

(yi − x′iβ

σ

)3

− (1−Di)λi

2 +

(x′iβσ

)2

como ya lo habíamos visto. Por su parte, el cuarto momento tiene la siguienteestructura:

E

[(εi

σ

)4|yi

]= 0

e(4)i =

[e(1)

i ]4 − 3 si y > 0;λi(3z + z3) si y = 0

o bien

e(4)i = Di

(yi − x′iβ

σ

)4

− 3

+ (1−Di)λi

3

(x′iβσ

)+

(x′iβσ

)3

Page 114: Microeconometr a Aplicada JM Benavente

114 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

Para testear la normalidad de los residuos, se deben utilizar el tercer y cuartomomento conjuntamente. La prueba estadística es análoga a las dos ya vistas ytiene la siguiente forma:

c′R(R′R)−1R′c ∼ χ2(p)

donde, en este caso c es un vector columna de unos y la fila i de la matriz R tienelos siguientes elementos : [e(1)

i , e(1)i xi, e

(2)i , e

(3)i , e

(4)i ].

Sabemos que si esta prueba de normalidad es rechazada entonces Tobit no esun modelo apropiado porque los β’s serán inconsistentes. No obstante lo anterior,ello dependerá del grado de censura en la variable endógena. Por otra parte, esposible realizar pruebas acerca de restricciones sobre el tercer y cuarto momentoen forma separada pero ello no constituye una prueba de normalidad.

Existe una forma de testear normalidad y heterocedasticidad del tipo White(de forma desconocida) mediante un procedimiento similar al anterior pero ahoradonde la fila i de la matriz R es la siguiente: [e(1)

i x′i, e(2)i , e

(2)i xix

′i, e

(3)i , e

(4)i ].

4.4.7. Ejemplo: Heterocedasticidad Multiplicativa en el modeloTobit

Utilizado datos de corte transversal, Petersen y Waldman analizaron el volumende los intereses pagados a corto plazo por diferentes acciones. Los regresores desu modelo eran una medida de la componente de las expectativas heterogéneasde la compañía determinada por el mercado, similar a lo que se denomina coe-ficiente BETA; una medida de las expectativas heterogéneas especifica de cadacompañía, que llamaremos NO-MERCADO; el NUMERO de la compañía dedica-dos a predecir ganancias; el número de acciones comunes emitidas para adquirirotras empresas, variable denominada FUSION; y la variable binaria que indicansi existen o no OPCIONES. Los autores presentan resultados que se presentanen la siguiente tabla en un modelo que supone que la varianza es de la formaσ2

i = exp(α′xi). Los valores que se dan entre paréntesis son los errores estándarasintóticos estimados.

Estimadores de un Modelo TobitHomocedástico Heterocedástico

β α β

Constante -18.28 (5.10) -4.11 (3.28) -0.47 (0.60)BETA 10.97 (3.61) 2.22 (2.00) 1.20 (1.81)

NO-MERCADO 0.65 (7.41) 0.12 (1.90) 0.08 (7.55)NUMERO 0.75 (5.74) 0.33 (4.50) 0.15 (4.58)FUSION 0.50 (5.90) 0.24 (3.00) 0.06 (4.17)

OPCIONES 2.256 (1.51) 2.96 (2.99) 0.83 (1.70)LogL -547.30 -466.27

Tamaño muestral 200 200

Page 115: Microeconometr a Aplicada JM Benavente

4.5. MODELOS ALTERNATIVOS PARA CENSURA 115

El efecto de la heterocedasticidad sobre los estimadores es muy importante. Puedecontrastarse la hipótesis α = 0 utilizando un estadístico de cocientes de verosimil-itudes. Con estos resultados el estadístico es -2[-547.3-(-466.27)]=162.06. La dis-tribución asintótica del estadístico es χ2

(5). El valor muestral es muy superior alvalor crítico que aparece en las tablas, por lo que se rechaza la hipótesis nula.

4.5. Modelos alternativos para censura

Como se discutió previamente, los estimadores del modelo Tobit son inconsistentes silos supuestos sobre los que descansan no se cumplen. Existen a los menos dos solucionesen la literatura orientadas a estimar modelos con variables censurada cuando el Tobites inconsistente. Powell (1984, 1986) ha sugerido dos soluciones posibles, las que acontinuación revisaremos.

4.5.1. Symmetrically Trimmed Least Squares

La idea detrás de este estimador puede resumirse de la siguiente manera. Supongaque pudiéramos observar la variable latente y∗ en todo su espectro y que el términode error, en consecuencia, estará simétricamente distribuido en torno a cero. Así laestimación por OLS nos daría estimadores consistentes. De esta forma, la censura loque hace es introducir una asimetría a la distribución.

exi'beta 2xi'beta

Densidad de xi'beta + e

Para una observación dada xi, solo podemos obtener el area a la derecha de 0. Así todaslas observaciones donde ei<−xiβ están omitidas. En un modelo del tipo:

y∗ = xβ + e

yi =

y∗i si y∗i > 0;0 si y∗i ≤ 0

ó bien

yi =

y∗i si ei > −xiβ;0 si ei ≤ −xiβ

Page 116: Microeconometr a Aplicada JM Benavente

116 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

Suponga ahora que truncamos las observaciones tales que ei>xiβ. Esto significa tomarlos puntos a la derecha de 2xiβ en la figura anterior, y en consecuencia tendríamosnuevamente una distribución del error que sería simétrica.

Powell (Econometrica 1986) sugiere que si conociéramos el verdadero valor del parámetroβ (por ejemplo, β0) podríamos reemplazar yi por la mínima cantidad entre yi, 2xiβ0 ygenerar de esta forma un estimador consistente para β0. Otra forma de hacer lo mismoes:

e∗i = max(ei,−xiβ0)

y reemplazar e∗i por el minyi, 2xiβ0 si xiβ0>0 o bien borrar la observación si esto nose cumple.En consecuencia, el verdadero valor del coeficiente β0 debería satisfacer la siguienteecuación normal:

n∑

i=1

1(xiβ0) · (minyi, 2xiβ0 − xiβ0)x′i = 0 (4.1)

Cabe hacer notar que β0 no es observado, pero Powell hace uso de la noción de “autoconsistencia” para demostrar que un estimador de β0, consistente al ser solución de (38)nos entrega un estimador consistente del verdadero β.

En términos prácticos, es relativamente sencillo encontrar un estimador consistente deβ, el que denominaremos β al usar el siguiente algoritmo iterativo:

1. Calcular un estimador inicial β por OLS a partir de los datos originales.

2. Calcular el valor predicho para todas las observaciones

si el valor predicho es negativo, hacer la observación como missing.

si el valor de la variable dependiente es mayor que dos veces el valor predicho,entonces reemplazar el valor de la variable dependiente por 2xiβ

3. Correr un OLS sobre los nuevos datos alterados.

4. Volver a realizar la rutina hasta que el valor de β ya no cambie.

La matriz de varianza de β puede ser determinada de la siguiente forma. Definiendo :

Cn =1n·

n∑

i=1

E[1(−xiβ0 < εi < xiβ0) · x′ixi] (4.2)

y por otra parte :

Dn =1n·

n∑

i=1

E[1(xiβ0 > 0) ·minε2i , (xiβ0)2x′ixi] (4.3)

Page 117: Microeconometr a Aplicada JM Benavente

4.5. MODELOS ALTERNATIVOS PARA CENSURA 117

Así la matriz de varianza covarianza puede ser estimada como :

C−1DC−1

donde C y D son estimadores consistentes de (39)y (40) respectivamente.

Una característica atractiva de este método es que es robusta ante la presencia deheterocedasticidad siempre y cuando la distribución del error sea simétrica. Este méto-do es más útil, es decir, eficiente, mientras menor sea el grado de censura y mayor eltamaño de la muestra.

Page 118: Microeconometr a Aplicada JM Benavente

118 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

Page 119: Microeconometr a Aplicada JM Benavente

4.5. MODELOS ALTERNATIVOS PARA CENSURA 119

Page 120: Microeconometr a Aplicada JM Benavente

120 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

4.5.2. Censured Least Absolute Deviations (CLAD)

Esto es una forma alternativa de estimar Tobit simple cuando existen problemas conlos supuestos. Este estimador es un poco menos restringido con respecto a los errorescomparado con el STLS.

De nuevo supondremos que y∗ puede ser observada en el modelo.

y∗ = xβ + ε

así:

E[y∗i |xi] = xiβ + E[εi/xi] = xiβ

su estimador consistente puede ser obtenido por OLS, el cual es la solución al siguienteprograma :

mınβ

[n∑

i=1

(y∗i − xiβ)2]

esto es β es aquel estimador que minimiza la suma de errores al cuadrado.

Suponga que en vez de minimizar los errores al cuadrado, se minimiza la suma delvalor absoluto de los errores.

mınβ

[n∑

i=1

|y∗i − xiβ|]

este estimador se conoce como desviaciones absolutas mínimas (LAD). Otra forma deescribir este modelo es:

mınβ

n∑

i=1

(y∗i − xiβ) · signo(y∗i − xiβ)

donde signo (·) toma el valor de 1, 0, -1 dependiendo si el argumento es positivo, ceroo negativo. La ecuación normal correspondiente es:

n∑

i=1

x′i · signo(y∗i − xiβ) = 0

de esta manera, es el signo de los residuos y no su magnitud lo que importa paradeterminar β. Como puede inferirse, la regresión LAD corresponde a la regresión sobrela mediana de la muestra ya que :

q50[y∗i |xi] = xiβ + q50[εi|xi] = xiβ

Page 121: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 121

No olvidar que OLS corresponde a la regresión sobre la media, la cual será inconsistenteen un modelo de regresión censurada pues :

E[max0, y∗i |xi] = xiβ + E[ε|xi, εi > −xiβ] 6= xiβ

La mediana, a diferencia de la media, no es afectada por la transformación max. Deesta manera, se puede demostrar que: (ver Powell 1984)

q50[max0, y∗i |xi] = xiβ + q50[ε|xi, εi > −xiβ] = xiβ

ello es cierto independientemente de la forma de los errores. En particular si son hete-rocedásticos y/o no normales.

La representación práctica de este estimador exige regresiones cuantiles en q = 50,qreg en STATA). Veamos esto:

1. Regresione por LAD (o qreg en q = 50) sobre la muestra entera para generar unvalor inicial de β.

2. Use este estimador para sacar las observaciones para las cuales su predicción esnegativa.

3. Regresione por LAD sobre esta nueva muestra y encuentre un nuevo estimador deβ.

4. Repita (b) y (c) hasta que β converja.

Notar que pueden existir problemas con el mínimo global. Así, deberá probar distintosvalores iniciales. La matriz de covarianzas se estima por bootstrap del proceso completo.

4.6. Modelos para Sesgo de Selección

Recordemos que la principal diferencia entre un modelo censurado y un modelo de sesgoselección (censura accidental) estaba en que la presencia de la observación en la muestra(sólo la variable dependiente) estaba determinada por variables que habían sido recogi-das en la muestra.

Para ilustrar este último punto veamos el siguiente modelo :

y2i = ziδ + v2i (a)y1i = xiβ + v1i si y2i > 0 (b)y1i no obs. si y2i ≤ 0D2i = 1 si y2i > 0D2i = 0 si y2i ≤ 0

Page 122: Microeconometr a Aplicada JM Benavente

122 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

La ecuación para y1i es una ecuación de regresión común. Sin embargo, bajo ciertascondiciones no observamos la variable dependiente de esta ecuación. Denotaremos siobservamos o no esta variable mediante una variable dummy D2i. La observación de lavariable dependiente y1i es función del valor de otra regresión : la ecuación de selecciónque relaciona la variable latente y2i con algunas características observadas zi). Puedeque las variables en xi y zi puedan traslaparse incluso ser las mismas aunque esto puedegenerar problemas de identificación.

Algunos ejemplos:

1. Oferta de trabajo de madres casadas: primera ecuación son las horas y la segundaes sobre la diferencia de salario de mercado y el salario de reserva no observado.

2. Relación entre tamaño de la firma y crecimiento: primera ecuación relaciona crec-imiento y tamaño y la segunda describe la probabilidad de salida entre el primery el segundo período.

4.6.1. Análisis del Sesgo

Suponga que estimamos la ecuación (b) por OLS usando solo los datos observados.Existe algún sesgo en los βs ?.

Sin asumir una distribución en particular para los errores v, el valor esperado de y1

condicional en x y la probabilidad de observar y1 viene dado por :

E[y1|x, y2 > 0] = xβ + E[v1|v2 > −zδ]

De esta manera, β será insesgado si y solo si v1 es independiente de v2 lo que implicaque los datos están “aleatoriamente” faltantes o que el proceso de selección es ïgnor-able"(caso poco realista).

Ahora, asumiremos que v1 y v2 están distribuidos conjuntamente f(v1, v2, θ) dondeθ es un conjunto finito de parámetros : media, varianza y correlación entre las variablesaleatorias.

Usando Bayes tenemos que el valor esperado de v1 condicional es el siguiente :

E[v1|v2 > −ziδ] =

∫∞−∞

∫∞−ziδ

v1 · f(v1, v2, θ)dv2dv1∫∞−∞

∫∞−ziδ

f(v1, v2, θ)dv2dv1(4.4)

= λ(zδ, θ)

De esta manera se desprende que la esperanza condicional de y1 dado x y la probabilidadde observar y1 será igual a la regresión común de y1 en función de xβ mas una funciónno lineal de los regresores z de la ecuación de selección, la cual no tendrá una mediaigual a cero (análogo a IMR). De esta forma, y con respecto a las estimaciones de losparámetros en el modelo de sesgo de selección, se puede determinar lo siguiente:

Page 123: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 123

1. El intercepto estimado será sesgado pues la media del término de error no es cero.De hecho es igual a Ei[λ(ziδ; θ)].

2. Si las variables x y z no son distribuidas completamente independientes, es decir,tienen variables en común o están correlacionadas, los coeficientes de pendienteestimados estarán sesgados pues existe un problema de omisión de variable enla regresión. La variable omitida es λ(ziδ; θ) la cual está correlacionado con lasvariables incluidas x.

Notar que aunque x y z sean independientes, el hecho de que los datos faltantes no losean aleatoriamente introduce heterocedasticidad al término de error y así OLS no eseficiente.

Existen a lo menos dos formas de solución al problema de sesgo de selección dentrodel mundo paramétrico.2 Uno es el método en dos etapas atribuible a Heckman (1979)y el otro es mediante Máxima Verosimilitud (Amemiya 1981). Antes de analizar estosdos métodos en detalle discutiremos previamente las propiedades de una distribuciónnormal bivariada truncada.3

4.6.2. Propiedades de una Distribución Normal Bivariada Truncada

Asumiendo que la distribución conjunta entre dos variables aleatorias x e y es normalbivariada, esto puede ser especificado de la siguiente manera :

(xy

)∼ N

[(µx

µy

),

(σ2

x ρσxσy

ρσxσy σ2y

)]

donde ρ es la correlación entre ambas variables aleatorias, y en consecuencia ρσxσy es lacovarianza entre ambas variables. Una de las tantas ventajas de la distribución normales que la distribución condicional también es normal. Veamos esto :

f(y|x) ∼ N

(µy + ρ · σxσy

σ2x

· (x− µx), σ2y(1− ρ2)

)

o bien, estandarizando, queda :

f(y|x) ∼(

y − µy − ρ · σxσy

σ2x· (x− µx)

σy

√1− ρ2

)∼ N(0, 1)

Así, la distribución de y dado x es normal con una media mayor que su media sincondicionar µy si las variables x e y están positivamente correlacionados y mientras xsea mayor que su media sin condicionar. Análogamente, la media condicional de y esmenor que su media incondicional cuando x e y están negativamente correlacionados yx es mayor que su media. 4 En general, y condicional en x tiene una varianza menor

2ya discutiremos mas adelante aquellas provenientes del mundo semi paramétrico3la normal truncada univariada fue discutida previamente4lo contrario se cumple cuando x es menor a su media

Page 124: Microeconometr a Aplicada JM Benavente

124 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

que la distribución incondicional de y independientemente de la correlación entre x e y.

Usando este resultado podemos mostrar que la esperanza condicional de y, condicionalque x es mayor que un valor dado, tiene la siguiente forma:

E[y|x > a] = µy + ρ · σy · λ(

a− µx

σx

)

donde

λ(µ) =φ(µ)

1− Φ(µ)

=φ(−µ)Φ(−µ)

a λ(µ) se le conoce como el hazard rate de x evaluado en a.

4.6.3. Heckman (1979) two-step estimator

Este autor asume que existe una distribución normal bivariada de los errores en lasecuaciones (a) y (b) con la siguiente estructura :

(v1

v2

)∼ N

[(00

),

(σ2

1 ρσ1

ρσ1 1

)]

de esta forma, la ecuación de selección se convierte en un modelo Probit. Por su parte,recordemos que la varianza de la distribución en la ecuación Probit puede ser normal-izada a uno sin pérdida de información ya que la escala de la variable dependiente noes observada.

De esta manera, usando el supuesto de normalidad y las propiedades de la normalbivariada truncada podemos calcular E[y1|y2 > 0] como sigue:

E[y1|y2 > 0] = xβ + E[v1|v2 > −zδ] (4.5)

= xβ + ρσ1λ

[−zδ

1

]

= xβ + ρσ1φ(−zδ)

1− Φ(−zδ)

= xβ + ρσ1φ(zδ)Φ(zδ)

ya que el IMR siempre es positivo, la regresión de y sobre x estará sesgada dependiendodel valor de ρ.Así la magnitud del sesgo dependerá de la magnitud de la correlación entre los errores(ρ), la varianza relativa del error (σ1) y la severidad del truncamiento (IMR es mayor

Page 125: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 125

cuando zδ es menor). Así, si ρ = 0 entonces no habrá sesgo de selección.

Cabe señalar que en el caso del Tobit simple, donde y1 es igual a y2, ρ = 1 y porlo tanto se tiene que el valor esperado condicional es :

E[y1|y1 > 0] = xβ + σ1 · φ(xβ)Φ(xβ)

con el sesgo siempre hacia abajo.

Estimación utilizando el método de Heckman

La idea es utilizar la especificación en (42)

E[y1i|y2i > 0] = xiβ + ρ · σ1 · φ(ziδ)Φ(ziδ)

y estimar β en (b) por OLS incluyendo una medida de φ(ziδ)Φ(ziδ)

en dicha ecuación.

Con este fin Heckman (1979) sugiere realizar los siguientes pasos:

1. Estimar δ consistentemente usando un probit para la probabilidad de observar losdatos en función de z.

2. Calcular su valor ajustado para la función índice o variable latente y2i = ziδ ycalcular enseguida el IMR, λi como función de y2i.

3. Incluir λi en la regresión de y1i sobre xi para aproximar λ(ziδ). El coeficiente deλi será una medida de ρσ1 y de esta forma una estimación de ρ y σ1 puede serobtenida a partir de allí.

Los valores resultantes (estimadores) de β, ρ y σ1 son consistentes pero asintóticamenteineficientes bajo el supuesto de normalidad. La gran gracia de este método es su sencillezpuesto que sólo se necesita un probit y un OLS.

No obstante lo anterior, existen a lo menos tres aspectos que se deben considerar conrespecto a este estimador en dos etapas:

1. El estimador del error estándar convencional en (a) es inconsistente pues el modelode regresión en (42) es intrínsecamente heterocedástico debido a la selección. Unaforma de solucionar esto es mediante el uso de los estimadores de los erroresestándar robustos los cuales son, al menos consistentes.

2. El método no impone la condición que |ρ| ≤1 lo cual esta implícitamente asumidoen el modelo. Esta condición es a menudo violada.

3. El supuesto de normalidad es necesario para la consistencia de los estimadores.

Page 126: Microeconometr a Aplicada JM Benavente

126 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

4.6.4. Estimación por Máxima Verosimilitud

Cabe señalar que uno de los principales problemas que existían por ese entonces era lacapacidad computacional para estimar modelos no lineales sofisticados. De esta man-era, el tener acceso a un paquete computacional que pueda maximizar la función deverosimilitud con respecto a un vector de parámetros dado un conjunto de datos per-mite salvar esta valla técnica. De esta forma, quizá el desafío más grande sea definir lafunción de verosimilitud acorde al problema econométrico que se nos presenta.

Para el caso particular del Tobit generalizado (Tobit tipo II según la nomenclaturade Amemiya 1985), primero se debe especificar el modelo completo como lo hemos he-cho en (a) y (b). A su vez, es necesario incluir una especificación general y completa dela distribución de las variables aleatorias en el modelo, como lo hicimos en (42).

El paso siguiente es dividir las observaciones en grupos de acuerdo al tipo de datoobservado. Considerando el problema de sesgo de selección, cada grupo tendrá una for-ma distinta de verosimilitud. En este caso puntual tenemos dos tipos de observaciones.

1. Aquellas donde y1 es observada, para lo cual sabemos que y2 > 0 se cumple. Paraestas observaciones, la función de verosimilitud es la probabilidad del evento y1 yque también ocurra que y2 > 0.

P (y1i, y2i > 0|x, z) = f(y1i) · P (y2i > 0|y1i, x, z)= f(v1i) · P (v2i > −ziδ|v1i, x, z)

=1σ1· φ

(y1i − xiβ

σ1

)·∫ ∞

−ziδf(v2i|v1i)dv2i

=1σ1·(

y1i − xiβ

σ1

)·∫ ∞

−ziδφ

[v2i − ρ

σ1(y1i − xiβ)√1− ρ2

]dv2i

=1σ1· φ

(y1i − xiβ

σ1

)·[1− Φ ·

(ziδ + ρ

σ1(y1i − xiβ)√1− ρ2

)]

=1σ1· φ

(y1i − xiβ

σ1

)· Φ ·

(ziδ + ρ

σ1(y1i − xiβ)√1− ρ2

)

Así, la probabilidad de una observación para la cual observamos efectivamente susdatos es la densidad en el punto y1 multiplicada por la probabilidad condicionalpara y2 dado el valor de y1 fue observado.

2. Para aquellos y1 no observados, sabemos que y2 ≤ 0 y por ende no tenemosinformación independiente para y1.

P (y2i ≤ 0) = P (v2i ≤ −ziδ)= Φ(−ziδ)= 1− Φ(ziδ)

Page 127: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 127

De esta manera, juntando ambos términos, se tiene que la loglikelihood de la muestracompleta de observaciones será la siguiente:

logL(β, δ, ρ, σ1; datos) =N0∑

i=1

log [1− Φ(ziδ)]

+N∑

i=N0+1

[−logσ1 + logφ

(y1i − xiβ

σ1

)+ logΦ

(ziδ + ρ

σ1(y1i − xiβ)√1− ρ2

)]

donde existe N0 observaciones para las cuales no observamos y1 y N1 observaciones,donde si lo hacemos, con N = N0 + N1. Los parámetros estimados pueden obtenerse almaximizar la función de verosimilitud con respecto a sus argumentos.

Estos estimadores serán consistentes y asintóticamente eficientes bajo el supuesto denormalidad y homocedasticidad de los términos de error no censurados. 5 Aunque unode los problemas que tiene la estimación por ML es que la función no es estrictamentecóncava y en consecuencia, no necesariamente existe una única solución.

5Ver Amemiya 85 para la demostración.

Page 128: Microeconometr a Aplicada JM Benavente

128 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

Page 129: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 129

Page 130: Microeconometr a Aplicada JM Benavente

130 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

Page 131: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 131

4.6.5. Pruebas de normalidad en el Tobit generalizado

Como habíamos visto, el modelo de Tobit generalizado (tipo II) pueder ser escrito dela siguiente forma :

y∗1i = x′1iβ1 + ε1i

Page 132: Microeconometr a Aplicada JM Benavente

132 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

yi =

y∗1i si y2i > o0 otro caso Di =

1 si Y2i > 0;0 otro caso

con

y∗2i = x′2iβ2 + ε2i

La segunda etapa en el modelo de Heckman está basado en:

y1i = x′1iβ1 + E(ε1i|Di = 1) + ε1i

Ahora, si (ε1i, ε2i) se distribuyan normal bivariada, entonces se tiene que :

E(ε1i|Di = 1) =σ12

σ2λi, con λi =

φ(

x2iβ2

σ2

)

φ(

x′2iβ2

σ2

)

Notar que generalmente se normaliza σ2 = 1 el cual no afecta a los parámetros.

Prueba de Normalidad de la distribución marginal de ε1i

Partiremos con una expresión generalizada de distribución conjunta para los erroresde ambas ecuaciones desarrolada por Gallant y Nychka (Econométrica 1987).

f(ε1, ε2) =

K∑

k=0

J∑

j=0

γkj · εk1 · εj

2

· b(ε1, ε2)

donde b es la densidad normal bivariada con γ00 = 1. Si K = 0, reemplazando en laexpresión anterior se obtiene lo siguiente :

E(ε1i|Di = 1) = E(ε2i|Di = 1) + γ01E(ε2i|Di = 1) + .......γ0jE(εj2i|Di = 1)

Los cuatro primeros términos del lado derecho, corresponden a:

λi, 1− Zi · λi, λi · (Z2i + 2), 3− 3Zi · λi − Z3

i · λi

donde

Zi =X ′

2iβ2

σ2y λi =

φ(Zi)φ(Zi)

respectivamente.

Pagan y Vella (1989) basada en esta descomposición, sugieren agregar Zji · λi con

(j = 1, 2, 3) a la ecuación en el segundo paso del estimador de Heckman y probar por susignificancia conjunta. En otras palabras, sugieren agregar el IMR, IMR2 y IMR3 a la

Page 133: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 133

ecuación de intensidad y testear su significancia conjunta. Si se rechaza entonces no ex-iste sospecha de no normalidad y por lo tanto los estimadores del Tobit son consistentes.

Cabe recordar que en el modelo de Heckman la distribución de los errores de la ecuaciónde selección, aquella que se estima utilizando un Probit, se asume normal. De esta for-ma, una prueba indirecta acerca de la validez de los estimadores de Heckman es testearla normalidad de los errores en el Probit mediante residuos generalizado.

Pues bien, si los errores son normales en el Probit o la expansión de IMR’s en la ecuaciónde intensidad sugerida por Pagan y Vella no son significativos, entonces el modelo Tobitgeneralizado debería estimarse por ML.Recordemos que la estimación de Heckman es ineficiente comparada con ML y segúnDavidson y Mackinnon, representa una buena prueba para estudiar la presencia de sesgode selección pero no para estimar parámetros.

4.6.6. Estimación modelo de sesgo de selección con errores no nor-males

La pregunta que surge ahora es qué pasa si las pruebas de normalidad son rechazadas.Cabe recordar que debido a la no linealidad del modelo, el rechazo de f(ε1, ε2) se dis-tribuya normal bivariada significa que los estimadores tanto de la ecuación de intensidad(β1) como aquellos de la ecuación de selección (β2) serán inconsistentes. Ya sea si fueronestimados por ML o bien por Heckman).

Existen dos formas generales para solucionar este problema. Una es seguir en el mundoparamétrico, asumiendo que se conoce la distribución de los errores en ambas ecua-ciones. Y la otra es moverse al mundo no paramétrico, estrictamente hablando, al semi-paramétrico.Veamos cada uno de ellos.

Mundo paramétrico

Supongamos que ε2, los errores de la ecuación de selección no son normales. Bajo loque se denomina "Modelo de Selección Generalizado"podemos redefinir el término delerror como sigue:

y∗1i = x′1iβ1 + σ1ε01i

y∗2i = x′2iβ2 + ε02i

Suponga que ε02i tiene una distribución F conocida. Entonces, podemos obtener una

nueva variable normal al aplicar la siguiente función sobre los errores originales :

ε∗2i = J(ε02i) = Φ−1 · F (ε0

2i)

y, en consecuencia :

ε∗2i ∼ N(·)

Page 134: Microeconometr a Aplicada JM Benavente

134 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

También se puede relajar el supuesto de normalidad de ε∗1i. La única condición es queF sea conocida y continua.

De esta forma, el modelo de Heckman en dos etapas tiene la siguiente forma:

y1i = x′1iβ1 + σ1 · ρ ·[φ(J(x′2iβ2))F (x′2iβ2)

]+ νi (4.6)

con ρ =cor(ε01i, ε

∗2i) la correlación entre los errores.

Notar que las probabilidades ajustadas de la primera etapa son F (x′2iβ2) y en con-secuencia, el término entre corchetes en (43) será:

φ[Φ−1(pi)]pi

con pi = F (x′2iβ2)

Entre otras propiedades de esta forma de estimación esta que puede ser aplicado paraun caso mas general, donde existan mas de dos alternativas. Por ejemplo, a través deun multinomial logit y se calcula las probabilidades predichas para cada alternativa yluego se corrige la ecuación de intensidad utilizando la corrección propuesta para cadaalternativa. No obstante, solo se puede aplicar si F es conocida y continua.

Mundo No Paramétrico

La mayoría de los modelos no paramétricos continúan la idea propuesta por Heckmande estimación en dos etapas. De esta forma, la segunda etapa viene definida por:

y1i = x′1iβ1 + E(ε1i|Di = 1) + ν1i

donde se relaja el supuesto paramétrico sobre el término de corrección, es decir, la nor-malidad de ε2i.

De esta manera tenemos :

y1i = x′1iβ1 + λ(x′2iβ2) + ν1i

donde si asumimos normalidad en ε2i entonces λ(·) es conocida e igual al IMR. Sinrealizar ningún supuesto distribucional lo único que sabemos es que λ depende de x′2iβ2

λ(x′2iβ2) = E(ε1i|ε2i > −x′2iβ2)

Existen dos formas dentro del mundo semiparamétrico para estimar estos casos:

Pensar en λ como un ruido.

Aproximar λ.

Page 135: Microeconometr a Aplicada JM Benavente

4.6. MODELOS PARA SESGO DE SELECCIÓN 135

En general, existen mas formas de tratarlo, pero éstas son las mas frecuentes en la lit-eratura.

1. Tratar a λ como un ruido.La idea es tratar a este parámetro como un ruido y por lo tanto hay que trtarde eliminarlo. Este tratamiento se expone en Robinson (Econometrica 1988) ytambién en Pagan y Ullah (p. 304 y 198) Teniendo la ecuación de nivel :

y1i = x′1iβ1 + E(ε1i|xi, y∗2i > 0) + ν1i (4.7)

y1i = x′1iβ1 + g(x′2iβ2) + ν1i (4.8)

la idea es aplicar el valor esperado |E(·|x′2iβ2), obteníendose lo siguiente :

E(y1i|x′2iβ2) = E(x′1i|x′2iβ2) · β1 + g(x′2iβ2) (4.9)

Así, restando los dos últimas ecuaciones (45)-(46) se obtiene lo siguiente :

y1i −E(y1i|x′2iβ2) = [x′1i − E(x′1i|x′2iβ2)] · β1 + ν1i

ecuación que tiene las propiedades de un modelo de regresión lineal con variabledependiente igual a :

y1i − E(y1i|x′2iβ2)

Notar que :

g(x′2iβ2) = E(y1i|x′2iβ2)− E(x′1i|x′2iβ2) · β1

Un estimador no paramétrico de β será (ver Pagan y vella pág. 199)

β1 =

[n∑

i=1

(x1i − m12i)(x1i − m12i)′]−1 [

n∑

i=1

(x1i − m12i)(y1i − m2i)

]

donde m12i y m2i son los estimadores por Kernel de

m12i = E(x1i|x2i · β2) y m2i = E(y1i|x′2iβ2)

Todo lo anterior suponiendo que β2 es conocido. De no serlo también puede serestimado no paramétricamente a partir de la ecuación de selección. Ver Pagan yVella p.305).

Adicionalmente, se tiene que :

g(x′2iβ2) = m2i − m′12iβ1

Page 136: Microeconometr a Aplicada JM Benavente

136 CAPÍTULO 4. VARIABLE DEPENDIENTE LIMITADA

2. La otra forma es tratar de aproximar λLee (Journal of Econometrics,1994) plantea la siguiente relación :

λ(x′2iβ2) ≈J∑

j=1

αj · bj · (x′2iβa2 )

donde, bajo ciertas restricciones, esta expresión es equivalente al test de Pagan yVella (1989) donde se agregan potencias del IMR en la ecuación de intensidad.

Es decir:

y1i = x′1iβ1 + IMR + IMR2 + IMR3 + ν1i

o bien,

φ(x′2iβ2)

Φ(x′2iβ2)· (x′2iβ)j (j = 1, ..., 3)

Ver resultados con datos de Mroz.Existe una forma alternativa de estimar el modelo Tobit Generalizado en formano paramétrica y es por Máxima Verosimilitud. Dado que el supuesto clave aquíes acerca de la distribución conjunta de los errores tanto de la ecuación de se-lección como la de intensidad f(ε1i, ε2i) Gallant y Nychka proponen la siguienteaproximación para la distribución conjunta :

f(ε1i, ε2i) =

M∑

j=0

M∑

k=0

γjk · εj1i · εk

2i

exp−(ε1i|δ1)2 − (ε2i|δ2)2

la cual es incorporada en la función de ML y estimada posteriormente. Para de-talles, ver Pagan y Vella p.311

Page 137: Microeconometr a Aplicada JM Benavente

Capítulo 5

Métodos Basados en Simulación

5.1. Introducción

La estimación por Máxima Verosimilitud (ML) asume que la función de densidadf(y|X, θ) tiene una forma cerrada. Por su parte, la distribución del estimador se basaen la linealización de las ecuaciones de estimación.

Si f(y|X, θ) no tiene una forma cerrada (o su solución) aún así θ puede ser obtenido porML. En este caso, se necesitaría una buena aproximación de f(y|X, θ) por f(y|X, θ).De esto precisamente tratan estas notas.

5.2. Ejemplo General

Considere el siguiente caso :

f(y|X, θ) =∫

h(y|X, θ,u)g(u)du (5.1)

donde las formas funcionales de h(·) y g(·) son conocidas y u denota una variable aleato-ria (no necesariamente un error) el cual tiene que ser integrado.

De no existir una solución analítica para la integral, es decir, no existe una forma oexpresión cerrada de la función de verosimilitud, entonces aquellos métodos basados ensimulación aparecen como una buena solución.

5.2.1. Aplicación : Modelos de Variable Dependiente Limitada (LDV)

Suponga que tiene un problema el que puede ser caracterizado por tres alternativasexcluyentes de elección. En este caso sea Ui con i : 1, 2, 3 la utilidad derivada de cadaelección las que NO son observadas. Aunque observamos y = 1, 2, 3 dependiendo decada elección.

137

Page 138: Microeconometr a Aplicada JM Benavente

138 CAPÍTULO 5. MÉTODOS BASADOS EN SIMULACIÓN

Suponga ahora que la alternativa 1 es escogida pues tiene para quien decide, un may-or nivel de utilidad. Si definimos la función de (masa) probabilidad p1 ≡ Pr[y = 1]entonces se deriva que si esta alternativa fue elegida :

p1 = Pr[U1 − U2 ≥ 0, U1 − U3 ≥ 0]= Pr[(x1 − x2)′β + ε1 − ε2 ≥ 0, (x1 − x3)′β + ε1 − ε3 ≥ 0

bajo el supuesto de que la utilidad Uj = x′jβ + εj , j = 1, 2, 3 con el vector x capturandolos diferentes atributos de cada alternativa. Adicionalmente, εε(−∞, +∞). Si se defineu1 = U1 − U2 y u2 = U1 − U3 se tiene entonces que :

p1 =∫ ∞

0

∫ ∞

0g(u1, u2)du1du2 (5.2)

donde g(u1, u2) o mas formalmente g(u1, u2|X, θ) es una densidad bivariada, o, equiva-lentemente :

p1 =∫ ∞

−∞

∫ ∞

−∞1[u1 ≥ 0, u2 ≥ 0]g(u1, u2)du1du2 (5.3)

con 1[·] la función indicador.

Notar que la ecuación (3) es del tipo particular de la ecuación (1). Dado que la in-tegral es sólo sobre parte del rango de (u1, u2) tal como esta en la ecuación (2) unasolución cerrada puede que no exista. No debemos olvidar que

∫ ∫g(u1, u2)du1du2 = 1

si la integración es sobre todo el rango de (u1, u2)

En particular, si los errores ε están distribuídos de forma Normal tal como es el ca-so del Modelo Multinomial Probit, la integral en la ecuación (2) es sobre el ortantepositivo de una distribución Normal Bivariada (y no sobre (−∞,+∞). Así, la soluciónpara p no tiene una forma cerrada y luego no existe una expresión manejable (analíti-camente) para la densidad f(y|X, θ). Notar que esta situación se hace mas complejaentre mas alternativas existan. En particular, si existen m alternativas excluyentes, laintegral tiene dimensión m− 1.

5.2.2. Estimación por Maxima Verosimilitud

Asuma independencia entre las observaciones y que y tiene una densidad condicionaldel tipo f(y|X, θ). Dado que, como en el ejemplo anterior, la estimación por ML no esfactible ya que no existe una expresión cerrada para f(y|X, θ) la que sea definida poruna integral que no se puede simplificar, podemos entonces reemplazar dicha integralpor una aproximación numérica de ésta, la que denotaremos por f(y|X, θ). De estaforma lo que deberemos maximizar es :

lnLN (θ) =N∑

i=1

lnf(yi|xi, θ)

Page 139: Microeconometr a Aplicada JM Benavente

5.3. MÉTODOS PARA CALCULAR INTEGRALES 139

con respecto a θ.

Este estimador θSML será consistente y tendrá la misma distribución asintótica del MLEsi f(y|X, θ) es una buena aproximación de f(y|X, θ). Las condiciones de primer ordenresultantes son generalmente no lineales y deben ser resueltas por métodos numéricos.

Dado que f(yi|xi, θ) varía con i y con θ, la evaluación de la gradiente usando lasderivadas numéricas requerirá de N ·q ·r evaluaciones, con N el tamaño de la muestra, qla dimensión de θ y con r el número de iteraciones. Todo lo anterior debe ser multiplicadopor el número de evaluaciones necesarias para calcular una adecuada aproximación dela integral f(y|X, θ). De allí la importancia de los métodos de evaluación como tambiénacerca de la capacidad computacional necesaria para realizar este trabajo.

5.3. Métodos para Calcular Integrales

Considere la siguiente integral :

I =∫ b

af(x)dx

con la función f(·) continua en [a, b] pudiendo ser estos límites infinito. Existen dosmecanismos generales para calcular el valor de dicha integral, a saber :

integración numérica o cuadratura (midpoint rule y Simpson rule) la que se uti-lizan sobretodo cuando la integral tiene pocas dimensiones.

integración por muestreo de MonteCarlo, la que es recomendable cuando las di-mensiones de la integral son considerables.

Estos métodos serán revisados en ayudantía.

5.4. Estimación por ML Simulado

Consideremos ahora estas ideas para la estimación por ML cuando no se cuenta conuna expresión analítica para la densidad. El resultado clave es que la simulación puedeentregar un estimador con la misma distribución que el MLE bajo el supuesto que elnúmero de muestras de simulación (sumulation draws) hechas para calcular la densidadpara cada observación tiene a infinito.

Suponga que la densidad condicional para una observación en particular incluye unaintegral que no se puede manejar en forma analítica tal como en (1):

f(yi|xi, θ) =∫

h(yi|xi, θ,ui)g(ui)dui

la que debe ser estimada ya que no tiene una forma cerrada de solución (manejable).

Page 140: Microeconometr a Aplicada JM Benavente

140 CAPÍTULO 5. MÉTODOS BASADOS EN SIMULACIÓN

El simulador directo (direct simulator) de f(yi|xi, θ) puede ser el estimador de Mon-teCarlo de dicha integral :

f(yi|xi, uiS , θ) =1S

S∑

s=1

h(yi|xi, θ, usi ) (5.4)

donde uiS es un vector de S draws usi , s = 1 . . . S los que son independientes de una fun-

ción g(ui). Esto lo que hace es simplemente promediar h(yi|xi, θ, usi sobre S draws. Se

puede demostrar (ver ayudantía) que fi es un estimador insesgado para fi y consistentepara fi a medida de que S → ∞. Notar que existen otros mecanismos que permitenque fi se aproxime rápidamente a fi para un número finito de draws o muestras (lo queveremos mas adelante).

Dada la independencia de i, sabemos que MLE θML maximiza lnLN (θ) =∑N

i=1 lnf(yi|xi, θ).En cambio, el estimador maximum simulated likelihood (MSL)θMSL maximiza ellog likelihood basado en una estimación simulada de la densidad :

lnLN (θ) =N∑

i=1

lnf(yi|xi, uiS , θ)

Se puede demostrar que θMSL es asintóticamente equivalente a θML si N, S → ∞ yademás

√NS → ∞. Por otra parte se puede demostrar que (Gourieroux y Monfort,

1991) :√

N(θMSL − θ0) →d N(0,A−1(θ0))

Veamos un ejemplo. Suponga que yi ∼ N(θi, 1) donde el parámetro escalar θi varía entreindividuos y con θi = θ + ui con ui representando una heterogeneidad no observadapero con distribución conocida. De este modo, la densidad de y condicional en u essimplemente :

f(y|u, θ) =1√2π

exp−(y − θ − u)2/2 (5.5)

Sin embargo, la inferencia sobre θ se basa sobre la densidad marginal de y (es decirmarginal con respecto a u), lo que requiere integrar sobre u. Supongamos que u tieneuna densidad como la siguiente :

g(u) = e−uexp(−e−u) (5.6)

distribución que no es simétrica con una media diferente de cero y que, por simplicidad,no depende de parámetros desconocidos.

En este caso la estimación de θ por ML no es posible ya que la distribución marginal def(y|θ, la que equivale a

∫f(y|θ, u)g(u)d(u) no tiene una solución analítica o cerrada.

Page 141: Microeconometr a Aplicada JM Benavente

5.4. ESTIMACIÓN POR ML SIMULADO 141

De esta forma podemos usar el estimador MSL usando el simulador directo tal comofue presentado en (4), de tal forma que el θMSL maximiza la siguiente expresión :

lnLN (θ) =1N

N∑

i=1

ln(1S

S∑

s=1

1√2π

exp−(yi − θ − usi )

2/2)

donde usi , s = 1 . . . S son draws the una función de densidad extreme value g(ui) tal

como se plantea en (6).De esta manera, el estimador MSL, θMSL, es la solución de lassiguientes condiciones de primer orden :

∂lnLN (θ)∂θ

=1N

N∑

i=1

∑Ss=1(yi − θ − us

i )exp−(yi − θ − usi )

2/2∑Ss=1 exp−(yi − θ − us

i )2/2 = 0

Cabe señalar que no existe una solución cerrada para θ pero con métodos iterativosestándares se puede calcular θMSL.

La consistencia del estimador MSL requiere que el número de draws S → ∞ ademásde la ya clásica condición de que ojalá el tamaño de la muestra N → ∞ también. LOanterior sugiere que el método es muy intensivo en tiempo computacional. Tal como semencionó, el estimador MSL es asintóticamente normal con unja varianza asintótica quepuede ser calculada de varias maneras, la mas fácil es mediante el estimador BHHH, elque tiene la siguiente estructura:

V [θMSL] = (N∑

i=1

[∑S

s=1(yi − θMSL − usi )exp−(yi − θMSL − us

i )2/2∑S

s=1 exp−(yi − θMSL − usi )2/2 ]2)−1

Para ilustrar este ejemplo, consideremos una muestra y1 . . . , y100 de tamaño N = 100generada a partir de un modelo como en (5) y (6) con θ = 1. La siguiente tabla entregalos valores estimados a medida que el número de draws aumenta.

Tabla 1. Resultados del Ejemplo.Número Simulaciones S = 1 S = 10 S = 100 S = 1000 S = 10000

Estimador MSL θ 1,1828 1,1845 1,1775 1,0594 1,0416Error Estándar (0,0968) (0,1093) (0,1453) (0,1448) (0,0091)

lnL(θ) -136,31 -174,38 -190,44 -192,43 -192,35

Tal como se observa, para pequeños S el MSL es inconsistente. Para valores de S =10,000 el estimador θMSL ya se ha estabilizado aunque el error estándar presenta unadinámica un opco errática para estabilizase al final. Por su parte, el log likelihood decrececonforme S crece aunque también eventualmente se estabiliza. Esta caída es esperadaya que el simulador es insesgado para f(y|θ) pero es sesgado hacia arriba para lnf(y|θ)ya que por la desigualdad de Jensen, se tiene que lnE[f(y|θ] > E[lnf(y|θ)] ya que lafunción logaritmo natural es globalmente cóncava.

Page 142: Microeconometr a Aplicada JM Benavente

142 CAPÍTULO 5. MÉTODOS BASADOS EN SIMULACIÓN

5.5. Otros Métodos

Si bien está fuera del alcance de este curso, existe al menos otros dos métodos de es-timación de parámetros basados en simulación. El primero de ellos se denomina MomentBased Simulation Estimation (MSM). Basado en el mismo principio que el estimadorGMM, la evidencia sugiere que si bien este estimador necesita menos draws S paraobtener un estimador insesgado de θ, los resultados muestran que este estimador MSMes bastante inestable.

Por ora parte, están aquellos estimadores basados en inferencia indirecta o conocidostambién como estimadores de matching de momentos (Gourieroux, Monfort y Renault,1993). La idea central es estimar los valores de θ mediante una modelo auxiliar y a partirde este y mediante una equivalencia entre los parámetros del modelo auxiliar y aquellosdel modelo original, obtener los parámetros originales. La idea es similar al estimadorpor minima distancia o también denominados Mínimos Cuadrados Asintóticos (ALS),ver también Smith(1993) o Gallant y Tauchen (1996).

5.6. Simuladores

Tal como se vio en ayudantía, estamos interesados en calcular la siguiente expresión:

I = E[h(x)] =∫

h(x)g(x)dx (5.7)

donde, por simplicidad, x es generalmente un escalar la cual se desea integrar (integrateout). En el contexto econométrico generalmente u está asociado como la variable a in-tegrar mientras que x denota el vector de regresores.

Se define un simulador como un método para calcular I. Existen variadas formasde hacerlo, mas allá del método de integración de Monte Carlo Directo presentado en lasección 4. La literatura sugiere un conjunto adicional de simuladores que han resultadoser mas estables, incluso reduciendo los errores estándar. Veamos algunos de ellos.

5.6.1. Simulador de Frecuencias

Este simulador normalmente utilizado en modelos discretos ilustra claramente partede los problemas que se pueden encontrar en simulaciones.

Suponga que h(x) es una función indicador la cual toma el valor de 1 si xεA y 0en otro caso. De esta forma, deseamos calcular la siguiente integral :

I =∫

1(xεA)g(x)dx

Page 143: Microeconometr a Aplicada JM Benavente

5.6. SIMULADORES 143

el estimador MC Directo tendría la siguiente estructura :

I =1S

S∑

s=1

1(xεA)

donde xs, s = 1 . . . S son S draws de la función g(x). Se denomina simulador de frecuen-cias, ya que estima I por frecuencias relativas por las cuales los S draws of xs caen enA. La principal aplicación de este método es justamente el ejemplo descrito en (2.1), elmodelo de elección discreta multinomial. Para el caso de tres alternativas de elección,la probabilidad p1 de escoger la primera alternativa viene dada por la expresión en laecuación (2), una integral sobre el ortante positivo de una distribución Normal bivaria-da. De esta manera, p1 es la proporción de draws (us

1, us2) de una Normal bivariada con

us1 ≥ 0 y us

2 ≥ 0.

A pesar de su uso, este estimador tiene una serie de limitaciones. En primer lugar,si se usa un numero moderado de replicaciones, el simulador promedio tiene una prob-abilidad importante de tener valores iguales a 0. Esto es un problema en el caso delSML ya que tenemos que calcular el logaritmo natural de esta cantidad. En segundolugar, este simulador no es diferenciable (y mas aún, discontinuo) con respecto a losparámetros θ que aparecen tanto en 1(xεA) y/o en g(x). Por lo que no pueden ser uti-lizadas las condiciones de primer orden introduciéndose problemas tanto teóricas comonuméricas.Y, en tercer lugar, este simulador no es tan bueno para aproximar cuando laprobabilidad asociada a una elección es baja. El simulador es muy inestable ante estassituaciones, or ejemplo si un pj es muy cercano a 0.

5.6.2. Simulador de Importancia Muestral

Este simulador parte de la idea de rescribir (7) de la siguiente manera :

I =∫

h(x)g(x)p(x)

p(x)dx (5.8)

=∫

w(x)p(x)dx (5.9)

donde p(x) es una densidad escogida de tal manera que (a) sea fácil obtener muestrasa partir de ella, (b) tenga el mismo soporte que el dominio original de integración y (c)donde h(x)g(x)/p(x) sea fácil de evaluar, que sea acotada y que tenga varianza finita.A partir de allí, se utiliza el estimador MC Directo de la integral basado en (8) y ya noen (7):

IIS =1S

S∑

s=1

w(xs)

donde xs, s = 1 . . . S son S draws de la función p(x) y nó de g(x). El término de impor-tancia de muestreo o muestral se utiliza ya que w(x) determina el peso o importancia

Page 144: Microeconometr a Aplicada JM Benavente

144 CAPÍTULO 5. MÉTODOS BASADOS EN SIMULACIÓN

de los diferentes puntos en el espacio muestral.

Entre sus ventajas está que es genera un estimador mas estable o suave si w(x) essuave con respecto a los parámetros a ser estimados. Mas aún, es muy útil si los drawsde g(x) son muy difíciles de obtener lo que es el caso cuando x es un vector de variablesaleatorias que están correlacionadas.

Dentro del grupo de estimadores de importancia muestral se pueden destacar el sim-ulador de Stern (Stern, 1992) y el simulador de GHK propuesto por Geweke (1992),Hajivassiliou y McFadden (1994) y Keane (1994), ambos serán estudiados en la tareade esta sección aplicados en un contexto de modelos de elección discreta.

5.7. Métodos para Generar Números Aleatorios

Como habrán notado, la obtención de los simuladores anteriormente discutidos,descansan en la necesidad de obtener draws de variables aleatorias. El objetivo de estasección es justamente revisar algunos métodos para obtener estos draws a partir de unadensidad como g(x) o p(x) la cual generalizaremos por f(x). Generalmente es suficienteobtener draws de una densidad uniforme o normal donde softwares populares comoExcel ya lo traen incorporado. Ello pues draws de distribuciones mas complejas puedenser obtenidos a partir de estas distribuciones mas comunes.

5.7.1. Generadores de Pseudo-Números Aleatorios Uniforme

Primero que nada, técnicamente los computadores tiene mecanismos determinísticospara generar estos números aleatorios. De allí que sean mejor descritos como pseudo.Ello sin embargo, constituye una ventaja ya que se pueden repetir las simulacionmesusando exactamente los mimos números a partir de una semilla (seed) determinada.

En particular, pseudo random números uniformes son obtenidos usando una secuen-cia determinística que imita las propiedades estadísticas de una secuencia de númerosaleatorios uniformes. Un buen generador se caracteriza por tener un período o ciclo largo,una distribución parecida a una uniforme y que produce draws independientes. Comoveremos mas adelante casi la totalidad de numeros pseudo aleatorios de cualquier dis-tribución pueden ser obtenidos a partir de transformaciones de numeros pseudo aleato-rios uniformes.

Un generador estándar de este tipo de secuencias tiene la siguiente estructura :

Xj = (kXj−1 + c)modm

donde el operador modulo amodb captura el residuo de la división entre a y b. Esteproceso genera una secuencia de números entre el 0 y m por lo que la realización de unavariable uniforme es Rj = Xj/m. El valor de X0 se necesita para iniciar el proceso elcual se denomina seed o semilla.

Page 145: Microeconometr a Aplicada JM Benavente

5.7. MÉTODOS PARA GENERAR NÚMEROS ALEATORIOS 145

5.7.2. Generadores de Variables no Uniformes

Tal como se mencionó, realizaciones o draws de variables aleatorias de otras dis-tribuciones incluida la Normal, pueden ser obtenidas a partir de realizaciones de uadistribución uniforme. Existen cuatro métodos para ello (1) Transformación Inversa,(2) Transformación, (3) métodos de Aceptación/Rechazo y (4) métodos Mixtos o deComposición. En esta sección veremos los dos primeros, dada su popularidad, dejandoal lector la revisión de los otros dos de ser su interés (para ello ver Ripley, 1987).

Transformación Inversa

Sea F (x) la función de distribución acumulada de la variable aleatoria continua x,de tal manera que :

F (x) = Pr[X ≤ x]

Dada una realización de la variable uniforme r, con 0 ≤ r ≤ 1, la Transformación Inversa:

x = F−1(r)

entrega un valor único de x ya que F es continua y monótona creciente.

Por ejemplo, la cdf de una exponencial es 1 − e−x. Resolviendo para r = 1 − e−x

se obtiene que x = −ln(1 − r). De esta manera si tenemos una realización de una dis-tribución uniforme [0, 1] y obtenemos un 0,64 entonces x = −ln(1− 0, 64) = 1, 0217.

Este método es particularmente fácil de utilizar si la forma analítica de F (·) es conoci-da y x es una variable aleatoria continua. Si no se cuenta con una forma cerrada estemétodo aún sigue siendo factible aunque costoso desde el punto de vista computacional,ya que comúnmente las inversas cdf’s están disponibles como funciones en algunos soft-wares.

El método puede ser extendido para el caso de variables aleatorias discretas con cdfque sean escalonadas o step. Por ejemplo, si x puede tomar valores enteros, entoncesuna realización uniforme r = 0, 312 genera una realización x = j donde el entero j estal que F (j − 1) < 0, 312 y F (j) ≥ 0, 312.

Un método estándar para generar realizaciones normales es el método de Box-Muller.Este utiliza el método de transformación inversa el cual es aplicado a dos variablesnormales independientes en vez de que a una sola. Específicamente, si r1 y r2 son iiduniformes entonces x1 =

√−2lnr1cos(2πr2) y x2 =√−2lnr1sen(2πr2) los que son iid

N [0, 1].

Page 146: Microeconometr a Aplicada JM Benavente

146 CAPÍTULO 5. MÉTODOS BASADOS EN SIMULACIÓN

Transformación

En algunos casos una variable aleatoria con una densidad deseada puede ser obtenidapor una transformación de una variable aleatoria cuya distribución sea fácil de obtenerrealizaciones. De esta manera realizaciones se pueden obtener mediante transforma-ciones simples.

Este método es muy útil cuando se requieren obtener realizaciones a partir de unadistribución Normal. Ejemplo incluyen el cuadrado de una normal estándar la que gen-era realizaciones Chi-Cuadrado ; o sumando el cuadrado de normales estándar la quegenera una realización Chi-Cuadrado con grados de libertad igual al número de nor-males estándar que se están sumando. Y así para el caso de la distribución F. Cabeseñalar que esto no es exclusivo de la distribución Normal.

5.7.3. Distribución Multivariadas

Realizaciones o draws de distribuciones multivariadas es en general un ejercicio mu-cho mas complicado que el caso de distribuciones univariadas, revisadas hasta ahora.Por ejemplo, los dos métodos de transformación y transformación inversa ya no puedenser aplicados en este contexto. En algunos casos el método de composición o mixtopueden ser útiles ya que muchas distribuciones multivariadas son distribuciones mixtas.

Existen a su vez métodos muy generales basados en los principios de la EstadísticaBayesiana, tales como el muestreo de Gibbs u otros métodos de Monte Carlo aplicadosa Cadenas de Markov. Estos métodos no serán discutidos en estas notas pero para ellector interesado puede partir leyendo Cameron y Trivedi, 2005 sección 13.5 como tam-bién en Gourieroux y Monfort, 1996 : 109-112.

Aquí nos concentraremos en el caso de la distribución Normal Multivariada. En es-ta situación, realizaciones de esta distribución pueden ser obtenidas de realizacionesde distribuciones normal estándar univariadas. Específicamente, suponga que deseamosobtener draws de una distribución normal q-variada o de q dimensiones, de tal maneraque x ∼ N(0, Σ). Esto puede ser realizado por l método de Transformación basado enel resultado de que la matriz Σ tenga una descomposición de Choleski del tipo :

Σ = LL′

donde L es una matriz triangular inferior. Por ejemplo, para q = 2, la descomposiciónde Choleski es la siguiente :

[σ11 σ12

σ12 σ22

]=

[l11 0l21 l22

] [l11 l21

0 l22

]

la que genera tres ecuaciones l211 = σ11, l11l21 = σ12 y la tercera, l221 + l222 = σ22

las que pueden ser resueltas para l11, l21 y para l22. Ahora bien, dada un vector ε,

Page 147: Microeconometr a Aplicada JM Benavente

5.7. MÉTODOS PARA GENERAR NÚMEROS ALEATORIOS 147

q-dimensional cuyos elementos tiene una distribución estándar Normal, no es muy difí-cil verificar que si ε ∼ N(0, I) entonces x = Lε la que es una combinación lineal denormales, tiene una distribución N(0, Σ). Específicamente, se tiene que E[Lε] = 0 yque V ar[Lε] = E[Lεε′L′] = LL′ = Σ. La clave de este método es que combinacioneslineales de distribuciones normales genera una variable que se distribuye también nor-mal (multivariada), resultado que, no obstante, no aplica para otras distribuciones nonormales.

Page 148: Microeconometr a Aplicada JM Benavente

148 CAPÍTULO 5. MÉTODOS BASADOS EN SIMULACIÓN

Page 149: Microeconometr a Aplicada JM Benavente

Capítulo 6

Modelos de Duración

En este capítulo nos concentraremos en el análisis y estimación de modelos en que lavariable dependiente es el tiempo en que un individuo, familia u hogar permanece en unestado determinado. En general, los se debe señalar que los modelos de duración puedenser vistos como de duración discreta o continua. Por fines explicativos se considerará elmodelo de datos de duración discreta.

A lo largo de este capítulo se recurrirá frecuentemente al caso del desempleo, comomodo de ejemplo. Entonces, es ilustrativo comenzar el estudio de los modelos de du-ración pensando en la duración del desempleo como variable a ser explicada.

6.1. Datos de Duración Discreta

Sea T una variable aleatoria entera no negativa la que representa el tiempo de salidade un estado (situación de desempleo) de un individuo perteneciente a una poblaciónhomogénea donde el tiempo se mide a partir del comienzo del fenómeno (momento enel cual el individuo pierde su trabajo y pasa a ser desempleado).

La distribución de probabilidades de esta variable aleatoria puede ser especificada dediversas maneras, todas las cuales se encuentran relacionadas. Estas son: la función dedensidad de probabilidades, la función de sobrevivencia1 y la función de riesgo.2 Esimportante tener presente que al especificar una de ellas, las otras quedan automática-mente determinadas.

El concepto central, tanto en modelos teóricos como estadísticos sobre duración, esla probabilidad condicional de salida (es decir, la probabilidad de que el evento, en estecaso desempleo, finalice). Definamos λt como la probabilidad de finalización del períodode desempleo (es decir, la probabilidad de que el individuo encuentre trabajo) al tiempot, condicional a estar aún desempleado en t− 1. Este concepto es conocido como la tasa

1Survivor function.2Hazard function.

149

Page 150: Microeconometr a Aplicada JM Benavente

150 CAPÍTULO 6. MODELOS DE DURACIÓN

de riesgo:3

λt = P (T = t|T ≥ t) (6.1)

para t = 1, 2, 3... Intuitivamente se puede definir a la función de sobrevivencia, S(t),como la probabilidad de seguir desempleado hasta al menos el período t:4

S(t) = P (T ≥ t) = 1− F (t) (6.2)

Esta función puede ser escrita como:

S(t) =t−1∏

s=0

(1− λs) (6.3)

con t ≥ 1 y con S(0) = 1. De (5.2) es posible notar que la función de distribuciónacumulada se define como:

F (t) = 1− S(t) (6.4)

La función de densidad de probabilidades de T entrega la probabilidad de que unaduración completa sea exactamente igual a t, es decir, P (T = t):

f(t) = λt

t−1∏

s=0

(1− λs) = λtS(t) (6.5)

Es decir, corresponde al producto entre la probabilidad condicional de dejar de estardesempleado en el tiempo t (tasa de riesgo) y la probabilidad de mantenerse desempleadoen t (función de sobrevivencia). De (5.3) se sabe que:

S(t + 1) = S(t)(1− λt) = S(t)− S(t)λt

Reemplazando y ordenando se tiene que:

f(t) = S(t)− S(t + 1) (6.6)

Note que la distribución de T puede ser especificada en términos de la función de den-sidad, o de la función de sobrevivencia, o bien de la tasa de riesgo.

Generalmente, los modelos de análisis de duración son especificados en términos dela función de riesgo. Los datos para estimar el modelo serán duraciones, algunas com-pletas otras incompletas (algunas personas dejaron de ser desempleadas, mientras queotras aún permanecen en esa condición). Así, la función de verosimilitud (esto es, laprobabilidad de observar los datos que se tienen dado el modelo) será especificado entérminos de la función de sobrevivencia y de la función de densidad.

3Hazard rate.4Algo así como la probabilidad de que el fenómeno dure hasta al menos t.

Page 151: Microeconometr a Aplicada JM Benavente

6.2. DATOS DE DURACIÓN CONTINUA 151

6.2. Datos de Duración Continua

Considere ahora el caso en que T es una variable aleatoria no negativa continua.Denotando f(t), F (t) y S(t) como las funciones de densidad, acumulada y sobrevivencia,respectivamente, se tiene que:

S(t) = P (T ≥ t) =∫ ∞

tf(u)du (6.7)

Note que:

f(t) = −∂S(t)∂t

(6.8)

La función de riesgo es ahora la probabilidad instantánea de dejar de ser desempleadoen el tiempo t condicional a que el individuo lo ha estado hasta t. Corresponde a laprobabilidad de dejar el estado (de desempleo) en un intervalo de tiempo breve, digamosentre t y t + ∆t, dado que se encuentra desempleado en t es:

P (t ≤ T < t + ∆t|T ≥ t) (6.9)

La función de riesgo se define como:5

λ(t) = lım∆t→0

P (t ≤ T < t + ∆t|T ≥ t) = lım∆t→0

F (t + ∆t)− F (t)∆tS(t)

=f(t)S(t)

(6.10)

Un aspecto interesante respecto de la probabilidad de salida del estado (desempleo)será si esta varía a medida que transcurre el tiempo. Por ejemplo, a medida que pasael tiempo, más difícil es para la persona desempleada encontrar trabajo (histéresis). Sedice que la función de riesgo presenta dependencia en la duración si:

∂λ(t)∂t

6= 0 (6.11)

Al igual que en el caso discreto, la distribución de T puede ser especificada tanto entérminos de f(t) como de S(t), o bien, de λ(t).

Reemplazando (5.8) en (5.10) se tiene:

λ(t) =1

S(t)−∂S(t)

∂t=−∂logS(t)

∂t(6.12)

Por lo tanto:

S(t) = exp

∫ t

0λ(u)du

= exp−Λ(t) (6.13)

donde Λ(t) se denomina función integrada de riesgo. Nuevamente, estas relaciones per-miten escribir la función de verosimilitud para una muestra dada en términos de unmodelo de riesgo específico.

5En términos más formales, esta se define como:

λ(t) =f(t)

1− F (t)

que corresponde a la densidad de una variable aleatoria truncada.

Page 152: Microeconometr a Aplicada JM Benavente

152 CAPÍTULO 6. MODELOS DE DURACIÓN

6.3. Estimación no paramétrica de la Distribución

6.3.1. Tiempo Discreto

Considere una muestra de n individuos de una distribución dada para la cual ob-servamos un conjunto de personas las cuales han completado su duración (encontrarontrabajo) y otras para las cuales sólo observamos el período vigente de desempleo (siguenbuscando trabajo).

Sea ti la duración observada para el individuo i. Definiremos ci = 1 si el período dedesempleo se ha completado y ci = 0 si no. Para aquellos con duración completa, laprobabilidad de la información observada viene dada por la función de densidad, f(t), ypara aquellos con duración censuradas por la función de sobrevivencia. La verosimilitudde la muestra observada viene dada por:

L =n∏

i=1

λci

ti

ti−1∏

s=0

(1− λs)

(6.14)

Sea J la duración mas larga en la muestra6 (es decir, el individuo que estuvo o estámás tiempo desempleado) y definiendo nj como el número de salidas en tiempo iguala j (número de personas que encontraron trabajo en la última semana) y rj como elnúmero de potenciales salidas en j (número de personas que pudieron haber encontradotrabajo en la última semana), es decir, el número de individuos con duraciones ≥ j.Entonces podemos reescribir la verosimilitud como sigue:

L =J∏

j=0

λnj

j (1− λj)rj−nj (6.15)

Maximizando log(L) con respecto a λj se tiene:

λj =nj

rj(6.16)

para j = 0, ....., J . Este es el estimador natural de λj : la razón entre el número de salidasen la duración j y el número potencial de salidas en ese punto del tiempo. El estimadorcorrespondiente para la función de sobrevivencia es:

S(j) =j−1∏

k=0

(1− λk) =j−1∏

k=0

rk − nk

rk(6.17)

6.3.2. Tiempo Continuo

Aquí habrá un universo finito de distintas duraciones completas en la muestra, porejemplo, J . Ordenando estas duraciones de menor a mayor se tiene:

t1 < t2 < ... < tj (6.18)6Piense en J como medida en semanas: una semana, dos semanas, etc.

Page 153: Microeconometr a Aplicada JM Benavente

6.4. MODELOS PARAMÉTRICOS 153

Al igual que en el caso anterior, definiremos nj como el número de salidas en tj y rj

como el número potencial de salidas en tj . Así, el estimador de máxima verosimilitudpara la función de riesgo en estos puntos será como la ya definida y el estimador de lafunción de sobrevivencia vendrá dada por:

S(t) =∏

j|tj<t

(rj − nj

rj

)(6.19)

Esta es conocida como la función Kaplan-Meier o el estimador de producto límite ytiene la forma de una función “step” declinante.

Ejemplo: Encuesta de desempleo (por cohortes) en UK. No incluye aquellos que seretiran (ver gráficos Stewart).

6.4. Modelos Paramétricos

La partida natural al considerar modelos paramétricos es aquel modelo donde lafunción de riesgo es constante, λ(t) = λ ∀t. La probabilidad condicional de dejar eldesempleo no varía en el ciclo, es decir, no depende de cuánto tiempo el individuo haestado desempleado. Es posible mostrar que en este caso T (tiempo del ciclo) tiene unadistribución exponencial. De las relaciones discutidas anteriormente, podemos observarque para este caso:

Λ(t) = λt (6.20)

a lo cual se llega solucionando una sencilla integral. Además:

S(t) = exp(−λt) (6.21)

f(t) = λexp(−λt) (6.22)

La ecuación (5.20) proporciona una gráfica muy útil para analizar lo adecuado del mod-elo exponencial como representación de los datos. La función de riesgo integrada esΛ(t) = −log[S(t)]7, donde S(t) es el estimador Kaplan-Meier de la función de sobre-vivencia. La gráfica de esta en función de t debiese ser una línea recta que parte delorigen. Como una ilustración, se presenta el gráfico de los datos de observaciones dedesempleo de UK (ver figura 3).

7Ver (13).

Page 154: Microeconometr a Aplicada JM Benavente

154 CAPÍTULO 6. MODELOS DE DURACIÓN

Existe una marcada curvatura en el gráfico, sugiriendo que una representación expo-nencial de T puede no ser adecuada.8 La duración media en el modelo exponencial esλ−1 y la varianza es λ−2 (la mediana de la distribución de duración viene dada por lasolución de S(t) = 0,5 y es log

(2λ

)). El modelo puede ser escrito en su forma log-lineal

como sigue:9

log(T ) = −log(λ) + ω (6.23)

donde ω tiene una distribución extrema del tipo I (eω tiene una distribución exponencialunitaria). Así:

media : E(logT ) = −logλ + ψ(1) (6.24)

varianza : V (logT ) = ψ′(1) (6.25)

donde ψ(1) y ψ′(1) son constantes conocidas −0,5772 y 1,6449, respectivamente. Así,log(T ) tiene una varianza conocida, la cual no depende de λ.

Una generalización simple pero importante de la distribución exponencial, la cual per-mite dependencia temporal10 de la duración es la distribución Weibull. Su función deriesgo viene dada por:

λ(t) = αλ(λt)α−1 (6.26)

con α, λ > 0. Esta función crece o decrece monotónicamente dependiendo si α > 1 oα < 1 y se reduce a la exponencial si α = 1.

8De hecho, es posible testear si la linealidad es o no rechazada.9Por conveniencia en la estimación.10Es decir, la probabilidad de finalizar el ciclo va cambiando conforme pasa el tiempo.

Page 155: Microeconometr a Aplicada JM Benavente

6.4. MODELOS PARAMÉTRICOS 155

Considerando las relaciones antes vistas podemos observar que para el caso Weibullse tiene que:

Λ(t) = (λt)α (6.27)

S(t) = exp[−(λt)α] (6.28)

f(t) = αλ(λt)α−1exp[−(λt)α] (6.29)

Para el caso de la distribución Weibull se tiene que:

media : E(T ) = λ−1Γ(

1 +1α

)(6.30)

varianza : V (T ) = λ−2

Γ

(1 +

)− Γ2

(1 +

)(6.31)

donde Γ(·) es la función Gamma completa (para un ejemplo ver Lancaster 1990 Apéndice1).

Las funciones ψ(1) y ψ′(1) antes mencionadas son la primera y segunda derivada delogΓ(·), respectivamente. Al igual que en el caso anterior, existe un test gráfico muy útilbasado en la transformación Kaplan-Meier de la estimación de la función de sobreviven-cia. Dado que log(Λ(t)) = αlog(λ)+αlog(t), un gráfico entre log(Λ(t)) = log[−log[S(t)]]contra log(t) debería dar aproximadamente una línea recta. Veamos el caso de UK (figu-ra 4).

Observamos que se parece bastante a la línea recta o por lo menos tiene menos curvatu-ra que el gráfico anterior. En el caso especial de la exponencial la línea recta tambiéndebería estar sobre la recta de 45.

En forma similar al caso exponencial, podemos escribir el modelo Weibull como:

log(T ) = −log(λ) + α−1ω (6.32)

Page 156: Microeconometr a Aplicada JM Benavente

156 CAPÍTULO 6. MODELOS DE DURACIÓN

donde ω es la distribución de valor extremo tipo I. Lo anterior implica que:

media : E(logT ) = −log(λ) +ψ(1)α

(6.33)

varianza : V (logT ) =ψ′(1)α2

(6.34)

Weibull introduce su parámetro en la varianza definida por la exponencial.

6.4.1. Estimación

Considere una muestra de n individuos con una distribución de duración particular.Sea ti la duración observada para el individuo i y sea ci la variable indicadora, que tomael valor 1 si el ciclo o racha es completada (el período de desempleo terminó) y 0 si no.La contribución a la verosimilitud del individuo i viene dada por:

log(Li) = cilog(f(ti)) + (1− ci)log(S(ti))

log(Li) = cilog(λ(ti)) + cilog(S(ti)) + (1− ci)log(S(ti))

log(Li) = cilog(λ(ti)) + log(S(ti))

log(Li) = cilog(λ(ti))− Λ(ti) (6.35)

En el caso del modelo exponencial la función de verosimilitud para la muestra vienedada por:

log(L(λ)) =n∑

i=1

cilog(λ)− λti (6.36)

La primera derivada es:∂logL(λ)

∂λ=

n∑

i=1

ci −n∑

i=1

ti (6.37)

Así:λMLE =

∑ni=1 ci∑ni=1 ti

(6.38)

Ante la ausencia de censura esta expresión equivale simplemente a la inversa de laduración promedio en la muestra. La varianza asintótica viene dada por:

V (λ) = −[∂2log(L(λ))

∂λ2

]−1

(6.39)

V (λ) =λ2

∑ni=1 ci

(6.40)

la cual crece a medida que aumenta el grado de censura.

Para el caso de la distribución Weibull la log-likelihood es la siguiente:

logL(λ, α) =n∑

i=1

cilog(α) + ciαlog(λ) + ci(α− 1)log(ti)− (λti)α (6.41)

Page 157: Microeconometr a Aplicada JM Benavente

6.4. MODELOS PARAMÉTRICOS 157

Se requieren técnicas iterativas para maximizar esta expresión con respecto a λ y α. Lainversa de la matriz Hessiana (con signo cambiado) puede ser utilizada para aproximarla varianza del estimador y así calcular los errores estándar de los coeficientes.

A continuación se presentan los resultados de estos modelos aplicados a los datos de UK:

Exponencial Weibullλ×100 0.55 (0.02) 0.56 (0.02)

α 1.0 0.86 (0.03)log(L) -1905.1 -1888.9

Mediana (días) 127.2 117.4

La duración está medida en días, luego los estimadores de λ están en términos diarios.Ambos estimadores de λ son similares entre sí e indican que existe una probabilidadcercana al 4% para salir del ciclo o racha (de desempleo) por semana. El modelo expo-nencial (α = 1) se rechaza con test LR a favor de Weibull. Los modelos difieren en supredicción en la mediana de la distribución. La duración mediana de desempleo en lamuestra es alrededor de 101 días. Así, ambos predicen una mediana un poco mayor ala verdadera aunque la distorsión es reducida al utilizar el modelo Weibull.

6.4.2. Impacto de Factores Explicativos

Obviamente uno de los principales objetivos del modelamiento es examinar el im-pacto de varios factores explicativos sobre la probabilidad de dejar la situación de de-sempleo. Por ejemplo, el ingreso individual dentro y fuera del trabajo o las condicionesde demanda que existen en el mercado laboral local.

Una manera natural de incorporar estos factores al contexto paramétrico ya descrito, esespecificar uno de los parámetros en el modelo homogéneo como función de un vectorde variables explicativas Z. En el caso de Weibull (recordar que la exponencial es uncaso especial), pensando en el requerimiento de no-negatividad, podemos especificar:

λ = expγ0 + Z ′γ (6.42)

Esto proporciona una función de riesgo del siguiente tipo:

λ(t;Z) = αtα−1expα(γ0 + Z ′γ) (6.43)

λ(t; Z) = αtα−1expβ0 + Z ′β (6.44)

Así, este caso pertenece a la clase de modelos de riesgo proporcional. En estos modelosuna variable explicativa tiene el mismo efecto proporcional en todos los puntos del riesgo.

En forma alternativa, recordemos que el modelo de Weibull puede ser escrito comoun modelo lineal para el logaritmo de T :

log(T ) = −log(λ) + α−1ω (6.45)

Page 158: Microeconometr a Aplicada JM Benavente

158 CAPÍTULO 6. MODELOS DE DURACIÓN

con ω teniendo distribución valor extremo tipo I. De esta forma, al incluir las variablesexplicativas tenemos

log(T ) = −γ0 − Z ′γ + α−1ω (6.46)

log(T ) = γ∗0 + Z ′γ∗ + σω (6.47)

que corresponde a una regresión log-lineal para T con un error distribuido valor ex-tremo. En consecuencia, las variables explicativas tienen un efecto multiplicativo sobreT .

Este modelo también pertenece a la clase general de los modelos log-lineales denom-inados modelos de tiempo de falla acelerado. En estos modelos, los regresores aceleran eltiempo de dejar el desempleo. De esta forma, con el fin de generalizar el modelo, tantoel modelo de riesgo proporcional como aquellos de tiempo de falla acelerada aparecencomo rutas naturales a este fin. Veamos cada uno en detalle donde los modelos de riesgoproporcionales han sido los mas utilizados en la literatura econométrica sobre duración.

Modelo de Riesgo Proporcionales

En este modelo, el riesgo (la probabilidad de dejar el desempleo en t dado que se estádesempleado en t − 1) se especifica como el producto de un término que depende sólode la duración que haya transcurrido, conocido como el riesgo base (baseline hazard), yun término dependiente del vector de variables explicativas Z:

λ(t; Z) = λ0(t)φ(Z, β) (6.48)

Dado el requerimiento de no-negatividad, una expresión comúnmente usada para φ es:

φ(Z, β) = exp(Z ′β) (6.49)

lo que implica que:λ(t; Z) = λ0(t)eZ′β (6.50)

y así:∂log(λ(t;Z))

∂Z= β (6.51)

entregando un efecto proporcional constante de cada variable explicativa sobre la prob-abilidad condicional de dejar el desempleo.

Una propiedad interesante de la función de riesgo integrada es que, independientementede la distribución de T , esta tiene una distribución exponencial unitaria. En el caso delmodelo de riesgo proporcional, este puede ser escrito como

−log(Λ0(t)) = log(φ(Z, β)) + ε (6.52)

donde Λ0(t) =∫ t0 λ0(u)du es la función integrada de riesgo base y ε tiene una distribu-

ción valor extremo, la cual no depende de φ(Z, β). En el caso de que especifiquemosφ(Z, β) = exp(z′β) entonces:

−logΛ0(t) = Z ′β + ε (6.53)

Page 159: Microeconometr a Aplicada JM Benavente

6.4. MODELOS PARAMÉTRICOS 159

entrega una regresión lineal para la variable transformada t∗ = −log(Λ0(t)) (conocer ladistribución de ε será fundamental para la construcción de pruebas específicas una vezque el modelo ha sido estimado).

Notar que en el modelo de riesgo proporcional asumimos una distribución conocidapara ε y estimamos la transformación Λ0 junto con β. La forma alternativa, que nosconduce a los modelos de falla acelerada, asumen una transformación conocida de t yasí estima la distribución de ε junto con los β. Veamos primero el tema de estimaciónparamétrica del riesgo base.

Especificación ParamétricaUtilizaremos una especificación Weibull para el riesgo base. Como se vio anteriormente,esto nos entregará:

λi(ti; Zi) = αtα−1i expβ0 + Z ′iβ (6.54)

Asumiendo nuevamente una muestra aleatoria, la contribución a la log-likelihood deli-ésimo individuo viene dada por:11

log(Li) = ci logλi(ti)︸ ︷︷ ︸log(riesgo)

− Λi(ti)︸ ︷︷ ︸log(sobrevivencia)

(6.55)

Así, la log-likelihood para la muestra observada es:

logL(α, β0, β) =n∑

i=1

cilog(α)+ci(α−1)log(ti)+ciβ0+ciZ′iβ−tαi exp(β0+Z ′iβ) (6.56)

el cual puede ser maximizando con respecto a (α, β0, β) por un método iterativo, comopor ejemplo, el de Newton-Raphson. Veamos un ejemplo utilizando el caso de empleoen UK. El vector Z contiene variables como edad, dummy casado, tasa de desempleo,el logaritmo del ingreso predicho mientras estuvo empleado, el logaritmo del ingresopredicho si estuviese empleado. Los coeficientes β, es decir, los efectos en el logaritmodel riesgo, son presentados en la siguiente tabla. Para obtener los efectos en el logaritmode la duración (γ∗) se debe invertir el signo y dividir por α:

Exponencial Weibullα 0.90 (0.30)β 1.0Age/ 10 -0.32 (0.03) -0.30 (0.030)Married 0.16 (0.12) 0.16 (0.12)local unemployment rate -1.72 (0.60) -1.61 (0.60)log(employment income) 1.53 (0.14) 1.46 (0.14)log(unemployment income) -0.55 (0.06) -0.53 (0.06)β0 -9.28 (0.57) -8.56 (0.57)log(L) -1816.6 -1809.3Median (in days) 122.3 116.2

11Ver (35).

Page 160: Microeconometr a Aplicada JM Benavente

160 CAPÍTULO 6. MODELOS DE DURACIÓN

La hipótesis α = 1 es rechazada nuevamente (LR test). No obstante, el estimador esmás cercano a 1 que en el modelo sin regresores (α = 0,86(0,03)). Como veremos másadelante, α está sesgado hacia abajo por la exclusión de regresores relevantes.

Los estimadores muestran un efecto fuerte de la edad (ceteris paribus). La probabil-idad de salida (del desempleo) de una persona de 60 años es aproximadamente 1/4 conrespecto a un tipo de 20 años comparable. Un residente de un mercado laboral que ten-ga la tasa de desempleo mas baja tiene una tasa de salida cercana a un 45% mas altacomparada con una persona que resida en un mercado laboral con la tasa de desempleomás alta. Por otra parte, existen fuertes efectos asociados al ingreso. Dada la formafuncional estos coeficientes representan elasticidades.

Una distribución alternativa puede obtenerse seleccionado una especificación distintapara el riesgo base. La estimación sería la misma que la anterior bajo la especificaciónde la forma funcional apropiada para las funciones de riesgo y riesgo integrado corre-spondientes.

Vimos anteriormente que un modelo Weibull puede también escribirse como:

log(T ) = −β0

α− Z ′

β

α+

ω (6.57)

con ω distribuido valor extremo tipo I. Lo anterior puede reescribirse como:

log(T ) =ψ(1)− β0

α− Z ′

β

α+ µ (6.58)

con E(µ) = 0 y V (µ) = ψ′(1)α2 . Ante la ausencia de censura, este modelo podría estimarse

por mínimos cuadrados ordinarios (MCO), el cual entregaría un estimador insesgado deβα . Pero MCO es inapropiado ante censura y debe ser estimado por máxima verosimili-tud (ML).

Estimador de Verosimilitud Parcial de CoxEste estimador entrega un método para estimar β sin tener que especificar la forma delriesgo base. Considere el caso más simple de no censura y todas las duraciones con untiempo único, con duraciones completadas ordenadas ti < t2 < ... < tn. La probabil-idad condicional de que el individuo i-ésimo deje de estar desempleado en ti dado losindividuos que pudieron haber salido en ese punto (es decir, aún están desempleados)es:

λ(ti;Zi)∑nj=1 λ(ti; Zj)

(6.59)

La ecuación anterior es la probabilidad condicional (riesgo) del individuo i dada laprobabilidad existente para salir, la que puede ser escrita, dada la especificación deriesgo proporcional como:

exp(Z ′iβ)∑nj=i exp(Z ′jβ)

(6.60)

Page 161: Microeconometr a Aplicada JM Benavente

6.4. MODELOS PARAMÉTRICOS 161

dado que el término λ0(ti) se cancela. La log-likelihood a ser maximizada viene dadapor:

log(L(β)) =n∑

i=1

Z ′iβ − log

n∑

j=i

exp(Z ′jβ)

(6.61)

El estimador puede fácilmente extenderse para casos de censura y empate (es decir, masde un individuo con la misma duración). Una vez que β ha sido estimado el riesgo basepuede ser estimado en forma no paramétrica como en el caso de Kaplan-Meier.

Los resultados de la estimación con el estimador parcial de Cox para la misma basede datos y con el mismo vector de variables explicativas Z, es el siguiente:

β

Age/ 10 -0.29 (0.03)Married 0.18 (0.12)

Local unemployment rate -1.50 (0.60)log(employment income) 1.42 (0.14)

log(unemployment income) -0.52 (0.06)

Los coeficientes estimados son muy parecidos a los encontrados en los modelos paramétri-cos. Dentro de las ventajas de estos modelos es que no se necesita ningún supuesto sobreλ0(t), la que en este caso particular, no influye mucho sobre los coeficientes estimados.La desventaja es que λ0(t) debe ser estimado no paramétricamente.

6.4.3. Heterogeneidad Omitida y Modelos Mixtos

A pesar de que hemos introducido heterogeneidad, la cual puede resultar de lasdiferencias en las características observadas (las cuales se mantienen constantes en eltiempo), es esperable que existan otras características (no observables) que pueden in-fluenciar la probabilidad de dejar la situación de desempleo.

Estas heterogeneidades omitidas pueden sesgar (hacia abajo) los riesgos estimados. In-tuitivamente, trabajadores más diestros o que trabajan en sectores mas empleables sonlos primeros en dejar de estar desempleados dejando a aquellos con menor probabilidadde salida, y en consecuencia, creando la ilusión de una fuerte dependencia negativa dela duración que actualmente existe.

Existe un problema de identificación entre la verdadera dependencia de duración yla dependencia de duración espúrea como resultado de la heterogeneidad no controlada.

¿Cómo podemos abordar este problema? Una forma natural es incorporar un escalar µel cual representa regresores omitidos en forma análoga a aquellos donde se introduceheterogeneidad observada:

λ(t; Z, µ) = λ0(t)eZ′β+µ (6.62)

Page 162: Microeconometr a Aplicada JM Benavente

162 CAPÍTULO 6. MODELOS DE DURACIÓN

λ(t; Z, µ) = λ0(t)︸ ︷︷ ︸riesgo base

ν︸︷︷︸no obs.

eZ′β︸︷︷︸obs.

(6.63)

donde ν = eµ. Usando las relaciones ya vistas la función de sobrevivencia se puedeescribir como:12

S(t;Z, µ) = exp(−νeZ′β∫ t

0λ0(τ)d(τ)) (6.64)

No obstante, ν no es observable. La función de sobrevivencia condicional sólo en ob-servables es:

S(t;Z) =∫ ∞

0S(t; Z, ν)g(ν)dν (6.65)

donde g(ν) es la función de densidad de probabilidades de ν. Así, podemos notar elproblema de identificación. Combinaciones diferentes de λ0(t) y g(ν) pueden entregarel mismo S(t; Z), es decir, la misma distribución de los datos observados. Dos enfoqueshan sido considerados para la estimación de modelos mixtos de este tipo: paramétricosy no-paramétricos.

En el modelo paramétrico se especifica una distribución para ν y los parámetros dela distribución se estiman conjuntamente con aquellos del riesgo individual. Una formacomúnmente adoptada es la distribución gamma para ν con media unitaria y varianzaσ2. Así, la integración que resulta para la función de sobrevivencia condicional sólo enobservables es:

S(t; Z) =[1 + σ2eZ′βΛ0(t)

]− 1σ2

(6.66)

A medida que σ2 → 0 se vuelve al modelo homogéneo. Al diferenciar se puede demostrarque la función de riesgo condicional sólo en observables es:

λ(t; Z) = λ0(t)eZ′βS(t; Z)σ2(6.67)

donde también está el problema de identificación.

Veamos el caso de los datos para UK nuevamente, donde junto con las anteriores ver-siones homogéneas, se ha incluido una forma de heterogeneidad distribuida gamma.

Exponencial Weibull Weibull/Gammaα 1.0 0.90 (0.03) 1.35 (0.08)γ∗:Age/ 10 0.32 (0.03) 0.34 (0.03) 0.36 (0.04)Married -0.16 (0.10) -0.18 (0.12) -0.38 (0.15)Local unemployment rate 1.72 (0.51) 1.78 (0.60) 1.13 (0.71)log(employment income) -1.53 (0.12) -1.61 (0.15) -2.00 (0.18)log(unemployment income) 0.55 (0.05) 0.59 (0.05) 0.82 (0.07)γ∗0 9.28 (0.51) 9.48 (0.61) 10.03(0.73)σ2 0 0 1.18 (0.19)logL -1816.6 -1809.3 -1777.7Median (in days) 122.3 116.2 99.9

12Ver (13).

Page 163: Microeconometr a Aplicada JM Benavente

6.4. MODELOS PARAMÉTRICOS 163

El modelo Weibull homogéneo es rechazado en favor del gamma mixto: σ2 es significa-tivamente mayor que cero. El estimador del parámetro de dependencia de duración α,es significativamente mayor que 1 en el modelo de gamma de heterogeneidad, mientrasque era significativamente menor que 1 en los modelos que no controlaban por hetero-geneidad.

Existen también diferencias en los estimadores γ∗ (efectos de duración): casados ahoratienen una duración significativamente mas corta que aquellos solteros comparables. Elefecto de la tasa de desempleo local es insignificante.

Ambas elasticidades ingreso son un poco mayores en el modelo gamma heterogéneo.La mediana predicha es mas cercana a la muestral en este último modelo.

Page 164: Microeconometr a Aplicada JM Benavente

164 CAPÍTULO 6. MODELOS DE DURACIÓN

Page 165: Microeconometr a Aplicada JM Benavente

Capítulo 7

Datos de Panel

7.1. Introducción

Un conjunto de datos de panel o longitudinales es aquel que sigue individuos(firmas, países) a través del tiempo y en consecuencia entrega múltiples observacionespara cada individuo. Así, datos de panel es la unión de datos en serie de tiempo y decorte transversal. El análisis de la de conductas utilizando datos de panel es una delas áreas más atractivas de la econometría. En esta y la siguiente clase daremos unaintroducción a este tema.

7.1.1. ¿ Porqué usar Datos de Panel ?

Mas observaciones : Un panel contiene NT observaciones. Por convención, in-dexaremos la dimensión temporal como t = 1 · · ·T y la dimensión transversalcomo n = 1 · · ·N . Típicamente T es relativamente pequeño mientras N es rela-tivamente mayor. Notar que incluso si T = 2 tendremos un panel que puede serutilizado para realizar estimaciones. El aumento en el número de observacionesaumentará el número de grados de libertad, reducirá el grado de colinealidadmuestral y aumentará la eficiencia de cualquier estimador que se obtenga.

Discriminación entre hipótesis : Al utilizar el componente de series de tiempo delos datos puede ser posible discriminar entre hipótesis aspecto que no es posiblerealizar al utilizar solo datos de corte transversal

Ejemplo: Considere el efecto de la sindicalización sobre los salarios. Suponga queobservaciones de corte transversal sugieren que firmas donde existen sindicatos,sus trabajadores tienen salarios mas altos. Esto es consistente con a lo menos doshipótesis. Primero, que los sindicatos hacen aumentar los salarios por encima dela productividad marginal de la mano de obra. Segundo, que diferentes nivelesde sindicalización reflejan factores diferentes al poder del sindicato, como ser laproductividad de la mano de obra individual. Estas dos apreciaciones no puedenser distinguibles en el caso de que sólo contáramos con datos de corte transversal.

165

Page 166: Microeconometr a Aplicada JM Benavente

166 CAPÍTULO 7. DATOS DE PANEL

Sin embargo, si pudiéramos seguir a los trabajadores durante el tiempo entoncespodríamos determinar si el salario de un trabajador con una habilidad constantesube o no cuando pasa de no estar sindicalizado a estarlo.

Controlando por heterogeneidad individual no observable: Similar al caso anteri-or el que lo ilustraremos mediante un ejemplo. Suponga que estamos estudiandola utilización (consumo) de bienes públicos entre países e imagine que existe unfactor que varía entre los países pero que no es fácilmente medible : uno de estosfactores puede ser actitudes políticas con respecto a la provisión pública de ser-vicios. Dado que en una política pro-estado (estado benefactor) es esperable queel consumo de bienes públicos aumente, en el caso de estados benefactores comoSuecia, uno esperaría encontrar una diferencia significativa en la propensión alconsumo de bienes públicos con respecto al promedio del resto de los países. Enuna regresión de corte transversal, podríamos manejar este problema al utilizaruna variable dummy para Suecia. Esto, sin embargo, lo que logra es sacar com-pletamente a Suecia de la muestra lo que no es satisfactorio. Este no será el casopara datos de panel, como veremos en seguida.

Considere el siguiente proceso de generación de datos (bivariado):

yit = αi + βixit + uit i = 1....N t = 1, ....T (7.1)

donde, en principio, tanto αi como βi pueden variar entre individuos. Supongaque agrupamos las NT observaciones y estimamos el modelo clásico de regresión(con α y β fijos) :

yit = α + βxit + uit (7.2)

Esta especificación ignora la heterogeneidad entre individuos. ¿ Cuáles son lasimplicancias de esto ?

(i) Interceptos heterogéneos (αi 6= α). Tanto los coeficientes de la pendiente co-mo de los interceptos estarán sesgados al ser estimados por OLS y el sesgono tendrá signo determinado. Datos de panel pueden ser útiles en este caso.Ver Figura.

Page 167: Microeconometr a Aplicada JM Benavente

7.1. INTRODUCCIÓN 167

OLS

alfa 1

alfa 2

alfa 3

X

X

X

X X

X

X

X

XX

XX

XX

X

X

(ii) Pendientes e interceptos heterogéneos (αi 6= α y βi 6= β ). Los estimadoresOLS de las pendientes e interceptos serán sesgados y sin sentido. Tambiénse sigue de que modelos estándar de panel no pueden tampoco manejar esteproblema (ya que no tenemos suficientes grados de libertad). Ver Figura.

i=1i=2

i=3

i=4

OLS

Controlando por variables omitidas (no observadas o mal medidas): Datos de panelpermiten al investigador usar los elementos tanto dinámicos como de individuali-dad de los elementos de un set de datos para controlar por los efectos de variablesfaltantes o inobservables. Esta es una de las principales atracciones acerca del usode datos de panel.

Considere el siguiente modelo :

yit = α∗ + β′xit + γ′zit + uit, µit ∼ N(0, σ2u) (7.3)

Bajo los supuestos usuales, la estimación por OLS de (3) entregará estimadoresinsesgados y consistentes del vector de parámetros β y γ . Suponga, sin embargo,

Page 168: Microeconometr a Aplicada JM Benavente

168 CAPÍTULO 7. DATOS DE PANEL

de que el vector de variables Z no es observable pero donde la matriz de covarianzaentre X y Z no es cero. En este caso, los estimadores OLS de β estarán sesgados,dado que zit representaría el caso clásico de omisión de variable.

Cuando tenemos datos de panel existen dos situaciones en las cuales podemoscontrolar (i.e. corregir) por este problema de omisión de variable.

(i) Caso donde zit = zi para todo t de tal forma de que las variables Z sonconstantes en el tiempo pero que sólo difieren entre individuos. Así, podemostomar las primeras diferencias de (114) con respecto al tiempo para obtener:

(yit − yit−1) = β′(xit − xit−1) + (µit − µit−1) (7.4)

De esta manera lo que hicimos es "sacar"la variable-problema Z de tal man-era que ahora se pueden obtener estimadores insesgados y consistentes deβ.

(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z sonahora comunes para todos los individuos. De esta manera, podemos tomarla desviación de la observación de cada individuo sobre la media entre todoslos individuos (en cada período), de la siguiente forma :

yit − yt = β′(xit − xt) + (µit − µt) (7.5)

donde yt = 1N

∑Ni=1 yit representa la media grupal (el valor promedio de la

variable del grupo i = 1 · · ·N en cada período t )

En ambos casos las transformaciones han "sacado"la variable-problema noobservada (o mal medida) Z. Como consecuencia, la estimación por OLS de(117) o (118) entregará estimadores insesgados y consistentes de β los que nopodrían haber sido obtenidos mediante series de corte transversal o en seriesde tiempo en forma aislada.

Modelamiento de la Dinámica de Ajuste: Datos de panel son particularmenteútiles para el análisis de la duración de situaciones económicas como desempleoo pobreza. Dependiendo del largo del panel estos nos pueden dar luces sobre lavelocidad de ajuste a shock exógenos. Aunque estos deben ser modelados conlargos datos de panel mediante técnicas denominadas Datos de Panel Dinámicos(DPD), los que veremos en la próxima clase.

7.1.2. Algunos Problemas de los Datos de Panel

Costos de recolección de los datos : Algunos datos de panel son terriblementecostosos en su recolección y requieren largos horizontes de investigación. Ellospresentan todos los problemas clásicos de recolección de datos como cobertura, norespuesta, selección endógena (i.e. truncamiento endógeno), etc.

Page 169: Microeconometr a Aplicada JM Benavente

7.1. INTRODUCCIÓN 169

Medición del Error Compuesto : En aquellas situaciones en que medir el términode error es un problema, esto puede simplificarse o bien exacerbarse cuando seutilizan datos de panel.

Suponga que tenemos un ingreso (variable X) el cual es declarado en el tiem-po t por el hogar i con cierto error :

x∗it = xit + εit (7.6)

donde εit es una medida del error con media cero y varianza seccional igual a ω.

Si asumimos de que Cov(x, ε) = 0 entonces V ar(x∗it) = V ar(xit) + ω. Ahora,si vamos a utilizar estos datos para eliminar algunos efectos no observables (comoen la ecuación (117)) entonces tenemos lo siguiente :

∆x∗it = ∆xit + ∆εit

V ar(∆x∗it) = V ar(∆xit) + 2ω2(1− ρ) (7.7)

donde ρ es la correlación entre el error de medición de dos períodos. Ello puedesugerir dos casos extremos:

Caso (i) Errores Independientes del Tiempo (autocorrelación perfecta) Suponga deque un hogar comete el mismo error año tras año ( por ejemplo el hogar seequivocan en ingresar el valor de su casa). En este caso ρ tenderá a uno y enconsecuencia :

∆x∗it → ∆xit

V ar(∆x∗it) → V ar(∆xit) (7.8)

De esta manera, datos de panel permiten que los errores de medición sean.eliminados"de los datos y así los parámetros de interés sean estimados sinsesgo.

Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza enel error de medición será duplicada. Si la varianza del verdadero valor deX es relativamente baja (e.g. existe una persistencia en el tiempo en X)entonces, al diferenciar los datos significará que la "señal.es absorbido por elruido". En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá unefecto desproporcionado sobre la varianza del error en la medición relativo ala varianza propia de la variable en sí.

Sesgo de Respuesta Sistemática y Reducción Sistemática : El primer sesgo surgeal tener que visitar en forma reiterada al mismo individuo y las respuestas puedenentonces ser endógenas; las personas tienden a exagerar. El segundo sesgo estárelacionado con el hecho de que las los hogares o individuos entrevistados en el

Page 170: Microeconometr a Aplicada JM Benavente

170 CAPÍTULO 7. DATOS DE PANEL

pasado pueden ya no serlo en el presente ya que o bien murieron, quebraron,dejaron de ser pobres, etc, lo que puede introducir un sesgo hacia atrás. Estose puede corregir con los denominados pseudo-paneles, tópico que está fuera delalcance de este curso.

7.2. Un Modelo Lineal General para Datos de Panel

El modelo básico de datos de panel combina series de tiempo con datos en corte transver-sal en un solo modelo el cual puede ser escrito de la siguiente forma :

yit = α + Xitβ + uit, i = 1....N, t = 1.....T (7.9)

donde i denota las unidades en corte transversal y t el tiempo. Los diferentes modelosde datos de panel dependerán de los supuestos que se realicen sobre los errores no ob-servados uit . Existen principalmente dos alternativas :

El one-way error component model (modelo de error de componente en un so-lo sentido) el cual asume de que la estructura del error se define como sigue:

uit = µi + υit, υit ∼ iid(0, σ2υ) (7.10)

donde µi denota efectos específicos al individuo que no son observables y υit son losdenominados efectos idiosincráticos. Los µi son invariantes en el tiempo y dan cuentade cualquier tipo de efecto individual no incluido en la regresión. Un ejemplo están-dar en ecuaciones de ganancia es la habilidad; en funciones de producción agrícola unode estos efectos puede ser la calidad (no observada) del suelo; en macro paneles sobrecrecimiento de países se pueden incluir normas culturales (e.g. con respecto al ahorro oriesgo).

El two way error component model se asume de que la estructura del error sedefine de la siguiente manera :

uit = µi + λt + υit, υit ∼ iid(0, σ2υ) (7.11)

donde, nuevamente, µi denota efectos individuales específicos no observables y dondeλt denota efectos temporales no observables. Estos efectos se asumen que son comunesentre individuos pero que varían en el tiempo. Ejemplos incluirían variaciones en elclima o cambios en la política económica en general.

7.2.1. El One Way Error Component Model

Podemos re escribir (122) en forma vectorial de la siguiente forma :

Y = α1NT + Xβ + u = Zδ + u (7.12)

Page 171: Microeconometr a Aplicada JM Benavente

7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 171

donde las dimensiones de las matrices son Y = [NT ×1], X = [NT ×K], Z = [1NT X]y δ′ = [α′ β′] en donde 1NT es un vector de unos de dimension NT . De esta forma(123) puede ser expresado como sigue:

u = Zµµ + υ (7.13)

donde u′ = (u11, ...u1T , u21, ...u2T , ....uN1, ...uNT ) y Zµ = IN ⊗ 1T , con IN la matrizidentidad y ⊗ el producto Kronecker.

De esta manera Zµ es la matriz de selección la que está compuesta de ceros y unosy que captura los efectos de µi . Usaremos estos resultados para calcular dos matricesadicionales. La primera es :

PNT×NT

= Zµ(Z ′µZµ)−1Z ′µ

la cual es la matriz de proyección sobre Zµ; matriz que promedia las observacionesen el tiempo para cada individuo. La segunda matriz es :

Q = INT − P

la cual permite obtener las desviaciones sobre las medias individuales.

De esta forma Pu, tiene el típico elemento ui =∑T

t=1uitT y la matriz Qu tiene este

como elemento típico uit − ui

Estas relaciones se usan extensivamente para derivar los modelos de datos de panel.Ahora consideraremos dos supuestos sobre los efectos individuales µi .

Modelo de Efectos Fijos

El modelo de efectos fijos asume que los efectos individuales µi son parámetrosdeterminísticos los que deberán ser estimados. Este sería el caso si N representa la"población"tal como el conjunto de países o estados o firmas, y que nuestras inferenciases solamente relacionada sobre las N observaciones que se dispone. Así la inferencia escondicional sobre las N observaciones en particular : no estaremos utilizando los resul-tados para inferir aspectos relacionados a otro conjunto de países/firmas/individuos.

Al sustituir (126) en (125) tenemos que:

y = α1NT + Xβ + Zµµ + ν = Zδ + Zµµ + ν (7.14)

Podemos usar OLS sobre (127) para generar estimadores de α y el vector de β y µ alincluir (N − 1) variables dummy para los efectos fijos no observados. Esta estimacióngeneralmente se conoce con Estimador Mínimo Cuadrático de Variables Dum-my (LSDV). Cada uno de los coeficientes sobre µi miden la diferencia de los efectosindividuales con respecto a un individuo base de comparación ( representado por α).

Page 172: Microeconometr a Aplicada JM Benavente

172 CAPÍTULO 7. DATOS DE PANEL

Sin embargo, si N es grande con respecto a NT existirán demasiados parámetros aestimar (α, β y los N − 1 efectos individuales específicos) en (127). Comúnmente, el in-terés del investigador estará en saber los valores de α, β y en consecuencia, desearemossimplemente controlar, y no estimar, los efectos individuales los que, después de todo,son una amalgama de diferentes aspectos de la heterogeneidad.

La alternativa mas común para estimar esta situación es el estimador de efectos fijos.Primero, deberemos pre multiplicar el modelo (124) por la matriz de selección Q la cualcalcula las desviaciones con respecto a la media grupal (de individuos). La observaciónrepresentativa para el individuo i en el tiempo t es :

(yit − yi) = (α− αi) + (Xit −Xi)β + (µi − µi) + (vit − vi) (7.15)

donde yi = 1T

∑Tt=1 yit es la media del valor y para el individuo i sobre todo el período de

observaciones (t = 1 · · ·T ). Notar de que por definición de que el primer y tercer términode la parte derecha de (128) son cero. En una notación vectorial mas conveniente quedade la siguiente forma :

Qy = QXβ + Qν (7.16)

donde hacemos uso del hecho de que Q−Zµ = Q1NT = 0 dado que el promedio temporaldel efecto invariante en el tiempo es simplemente el efecto en si mismo. De esta forma,podemos estimar como sigue :

βW = (X ′QX)−1X ′Qy (7.17)

dondeV ar(βW ) = σ2

ν(X′QX)−1 = σ2

ν(X′X)−1 (7.18)

y donde podemos recuperar el valor estimado de α como :

αW = y −XβW

donde aquí, el promedio se calcula sobre todas las observaciones basados en la restric-ción de que

∑Ni=1 µi = 0 el cual es un supuesto estándar para las variables dummy.

ResultadosSi (127) es el verdadero modelo, el estimador de efectos fijos es BLUE sólo mientrasvit tenga las características Gaussianas estándar. A medida de que T tiende a infinito,entonces el modelo es consistente para todos los parámetros del modelo. Sin embargo,si T es fijo y N tiende a infinito, entonces el estimador FE de β será consistente. Elestimador FE de los efectos individuales (α+µi) no son consistentes dado que el númerode parámetros aumenta a medida de que N aumenta.

Pruebas de Efectos FijosPodemos testear para la existencia de efectos fijos al usar un test F estándar donde lanula es que :

Ho : µ1 = µ2 = · · ·µN−1 = 0 (7.19)

Page 173: Microeconometr a Aplicada JM Benavente

7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 173

La suma de cuadrados de residuos restringidas viene dado por la suma de los cuadradosde los residuos del modelo OLS sobre los datos agrupados y el modelo sin restringir sonla suma de los residuos al cuadrado del modelo de efectos fijos. La prueba es la siguiente:

FFE =(rrss− urss)/(n− 1)

urss/(nt− n− k)∼ F[n−1,nt−n−k] (7.20)

Generalmente nos referiremos a esta como la restricción de agrupamiento sobre la het-erogeneidad no observable en el modelo.

Modelo de Efectos Aleatorios

Suponga ahora que los efectos individuales no son determinísticos sino que cada unode ellos son una variable aleatoria. Esto sería un supuesto mas razonable en el caso deque nuestros datos fuera una muestra genuina utilizada con el fin de realizar inferenciassobre la población como un todo. Estos efectos aleatorios no observables pueden serpensados a nivel de individuos como habilidades mientras que a nivel de firma podemospensar en términos de capacidad administrativa. Asumiremos de que µi ∼ iid(0, σ2

µ) yque ambos, µi, vit son independientes de Xit para todo i y t. Ahora, siendo los efectosindividuales aleatorios la varianza del término de error será :

V ar(uit) = σ2µ + σ2

ν (7.21)

El aspecto clave de esta varianza es que a pesar de ser homocedástica, tiene correlaciónserial al interior de cada unidad de corte transversal (dado que cada .efecto individual"decada persona persiste en el tiempo). En particular, sea :

Cov(uit, ujs) = (µi + vit)(µj + vjs) (7.22)

Así, si i = j y t = s entonces se tiene que la Cov(uit, ujs) = σ2µ + σ2

v . Por otro lado, sii = j pero t 6= s entonces se tiene que la Cov(uit, ujs) = σ2

µ y cero en otro caso. Porextensión, tenemos lo siguiente :

ρ = Corr(uit, ujs) = 1 para i = j; t = s

ρ = Corr(uit, ujs) =σ2

µ

(σ2µ + σ2

ν)para i = j; t 6= s

y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la matriz devarianzas covarianzas para el modelo de datos de panel no será del tipo "Gaussiano".Para proceder con la estimación necesitaremos analizar la estructura de esta matriz.

Para examinar el estimador de efectos aleatorios necesitaremos introducir una nuevamatriz de selección. Sea JT una matriz de unos de dimensión T de tal forma de queZµZµ

′ = IN ⊗ JT .

Page 174: Microeconometr a Aplicada JM Benavente

174 CAPÍTULO 7. DATOS DE PANEL

De esta manera, a partir de (126) podemos calcular la matriz de varianza covarian-za (la cual es ahora de NT ×NT )

Ω = E(uu′) = ZµE(µµ′)Z ′µ + E(νν ′) (7.23)

la cual se puede simplificar en la siguiente expresión :

Ω = (Tσ2µ + σ2

ν)(IN ⊗ JT ) + σ2ν(IN ⊗ ET ) = σ2

1P + σ2ν (7.24)

donde JT = JT /T , ET = (IT − JT ) y σ21 = Tσ2

µ + σ2v .

Con esta definición podemos entonces aplicar a (127) el estimador GLS estándar paraderivar los estimadores de los coeficientes de α, β bajo el supuesto de efectos aleatorios:

δGLS = [X ′Ω−1X]−1[X ′Ω−1y] (7.25)

El único problema (y uno no trivial) es que Ω es de rango (NT × NT ) y la inversiónde esta matriz es extremadamente difícil. Un sinnúmero de trucos se han desarrolladopara salvar esta traba.

La forma de resolución a este problema mas popular introduce los denominados es-timadores Entre Grupos (BG) el cual regresiona un conjunto de observaciones consis-tentes en el promedio a través del tiempo para cada una de las N observaciones :

yi. = α + X′i.β + ui i = 1, ...N (7.26)

donde :

yi. =1T

T∑

t=1

yit

El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro modelobásico en (127) :

Py = Pα1NT + PXβ + P (Zµµ + ν) (7.27)

el cual entrega el siguiente estimador :

βB = [X ′(P − JNT )X]−1[X ′(P − JNT )y] (7.28)

Este estimador se denomina entre grupos pues ignora cualquier variación al interior delgrupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un resumen de la in-formación de corte transversal simple sobre la variación entre los grupos ( o individuos).

Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser expresa-do como :

βGLS = [(X ′QX)

σ2ν

+X ′(P − JNT )X

σ21

]−1[(X ′Qy)

σ2ν

+X ′(P − JNT )y

σ21

] (7.29)

Page 175: Microeconometr a Aplicada JM Benavente

7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 175

Podemos simplificar la expresión anterior mediante la siguiente notación. Sea WXX =X ′QX, WXY = X ′Qy, BXX = X ′(P − JNT )X, BXY = X ′(P − JNT ) y finalmente,φ2 = σ2

ν

σ21.

Usando estas definiciones podemos re-expresar (142) como :

βGLS = [WXX + φ2BXX ]−1[WXY + φ2BXY ] (7.30)

el cual es el estimador GLS de Maddala para el modelo de efectos aleatorios.

Finalmente, notar de (130) de que W−1XXWXY es simplemente el estimador al interi-

or del grupo (o intra grupo, WG) y de (141) de que B−1XXBXY es el estimador entre

grupos (BG) de tal forma que :

βGLS = ΘβW + (1−Θ)βB (7.31)

con Θ = [WXX+φ2BXX ]−1WXX . El estimador GLS en (144) es un promedio ponderadoentre los estimadores entre grupos e intra grupo. El parámetro clave en la ponderaciónes Θ. Pueden existir tres casos diferentes:

(i) A medida de que T tienda a infinito, entonces φ2 tenderá a cero, y por tanto Θ ala unidad. En este caso, el estimador GLS tenderá al estimador intra grupo o elestimador LSDV.

(ii) Si φ2 tiende al infinito entonces Θ tenderá a cero y en consecuencia el estimadorGLS convergerá al estimador entre grupos.

(iii) Si σ2µ = 0 (i.e. los efectos individuales son determinísticos) entonces φ2 = 1 y así

el estimador GLS tenderá al estimador OLS (el cual entrega igual ponderación ala variación intra grupo y inter grupos).

Podemos pensar, en consecuencia, a los estimadores LSDV (FE) y el estimador OLScon los datos agrupados como casos especiales del estimador GLS donde el estimadorLSDV trata a todos los efectos individuales como fijos y diferentes y donde el estimadorOLS asume de que todos son fijos pero idénticos. El estimador GLS de efectos variablespermite a los datos considerar una posición intermedia.

Estimación Factible del estimador GLS

Como en todos los casos de estimadores GLS, necesitamos un procedimiento paraestimar los componentes de la matriz de varianzas y covarianzas de tal manera de que lapodamos utilizar para estimar los parámetros del GLS. Necesitamos, en consecuencia,estimaciones de σ2

µ y σ2ν .

La primera opción es usar una estimación máxima verosímil interativa. Bajo los supuestos

Page 176: Microeconometr a Aplicada JM Benavente

176 CAPÍTULO 7. DATOS DE PANEL

de normalidad para µi y νit podemos escribir la función de verosimilitud de la siguientemanera:

log L(α, β, φ2, σ2ν) = constante− NT

2log σ2

ν +N

2log φ2 − 1

2σ2ν

u′Σ−1u (7.32)

y maximizarla en la forma usual, utilizando los estimadores entre grupos como los val-ores iniciales de β.

Alternativamente 1, valores consistentes de σ2ν pueden ser derivados a partir de los

estimadores intra grupos ( ya que este estimador suprime los efectos entre grupos) y losestimadores de σ2

µ pueden ser obtenidos a partir de los estimadores entre grupos ( ya quesuprime el efecto intra grupo). Estos estimadores consistentes pueden ser sustituidos enel estimador GLS.

Si el modelo de efectos aleatorios es correcto, entonces el estimador GLS basado enlas componentes verdaderas de varianzas es BLUE. Todos los estimadores FGLS seránconsistentes a medida de que N o T tiendan a infinito.

ResumenEl método de estimación a ser usado dependerá en si asumimos de que los efectos in-dividuales sean fijos o aleatorios. Resulta ser de que los valores para los parámetros βpueden variar dramáticamente, en el caso mas común donde N es grande y T pequeño,entre estimadores intra o entre grupos. Cuando sólo existen pocas observaciones en eltiempo resulta mejor usar los elementos de corte transversal de los datos para estimaraquella parte de la relación que contenga variables que difieren entre un individuo alotro (el estimador entre grupos). Ello permite de que la parte de serie de tiempo de losdatos sea usada en forma eficiente de tal manera de rescatar la parte común de dicharelación entre individuos.

Problemas de Especificación

Hasta el momento se ha asumido de que los efectos individuales son o bien fijos(i.e. no estocásticos) o si estos eran aleatorios, la covarianza entre los efectos no observ-ables y las variables xi es cero. Esto puede no ser muy realista. Por ejemplo, en unafunción de producción las capacidades administrativas no observables podrían estar cor-relacionadas con la elección de los insumos.

Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuando los efec-tos µi son tratados como variables aleatorias pero la varianza entre estos y las variablesxi no son cero, el estimador de efectos aleatorios GLS será sesgado e inconsistente. Da-do que el estimador intra grupo .eliminaçompletamente el efecto de los µi, entonces elestimador de efectos fijo intra grupo es insesgado y consistente.

1ver la rutina existente en STATA

Page 177: Microeconometr a Aplicada JM Benavente

7.2. UN MODELO LINEAL GENERAL PARA DATOS DE PANEL 177

Un corolario del resultado anterior es el siguiente. Por una parte, si Cov(ui, xi) 6= 0entonces βW es BLUE y por lo tanto βGLS = ∆βB + (1 − ∆)βW estará sesgado. Porotra parte, si Cov(ui, xi) = 0 entonces se tiene que βGLS = ∆βb + (1−∆)βW es BLUEy asintóticamente eficiente.

El test de especificación de Hausman puede ser también utilizado en este caso. Deno existir covarianza (i.,e. bajo la nula) entonces el estimador GLS será BLUE y asin-tóticamente eficiente; pero bajo la alternativa de que existe covarianza entre los efectosy las variables xi, el estimador GLS será sesgado. En contraste, el estimador intra grupo(efecto fijo) será consistente y BLUE (pero no asintóticamente eficiente) bajo la alterna-tiva y consistente bajo la nula. La prueba de Hausman pregunta simplemente si existendiferencias significativas entre los estimadores GLS y intra grupo y viene denotado dela siguiente forma :

m = (βW − βGLS)′V ar(βW − βGLS)−1(βW − βGLS) ∼ χ2[k] (7.33)

donde la hipótesis nula es que la covarianza es cero. Covarianza significativa entre losefectos µi y las variables xi hará que el valor de m sea grande lo que rechazará el testy deberá estimarse, entonces, utilizando el estimador de efectos fijos intra grupo.

7.2.2. El Two Way Error Component Model

Suponga de que el término de error tienen dos efectos sistemáticos no observablesde la siguiente manera :

uit = µi + λt + νit νit ∼ iid(0, σ2ν) (7.34)

Podemos re escribir esto en forma vectorial como :

u = Zµµ + Zλλ + ν (7.35)

donde Zµ fue anteriormente definido y Zλ = 1N ⊗ IT es la matriz de variables dummiestemporales que capturan el efecto λt si estos son parámetros fijos.

El Estimador de Efectos Fijos

Como fue definido anteriormente, si µi y λt son determinísticos (y vit es indepen-diente de los xit) podemos utilizar el estimador LSDV el cual incluye N − 1 variablesdummy para cada efecto individual y T−1 variables dummy para los efectos temporales.Esto, sin embargo, consume una gran cantidad de grados de libertad los que puedenhacer inválida la estimación.

Podemos usar no obstante, una versión modificada del estimador intra grupo medianteuna transformación que "saque"los efectos de µi y λt. Re definiendo la transformaciónQ tenemos :

Q = IN ⊗ IT − IN ⊗ JT − JN ⊗ IT + JN ⊗ JT (7.36)

Page 178: Microeconometr a Aplicada JM Benavente

178 CAPÍTULO 7. DATOS DE PANEL

Esta transformación significa que el típico elemento del vector y viene dado por :

y = (yit − yi. − y.t + y) (7.37)

donde el segundo término de la expresión a la derecha promedia a través del tiempo (y en consecuencia saca el efecto temporal); el tercer término promedia entre individ-uos para el mismo período ( así sacando el efecto individual); mientras que la últimaexpresión promedia los efectos entre los individuos y entre los períodos de tiempo (recu-perando la variación no explicada de los efectos individuales y temporales). Aplicandoesta transformación al término de error tenemos el siguiente resultado importante :

uit = (uit − ui. − u.t + u..) = (νit − νi. − ν.t + ν..) (7.38)

Podemos entonces estimar los parámetros de interés como :

β = (X ′QX)−1X ′y (7.39)

con la estimación del intercepto común como sigue :

α = y.. − βX .. (7.40)

(ver Baltagi pp.28 para una derivación completa )

Prueba de Efectos FijosComo en el caso del one way eror component model, podemos testear por la presenciade efectos fijos usando la prueba F estándar sobre la nula :

Ho = µ1 = · · ·µn−1 = λ1 · · ·λT−1 = 0 (7.41)

Modelo de Efectos Aleatorios

Ahora suponga que ambos efectos individuales y temporales son no determinísticos,es decir podemos tratarlas como variables aleatorias estocásticas. Podemos asumir deque µi ∼ iid(0, σ2

u), λt ∼ iid(0σ2λ) independiente entre cada uno de ellas y con νit,

y que µi, λt, νit son independientes de xit para todo i y t. Ahora siendo los efectosaleatorios, la varianza del término de error será :

V ar(uit) = σ2µ + σ2

λ + σ2ν (7.42)

El aspecto clave de esta varianza es que siendo de nuevo homocedástica tendrá dos tiposde correlación serial : entre cada unidad de corte transversal (un “efecto fijo” individualque persiste en el tiempo) y uno a través del tiempo. Así :

Cov(uij , ujs) = σ2µ si i = j, t 6= s

Cov(uij , ujs) = σ2λ si i 6= j, t = s

Page 179: Microeconometr a Aplicada JM Benavente

7.3. EXTENSIONES 179

El estimador de efectos aleatorios es de nuevo un estimador GLS y, como en el casodel modelo de one way error component, podemos utilizar el estimador ponderado deMaddala en el cual tenemos dos estimadores .entre". Así existirá e tradicional estimadorIntra Grupo (usando la ecuación (151)) derivado a partir de la aplicación del la matrizde selección Q1; el estimador intergrupos individual el cual es derivado de la regresión:(yi. − y..) sobre (xi. − x..) utilizando la matriz de selección Q2; y el tercer estimadorintergrupos temporal el cual se deriva de la regresión entre(y.t − y..) sobre (x.t − x..)utilizando la matriz de selección Q3.

Definiendo WXX = X ′Q1X; BXX = X ′Q2X; CXX = X ′Q3X, y en forma análogapara WXY , BXY y CXY donde además se tiene que φ2

2 = σ2v

λ2 ; φ23 = σ2

vλ3 ; λ2 = Tσ2

µ + σ2ν

y λ3 = nσ2λ + σ2

v , Maddala (Econometrica, 1971) demuestra de que el estimador GLSpuede ser expresado mediante un rearreglo de (142) como :

βGLS = [WXX + φ22BXX + φ2

3CXX ]−1[WXY + φ22BXY + φ2

3CXY ] (7.43)

el cual puede ser simplificado un paso más al notar de que W−1XXWXY es simplemente

el estimador intragrupo y que B−1XXBXY es el estimador intergrupo individual y que

C−1XXCXY es el estimador intergrupo temporal. Así, se tiene que la siguiente expresión :

βGLS = Θ1βW + Θ2βB + Θ3βC (7.44)

donde :

Θ1 = [WXX + φ22BXX + φ2

3CXX ]−1WXX

Θ2 = [WXX + φ22BXX + φ2

3CXX ]−1(φ22BXX)

Θ3 = [WXX + φ22BXX + φ2

3CXX ]−1(φ23CXX)

A partir de lo anterior, finalmente se tiene que :

Si σ2µ = σ2

λ = 0 implica de que φ22 = φ2

3 = 1 y así el estimador GLS tenderá alOLS.

Si T y N tienden al infinito entonces esto implica de que φ22, φ2

3 tiendan a cero yasí el estimador GLS tienda al estimador intra grupo.

Si φ22 (φ2

3) tienden a infinito entonces el estimador GLS tenderá al estimadorintergrupo individual (intergrupo temporal).

7.3. Extensiones

El modelo básico puede ser extendido en varias direcciones. Estas son discutidas enforma extensa en el Hsiao y en Baltagi algunas de las cuales revisaremos en la próximaclase. Entre las mas interesantes se tiene :

Tratar la Heterocedasticidad y Correlación Serial en Datos de Panel.

Page 180: Microeconometr a Aplicada JM Benavente

180 CAPÍTULO 7. DATOS DE PANEL

Modelos de Sistemas con Datos de Panel.

Variables con variable Dependiente Discreta en datos de panel.

Modelos de Datos de Panel Dinámicos.

7.4. Datos de Panel Dinámicos2

7.4.1. Introducción

El uso de datos de panel dinámico es una de las areas de mayor desarrollo en laactualidad en el trabajo econométrico tanto en términos teóricos como aplicados. Lasventajas que se derivan del uso de estos son evidentes, ya que permite estimar relacioneseconómicas que presentan una naturaleza dinámica y que es imposible estimarla usandodatos de corte transversal. Por otra parte en la práctica es raro poseer observacionespara periodos de tiempo prolongados de una unidad de análisis, como requeriría el podertrabajar con series de tiempo. De esta manera es común tener en el trabajo aplicadopaneles con períodos de tiempo corto y con un gran numero de unidades. Sin embargo,el trabajar con paneles dinámicos con estas características involucra una serie de de-safíos en la estimación de los parámetros, ya que deseamos que estos sean consistentesy eficientes, al menos en términos asintóticos.

Las técnicas tradicionales de estimación como son Mínimos Cuadros Ordinarios (OLS)y el estimador Within Group (WG) han demostrado tener un pobre desempeño debido aque presentan sesgos los cuales no desaparecen cuando la muestra crece (N →∞). Unaalternativa sugerida para hacer frente a este problema es trabajar con los estimadoresde variables instrumentales (VI) que proponen Anderson y Hsiao (1982). Estos autoresinstrumentalizan la variable dependiente rezagada a través del uso de la misma variabledependiente pero con un orden mayor de rezago.

Como una respuesta a los estimadores anteriores se ha desarrollado toda una liter-atura la cual esta basada en el Método Generalizado de los Momentos (GMM), el cualtrata de obtener estimadores consistentes y eficientes en términos asintóticos. Entre losestimadores que se han desarrollado podemos mencionar el estimador de una etapa,de dos etapas y el estimador sistemas el cual trata de explotar toda la informacióndisponible a través de las combinación de las condiciones de momento para la ecuaciónen niveles y en sus primeras diferencias. En este capítulo nos concentramos en dar unarevisión a los diversos métodos de estimación enfatizando cuales son los posibles sesgosen que se incurre y la eficiencia que muestran dichos métodos.

2Capítulo escrito junto a Emerson Melo.

Page 181: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 181

7.4.2. El estimador de OLS, WG y IV

El modelo en el cual nos concentramos, es uno del siguiente tipo:

yit = αyit−1 + (ηi + υit); |α| < 1; i = 1 . . . N ; t = 1 . . . T (7.45)

donde ηi representa el efecto individual el cual es invariante en el tiempo, υit representael efecto aleatorio que varia de manera individual a través del tiempo. Se asume queambos son variables aleatorias y sus dos primeros momentos vienen dados por:

E(ηi) = E(υit) = 0; y E(η2i ) = σ2

η; E(υ2it) = σ2

υ; E(υitυis) = 0 ∀ i 6= s

Por otra parte se asume que N es grande y T es pequeño y fijo, por tanto las propiedadesasintóticas de los estimadores vendrán dadas en la medida que N →∞.

Dado lo anterior el primer estimador que estamos interesados es el estimador de OLSel cual viene dado por:

αOLS =∑N

i=1

∑Tt=2 yityit−1∑N

i=1

∑Tt=2 y2

it−1

(7.46)

El estimador anterior puede ser expresado de la siguiente manera :

αOLS =∑N

i=1

∑Tt=2(αyit−1 + ηi + υit)yit−1∑N

i=1

∑Tt=2 y2

it−1

Por tanto tenemos que:

αOLS = α +∑N

i=1

∑Tt=2(ηi + υit)yit−1∑N

i=1

∑Tt=2 y2

it−1

El estimador anterior resulta ser inconsistente, debido a que yit−1 esta correlacionadopositivamente con ηi. Es posible demostrar que el plimαOLS viene dado por la siguienteexpresión:

plim(αOLS − α) = (1− α)

σ2η

σ2υ

σ2η

σ2υ

+ k; con k =

1− α

1 + α(7.47)

De esta forma el estimador OLS de la especificación original está sesgado hacia arriba,en donde se tiene que α < plimαOLS < 1.3 Existen dos formas de afrontar el prob-lema anterior, las cuales consisten en eliminar el efecto individual el cual es la fuentede inconsistencia. La primera es transformar el modelo en desviaciones de medias demanera de poder obtener el tradicional estimador WG. La transformación a utilizar esla siguiente :

Q = IT−1 − ee′

T − 1(7.48)

3Notar que si la distribución de ηi es degenarada, la ecuación (160) se convierte en plimαOLS = αy por tanto no existíria sesgo.

Page 182: Microeconometr a Aplicada JM Benavente

182 CAPÍTULO 7. DATOS DE PANEL

donde IT−1 es una matriz identidad de rango T − 1 y e es un vector de t − 1 unos Simultiplicamos (158) por (161) tenemos que se obtiene:

yit − yi = α(yit−1 − yi,t−1) + (υit − υi) (7.49)

con yi = 1T

∑Tt=1 yit, esto es análogo para el caso de yi,t−1 y υi. Si aplicamos OLS a

(162) el estimador WG viene dado por:

αWG =∑N

i=1

∑Tt=2(yit − yi)(yt−1 − yi,t−1)∑N

i=1

∑Tt=2(yt−1 − yi,t−1)2

(7.50)

El estimador WG si bien elimina el efecto individual ηi, mediante la aplicación de lamatriz de transformación dada por Q, igual resulta ser inconsistente. Para ver porquese produce esto, analicemos los términos (yit−1−yi,−1) y (υit−υi) en la ecuación (162).Si escribimos dichos términos de manera extendida se tiene que :

yit−1 − yi,−1 = yit−1 − (1

T − 1(yi1 + ....yit + ..... + yiT−1))

por otra parte el terminó de error es :

υit − υi = υit − (1

T − 1(υi2 + ..... + υit−1 + ....... + υiT ))

A partir de lo anterior es fácil darse cuenta que yit−1 está correlacionado con el término−1

T−1υit−1 y que el término −1T−1yit lo está con υit. De esta manera existe una correlación

negativa entre la variable dependiente rezagada y el terminó de error en la ecuación(162), por tanto el estimador WG de α resulta ser inconsistente, plimαWG es entregadopor la ecuación (164)

plimαWG = −1+α

(T−1)(1− 1−αT

T (1−α))

1− 2α(1−α)(1−T )(1− 1−αT

T (1−α))(7.51)

El sesgo es hacia abajo y por tanto WG subestima a α. De esta forma tanto OLS comoWG entregan estimadores inconsistentes de α en la estimación de (158) y la direcciónde los sesgos van en direcciones opuestas.

La segunda alternativa que tenemos para eliminar el efecto individual de (158) es estimarun modelo en primeras diferencias el cual viene dado por la siguiente ecuación:

∆yit = α∆yit−1 + ∆υit (7.52)

En donde ∆yit = yit − yit−1, ∆yit−1 = yit−1 − yit−2 y por último ∆υit = υit − υit.

Si estimamos (165) mediante OLS, se obtendrá nuevamente un estimador sesgado de-bido al hecho que ∆yit−1 está correlacionado con ∆upsilonit−1. Anderson y Hsiao (1982)

Page 183: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 183

proponen instrumentalizar ∆yit−1 usando como instrumentos4 yit−2 ó bien (yit−2 −yit−3).

De esta forma, el estimador de variables instrumentales, cuando usamos yit−2 comoinstrumento, viene dado por la siguiente expresión :

αV I =∑N

i=1

∑Tt=2(yit − yit−1)yit−2∑N

i=1

∑Tt=2(yit−1 − yit−2)yit−2

(7.53)

y cuando usamos (yit−2−yit−3) como instrumento tiene la siguiente expresión alternativa:

αV I =∑N

i=1

∑Tt=2(yit − yi)(yit−2 − yit−3)∑N

i=1

∑Tt=2(yit−1 − yit−2)(yit−2 − yit−3)

(7.54)

El estimador dado por (166) tiene la ventaja que identifica a α cuando T > 2, en cambio(167) funciona cuando T > 3.

Los criterios para usar (166) ó (167) vienen dados por el instrumento que presenteuna mayor correlación con ∆yit−1, así como también por consideraciones de eficienciaasintotica.

No obstante lo anterior Arellano y Bond (1991) a partir de un experimento de Monte-carlo, muestran el pobre desempeño que presentan los estimadores de IV antes men-cionados, en particular el estimador entregado por (167) presenta un gran sesgo haciabajo y una gran imprecisión.

7.4.3. Usando GMM en la estimación de Paneles Dinamicos

Considerando la inconsistencia de los estimadores hasta ahora descritos, Arellano yBond sugieren la utilización del Método de los Momentos Generalizado (GMM) para laestimación de la ecuiación (158).

En esta sección se describen los estimadores sugeridos por estos autores basados enel concepto de estimación consistente mediante la utilización de un vector de instru-mentos.

El método de Arellano y Bond

El método considera las siguientes condiciones de momento:

E(g(Xi, θ0)) = E(gi(θ0)) = 0

4Un instrumento debe cumplir que este altamente correlacionado con el regresor al cual estainstrumentalizando, y que no este correlacionado con el termino de error. A partir del supuestoE(υitυis) = 0 ∀ i 6= s los instrumentos señalados son válidos

Page 184: Microeconometr a Aplicada JM Benavente

184 CAPÍTULO 7. DATOS DE PANEL

donde g(.) es un vector de orden q y θ0 es un vector de orden k, en donde q > k. Elestimador GMM θ para θ0, minimiza el siguiente criterio:

QWN=

[1N

N∑

i=1

gi(θ)

]′W−1

N

[1N

N∑

i=1

gi(θ)

](7.55)

con respecto a θ, en donde W−1N es una matriz definida positiva que cumple con

plimN→∞W−1N = W con W una matriz definida positiva.

GMM asume que limN→∞ 1N

∑Ni=1 gi(θ) = E(gi(θ)) y ademas que 1

N

∑Ni=1 gi(θ0) →

N(0, Ψ). LO último se conoce como condiciones de regularidad.

Por otra parte sea Γ(θ) = E(∂gi(θ)/∂θ′) y Γθ0 = Γ(θ0), entonces√

N(θ − θ0) tieneuna distribución normal limite dada por

√N(θ − θ0) → N(0, VW ), donde :

VW = (Γ′θ0W−1Γθ0)

−1Γ′θ0W−1ΨW−1Γθ0(Γ

′θ0

W−1Γθ0) (7.56)

El estimador GMM de dos etapas eficiente, elige la matriz de ponderaciones WN demanera tal que plimN→∞WN = Ψ y por tanto se tiene que VW = (Γ′θ0

W−1Γθ0)−1. La

matriz que cumple con las condiciones anteriores es la siguiente :

WN (θ1) =1N

N∑

i=1

gi(θ1)gi(θ1)′ (7.57)

en donde θ1 es un estimador consistente de θ0, el cual es obtenido en una primera etapa.

Para ver cómo funciona GMM retomemos el modelo dado por (165) el cual esta ex-presado en primeras diferencias, y asumamos que T > 3 de manera tal que el modeloestá sobreidentificado, en particular asumamos T = 4.

En dicho caso se tiene que para t = 4 los instrumentos disponibles son yi2 y yi1, ypara t = 3 solo tenemos disponibles yi1 como instrumento. De esta manera se puedededucir que para t = T se tiene que los instrumentos disponibles son (yi1, yi2, .......yiT−2).

A partir de lo anterior y siguiendo a Arellano y Bond (1991), podemos escribir lascondiciones de momento para la ecuacion (165), de la siguiente manera:

E(∆υityit−s) = 0 i = 1 . . . N ; t = 3 . . . T ; s = 2 . . . t− 1 (7.58)

Las condiciones de momento disponibles son m = (T−1)(T−2)2 .

Denotando las condiciones anteriores en términos matriciales tenemos que :

E(Z ′i∆υi) = 0 (7.59)

Page 185: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 185

con ∆υ′i = (υi3, υi4, .....υiT )′ y Zi es una matriz de instrumentos definida de la siguientemanera :

Zi =

yi1 0 0 . . . . . . 00 yi1 yi2 . . . . . . 0. . . . . . . . . .0 0 0 yi1 . . . yiT−2

(7.60)

la cual es de (T−2)×m en donde m representa las condiciones de momento disponibles.El estimador GMM basado en las condiciones entregadas por (171), minimiza el siguientecriterio

Q =

[1N

N∑

i=1

∆υ′iZi

]W−1

N

[N∑

i=1

Z ′i∆υ

](7.61)

La elección de la matriz da lugar a dos estimadores los cuales son asintóticamente equiv-alentes.

Para el estimador de una etapa utilizamos la siguiente matriz de ponderaciones :

WN1 =

[1N

N∑

i=1

Z ′iHZi

]−1

(7.62)

en donde H es una matriz que contiene dos en la diagonal principal y menos uno en lasdos primeras subdiagonales y ceros en todo los demás lugares.

La ecuación (176) muestra el estimador que se obtiene al minimizar (174) con respectoa α:

α1GMM = [∆y′−1ZW−1N1Z ′∆y−1]−1[∆y′−1ZW−1

N1Z ′∆y] (7.63)

en donde ∆y−1 es un vector de N(T − 2)× 1 dado por ∆y′−1 = (∆y′1(−1), ....∆y′N(−1))′,

del mismo modo se tiene que ∆y′ = (∆y′1, ....∆y′N )′ el cual es también es de ordenN(T −2)×1, y finalmente Z ′ = (Z ′1, ........Z

′N )′, la cual es una matriz de m×N(T −2).

El estimador α1GMM es consistente en la medida que N →∞, aunque no es eficiente.

El estimador eficiente el cual denominamos como α2GMM surge del hecho de elegirla matriz de ponderaciones óptimas la cual tiene la siguiente forma :

WN2 =

[1N

N∑

i=1

Z ′i∆υi∆υi′Zi

]−1

(7.64)

en donde ∆υi son los residuos estimados a partir de un estimador consistente de α,el cual usualmente es el estimador α1GMM . Asi se tiene que el α2GMM es el mismoestimador que el señalado por la ecuación (176) con la diferencia que la matriz WN1 esreemplazada por WN2.

Page 186: Microeconometr a Aplicada JM Benavente

186 CAPÍTULO 7. DATOS DE PANEL

Comparando la eficiencia de α1GMMyα2GMM

Un punto central en la decisión de ocupar α1GMM o bien α2GMM es saber cómose comportan en términos de eficiencia, en particular cuando trabajamos con muestrasfinitas.5

La varianza asintótica para α1GMM es estimada por :

V AR(α1GMM ) = N(∆y′−1ZW−1N1Z ′∆y−1)−1∆y′−1ZW−1

N1WN1(α1GMM )× (7.65)Z ′∆y−1(∆y′−1ZW−1

N1Z ′∆y−1)−1

donde se tiene que :

WN1(α1GMM ) =1N

N∑

i=1

Z ′i∆υi∆υi′Zi

∆υi = ∆yi − α1GMM∆y−1

Por otra parte la varianza para el estimador de dos etapas viene dada por la siguienteexpresión :

V AR(α2GMM ) = N(∆y′−1ZWN2(α2GMM )Z ′∆y−1) (7.66)

Arellano y Bond (1991) documentan el hecho que la varianza del estimador de dos eta-pas puede estar severamente sesgada hacia abajo en muestras finitas y por tanto lasestadísticas de prueba tienen un mayor poder tendiéndose a sobrerechazar la hipótesisnula.

De esta manera se sugiere el uso del estimador de una etapa para la realización deinferencias. La fuente de sesgo en los errores estándar del estimador de dos etapasproviene del hecho que en el cálculo de (178) está presente el estimador de una etapa.

Windmeijer (2000) muestra este hecho y propone una corrección para muestras fini-tas a partir de una expansión de Taylor de primer orden.

7.4.4. Algunos test de especificación

Uno de los supuestos sobre νit es que estos son serialmente no correlacionados lo queviene expresado por :

E(νitνis) = 0 ∀ t 6= s (7.67)

por tanto cuando diferenciamos (158) para remover ηi, el termino de error ∆νit queresulta, esta por construcción serialmente correlacionado.

En particular se tiene que:

E(∆νit∆νit−s) = −σ2ν , si s = 1

5Sabemos que α2GMM es asintóticamente eficiente en la medida que N →∞.

Page 187: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 187

de esta forma se tiene un MA(1) de coeficiente unitario en el termino de error. Laconsistencia de GMM depende fuertemente de que se cumpla (180), por tanto una vezque se ha estimado (158) esta condición debe ser testeada, ya que de no cumplirse, lascondiciones de momento establecidas por (171) son inválidas.

Una forma de saber si se cumple o no dicha condición es saber si existe no correlaciónserial de segundo orden. Para esto definamos lo siguiente :

νit = ∆yit − α∆yit−1 (7.68)

A partir de (181) podemos ver que una manera fácil de entender el problema es con-centrar nuestra atención solamente en una unidad i y ver si se cumple la condición. Deesta manera se sabe que:

ξi = ∆ν ′i(−2)νi (7.69)

donde ∆νi(−2) y νi son de vectores de (T−4)×1. Bajo la hipótesis nula de no correlación,ξi tiene media cero y podemos construir test para saber si efectivamente E(ξi) = 0. Asía partir de la simple idea anterior el test para saber si existe o no correlación serial desegundo orden es el siguiente:

m1 =∆ν ′i(−2)νi

ν1/2∗

(7.70)

donde m1 tiende a una normal de media cero y varianza uno6. Por otra parte ν1/2∗ viene

dado por:

ν∗ =N∑

i=1

ν ′i(−2)νiνiνi(−2)−

2ν ′−2X∗(X ′ZWNZX)−1X ′ZAN (N∑

i=1

Z ′iνiν′iνi(−2))

+ν ′−2X∗avar(δ)X ′∗ν−2

Lo interesante de (183) está en el hecho que es flexible ya que esta definida en términosde un estimador consistente y no necesariamente eficiente. Sin embargo, la potencia quealcance m1 dependerá de la eficiencia asintótica del estimador que se utilice.

Si los errores no están serialmente correlacionados, entonces no se rechaza la hipóte-sis de ausencia de correlación serial de segundo orden en ∆νit; no obstante lo anterior,llegaríamos a la misma conclusion si estos fueran autocorrelacionados pero el procesofuera un Random Walk.

Una forma para discriminar entre ambas situaciones seria la de construir un estadísticodenominado como m2 pero para probar si existe o no correlación serial de primer ordenen ∆νit.

6Arellano y Bond (1991) demuestran la normalidad asintotica de este estadístico

Page 188: Microeconometr a Aplicada JM Benavente

188 CAPÍTULO 7. DATOS DE PANEL

El poder distinguir entre ambos casos no es un tema menor ya que si los errores siguenun Random Walk al estimar por GMM y por MCO la ecuacion en primera diferencias,ambos entregaran estimadores consistentes y por tanto se tiene que esto daría origen aun test de Hausman de especificación.

Test de Sargan de sobreidentificacion

Este test busca establecer si las condiciones de momento impuestas son o no validasen donde si m son las condiciones de momento y k los parámetros a estimar diremosque el modelo esta sobreidentificado si p > k.

El test propuesto por Sargan viene dado por :

S = ∆ν ′Z(Z ′∆ν∆ν ′Z)−1Z ′∆ν ∼ aχ2p−k (7.71)

donde ν es construido a partir del estimador de dos etapas, para una matriz de in-strumentos Z dada, que no necesariamente es la matriz de instrumentos óptimas. Lahipótesis nula de este test es que las condiciones de momento son validas.

Un aspecto interesante del test de Sargan es aquel relacionado con el hecho que puedeser modificado de manera de poder trabajar con distintas hipótesis para el termino deerror νit, en particular para el tema de correlación serial.

Para entender esto, consideremos una matriz de instrumentos la cual la denominamospor Z1 y que contiene p1 columnas que corresponden a las condiciones de momentocuando se tiene que el término de error en niveles presenta un proceso MA(1).

El test de Sargan para las condiciones de momento anteriormente señaladas es el sigu-iente :

S1 = ∆ν ′1Z1(Z ′1∆ν1∆ν ′1Z1)−1Z ′1∆ν1 ∼ aχ2p1−k (7.72)

donde ∆ν1 son obtenidos a partir de un estimador de dos etapas basado en la matrizde instrumentos Z1. De esta forma (185) puede ser comparada con (184) y por tantoformar :

DS = S − S1 ∼ aχ2p1−p

Los grados de libertad p1 − p están reflejando el hecho que existen condiciones de mo-mento adicionales lo cual se explica porque la matriz de instrumentos Z es construidaasumiendo ausencia de correlación serial en νit.

Si se rechaza H0, estamos diciendo que existen condiciones de momento mal especi-ficadas y por tanto se tendría que usar Z1 en vez de Z.

Page 189: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 189

7.4.5. El caso de instrumentos débiles

Como se mencionó, sabemos que una de las condiciones que debe cumplir un instru-mento es la de estar correlacionado con la variable a la cual se va a instrumentalizar.7

Sin embargo en la estimación de paneles dinámicos usando GMM , se ha encontra-do que en ocasiones los instrumentos muestran una débil correlación con las variablesque están instrumentalizando, lo que lleva a que las estimaciones de los parámetros delmodelo se realice con poca precision y con sesgos.

Uno de los primeros estudios en dar cuenta de esto fue el realizado por Griliches yMairesse(1997), quienes señalan para el caso de la estimación de una función de pro-ducción Cobb-Douglas:

En la practica, la aplicación de métodos de panel a microdatos producenresultados muy insatisfactorios; coeficientes para el capital bajo y usualmenteinsignificantes junto estimadores poco contradictorios para los retornos con-stantes a escala

-Griliches y Mairesse (1997) Para entenderel porque se produce este problema consideremos el caso donde T = 3, de manera talque las condiciones de momento se reducen solamente a una condición de ortogonalidad.

En este caso GMM se convierte en 2SLS. En particular en la primera etapa tenemos :

∆yi2 = πdyi1 + ri i = 1, ....N (7.73)

Si el instrumento es débil, implicara que en (186), πd será no significativo, y por tantono cumple una de las condiciones para ser instrumento. El que yi1 este débilmentecorrelacionado con ∆y2 dependerá de dos factores :

1. En la medida que α → 1, en la ecuación (158).

2. El tamaño relativo de la varianza de ηi respecto a la varianza de νit.

En efecto si consideramos el modelo original en T = 2 y restando a ambos lados yi1 setiene que :

∆yi2 = (α− 1)yi1 + ηi + νit (7.74)

El estimador de MCO para (α−1) en (187) estará sesgado hacia arriba, es decir, haciacero en la medida que esperamos que E(yi1ηi).

Asumiendo estacionariedad en covarianza se tiene que el plimπd viene dado por :

plimπd = (α− 1)k

σ2η

σ2ν

+ kcon k =

1− α

1 + α(7.75)

7La otra condición es la de no estar correlacionada con el termino de error, esto al menos en términosasintóticos.

Page 190: Microeconometr a Aplicada JM Benavente

190 CAPÍTULO 7. DATOS DE PANEL

De (188) se desprende el hecho que plimπd → 0 en la medida que α → 1 o en la medidaque σ2

η/σ2ν →∞.

Blundell y Bond (1999) muestran que el sesgo de GMM en presencia de instrumentosdébiles es similar al sesgo que tiene el estimador WG. La solución que se propone esutilizar el denominado estimador GMM de sistemas el cual mezcla condiciones de mo-mento para la ecuación en primeras diferencias y para la ecuación en niveles.

El estimador usando condiciones en primeras diferencias ya lo conocemos, por tan-to debemos derivar un estimador para condiciones de momento en niveles, para luegocombinar ambas condiciones.

Condiciones iniciales y un estimador en niveles

Consideremos la siguiente condición :

E(ηi∆yi2) = 0 i = 1, ....N (7.76)

La condición anterior es una restricción sobre el proceso que genera los datos, y a partirde esta tendremos las siguientes condiciones de momento adicionales:

E((ηi + νit)∆yit−1) = 0 t = 3, ...T (7.77)

Lo anterior proviene de (189) y señala que si ∆yi2 no está correlacionado con ηi entoncesllevará a que ∆yit también no lo esté.

Esto puede ser visto en (165), donde si comenzamos a reemplazar al lado derecho deesta ecuación, se llega a una expresión del siguiente tipo :

∆yit = αt−2∆yi2 +t−3∑

s=0

αs∆µit−s (7.78)

donde ∆µit = (ηi + νit)− (ηi + νit−1) = ∆νit.

Por tanto de (191) se deriva el hecho que ∆yit estará no correlacionado con ηi enla medida que ∆yi2 no lo esté.

El estimador GMM en niveles puede ser obtenido mediante el uso de las siguientescondiciones de momento:

E(∆yit−s(ηi + υit)) = 0 s = 2......t− 1

En términos matriciales tenemos lo siguiente :

E(Zliµi) = 0 t = 2....T (7.79)

Page 191: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 191

en donde Zli viene dada por la siguiente expresión :

Zi =

∆yi2 0 0 . . . . . . 00 ∆yi2 ∆yi3 . . . . . . 0. . . . . . . . . .0 0 0 ∆yi2 . . . ∆yiT−1

(7.80)

la cual tiene dimension de (T − 2)×ml con ml = 0,5(T − 1)(T − 2).

Para la obtención de los estimadores de una y dos etapas procedemos de la mismamanera que para el estimador GMM con las condiciones de momento para la ecuaciónen diferencia.

7.4.6. GMM de sistemas

Al tener las condiciones de momento en niveles y en primeras diferencias la preguntaobvia que nos surge es ¿como combinamos estas condiciones de la manera mas eficienteposible?.

Arellano y Bover(1995) responden esta pregunta a partir de un modelo mas generaldonde se incluyen variables que pueden estar correlacionadas con ηi.8

El estimador GMM en este caso resulta de combinar las condiciones en niveles y enprimeras diferencias en forma simultanea, de manera que el sistema resultante tiene2(T − 2) ecuaciones. Las condiciones a utilizar en la estimación son las siguientes :

E(yit−s∆µit) = 0 t = 2...T s = 2.....t− 1 (7.81)E(∆yit−1µit) = 0 t = 3...T (7.82)

con µit = ηi + υit. Haciendo uso de matrices se tiene que :

E(Z ′siqi) = 0

en donde Zs es :

Zs =[

Zdi 00 ZP

li

]=

Zdi 0 0 0 0 00 ∆yi2 0 . . . . . . 00 0 ∆yi3 . . . . . . 0

0...

......

......

0 0 . . . . . . 0 ∆yiT−1

(7.83)

Al igual que en los casos anteriores, el estimador de una y de dos etapas se obtiene conel procedimiento descrito en las secciones precedentes.

8La sección siguiente se discute el caso cuando se tiene regresores adicionales a la variables depen-diente rezagada.

Page 192: Microeconometr a Aplicada JM Benavente

192 CAPÍTULO 7. DATOS DE PANEL

Lo interesante del estimador GMM de sistemas, es que puede ser entendido como unacombinación del estimador en primeras diferencias y del estimador en niveles usandosolo algunas condiciones de momento para este.9

Por otra parte, para el estimador en 2SLS en sistemas se puede demostrar que :

αs = (q′−1Zs(Z ′sZs)−1Z ′s)−1q′−1Zs(Z ′sZs)−1Z ′sq

en donde q′−1 = [∆y−1, y−1]. Y por otra parte se tiene que :

q′−1Zs(Z ′sZs)−1Z ′sq−1 = ∆y′−1Zd(Z ′dZd)−1Z ′d∆y−1 + y′−1Zpl (Zp′

l Zpl )−1Zp′

l y−1

Usando estas dos expresiones se llega al hecho de que :

αs = γαd + (1− γ)αpl (7.84)

definiendo αd el estimador 2SLS para la ecuación en primeras diferencias y αpl el esti-

mador en niveles utilizando solamente las T − 2 condiciones de momento.

Finalmente γ puede ser definido como :

γ =∆y′−1Zd(Z ′dZd)−1Z ′d∆y−1

∆y′−1Zd(Z ′dZd)−1Z ′d∆y−1 + y′−1Zpl (Zp′

l Zpl )−1Zp′

l y−1

arreglando la expresión anterior se tiene que :

γ =π′dZ

′dZdπd

π′dZ′dZdπd + π′lZ

p′l Z ′dπl

con πd y πl son los estimadores de OLS en la primera etapa.

De esta forma si tenemos el caso de que α → 1 o ση2/σ2υ → ∞ se producirá que

γ → 0 y el estimador en sistemas permanece entregando información ya que en (197)αs → αp

l y por tanto se soluciona el caso de instrumentos débiles al utilizar el estimadorde sistemas.

7.4.7. Analisis Multivariado

Hasta el momento nos hemos concentrado en un modelo donde como variable dellado derecho sólo observamos la variable endógena rezagada. Como en la mayoría delos trabajos empíricos esta variable rezagada puede ser importante en la estructura delmodelo como un mecanismo que da cuenta de los costos de ajuste, deberá existir laposibilidad que orto conjunto de variables exógenas también sean importantes en laexplicación de la variable de interés.

9En particular solo usamos la diagonal de la matriz Zli.

Page 193: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 193

De esta manera, el modelo que estamos interesados en esta sección es uno del sigu-iente tipo :

yit = αyit−1 + βxit + µit, t = 2.....T (7.85)

donde µit = ηi + υit y xit es un escalar. Asumiremos que xit está correlacionado con ηi.

Por otra parte sabemos que xit puede estar correlacionado de tres maneras distintascon υit, lo que dará origen a diversas condiciones de momento.

En primer lugar asumiremos que xit es estrictamente exógeno, lo cual puede ser repre-sentado de la siguiente manera :

E(xisυit) = 0 con s = 1.....T, t = 1......T

El segundo caso que podemos tener es que xit sea predeterimanda o débilmente exógenadonde bajo esta situación :

E(xisυit) = 0 con s = 1....t, t = 1...T

yE(xisυit) 6= 0 para s = t + 1, ...T

Finalmente xit puede estar determinado endógenamente en cuyo caso se tiene que :

E(xisυit) = 0 s = 1, ....t− 1, t = 1, ......T

yE(xisυit) 6= 0 s = t, ....T, t = 1, ......T

Con lo anterior tendremos distintas condiciones de momento para cada caso, en dondelas condiciones dadas por (171) se mantienen, pero para cada caso de xit tendremoscondiciones adicionales.

De esta forma, si xit es estrictamente exógena las condiciones de momento son lassiguientes :

E(xis∆υit) = 0 s = 1......T, t = 3, ......T (7.86)

lo cual origina que existen T (T − 2) condiciones de momento adicionales.

Por otra parte cuando tenemos el caso que xit es predeterminada tenemos que :

E(xis∆υit) = 0 s = 1....., t− 1 t = 3.....T (7.87)

en donde las condiciones de momento adicionales son 0,5(T − 2)(t− 1).

Por ultimo para el caso de xit endogena tenemos que :

E(xis∆υit) = 0 s = 2....., t− 1 t = 3.....T (7.88)

Page 194: Microeconometr a Aplicada JM Benavente

194 CAPÍTULO 7. DATOS DE PANEL

las condiciones disponibles son 0,5(T − 2)(T − 1).

De esta forma el estimador de sistemas se obtiene combinando las condiciones enprimeras diferencias y en niveles. Para ejemplificar esto asumamos que xit es endógeno,de esta forma las condiciones en primera diferencias son las siguientes :

E(yit−s∆υit) = 0

yE(yit−1(ηi + υit))

con t = 3...T y s = 2, ....., t− 1.

Para el caso de xit tenemos que :

E(xit−s∆υit) = 0

yE(∆xit−1(ηi + υit)) = 0

para t = 3...T y s = 2, ....., t− 1.

7.4.8. El estudio de Kiviet

Durante el análisis que hemos realizado a lo largo de este capítulo se ha asumido deque la dimensión temporal del panel es relativamente corta pero donde la dimensión entérminos de individuos es relativamente grande.10

No obstante lo anterior, en la práctica podemos encontrar situaciones donde ningu-na de las variables es relativamente grande y por lo tanto ninguno de los estimadoresanteriormente revisados entregaría resultados consistentes. Por ejemplo, en estudios deconvergencia en crecimiento económico rara vez la dimensión de T supera las 30 obser-vaciones y N el valor de 50. O bien, en el caso chileno, un análisis comunal con datosde la CASEN no permite un N superior a 240 por decir lo mucho.

Kiviet (1995) desarrolla una corrección al estimador WG el que como ya vimos, presentaun sesgo sistemático el cual no desaparece conforme N crece. No obstante lo anterior,cuando T crece este sesgo tiende a disminuir aunque no es muy claro en la literatura elvalor de T para el cual dicho sesgo desaparece.

El método lo que hace es restarle al estimador por LSDV del modelo original unaexpresión que captura el sesgo cometido por este último. Cabe hacer notar que el sesgodel estimador LSDV es función de los verdaderos parámetros del modelo. En conse-cuencia éstos deberán ser estimados primeramente tarea que se realiza mediante unaestructura de IV sugerida por Anderson y Hsiao (1981).

10En efecto, los estimadores de GMM son consistentes asintóticamente para N →∞ pero con T fijo.

Page 195: Microeconometr a Aplicada JM Benavente

7.4. DATOS DE PANEL DINÁMICOS 195

Kiviet con mas detalle11 Como se adelantó, el estimador de Kiviet el cual denominaremos LSDVK se ob-

tiene en dos etapas. En la primera etapa etapa usa un estimador por IV para estimarlos residuos de un estimador consistente y los coeficientes sesgados son obtenidos porefectos fijos (LSDV). Luego en la segunda etapa se utilizan estos residuos para corregirel sesgo del estimador por efectos fijos.

Formalmente (198) puede ser re escrita de la siguiente forma :

y = Wϕ + (In ⊗ iT )η + ε (7.89)

donde W = [Y−1...X] y ϕ′ = (δ, β). El estimador de efectos fijos (LSDV) será:

ϕ = (W ′AW )−1W ′Ay (7.90)

donde At = It − 1T iT i′T y A = IN ⊗AT .

Sin embargo, como se señalo anteriormente este estimador es sesgado por lo cual sesugiere utilizar el estimador de Kiviet(1995). El sesgo será en consecuencia :

E(ϕ− ϕ) = E(W ′AW )−1W ′A[Wϕ + (In ⊗ it)η + ε]− ϕ

= E(W ′AW )−1W ′Aε

Aquí se asume que A(IN ⊗ iT ) = (IN ⊗AiT ) = 0, dado AT iT = 0. La expresión anteriorno es fácil de evaluar, ya que W es estocástico y no lineal.

En orden de aproximar esta expectativa se divide W en su parte estocástica W y noestocástica W , es decir

W = E(W ) (7.91)W = W − E(W ) (7.92)W = W + W (7.93)

donde W = [Y−1...X] y W = [Y−1

...0].

La descomposición de W puede ser usada para examinar AW = A(W + W ). Kivietderiva la siguiente expresion para AW :

AW = (IN ⊗AT C)εq′ (7.94)

donde

11Deseo agradecer a Jorge Hermann por aportar el material que se presenta en esta sección

Page 196: Microeconometr a Aplicada JM Benavente

196 CAPÍTULO 7. DATOS DE PANEL

C=

0 · · · · · 0

1 0 ·δ 1 0 ·δ2 δ 1 · ·· · · · · ·· · ·

δT−2 · · · δ 1 0

q = (1, 0, ..., 0)′

Kiviet utiliza estas expresiones para derivar el sesgo del estimador de LSDV de lasiguiiente forma :

E(ϕ− ϕ) = E((W + W )′A(W + W ))−1(W + W )′Aε

E(ϕ− ϕ) = −σ2ε(D)−1(g1 + g2 + g3) + O(N−1T

32 ) (7.95)

donde :

D = W ′AW + σ2εNtr[C ′AT C]qq′

g1 =N

T(i′T CiT )[2q − W ′AW (D)−1q]

g2 = tr[W ′(IN ⊗AT CAT )W (D)−1]qg3 = W ′(IN ⊗AT CAT )W (D)−1q

+σ2εNq′(D)−1q × [−N

T(i′T CiT )tr(C ′AT C) + 2tr(C ′AT CAT C]q

Kiviet muestra que solo g1 es necesario para calcular el sesgo del estimador LSDV.

En consecuencia, el estimador de LSDVK consiste en calcular g1 usando los residuosde IV para luego computar el sesgo el que luego se utiliza para ajustar los coeficientesestimados por efectos fijos.

Page 197: Microeconometr a Aplicada JM Benavente

Capítulo 8

Métodos de Evaluación para DatosNo-Experimentales

Objetivo: La medición del impacto de una reforma política o intervención sobreun conjunto de variables (de predicción) bien definidas.

En general, los individuos pueden ser identificados por ciertas variables observ-ables, -sexo, edad, educación, estado civil- y por tanto, el problema de la evaluaciónes medir el impacto del programa en cada tipo de individuo.

Problema: El impacto del programa lo podemos estudiar sólo en quienes partic-iparon y no podemos saber qué habría pasado con ellos si no hubieran participado.

La construcción de los contrafactuales es el aspecto central en los métodos de evaluación.La construcción de los contrafactuales ha sido realizada bajo 5 procesos distintos, perorelacionados:

1. Experimento Social Aleatorio (puro).

Se relaciona un grupo de potenciales participantes homogéneos y se deja fuerauna submuestra, aleatoriamente determinada. Administrándose el programa algrupo restante y comprando sus perfomances relativas.

Problemas de este método:

- Muy caros raros en la práctica.- Se necesita un grupo de control que no está afecto, bajo ninguna forma,

por las reformas (programas). No existe spillovers , institución, efectossobre salario de mercado, etc.

197

Page 198: Microeconometr a Aplicada JM Benavente

198CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

2. Experimentos Naturales.

Considera la reforma (programa) como un experimento y tratando de encontrarun grupo comparable en forma natural. Denotado generalmente como Diferencias-en-diferencias ya que compara la diferencia en la conducta promedio después yantes de la reforma para el grupo elegido contrastándola con aquella conductapromedio -antes y después- del grupo de comparación.

Recupera así, el efecto promedio del programa sobre aquellos individuos que par-ticiparon (o fueron "tratados") capturando el efecto: "The effect of Treatmenton the Treated". Lo anterior , al remover efectos individuales no observables yfactores macro comunes.

Problemas:- Asume que existen efectos temporales comunes entre los grupos.- No existen cambios de composición al interior del grupo.- Así, escoger el grupo de control es muy complejo.

(ya lo veremos)

3. Métodos de Matching (calce).

Persigue seleccionar factores observables suficientes como para que dos individuoscon los mismos valores para estos factores no presenten diferencias sistemáticasen sus reacciones a las reformas. Así, el impacto del programa puede ser aislado alcomparar dos individuos similares (clones); uno que participó y uno que no lo hizo:

Problema:- La escogencia de las variables que serán utilizadas para definir el clon.- Si las variables son las equivocadas, el efecto contrafactual estará incorrec-

tamente medido y así el impacto del programa.

4. Modelo de Selección.

Basado en el principio de exclusión en que una variable es necesaria para de-terminar la participación en el programa pero no en el resultado del programa. Adiferencia del matching, el cual puede ser considerado como una selección sobreobservables, este approach (de Heckman) considera la selección basada en no-observables.

5. Modelos de Simulación Estructural.

Usualmente utilizados para las evaluaciones de reformas impositivas, se modela

Page 199: Microeconometr a Aplicada JM Benavente

199

mediante un marco de elección racional el cual separa las preferencias de las re-stricciones y por lo tanto, puede ser utilizado para simular reformas económicasque modifican las restricciones pero que dejan las preferencias inalteradas.

8.0.9. Criterios para escoger una forma u otra

1. Naturaleza del programa: local-nacional, escala pequeña o global.

2. Naturaleza de la pregunta que se desea responder -impacto general, efecto deltratamiento sobre los tratados, extrapolación u otras reformas, etc.

3. Naturaleza de los datos disponibles.

8.0.10. Qué se desea medir?

1. El impacto del programa sobre individuos con características particulares comosi fueran asignados aleatoriamente al programa de una población de todos losindividuos con otras características.

2. El impacto sobre de ciertas características entre todos que fueron asignados alprograma.

Bajo el supuesto de efecto del tratamiento homogéneo estas dos medidas son idénticas.Pero si los efectos son heterogéneos ambas medidas pueden diferir, en particular, 2. seconoce como .efecto del tratamiento sobre los tratados".

Efectos Homogéneos del Tratamiento

Yit = Xitβ + diα + µit t > k

Yit = Xitβ + µit t ≤ k

E(µit) = 0 E(µit, Xit) = 0

di=1 si individuo i participó en el programa (el cual ocurrió en t=k).α: mide el impacto homogéneo del tratamiento sobre individuo i.Con la excepción del caso de datos experimentales, la asignación al programa no esaleatorio.

⇒ E(di, µit) 6= 0

Page 200: Microeconometr a Aplicada JM Benavente

200CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

pues, puede ser que la decisión de participar, o el ser seleccionado depende de ciertascaracterísticas de los individuos.

Separación de la decisión de participar.

Ni = Zi · γ + νi

donde N: índice de participación (VAN, etc).con di=1 si Ni=0.di=0 otro caso

Efectos de Tratamiento Heterogéneos

Aquí el impacto del programa varía entre individuos. También dichos efectos difer-enciados pueden influenciar el proceso de decisión (es decir, correlación con indicadordi).Sustituyendo de otros regresores X,

Yit = β + diαi + µit t > k

αi: impacto del tratamiento en individuo i.

Si α: impacto promedio sobre la población.εi: desviación del individuo i en la media población.αT : impacto promedio del tratamiento sobre los tratados.

αi = α + εi

αT = α + E(εi|di = 1)

donde E(εi|di = 1) desviación media del impacto entre los participantes. Así el impacto:

Yit = β + di · α + [µit + di · εi]= β + di · α + [µit + di(αi − α)]

Aquí, el problema adicional que surge como consecuencia de la participación heterogéneaes la forma del término de error. µit + di(αi − α), el cual cambia de acuerdo a si fuetratado o no.La identificación de α es mas difícil en el caso de correlación con el indicador detratamiento (participación). Notar que si E(εi ·di)6= o tendríamos que E(εi|di)6= 0 y así:

E(Yit|di) = β + di[α + E(εi|di)] + E(µit|di)

En este caso, OLS identifica:

E(α) = α + E(εi|di = 1) + E(µit|di = 1)− E(µit|di = 0)

Page 201: Microeconometr a Aplicada JM Benavente

201

Así, aún si µit no está correlacionado con di, de tal modo que E(µit|di = 1)=E(µit|di =0)=0 sigue existiendo el problema de identificación.Solo es posible identificar: αT = α + E(εi|di = 1), es decir, el impacto del tratamientosobre los tratados.Ello pues separar de que el término de error µ no este correlacionado con el proceso dedecisión el componente del efecto del programa específico al individuo εi, probablementelo esté. En general, se espera que los individuos considera sus condiciones específicas ensu decisión y en consecuencia E(εi|di = 1)6=0 y por lo tanto, la identificación de α sehace mas dificultosa.

8.0.11. Datos Experimentales

Si el diseño del programa escoge aleatoriamente una muestra del grupo de personajeselegibles para participar donde la elección es absolutamente es independiente del posibleresultado, entonces

α = Y1t − ς0

t t > k

donde Y(1)t y ς

(0)t son los resultados medios en los tratados y no tratados en el tiempo

t después del programa.

Pero:

- si existen dropouts (non random)

- si se le ofrece otros programas a los no-seleccionados

- si el experimento en si altera la conducta de los tratados/no tratados.

Entonces

- consistencia de α es invalidada.

8.0.12. Non-experimental data

Aún si el diseño del grupo de control obedece a criterios o reglas de comparaciónbasada en información observable, lo cual es ya difícil, no podemos garantizar diferenciasen no-observables.Este es el típico problema de selección.

E(α) = α + [E(µit|di = 1)− E(µit|di = 0)]

En el caso en que E(µit|di) 6= 0, si vemos que los términos anteriores se cancelan, estaesperanza será diferente de α. Así, estimadores alternativos serán necesarios: IV, selec-ción, diff-in-diff, matching.Ejemplo ilustrativo: Estudio de LaLonde (1986), ver tablas:

Page 202: Microeconometr a Aplicada JM Benavente

202CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

Comparison of Treatments and Controls:Characteristics for the NSWD Males

Treatments ControlsAge 24.49 23.99Years of school 10.17 10.17Proportional high-school drop-outs 0.79 0.80Proportional married 0.14 0.13Proportional black 0.76 0.75Proportional Hispanic 0.12 0.14Real earnings one year before treatmenta 1,472 1,558Real earnings two year before treatmenta 2,860 3,030Hours worked one year before treatment 278 274Hours worked two year before treatment 458 469Number of observation 2,083 2,193

a: Annual earnings in US dollars.

Annual Earnings of Male Treatments and ControlsTreatments Controls

1975 3,066 3,0271976 4,035 2,1211977 6,335 3,4031978 5,976 5,090Number of observation 297 425

Estimated Treatment Effects for the NSWD Male Participantsusing the Control Group and Comparison Groups from

the PSID and the CPS-SSA.Comparison Unadjusted Adjusted Unadjusted Adjusted Two-stepGroup difference of difference of difference-in- difference-in- estimator

mean post- mean post- differences differencesprogramme programmeearnings earnings

Controls 886 798 847 856 889PSID 1 -15,578 -8,067 425 -749 -667PSID 2 -4,020 -3,482 484 -650 -PSID 3 697 -509 242 -1,325 -CPS-SSA 1 -8,870 -4,416 1,714 195 213CPS-SSA 2 -4,095 -1,675 226 -488 -CPS-SSA 3 -1,300 224 -1,637 -1,388 -

Definitions:PSID 1 -all male household heads continuously in the period studied (1975-78) who were less than 55years old and did not classify themselves as retired in 1975.PSID 2 -all men in PSID 1 not working when surveyed in the spring of 1976.PSID 3 -all men in PSID 1 not working when surveyed in either the spring of 1975 or the spring of1960.CPS-SSA 1 -all males based on Westat’s criterion except those over 55 years old.CPS-SSA 2 -all males in CPS-SSA 1 who were not working when surveyed in March 1976.CPS-SSA 3 -all males in CPS-SSA 1 who were unemployed in 1976 and whose income in 1975 wasbelow the poverty level.

Page 203: Microeconometr a Aplicada JM Benavente

203

Revisión principales métodos para datos no-experimentales.

La metodología apropiada para trabajar la evaluación de programas con datos no-experimentales depende de tres puntos:

1. tipo de información disponible

2. modelo subyacente

3. parámetros de interés

para singlecross-section

IV

Heckmantwo-step

Longitudinal orepeated crosssection

difference-in-difference

matching

propensityscores /matching / dif

Veamos cada uno de ellos.

Datos de corte transversal

Recordemos el modelo original (caso impacto homogéneo)

Yit = Xit · β + di · α + µit t > k

Ni = Zi · γ + νi

con

di =

1 si Ni > 0;0 otro caso

1. Método por variables instrumentales (IV).

Requiere la existencia de al menos un regresor exclusivo para la regla de decisióncon Z∗ satisfaciendo los siguientas requerimientos

- Z∗ determine la participación en el programa:-tiene un coeficiente no-cero en la regla de decisión

- podemos encontrar una transformación g tal que g(Z∗) sea no-correlacionadocon el error µ dadas las variables exógenas X.

Page 204: Microeconometr a Aplicada JM Benavente

204CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

- Z∗ no esté completamente determinado por X.

Así la(s) variable(s) Z∗ son los instrumentos que entregan la variación exógenaque aproximan el diseño aleatorio.Entonces en la regresión por IV, el indicador de tratamiento es reemplazado porg(Z∗) o bien, alternativamente, se usa tanto X como Z∗ para predecir d, creandouna nueva variable d la que se incorpora a la regresión en vez de d.

Problemas de esta metodología:

- A pesar de su simpleza, la escogencia de los instrumentos no es fácil, particular-mente para que cumplan con los 3 requerimientos planteados. Una soluciónes considerar valores rezagados de las variables determinantes.

- En el caso de impacto heterogéneo a pesar de que Z∗i puede no estar correla-cionado con µit, si

µit + di · εi = µit + di(αi − α)

dado que Z∗i determina di por definición, entonces el error estará correlaciona-do con Zi y por tanto IV no es aplicable en el caso de impacto homogéneo.

2. Método de selección de Heckman.

Para el caso de impacto homogéneo, este método es análogo a un Tobit general-izado (tipo II) donde

E(Yit|di = 1) = β ·Xi + α + ρ · φ(Zi · γ)Φ(Zi · γ)

y

E(Yit|di = 0) = β ·Xi − ρ · φ(Zi · γ)1− Φ(Zi · γ)

con las mismas salvedades descritas para el Tobit en que Z y X deben tener almenos una variable diferente y γ puede ser estimado regresionando N = Ziγ porProbit.Ahora, cuando existen efectos de tratamiento heterogéneos, el modelamiento esun poco más complejo. Considerando que αT = α + E(εi|di = 1), entonces

Yit = β ·Xi + di · α + [µit + di · εi]

puede ser reescrito

Yit = β ·Xi + αT · di + µit + di · [εi − E(εi|di = 1)]Yit = β ·Xi + αT · di + ξit

Page 205: Microeconometr a Aplicada JM Benavente

205

El procedimiento en dos etapas requiere el conocimiento de la distribución con-junta de µit, νi y εi. Si esta es normal con σv = 1, entonces

E(ξit|di = 1) = corr(µit + εi, νi) · V ar(µit + εi)1/2 · φ(Zi · γ)Φ(Zi · γ)

= ρ(µ,ν,ε) ·−φ(Zi · γ)Φ(Zi · γ)

análogamente

E(ξit|di = 0) = corr(µit, νi) · V ar(µit)1/2 · −φ(Zi · γ)1− Φ(Zi · γ)

= ρ(µ,ν) ·−φ(Zi · γ)

1− Φ(Zi · γ)

y así, la regresión queda:

Yit = β ·Xi + di

[αT + ρ(µ,ν,ε)

φ(Zi · γ)Φ(Zi · γ)

]+ (1− di) · ρ(µ,ν) ·

−φ(Zi · γ)1− Φ(Zi · γ)

+ δit

pudiendo identificarse αT pero no α.

Matching Estimators.

Estos evalúan los efectos del tratamiento al comparar los outcomes de las personastratadas con aquellos de personas similares en un grupo de control o comparación.Esta similitud se determina si tienen características observables similares las que sonmedidas por alguna medida de distancia métrica.

Notación.Y1= outcome de los tratados.Y0= outcome de los no-tratados.D=1 si la persona recibe tratamiento (D=0 si no).X: vector de características utilizadas como variables de condicionamiento.P(X)= Pr(D=1|X).

Como vimos existen dos tipos de estimadores de pareo (ME):

ì) Cross-sectional (CS): el que compara los outcomes para los tratados y el grupo decomparación medidos en algún período después del programa.

ii) difference-in-difference (DID): el que compara el cambio en el outcome de lostratados con aquellos no tratados, donde el cambio es medido relativo a un perío-do base previo al programa.

Page 206: Microeconometr a Aplicada JM Benavente

206CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

La principal ventaja de DID sobre CS es que considera las diferencias no observables-contantes en el tiempo-en los tratados y no tratados.Adicionalmente a los dos estimadores vistos en la clase anterior, aquí veremos tres

a) nearest neighbor cross-sectional matching estimator

b) nearest neighbor DID matching estimator

c) kernel and local linear versions de los dos anteriores

(existe también el regression adjusted matching explicado en Heckman, Ichimura, Todd(97,98)).

Supuestos para la identificación de los diferentes estimadores.

Como habríamos dicho en la clase anterior, un parámetro de interés clave es el impactopromedio del programa sobre los tratados. Este puede ser definido condicional enalgunas características X con:

∆D=1(X) = E(Y1 − Y0|x,D = 1)

o bien un parámetro promedio puede ser definido sobre un soporte (región) de X, Sx:

∆D=1 =

∫Sx

E(Y1 − Yo|X,D = 1) · fx(X|D = 1) · dX∫Sx

fx(X|D = 1) · dX

donde fx(X|D=1) es la densidad de X.

Todos los estimadores que veremos tratan de estimar el impacto medio del tratamientoen los tratados ∆D=1.

a) Cross SectionalSupuestos:

(CS.1) E(Y0|P(X),D=1)=E(Y0|P(X),D=0).(CS.2) 0 < Pr(D = 1|X) < 1.

Así

∆CSD=1 =

1n1·

n1∑

i=1Di=1

Y1i(Xi)− E(y0i|P (Xi), Di = 0)

Con n1 el número de individuos tratados con valores de X que satisfacen CS.1.E(Y0i|P (Xi), Di = 0) puede ser estimado en forma no paramétrica por nearestneighbor, kernel o local linear regression (los que ya veremos):

Page 207: Microeconometr a Aplicada JM Benavente

207

b) Difference-in-difference (DID) Matching Estimators.Para su implementación se necesita datos cross-sectional repetidos o datos longi-tudinales tanto para participantes como no participantes. Sea t y t’ dos períodosen el tiempo uno antes del comienzo del programa y otro después del términode este. Y0t es el outcome observado en t. Las condiciones que se necesitan paraimplementar de estos estimadores son:

(DID.1) E(Y0t − Yot′ |P (X), D = 1) = E(Yot − Y0t′ |P (X), D = 0).(DID.2) 0 < Pr(D = 1|X) < 1.

Así

∆DIDD=1 =

1n1t

n1t∑

i=1Di=1

Y1ti(Xi)− E(Y0ti |P (Xi), Di = 0)

− 1n1t′

n1t′∑

j=1

Dj=1

Y0t′j (Xj)− E(Y0t′j |P (xj), Dj = 0)

Implementación

Paso 1: Estimar el modelo de participación en el programa.

También denominado "propensity score.es una manera de reducir la dimensióndel problema de condicionamiento en el matching. Esto es, se reduce el problemadel matching a un problema unidimensional no-paramétrico al estimar E(Y0|D =0, P (X)) en vez del problema de dimensión k E(Y0|D = 0, X).La estimación de los PS requiere escoger un conjunto de variables condicionantesX. Donde es fundamental de que los X no están influenciados por el programa.Sino los estimadores por matching no medirán correctamente el efecto del progra-ma pues no capturarán cambios en la distribución de las variables X medidas porel programa.Por esta razón, las variables X estarán relacionadas con las características individ-uales de las personas (firmas, hogares) antes de entrar al programa. En Heckman,Ichimura y Todd (99) la historia de empleo en el año anterior al programa de en-trenamiento es un predictor fundamental en la participación. En general, entremas variables se consideran en X mejor y no considerar variables muy generalescomo son característica demográficas.Qué pasa si los datos (del grupo de control) no son aleatoriamente determinados?Por ejemplo, puede suceder que los individuos del grupo de control estén sobre osubrepresentados en relación con su frecuencia en una población aleatoria.Amenija (1985) sugiere que se debe considerar el log [P (Xi)|1− P (Xi)] en vez delos propensity scores estimados.

Page 208: Microeconometr a Aplicada JM Benavente

208CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

Paso 2: Construir los matching outcomes.

Ello requiere estimar E(Y0i|P (Xi), Di = 0) en el caso de CS y E(Y0ti |P (Xi), Di =0) y también E(Y0t′i |P (Xi), Di = 0) para el estimador DID.Existen variadas formas para estimar estas medias condicionales. En general, co-mo es demostrado en Heckman, Ichimura y Todd (97):

Loss estimadores de las medias condicionales pueden expresarse como promedioponderado de los outcomes observados para aquellos con Di = 0.Así

(CS) E(Y0i|P (Xi), Di = 0) =n0∑

j=1

Dj=0

[ωj(P (Xi))] · Y0j

que en el caso de kernel, los puros ωj vienen dado por

ωj(P (XI)) =K

(P (Xi)−P (Xj)

hn

)

no∑

K=1DK=0

K

(p(Xi)− p(Xk)

hn

)

con K la función kernel y hn bandwidth. En forma particular,

a) Estimadores "simple average nearest neighbor"

Para implementar este estimador se necesita primero determinar cuantosvecinos serán utilizados (p.e. Z).Para ello

i) determine |P (Xi) − P (Xj)| para cada observación tratada i y todos losmiembros del grupo de comparación j.

ii) ordene las j observaciones en términos de |P (Xi) − P (Xj)| de menor amayor.

iii) Sea Ax un índice del conjunto de Z observaciones con los menores valoresde |P (Xi)− P (Xj)|. Estos son los vecinos mas cercanos.

iv construya los matched outcomes como un promedio simple sobre los out-comes de los vecinos mas cercanos.

E(Y0i|P (X0), Di = 0) =1Z·

Z∑

j=1

Yoj

Dj ∈ AZ

Page 209: Microeconometr a Aplicada JM Benavente

209

b) Kernel regression matching estimator.El estimador anterior o bien asigna un peso de 1

Z o 0 a las observaciones delgrupo de control. Así, si Z=5 entonces el segundo o tercer vecino mas cercanoreciben el mismo peso en la estimación del valor esperado condicional.Un Kernel regression escoge el peso de tal forma de que la observación mascercana en términos de |P (Xi)− P (Xj)| recibe mayor peso.Una forma de Kernel es la bi-weight Kernel:

K(s) =

1516 · (s2 − 1) para |s| < 1

0 otro caso

conde, en general, los Kernels escogidos deben cumplir con la condición deque

∫K(s)ds = 1 y

∫K(s)sds = 0.

Aquí el ancho hn es análogo al problema de escoger el número Z en el casoanterior. Los pesos a las observaciones Dj = 0 dependerán de los valores deK

(P (Xi)−P (Xj)

hn

).

En términos prácticos una forma de definir a hn es hn = |P (Xi) − P (Xj)|para el z-ésimo vecino cercano. Así, el hn variará dependiendo de la cantidadde datos (vecinos) que tenga cada punto de P (Xi) (o en cada i ∈ Di = 1)otra forma es escoger un hn ∈ [0,2,0,4].

c) Local Linear Regression Estimator (LLR).

De nuevo, la diferencia solo yace en los pesos donde en el caso de LLR, éstosvienen determinados por:

ωj(P (Xi)) =Kij

∑n0K=1 KiK(PK − Pi)2 − [Kij(Pj − Pi)][

∑n0K=1 KiK(Pk − Pi)]∑n0

j=1 Kij∑no

K=1 KiK(Pk − Pi)2 − [∑n0

j=1 Kij(Pj − Pi)]2

donde KiK = K(

P (XI)−P (Xj)hn

)

también se puede demostrar (Fan (1992,1993)) de que el LLR estimator de E(Y0i|P (Xi), Di =0) puede ser visto como la solución hata al problema siguiente de regresión pon-derada:

mına,b

n0∑

j=1

Dj=0

(Y0j − a− b · (P (Xj)− P (Xi)))2 ·K(

P (Xi)− P (Xj)hn

)

Así, para cada valor P (Xi) requiere por WLS Y0j sobre una constante y P (Xj)−P (Xi) usado las personas con Dj = 0 y así el intercepto estimado será un esti-mador de E(Y0i|P (Xi), Di = 0).

Qué pasa si no hay matches cercanos?

Page 210: Microeconometr a Aplicada JM Benavente

210CAPÍTULO 8. MÉTODOS DE EVALUACIÓN PARADATOS NO-EXPERIMENTALES

Los estimadores no paramétricos de E(Y0i|P (Xi), Di = 0) esta definido solamenteen los puntos de la densidad f(P (Xi)|D = 0) > 0. Esto significa que deberíanexistir valores de P (Xj) para el grupo de Dj = 0 en la vecindad de los puntos deevaluación P (Xi).Así, observaciones Di = 1 que no tengan un P (XJ) cercano a P (Xi) deben serexcluidas de la estimación.En general, deberíamos considerar el support para P(X) donde tanto fx(P (X)|D =1) > 0 como también fx(P (X)|D = 0) o sea la región de overlapping support.Una forma de determinar este soporte común es al dibujar el histograma de P (Xi)tanto para los tratados como los de control e identificar visualmente los rangosdonde no hay matches cercanos.Una forma mas rigurosa de determinar esta región de soporte común es calcularla densidad F (P (Xi)|D = 0) en cada punto de los P (Xi) para las observacionesDi = 1 madiante estimadores de densidad no-paramétrica. Por ejemplo:

f(P (Xi)|Di = 0) =n0∑

K=1DK=0

K

(P (xi)− P (xK)

hn

)

Una vez que los estimadores de las densidades en cada punto son obtenidos sedebe ordenar los estimadores de densidad. Así, todos los valores de P (Xi) paralos cuales las densidades estimadas exceden el limite de 1 o 2% cuantil son con-sideradas dentro de la región de soporte común. Aquellos por debajo deben serexcluidos de la estimación.(Ahora si la región de traslape es muy pequeña es muy pequeña, entonces se debenrecalcular los P(X) al considerar otros X).

Descomposición del sesgo.

Sesgo =: E(Y1|X,Di =!)− E(Y0|X, Di = 0) = B1 + B2 + B3

B1 sesgo por non-overlapping support de XB2 error en la ponderación incorrecta en el canon support de X pues las distribu-

ciones de los tratados y no tratados no son exactamente iguales aún en elsoporte común.

B3 sesgo de selección verdadera (econométrico) resultante de la "selección en noobservables"

DID matching con canon support corrigen por los primeros dos y el tercero, seasume que es cero.

En general, DID con common support es la forma adecuada, en la medida delo posible, de aislar el efecto del tratamiento promedio en los tratados.