Contraste de endogeneidad H :: Cov u X ,, i 00 z · 3 Por tanto, de la ecuación (13d) contrastamos...

1

Modelo de Variables Instrumentales

Contraste de endogeneidad

El estimador de MC2E es menos eficiente que el de MCO cuando las

variables explicativas son exógenas.

Las estimaciones de MC2E pueden tener errores estándar muy grandes.

Por tanto, es necesario tener una prueba para la endogeneidad de una

variable explicativa .

Consideremos el siguiente modelo de regresión lineal:

ikikiii uXXXY 21110 …(13a)

0uE 0, 1 iXuCov 0, 2 iXuCov 0, kiXuCov

Podemos establecer que:

Entonces, podemos considerar el siguiente planteamiento de hipótesis:

0,: 20 iXuCovH

0,: 21 iXuCovH

Exogeneidad

Endogeneidad

2


Ahora suponemos que disponemos de un instrumento válido Z de manera

que:

0, 22 iXZCov 0, ZuCov

La regresión reducida esta definida por:

ikikiii vXZXX 22110 …(13b)

De donde podemos extraer: 0, uvCov

Si se verifica que , entonces podemos estimar la siguiente

relación:

0,: 20 iXuCovH

vui

De donde se cumple que α = 0, de manera equivalente:

ikikiii vXXXY 21110

…(13c)

…(13d)

3

Por tanto, de la ecuación (13d) contrastamos H0: α = 0, que sería

equivalente a contrastar:


0,: 20 iXuCovH

Dado que no es observable, se sustituye por el residuo de MCO de la

forma reducida. Así reescribimos (13d) de la siguiente forma:iv iv̂

ikikiii vXXXY ˆˆ21110

Con

kikiii XZXXv 22110ˆ

Si rechazamos que α es cero en el modelo (13e), concluimos que X es

endógena.

…(13e)

4


Prueba de Hausman

El contraste de Hausman para el caso de r variables potencialmente

endógenas contempla:

➢ Estimar las r formas reducidas correspondientes para cada una de estas

variables.

➢ Obtener los residuos de cada forma reducida.

➢ Incluir como variables independientes cada uno de estos residuos en el

modelo sin restringir.

➢ Contrastar la significancia conjunta de dichos residuos mediante el

estadístico W0:

20 1 r

R

RNR knSCR

SCRSCRW

5


➢ Si se concluye que los residuos de las formas reducidas son

estadísticamente significativos conjuntamente, esto implica que al

menos una de las variables explicativas es potencialmente endógena.

Donde:

SCRNR: Suma de cuadrados de los residuos del modelo original sin los

residuos de las formas reducidas.

SCRR: Suma de cuadrados de los residuos del modelo ampliado que

incluye los residuos de cada una de las formas reducidas como variables

independientes

r: es el número de variables potencialmente endógenas.

6

Prueba de sobreidentificación (contraste de Hansen-Sargan)

(Comando en stata: overid)


Cando el modelo de regresión tiene sólo una variable instrumental por cada

variable explicativa endógena, decimos que el modelo está exactamente

identificado.

Por el contrario, si tenemos más variables instrumentales que variables

explicativas endógenas, entonces podemos contrastar si alguna de ellas no

está correlacionada con el término de error.

En síntesis, en un modelo con variables instrumentales la identificación o

sobreidentificación depende del número de instrumentos (r) y de variables

endógenas (k). Los coeficientes β 1, β 2 ,…, βk están:

Exactamente identificados si r=k

Sobre identificados si r>k

No identificados si r<k

7


Procedimiento. Consideremos el siguiente modelo:

ikikiii uXXXY 21110

0uE 0, 1 iXuCov 0, 2 iXuCov

0, kiXuCov

Donde:

0, 3 iXuCov

0, 4 iXuCov

Alternativamente podemos plantearlo como:

ikjjkikkikii uMMXXY 11110

Donde:

:kiX Número de variables endógenas en el modelo.

:kjM Número de variables exógenas en el modelo.

8


Suponemos que el numero de instrumentos es mayor que el numero de

variables endógenas del modelo.

kr

Suponemos que el numero de instrumentos es mayor que el numero de

variables endógenas del modelo.

➢ Estimar la ecuación mediante MC2E utilizando los r instrumentos.

➢ Hallar los residuos .

➢ Estimar sobre todas las variable exógenas del modelo y sobre todos

los instrumentos.

➢ Obtenemos el coeficiente de bondad de ajuste de la regresión:

iu~

kjrii MZfu ,~

2~uR

iu~

9

➢ Bajo la hipótesis nula de que todas las VI no están correlacionadas con

el termino de error, , tenemos que:

Donde r-k es el numero de restricciones de sobreidentificación, es decir,

el número de instrumentos extra.

➢ Sustituimos por con lo que podemos reescribir:


iu~

22~2

~̂

~̂kru

u

i nRu

2~̂u 212

~~

inu us

22~2~

~̂

kru

i

inR

u

un

Regla de decisión:

Si excede el valor crítico de la distribución , al nivel se

significancia establecido, rechazamos la hipótesis nula, La hipótesis nula es

que la selección de instrumentos, en conjunto, es exógena.

2~unR

2

kr

10


NOTA:

Esta prueba no determina qué variable es la responsable de rechazar la

hipótesis nula de no correlación .

Sin embargo, a medida r - k es grande, podremos aplicar el proceso

secuencialmente para detectar qué instrumentos son responsables del

rechazo.

0, riZuCov

11

Datos Panel

12

Naturaleza de los modelos de Datos Panel

En el ejercicio empírico es importante determinar la naturaleza de los

datos disponibles. Los modelos econométricos utilizados para el

análisis económico, pueden clasificarse desde dos puntos de vista o

dimensiones:

Según los datos utilizados

▪ Información de series de tiempo

▪ Información de sección cruzada

▪ Información de datos panel

Según las relaciones supuestas entre las variables

▪ Modelos lineales y nolineales

▪ Uni-ecuacionales y Multi-ecuacionales

13


Información de series de tiempo:

Conjunto de datos que recoge observaciones sobre los valores que toma

una variable en diferentes momentos del tiempo.[Dimensión temporal]

Información de corte transversal:

Conjunto de datos que recoge observaciones de una o más variables

(unidades objetivo (observación) en un momento determina do del tiempo.

[Dimensión estructural]

Información de datos agrupados o tipo panel:

Conjunto de datos que combina la dimensión temporal y la dimensión

estructural. Esto es, recopila información de una unidad de interés para un

período determinado de tiempo.

14

Modelo lineal:

La esperanza condicional de Y (variable de pendiente), E(Y/Xi), es una

función lineal de los parámetros; pero pueden ser o no lineales en las

variables.

Modelo no lineal:

La esperanza condicional de Y (variable dependiente), E(Y/Xi), no es una

función lineal de los parámetros; independientemente de que sea o no una

función lineal con las variables.


15

Modelo uni-ecuacional:

Son aquellos donde existe sólo una variable dependiente y una o más

variables explicativas. Esto es las estimación y/o predicción del valor

esperado de Y condicionado a valores fijos de X. Así la causalidad va de X

a Y.

Modelo multi-ecuacional:

En estos modelos hay más de una ecuación; una para cada una de las

variables mutuamente dependientes o endógenas. En tales sistemas la

dirección de causalidad corre en dos sentidos; es decir, Y esta determinada

por las X y algunas de las X`s están, a su vez, determinadas por las Y`s.


16


El objetivo del análisis de datos en panel, es capturar la heterogeneidad no

observable, ya sea entre las unidades de corte transversal o en el tiempo.

Esta heterogeneidad no es capturada ni en estudios de series tiempo ni

tampoco con los de corte transversal.

La técnica de dato panel permite un análisis dinámico, ya que al incorporar

la dimensión temporal de los datos enriquece el estudio, particularmente en

períodos de cambios significativos.

En suma, la metodología panel permitirá analizar dos aspectos relevantes

de la heterogeneidad no observable:

▪ Los efectos individuales específicos.

▪ Los efectos temporales.

17


Fuentes de variabilidad

Efectos individuales específicos:

Son aquellos que perturban de forma desigual a cada uno de los agentes

económicos u objetos de estudio contenidos en la muestra. Estos efectos

son invariables en el tiempo y afectan de manera directa las expectativas de

las unidades de estudio ( por ejemplo, el cambio técnico, acceso a mercado

de capitales, etc).

Efectos temporales:

Son aquellos que afectan por igual a todas las unidades de corte

transversal del estudio pero que son variables en el tiempo (por ejemplo,

choques macroeconómicos).

18

Ventajas y desventajas de los modelos de Datos Panel

Ventajas

▪ Permite obtener un mayor número de observaciones que incrementa los

grados de libertad y reduce la multicolinealidad entre las variables

independientes.

▪ Captura la heterogeneidad no observable de los datos, ya sea entre los

agentes económicos u objetos estudio (datos de corte transversal), o a

través del tiempo (datos de series de tiempo). La incorporación en el

análisis de dicha heterogeneidad permite controlarla y evitar sesgos en

los resultados.

▪ En virtud de lo anterior, el uso de la metodología de datos de panel

permite una mayor capacidad para identificar y medir algunos efectos que

no son detectados en datos puros de corte transversal o de series de

tiempo.

19

Desventajas

▪ Problemas asociados a la recolección de datos.

▪ Distorsiones derivadas por errores de medida y de selección.

▪ Distorsiones asociadas a la longitud de las series de tiempo, que por lo

general son reducidas en los conjuntos de datos, lo anterior conlleva a que

los procedimientos de estimación e inferencia se realicen con base en las

unidades de corte transversal.

Ventajas

▪ Permite una estimación eficiente. Ayuda a analizar de mejor manera la

dinámica de los procesos (ciclos) de ajuste económicos, especialmente en

periodos de cambios estructurales.

▪ Reduce los problemas de sesgo en las estimaciones por el problema de

variables omitidas. Así mismo, elimina los sesgos derivados de la

agregación de las unidades de corte transversal.

Ventajas y desventajas de los modelos de Datos Panel

20

Especificación general de un modelo de Datos de Panel

Consideremos la siguiente especificación de datos panel:

Ni ,,1Con y Tt ,,1

Donde i y t indican la unidad de corte transversal y el tiempo,

respectivamente. En tanto α recoje la heterogeneidad no observable del

modelo y β los parámetros de pendiente de las k variables. Por último, X

constituye la i-ésima observación en el momento t de las k variables

explicativas y u el término de error para i en el periodo t.

itkitkitititit uXXXY 2211 …(1)

it

k

j

jitjitit uXY 1

En su versión compacta tenemos:

…(2)

21


Donde, vi captura la heterogeneidad no observable que varía entre las

unidades transversales pero no en el tiempo. En tanto que δt representa

la heterogeneidad no observable que varía en el tiempo, pero no entre

las unidades transversales. Finalmente, uit es el término de error

puramente aleatorio. Así tenemos:

En la práctica, el modelo de componentes de error en un sentido (one-

way) es la especificación panel habitual. En este tipo de modelos se

asume que δt=0, quedando:

ittiit uv

Reescribiendo el término de error, εit , tenemos:

itiit uv

…(2a)

…(2b)

it

k

j

jitjit XY 1

22

Dentro del modelo de componentes de error en un sentidose

distinguen 3 formulaciones (atendiendo los supuestos acerca de la

heterogeneidad no observable):

a) Modelo agrupado de efectos comunes (pooled), donde la

heterogeneidad no observable no existe, esto es, vi = α es igual a

un escalar;

b) Modelo de efectos fijos. En esta formulación se asume que vi varía

entre las unidades de estudio pero no en el tiempo;

c) Modelo de efectos aleatorios. Esta especificación supone que los

efectos individuales vi no son independientes entre sí, sino que

están distribuidos alrededor de un valor dado.


23

El modelo más simple para analizar el enfoque de datos de panel es

omitiendo las dimensiones del espacio y el tiempo (modelo agrupado o

“pooled”), estimado mediante MCO. En esta formulación se satisface

αit = α (vi = α), así tenemos:

itkitititit uXXXY 22211

Con

Modelo de Panel Agrupado

La regresión agrupada toma la información como un todo sin discriminar los

datos temporales o transversales, esto asume que supone que los

regresores están correlacionados con uit. Sin embargo, cuando si persiste

cov(Xit,uit) ≠ 0; entonces la regresión agrupada estará sesgada.

Esta correlación es debida a un error de especificación por la ausencia de

alguna variable relevante o por la existencia de cualidades inobservables de

cada individuo.

…(3)

)N(0,~ 2

uitu

24

Modelo de Panel de Efectos Fijos

En esta formulación (estimador within o intragrupo) la heterogeneidad no

observable es constante en el tiempo y pero variable entre las unidades de

corte transversal, así tenemos que:

itkitititiit uXXXY 22211

ii vDonde , reescribiendo tendremos:

…(4a)

itikitititit uvXXXY 22211

En esta formulación, el término de error está constituido por un componente

constante (vi) y otro puramente aleatoria (uit). La primera representa el

efecto individual específico para cada unidad de corte transversal (cada

individuo tiene un punto de origen (ordenadas) distinto. En tanto el segundo

representa el término de error puramente aleatorio que cumple los

requisitos de MCO.

En este modelo tendremos N términos independientes que recogen las

diferencias entre los distintos individuos, ¿qué significa?

…(4b)

25

Empero, se cumple que las variables explicativas no están correlacionados

con el termino de error, esto es:

Se asume, primero, que el efecto individual está correlacionado con las

variables explicativas, es decir:

El estimador de efectos fijos tiene la ventaja de que permite conocer los ∝𝑖

separadamente y evita una sobrestimación de los estimadores.

Una forma de estimar esta especificación es introduciendo una variable

dummy por cada individuo, esto es:


0),( uXcorr

0),|( kitiit XuE

it

k

j

jitj

N

p

pitpit uXdY 12

1 …(4c)

26

Donde ∝1 constituye el efecto del primer individuo, el cual se utiliza como

categoría base; dp representa variables binarias que toman valor 1 si el

dato corresponde al individuo p y cero en otro caso; mientras que ∝p

captura los coeficientes de las variables ficticias y representan el grado en

que los valores de los interceptos del resto de individuos difieren respecto

del intercepto base (v.gr. ∝1 + ∝2 representa el efecto individual del

individuo 2).

La principal desventaja de este tipo de modelación se asociada con el

hecho que se necesitan estimar los ∝𝑖 (∝1 ,…, ∝k ) junto con los k

parámetros βj. En paneles cortos, estimar los parámetros βj necesitaría N

→ ∞, en caso contrario se tiene un problema de estimación sesgada por

estimar “infinitos” parámetros auxiliares ∝𝑖 . Con ello, perdida de grados de

libertad, aumento de la posibilidad de multicolinealidad y

heteroscedasticidad.

Para evitar este problema, se realiza una transformación del modelo para

eliminar ∝p.


27


El problema se resuelve estimado el modelo donde las variables se toman

como desviaciones respecto a las medias individuales. Reescribimos el

modelo (4a) de la siguiente manera:

ikikiiii uXXXY 2211 …(4d)

Restando (4d) a (4a) tendremos:

iitiiuuXXyy

iiiiuXy

De esta especificación se obtiene el estimador de efectos fijos, βEF,

mediante MCO.

…(4e)

28

Modelo de Panel de Efectos Aleatorios

En esta especificación se asume que la heterogeneidad no observada es

una variable aleatoria, por lo tanto el efecto individual se descompone de la

siguiente forma:

itikitititit uwXXXY 22211

itiit uw

Donde wi representa una variable aleatoria. Así, wi captura el componente

de error para los datos de corte transversal y uit las perturbaciones de la

combinación de los datos temporales y de corte transversal.

En ambos casos se cumple: y .

En este caso, los errores son homoscedasticos, ya que:

ii wv

…(5)

Pudiendo reescribir la ecuación 1 como:

Compactando tenemos:

)N(0,~ 2

wiw )N(0,~ 2

uitu

2

u

2

w it

29

¿Qué significa que wi es una variable aleatoria? Significa que no hay

seguridad del valor exacto en el origen que pueda tener cada individuo, sólo

sabemos que éste gravitará en torno a un valor central.

Sin embargo, los términos de error de un individuo en dos puntos diferentes

de tiempo están correlacionados. En este caso, la estimación por MCO del

modelo sería ineficiente por presentar problemas de autocorrelación. Para

corregir este problema se emplea el método de MCG a la siguiente

especificación:


iitiiit XXyy

iitkikitkiitiit XXXXyy 2221 1

…(5a)

…(5b)

2

u

2

w1

11

T

Donde:

30

Cuando el estimador de λ es igual a cero, entonces la estimación de la

especificación (5b) es igual a la regresión del modelo agrupado; por otro

lado, cuando el estimador de λ es igual a 1, la estimación es consistente

pata Efectos Fijos.

Este estimador asume la condición de que los efectos individuales no están

correlacionados con las variables explicativas del modelo, esto es:

0),( uXcorr


Contraste de endogeneidad H :: Cov u X ,, i 00 z · 3 Por tanto, de la ecuación (13d) contrastamos...

Documents

Transcript of Contraste de endogeneidad H :: Cov u X ,, i 00 z · 3 Por tanto, de la ecuación (13d) contrastamos...