Contraste de endogeneidad H :: Cov u X ,, i 00 z · 3 Por tanto, de la ecuación (13d) contrastamos...
Transcript of Contraste de endogeneidad H :: Cov u X ,, i 00 z · 3 Por tanto, de la ecuación (13d) contrastamos...
1
Modelo de Variables Instrumentales
Contraste de endogeneidad
El estimador de MC2E es menos eficiente que el de MCO cuando las
variables explicativas son exógenas.
Las estimaciones de MC2E pueden tener errores estándar muy grandes.
Por tanto, es necesario tener una prueba para la endogeneidad de una
variable explicativa .
Consideremos el siguiente modelo de regresión lineal:
ikikiii uXXXY 21110 …(13a)
0uE 0, 1 iXuCov 0, 2 iXuCov 0, kiXuCov
Podemos establecer que:
Entonces, podemos considerar el siguiente planteamiento de hipótesis:
0,: 20 iXuCovH
0,: 21 iXuCovH
Exogeneidad
Endogeneidad
2
Modelo de Variables Instrumentales
Ahora suponemos que disponemos de un instrumento válido Z de manera
que:
0, 22 iXZCov 0, ZuCov
La regresión reducida esta definida por:
ikikiii vXZXX 22110 …(13b)
De donde podemos extraer: 0, uvCov
Si se verifica que , entonces podemos estimar la siguiente
relación:
0,: 20 iXuCovH
vui
De donde se cumple que α = 0, de manera equivalente:
ikikiii vXXXY 21110
…(13c)
…(13d)
3
Por tanto, de la ecuación (13d) contrastamos H0: α = 0, que sería
equivalente a contrastar:
Modelo de Variables Instrumentales
0,: 20 iXuCovH
Dado que no es observable, se sustituye por el residuo de MCO de la
forma reducida. Así reescribimos (13d) de la siguiente forma:iv iv̂
ikikiii vXXXY ˆˆ21110
Con
kikiii XZXXv 22110ˆ
Si rechazamos que α es cero en el modelo (13e), concluimos que X es
endógena.
…(13e)
4
Modelo de Variables Instrumentales
Prueba de Hausman
El contraste de Hausman para el caso de r variables potencialmente
endógenas contempla:
➢ Estimar las r formas reducidas correspondientes para cada una de estas
variables.
➢ Obtener los residuos de cada forma reducida.
➢ Incluir como variables independientes cada uno de estos residuos en el
modelo sin restringir.
➢ Contrastar la significancia conjunta de dichos residuos mediante el
estadístico W0:
20 1 r
R
RNR knSCR
SCRSCRW
5
Modelo de Variables Instrumentales
➢ Si se concluye que los residuos de las formas reducidas son
estadísticamente significativos conjuntamente, esto implica que al
menos una de las variables explicativas es potencialmente endógena.
Donde:
SCRNR: Suma de cuadrados de los residuos del modelo original sin los
residuos de las formas reducidas.
SCRR: Suma de cuadrados de los residuos del modelo ampliado que
incluye los residuos de cada una de las formas reducidas como variables
independientes
r: es el número de variables potencialmente endógenas.
6
Prueba de sobreidentificación (contraste de Hansen-Sargan)
(Comando en stata: overid)
Modelo de Variables Instrumentales
Cando el modelo de regresión tiene sólo una variable instrumental por cada
variable explicativa endógena, decimos que el modelo está exactamente
identificado.
Por el contrario, si tenemos más variables instrumentales que variables
explicativas endógenas, entonces podemos contrastar si alguna de ellas no
está correlacionada con el término de error.
En síntesis, en un modelo con variables instrumentales la identificación o
sobreidentificación depende del número de instrumentos (r) y de variables
endógenas (k). Los coeficientes β 1, β 2 ,…, βk están:
Exactamente identificados si r=k
Sobre identificados si r>k
No identificados si r<k
7
Modelo de Variables Instrumentales
Procedimiento. Consideremos el siguiente modelo:
ikikiii uXXXY 21110
0uE 0, 1 iXuCov 0, 2 iXuCov
0, kiXuCov
Donde:
0, 3 iXuCov
0, 4 iXuCov
Alternativamente podemos plantearlo como:
ikjjkikkikii uMMXXY 11110
Donde:
:kiX Número de variables endógenas en el modelo.
:kjM Número de variables exógenas en el modelo.
8
Modelo de Variables Instrumentales
Suponemos que el numero de instrumentos es mayor que el numero de
variables endógenas del modelo.
kr
Suponemos que el numero de instrumentos es mayor que el numero de
variables endógenas del modelo.
➢ Estimar la ecuación mediante MC2E utilizando los r instrumentos.
➢ Hallar los residuos .
➢ Estimar sobre todas las variable exógenas del modelo y sobre todos
los instrumentos.
➢ Obtenemos el coeficiente de bondad de ajuste de la regresión:
iu~
kjrii MZfu ,~
2~uR
iu~
9
➢ Bajo la hipótesis nula de que todas las VI no están correlacionadas con
el termino de error, , tenemos que:
Donde r-k es el numero de restricciones de sobreidentificación, es decir,
el número de instrumentos extra.
➢ Sustituimos por con lo que podemos reescribir:
Modelo de Variables Instrumentales
iu~
22~2
~̂
~̂kru
u
i nRu
2~̂u 212
~~
inu us
22~2~
~̂
kru
i
inR
u
un
Regla de decisión:
Si excede el valor crítico de la distribución , al nivel se
significancia establecido, rechazamos la hipótesis nula, La hipótesis nula es
que la selección de instrumentos, en conjunto, es exógena.
2~unR
2
kr
10
Modelo de Variables Instrumentales
NOTA:
Esta prueba no determina qué variable es la responsable de rechazar la
hipótesis nula de no correlación .
Sin embargo, a medida r - k es grande, podremos aplicar el proceso
secuencialmente para detectar qué instrumentos son responsables del
rechazo.
0, riZuCov
11
Datos Panel
12
Naturaleza de los modelos de Datos Panel
En el ejercicio empírico es importante determinar la naturaleza de los
datos disponibles. Los modelos econométricos utilizados para el
análisis económico, pueden clasificarse desde dos puntos de vista o
dimensiones:
Según los datos utilizados
▪ Información de series de tiempo
▪ Información de sección cruzada
▪ Información de datos panel
Según las relaciones supuestas entre las variables
▪ Modelos lineales y nolineales
▪ Uni-ecuacionales y Multi-ecuacionales
13
Naturaleza de los modelos de Datos Panel
Información de series de tiempo:
Conjunto de datos que recoge observaciones sobre los valores que toma
una variable en diferentes momentos del tiempo.[Dimensión temporal]
Información de corte transversal:
Conjunto de datos que recoge observaciones de una o más variables
(unidades objetivo (observación) en un momento determina do del tiempo.
[Dimensión estructural]
Información de datos agrupados o tipo panel:
Conjunto de datos que combina la dimensión temporal y la dimensión
estructural. Esto es, recopila información de una unidad de interés para un
período determinado de tiempo.
14
Modelo lineal:
La esperanza condicional de Y (variable de pendiente), E(Y/Xi), es una
función lineal de los parámetros; pero pueden ser o no lineales en las
variables.
Modelo no lineal:
La esperanza condicional de Y (variable dependiente), E(Y/Xi), no es una
función lineal de los parámetros; independientemente de que sea o no una
función lineal con las variables.
Naturaleza de los modelos de Datos Panel
15
Modelo uni-ecuacional:
Son aquellos donde existe sólo una variable dependiente y una o más
variables explicativas. Esto es las estimación y/o predicción del valor
esperado de Y condicionado a valores fijos de X. Así la causalidad va de X
a Y.
Modelo multi-ecuacional:
En estos modelos hay más de una ecuación; una para cada una de las
variables mutuamente dependientes o endógenas. En tales sistemas la
dirección de causalidad corre en dos sentidos; es decir, Y esta determinada
por las X y algunas de las X`s están, a su vez, determinadas por las Y`s.
Naturaleza de los modelos de Datos Panel
16
Naturaleza de los modelos de Datos Panel
El objetivo del análisis de datos en panel, es capturar la heterogeneidad no
observable, ya sea entre las unidades de corte transversal o en el tiempo.
Esta heterogeneidad no es capturada ni en estudios de series tiempo ni
tampoco con los de corte transversal.
La técnica de dato panel permite un análisis dinámico, ya que al incorporar
la dimensión temporal de los datos enriquece el estudio, particularmente en
períodos de cambios significativos.
En suma, la metodología panel permitirá analizar dos aspectos relevantes
de la heterogeneidad no observable:
▪ Los efectos individuales específicos.
▪ Los efectos temporales.
17
Naturaleza de los modelos de Datos Panel
Fuentes de variabilidad
Efectos individuales específicos:
Son aquellos que perturban de forma desigual a cada uno de los agentes
económicos u objetos de estudio contenidos en la muestra. Estos efectos
son invariables en el tiempo y afectan de manera directa las expectativas de
las unidades de estudio ( por ejemplo, el cambio técnico, acceso a mercado
de capitales, etc).
Efectos temporales:
Son aquellos que afectan por igual a todas las unidades de corte
transversal del estudio pero que son variables en el tiempo (por ejemplo,
choques macroeconómicos).
18
Ventajas y desventajas de los modelos de Datos Panel
Ventajas
▪ Permite obtener un mayor número de observaciones que incrementa los
grados de libertad y reduce la multicolinealidad entre las variables
independientes.
▪ Captura la heterogeneidad no observable de los datos, ya sea entre los
agentes económicos u objetos estudio (datos de corte transversal), o a
través del tiempo (datos de series de tiempo). La incorporación en el
análisis de dicha heterogeneidad permite controlarla y evitar sesgos en
los resultados.
▪ En virtud de lo anterior, el uso de la metodología de datos de panel
permite una mayor capacidad para identificar y medir algunos efectos que
no son detectados en datos puros de corte transversal o de series de
tiempo.
19
Desventajas
▪ Problemas asociados a la recolección de datos.
▪ Distorsiones derivadas por errores de medida y de selección.
▪ Distorsiones asociadas a la longitud de las series de tiempo, que por lo
general son reducidas en los conjuntos de datos, lo anterior conlleva a que
los procedimientos de estimación e inferencia se realicen con base en las
unidades de corte transversal.
Ventajas
▪ Permite una estimación eficiente. Ayuda a analizar de mejor manera la
dinámica de los procesos (ciclos) de ajuste económicos, especialmente en
periodos de cambios estructurales.
▪ Reduce los problemas de sesgo en las estimaciones por el problema de
variables omitidas. Así mismo, elimina los sesgos derivados de la
agregación de las unidades de corte transversal.
Ventajas y desventajas de los modelos de Datos Panel
20
Especificación general de un modelo de Datos de Panel
Consideremos la siguiente especificación de datos panel:
Ni ,,1Con y Tt ,,1
Donde i y t indican la unidad de corte transversal y el tiempo,
respectivamente. En tanto α recoje la heterogeneidad no observable del
modelo y β los parámetros de pendiente de las k variables. Por último, X
constituye la i-ésima observación en el momento t de las k variables
explicativas y u el término de error para i en el periodo t.
itkitkitititit uXXXY 2211 …(1)
it
k
j
jitjitit uXY 1
En su versión compacta tenemos:
…(2)
21
Especificación general de un modelo de Datos de Panel
Donde, vi captura la heterogeneidad no observable que varía entre las
unidades transversales pero no en el tiempo. En tanto que δt representa
la heterogeneidad no observable que varía en el tiempo, pero no entre
las unidades transversales. Finalmente, uit es el término de error
puramente aleatorio. Así tenemos:
En la práctica, el modelo de componentes de error en un sentido (one-
way) es la especificación panel habitual. En este tipo de modelos se
asume que δt=0, quedando:
ittiit uv
Reescribiendo el término de error, εit , tenemos:
itiit uv
…(2a)
…(2b)
it
k
j
jitjit XY 1
22
Dentro del modelo de componentes de error en un sentidose
distinguen 3 formulaciones (atendiendo los supuestos acerca de la
heterogeneidad no observable):
a) Modelo agrupado de efectos comunes (pooled), donde la
heterogeneidad no observable no existe, esto es, vi = α es igual a
un escalar;
b) Modelo de efectos fijos. En esta formulación se asume que vi varía
entre las unidades de estudio pero no en el tiempo;
c) Modelo de efectos aleatorios. Esta especificación supone que los
efectos individuales vi no son independientes entre sí, sino que
están distribuidos alrededor de un valor dado.
Especificación general de un modelo de Datos de Panel
23
El modelo más simple para analizar el enfoque de datos de panel es
omitiendo las dimensiones del espacio y el tiempo (modelo agrupado o
“pooled”), estimado mediante MCO. En esta formulación se satisface
αit = α (vi = α), así tenemos:
itkitititit uXXXY 22211
Con
Modelo de Panel Agrupado
La regresión agrupada toma la información como un todo sin discriminar los
datos temporales o transversales, esto asume que supone que los
regresores están correlacionados con uit. Sin embargo, cuando si persiste
cov(Xit,uit) ≠ 0; entonces la regresión agrupada estará sesgada.
Esta correlación es debida a un error de especificación por la ausencia de
alguna variable relevante o por la existencia de cualidades inobservables de
cada individuo.
…(3)
)N(0,~ 2
uitu
24
Modelo de Panel de Efectos Fijos
En esta formulación (estimador within o intragrupo) la heterogeneidad no
observable es constante en el tiempo y pero variable entre las unidades de
corte transversal, así tenemos que:
itkitititiit uXXXY 22211
ii vDonde , reescribiendo tendremos:
…(4a)
itikitititit uvXXXY 22211
En esta formulación, el término de error está constituido por un componente
constante (vi) y otro puramente aleatoria (uit). La primera representa el
efecto individual específico para cada unidad de corte transversal (cada
individuo tiene un punto de origen (ordenadas) distinto. En tanto el segundo
representa el término de error puramente aleatorio que cumple los
requisitos de MCO.
En este modelo tendremos N términos independientes que recogen las
diferencias entre los distintos individuos, ¿qué significa?
…(4b)
25
Empero, se cumple que las variables explicativas no están correlacionados
con el termino de error, esto es:
Se asume, primero, que el efecto individual está correlacionado con las
variables explicativas, es decir:
El estimador de efectos fijos tiene la ventaja de que permite conocer los ∝𝑖
separadamente y evita una sobrestimación de los estimadores.
Una forma de estimar esta especificación es introduciendo una variable
dummy por cada individuo, esto es:
Modelo de Panel de Efectos Fijos
0),( uXcorr
0),|( kitiit XuE
it
k
j
jitj
N
p
pitpit uXdY 12
1 …(4c)
26
Donde ∝1 constituye el efecto del primer individuo, el cual se utiliza como
categoría base; dp representa variables binarias que toman valor 1 si el
dato corresponde al individuo p y cero en otro caso; mientras que ∝p
captura los coeficientes de las variables ficticias y representan el grado en
que los valores de los interceptos del resto de individuos difieren respecto
del intercepto base (v.gr. ∝1 + ∝2 representa el efecto individual del
individuo 2).
La principal desventaja de este tipo de modelación se asociada con el
hecho que se necesitan estimar los ∝𝑖 (∝1 ,…, ∝k ) junto con los k
parámetros βj. En paneles cortos, estimar los parámetros βj necesitaría N
→ ∞, en caso contrario se tiene un problema de estimación sesgada por
estimar “infinitos” parámetros auxiliares ∝𝑖 . Con ello, perdida de grados de
libertad, aumento de la posibilidad de multicolinealidad y
heteroscedasticidad.
Para evitar este problema, se realiza una transformación del modelo para
eliminar ∝p.
Modelo de Panel de Efectos Fijos
27
Modelo de Panel de Efectos Fijos
El problema se resuelve estimado el modelo donde las variables se toman
como desviaciones respecto a las medias individuales. Reescribimos el
modelo (4a) de la siguiente manera:
ikikiiii uXXXY 2211 …(4d)
Restando (4d) a (4a) tendremos:
iitiiuuXXyy
iiiiuXy
De esta especificación se obtiene el estimador de efectos fijos, βEF,
mediante MCO.
…(4e)
28
Modelo de Panel de Efectos Aleatorios
En esta especificación se asume que la heterogeneidad no observada es
una variable aleatoria, por lo tanto el efecto individual se descompone de la
siguiente forma:
itikitititit uwXXXY 22211
itiit uw
Donde wi representa una variable aleatoria. Así, wi captura el componente
de error para los datos de corte transversal y uit las perturbaciones de la
combinación de los datos temporales y de corte transversal.
En ambos casos se cumple: y .
En este caso, los errores son homoscedasticos, ya que:
ii wv
…(5)
Pudiendo reescribir la ecuación 1 como:
Compactando tenemos:
)N(0,~ 2
wiw )N(0,~ 2
uitu
2
u
2
w it
29
¿Qué significa que wi es una variable aleatoria? Significa que no hay
seguridad del valor exacto en el origen que pueda tener cada individuo, sólo
sabemos que éste gravitará en torno a un valor central.
Sin embargo, los términos de error de un individuo en dos puntos diferentes
de tiempo están correlacionados. En este caso, la estimación por MCO del
modelo sería ineficiente por presentar problemas de autocorrelación. Para
corregir este problema se emplea el método de MCG a la siguiente
especificación:
Modelo de Panel de Efectos Aleatorios
iitiiit XXyy
iitkikitkiitiit XXXXyy 2221 1
…(5a)
…(5b)
2
u
2
w1
11
T
Donde:
30
Cuando el estimador de λ es igual a cero, entonces la estimación de la
especificación (5b) es igual a la regresión del modelo agrupado; por otro
lado, cuando el estimador de λ es igual a 1, la estimación es consistente
pata Efectos Fijos.
Este estimador asume la condición de que los efectos individuales no están
correlacionados con las variables explicativas del modelo, esto es:
0),( uXcorr
Modelo de Panel de Efectos Aleatorios