Post on 06-Sep-2018
M. Misas A. 1
Econometría de Variable Dependiente Limitada
Módulo 2
Pontificia Universidad Javeriana
Cortes Transversales
En este módulo se consideran dos tipos de modelo de regresión:
•Regresión con variable dependiente observada de manera incompleta
•Regresión con variable dependiente observada en una muestra seleccionada,
que no representa a la población.
Variables Dependientes Limitadas
Datos truncados: algunas observaciones tanto de la variable dependiente como
de los regresores no están disponibles.
Ejemplo: el ingreso como variable dependiente y solo individuos con bajos
ingresos son incluidos en la muestra.
Datos censurados: la información sobre la variable dependiente no está disponible,
lo cual no ocurre en el caso de la información de los regresores.
Ejemplo: Individuos de todos los niveles de ingreso pueden estar incluidos en la
muestra, pero por razones de confiabilidad, el ingreso de los individuos
de alto ingreso que exceden a un umbral se reporta tan solo como un valor.
Truncamiento
El efecto de truncamiento se tiene cuando la muestra se toma de un subconjunto de
una población de interés.
Ejemplo: Estudios de ingresos basados en una muestra de personas por encima de la
línea de pobreza. De poca utilidad para llevar a cabo inferencia sobre la
población total.
Inferir las características de una población, basados en una muestra tomada de
un subconjunto restringido de la población.
Distribución Truncada
•Una distribución truncada es una parte de una distribución no truncada. Se refiere a
una parte seleccionada por encima o por debajo de algún valor particular.
•El truncamiento es esencialmente una característica de la distribución de donde la
muestra ha sido extraída.
Objetivo:
Inferir las características de la población total
con base en una muestra tomada de una parte
restringida de la población.
Ejemplo: En Colombia:
Estudiar los salarios de una población mediante una encuesta
cuyos participantes tienen un salario anual mínimo de treinta
millones de pesos.
Este estudio permitirá inferir sobre el colombiano promedio?
:X Variable aleatoria discreta ,,,, 21 nxxx L
( )( )
si 0
si
≠
===
j
jj
X xX
xXxXPxf
Puntos de masa
Frecuencia de la masa de probabilidad o función de densidad de probabilidad
[ ]0,1 :Recorrido
:Dominio ℜ
:X Variable aleatoria continua
( ) xf X Función de densidad de probabilidad si:
( ) ( )∫∞−
=x
XX duufxF[ )∞ℜ
,0 :Recorrido
:Dominio
Algunas ideas acerca de la función de densidad de probabilidad
( ) 0≥xf X
( ) 1=∫∞
∞−
dxxf X
Distribución Normal
Distribución Normal truncada
Densidad de una variable aleatoria truncada
X Variable aleatoria continua
( )xf Función de densidad de probabilidad
ℜ∈a
( ) ( )( )
:f X
f X X aprob X a
> =>
Función de densidad truncada
Puntos de truncamiento
Ejemplo
( )( )
( )
~ 0,1
1 0 x 1
1 1 32213
33
X U
f X
f Xf X X
prob X
= ≤ ≤
> = = = >
( ) ( ) [ ]( )xIab
baxfxf baXX ,
1,;
−==
Distribución Uniforme: Función de densidad
[ ]
[ ] ( )2
12
2
abXVAR
baXE
−=
+=
Función de densidad de la Distribución Normal:
( ) ( ) ( )
−−
=−
2
2
21
2
2
1exp2 µ
σπσ ttf
( ) ( )
−=
−=
− 221
2
1exp2 zz
tz
πφ
σµ
Función de densidad de la Distribución Normal estándar:
Distribución Normal Truncada
En una gran cantidad de aplicaciones se utiliza la distribución normal truncada
X Variable aleatoria continua que sigue una distribución normal
( )2~ ,X N µ σ
( )( )
1
1
aprob X a
µσ
α
− > = −Φ
= −Φσµ
α−
=a
siendo
( ) ( )( )
( ) ( ) ( )
( )( ) ( )( )
( )
1
/1/
1
2
122
2/2/12
ασµφσ
απσ
ασµ
Φ−−
=
Φ−=
Φ−=>
−−−
x
e
xfaxxf
x
Valor esperado y varianza de una distribución truncada
( ) a
E X X a Xf X dX
∞
> = ∫
Ejempo:
( )1
13
2
31 3 2
3 2
2 2 3
E X X X dX
X
> =
= =
∫1
31
Una variable distribuida uniforme entre y varianza truncada:LU ( ) ( )12
var
2LU
axx−
=>
( )2111 13var
3 12 27X X
− > = =
Momentos de una distribución normal truncada
( )2~ ,X N µ σ
( )( )( )2
1
E X Truncamiento
VAR X Truncamiento
µ σ λ ασ δ α
= + = −
Función Hazard
( ) ( )( )
( ) ( )( )ααφ
αλ
ααφ
αλ
Φ−=
Φ−=1
Si el truncamiento es:
Si el truncamiento es:
X a>
X a<
( ) ( ) ( )( )ααλαλαδ −=
Razón inversa de Mills
Dos resultados:
1. Si el truncamiento es “mayor que” implica que la media de la variable truncada es
mayor que la variable original.
2. El truncamiento disminuye la varianza
σµ
α−
=a
Modelo de Regresión Truncada
Sea parte determinística del modelo de regresión clásicaβµ '
iX=
Sea variable dependiente y un conjunto de variables independientes,
relacionadas con a través de la siguiente relación: iy
iy
iX
( )2'
,0~ σε
εβ
N
Xy
i
iii +=
•En este caso, se habla de una muestra truncada si sabemos de antemano que las
observaciones provienen de una parte restringida de la distribución poblacional
subyacente iy
Muestra truncada y análisis de regresión
•Algunos hogares pueden desear comprar un carro nuevo pero encontrar que
este es muy costoso, en cuyo caso no lo comprarán y no harán parte de la data
observada. El efecto de este truncamiento deberá ser tenido en cuenta,
por ejemplo, si se desea predecir las ventas potenciales de un nuevo tipo de carro
muy económico, debido a que los compradores potenciales no hacen parte de la
muestra observada.
Objetivo: Estudio sobre venta de carros nuevos
iy Precio del carro
iX Características del comprador: edad, ingreso, ocupación, etc.
Ninguna observación para puede estar por debajo del precio correspondiente
al auto más barato. iy
Ejemplo:
ayy
ayXyy
ii
iiiii
≤
>+==*
*'*
si observado no es
si εβ
Que sucede si se está interesado en la distribución de
dado que es mayor que un punto de truncamiento:iy
iy a
[ ] ( )( )( )
−Φ−
−
+=
Φ−+=
+=>
σβ
σβ
φσβ
ααφ
σβ
ασλβ
'
'
'
'
'
1
1
i
i
i
i
ii
iiii
Xa
Xa
X
X
XayyE
Función no lineal en σβ ,,, aX
Matriz de diseño de información
( )( )2'
2
'
,~
,0~
σβ
σε
εβ
iii
i
iii
XNXy
N
Xy +=
Regresión que incorpora el truncamiento de la muestra:
Efectos marginales en la subpoblación:
[ ] ( )
donde '
i
'
σβ
αασλβ iiiii
XaXayyE
−=+=>
[ ] ( )
X
ayyEX
i
i
iii ∂
∂∂∂
+=>∂∂ α
ααλ
σβ
( ) ( )( )
( )
( )( )
( ) ( )[ ] ( ) ( )( )( )[ ]( )( )[ ]
( )( )
11
1
1
1
1
2
2
2
2
iii
i
ii
i
i
i
iiiii
i
i
i
i
ii
ii
λαλ
ααφα
ααφ
ααφαφααφα
ααφ
α
αλαα
αφαλ
−
=Φ−
−Φ−
=Φ−
−−Φ−−
=
Φ−∂∂
=∂∂
⇒Φ−
=
1. 2.
σβα
−=∂∂X
i
Nota:
− 2
2
1exp
2
1iαπ
[ ] ( )
[ ]( )
( ) ( )[ ]( )
( )( )( )
1
2
i
i
iii
iii
iiiii ayyEX
αδβ
αβδβσβ
ααλαλσβ
σβ
αλλσβ
σβ
λαλσβ
−=
−=
−−+=
−−+=
−−+=>∂∂
Así:
•Para cada elemento de , el efecto marginal es menor que el correspondiente
coeficienteX
[ ] ( )( )iii ayyVar αδσ −=> 12
•En la subpoblación , la varianza de la regresión es:ayi >
Atenuación de la varianza
•El interés sobre el efecto marginal y el dependerá de la intención de
inferencia sobre la población total. Si solo se desea la subpoblación
[ ] ( ) '
iiii XayyE ασλβ +=> Es de gran importancia
β
Si se desea llevar a cabo inferencia a la población es de interés β
Estimación
•Mínimos Cuadrados Ordinarios
Como lo presenta Greene, la primera inclinación es utilizar MCO para llevar a cabo
la estimación de
Para cada individuo de la subpoblación de la cual se extrajo la información se tiene:
[ ]( ) iii
iiiii
eX
eayyEayy
++=
+>=>
ασλβ'
( ) ( )( )( )iii
iieVar
αλλσ
αδσ
+−=
−=22
2
1
1
Proceso heteroscedástico en el término de
perturbación
Debido a que , en una regresión de frente a y una estimación
MCO se omitiría el término no lineal se produce una estimación sesgada
como consecuencia de una variable omitida. Heckman (1979) “Specification error”
( )ii Xf=λ Y X
iλ
β
•Máxima Verosimilitud
( )( )
( )
−Φ−
−
=>
σβ
σβ
φσ
'
'
1
1
i
ii
iiXa
Xy
ayyf
( )( ) ( ) ( )∑∑==
−Φ−−−−+
−=
T
i
iT
iii
XaXy
T
1
'
1
2'
2
2 1ln2
1ln2ln
2L ln
σβ
βσ
σπ
Función de verosimilitud total: el log de la función de verosimilitud es la suma de
los logaritmos de las siguientes densidades:
Condiciones de primer orden:
i
T
i
iii XXyL
∑=
−
−=
∂∂
12
' ln
σλ
σβ
βIgualada
0
( ) ( )∑=
−−+−
=∂∂ T
i
iiii Xy
TL
12
2'
422 22
1
2
ln
σαλα
βσσσ
Igualada0
Resolución a través de un
Método de Optimización no
lineal
( )
( )
2
2
12 22
1 1 1exp
221
2 exp2
i i
i
φ α ασ πσ
πσ α−
− =
− =
Tarea: segundas derivadas
Censuramiento
Una variable dependiente es censurada si todos los valores de cierto rango son
transformados a un valor simple.
•Gastos del hogar en bienes durables
•Número de relaciones extramatrimoniales
•Número de arrestos después de salir de prisión
•Gastos en vacaciones
Cada uno de estos estudios analiza una variable dependiente que es cero para
una fracción significativa de observaciones
Distribución Normal Censurada
( )2~ ,Y N µ σ
Se supone como el punto de censura0
•Truncamiento: solo la parte de la distribución por encima de sería relevante para
el análisis.
Para hacer que la distribución integre a se reescala por la probabilidad de que una
observación de la población no truncada caiga en el rango de interés
0=y
1
•Censuramiento: la distribución que aplica a la muestra es una mezcla de
distribuciones discreta y continua
Se define una nueva variable aleatoria a partir de la original y *y
0 si 0 si 0
**
*
>=≤=
yyyyy
Si la distribución que aplica es: ( )2* ,~ σµNy ( ) ( )
Φ−=
−Φ=≤==σµ
σµ
100 *yprobyprob
Si conserva la densidad de( )2* ,~0 σµNyy ⇒> *y
Se parte del supuesto de normalidad
Mezcla de distribuciones
La distribución es una mezcla de partes discreta y
continua. La probabilidad total es 1 y en este caso no se
reescala la segunda parte , simplemente se asigna la
probabilidad total en la región censurada al punto de
censura, en este caso 0
Capacidad
Capacidad Tiquetes vendidos
Sillas demandadas
•Se quiere conocer el número de
boletas demandadas para cierto
evento.
•La única medición existente es el
número de boletas vendidas
•Se sabe que al vender toda la
boletería, el número demandado es
mayor que el número vendido
•El número de boletas demandadas
es censurado cuando este es
transformado para obtener el
número de boletas vendidas.
Ejemplo:
Momentos de una variable normal censurada
Si ( )
ayyy
ayay
Ny
>=
≤=**
*
2*
si
si
,~ σµ [ ] ( )( )[ ] ( ) ( ) ( )[ ]( ) ( ) ( )
λαλδ
φλ
ασµ
λαδσ
σλµ
−=Φ−
=
Φ=≤=Φ=
−Φ
Φ−+−Φ−=
+Φ−+Φ=
2
*
22
1
11
1
ayproba
yVAR
ayE
Demostración:
[ ] ( ) ( )( ) ( )( )( )
( ) ( )( ) ( )( )
* * * *
x x
x x
1
1
E y prob y a E y y a prob y a E y y a
prob y a a prob y a E y y a
Φa
Φ a
µ σλ
α α µ σλ α
= = = + > > = ≤ + > >
= + −Φ +
⇓= + −Φ +
1.
2. [ ] [ ] [ ]lcondicionamediaVarlcondicionaEyVar varianza +=
[ ] [ ] ( ) [ ]( ) [ ]
( ) ( )δσ −Φ−=>Φ−+Φ=
>Φ−+=Φ=
11
10
1 varianza
2
** ayyVar
ayyVarayyVarlcondicionaE
[ ] [ ] [ ]{ } ( ) [ ] [ ]{ }( )( ){ } ( ) ( ) ( )( ){ }
( )( ){ } ( ) ( ){ }22
22
22
1 1
111
1
σλµσλµ
σλµσλµσλµ
−−Φ−Φ−+−−Φ−Φ=
+Φ−−Φ−+Φ−++Φ−−Φ−Φ=
−>Φ−+−=Φ=
aa
aaa
yEayyEyEayyElcondicionamediaVar
Haciendo σαµ =−a
[ ] ( ) ( ){ } ( )( ) ( )22
2222
1
11
λασ
λασ
−Φ−Φ=
−ΦΦ−+Φ−Φ=lcondicionamediaVar
Así, [ ] ( ) ( ) ( )[ ]Φ−+−Φ−= 22 11 λαδσyVar
Si 0=a
[ ] ( )
Φ
=
+
Φ==
σµσµ
φλ
σλµσµ
0ayE
Resultado del truncamiento
Modelo de regresión censurada Modelo Tobit
La regresión es obtenida haciendo que la media definida anteriormente
corresponda al modelo clásico de regresión
La formulación general es usualmente dada en términos de una función índicadora:
0 si
0 0
**
*
'*
>=
≤=
+=
iii
ii
iii
yyy
ysiy
Xy εβHay potencialmente tres funciones condicionales
para la media, depende del interés del estudio
•Para la variable índicadora, algunas veces llamada variable latente: [ ] β'*
iii XXyE =
Sin embargo, si los datos están siempre censurados este resultado no es muy útil
1.
2.
3.
1.
•Siguiendo los momentos de una distribución normal censurada , para una
observación muestreada aleatoriamente de una población, la cual puede o no ser
Censurada se tiene:
[ ] ( )iii
ii XX
XyE σλβσβ
+
Φ= '
'
Φ
=
σβ
σβφ
λ'
'
i
i
iX
X
•Si el propósito son las observaciones no censurados se está en el caso de
regresión truncada.
2.
3.
Efectos marginales
1. Considerando la variable índicadora se tiene[ ]
β=∂
∂
i
ii
X
XyE *
Este resultado no es de gran interés por ser la variable
no observada
2. Considerando la variable observada ,dado el censuramiento, se tiene:y
[ ] ( )
'
'
'
'
'
∂∂
+
Φ
∂∂
=
+
Φ
∂∂
=∂∂
σβ
σφβσβ
σλβσβ
i
i
i
i
i
i
i
i
ii
i
X
XX
X
X
XX
XXyE
X
1 2
( )
( )
( )
'
'
''
'
''
''
'
βσβ
σβ
αφβ
βσβα
αα
β
βσβ
σβ
ββσβ
Φ+
−=
Φ+
∂
∂Φ
∂∂
=
∂∂
Φ+
Φ
∂∂
=
Φ
∂∂
i
ii
i
i
i
i
i
i
i
i
ii
i
ii
i
i
XX
X
XX
XX
XX
XXX
X
X
1.
2. ( )
( )( )
( )
--
ii
ii
'
αβφασβ
αφασ
ααασφ
σβ
σφ
=
=
∂
∂
∂
∂=
∂∂
i
i
i
ii
i X
X
X
[ ] ( ) ( )
( )
( ){ }
'
ii
'
i
'
i
'
ii
'
'
βσβ
βαβααφβσβ
βασββ
αφβσβ
αβφαβσβ
σβ
αφβ
Φ=
+−+
Φ=
+−
+
Φ=
+
Φ+
−=∂∂
i
i
i
ii
i
iiii
i
X
X
XX
XXXyE
XDonde:
McDonald y Moffitt (1980) sugieren una descomposición útil:
[ ] ( )( ) ( )[ ]iiiiiii
i
ii
X
XyEλαφλαλβ +++−Φ=
∂
∂1
( )iii
Xα
σβ
Φ=
Φ=Φ
'
Si se tiene el siguiente modelo censurado:
( )( )
2
'
y varianza 0 mediacon continua aleatoria variable
CDF
densidad defunción
contrario casoen
constantes ,
si
si
σε
ε
ε
εβ
→
→
→
=
≥=
≤=
+=
∗
∗
∗
∗
i
i
i
ii
ii
ii
iii
F
f
yy
ba
byby
ayay
Xy
[ ] [ ]byaX
XyEi
i
ii <<=∂
∂ ∗prob β
Se tiene:
Doble censura:
Demostración:
[ ] [ ] [ ] [ ] [ ]( ) ( )( ) ( ) ( )( ) [ ]iii
iiiiiiiiiii
XbyayEaFbFbFbaaF
XbyayEXbyaXbybXayaXyE
<<−+−+=
<<<<+≥+≤=
∗∗
∗∗∗∗∗
1
probprob prob
Dado que la media condicional es igual a:( )
−+=∗
∗
σβσβ'
' iiii
XyXy
[ ]
( ) ( )( ) ( )
−
+=
−<
−<
−−+=<<
∫
∗∗∗∗
σεσ
εσε
σβ
σβ
σβ
σβ
σβ
σβ
α
α
daFbF
fX
XbXyXaXyEXXbyayE
b
a
i
iiiiiiiiii
'
'''''
Recolectando términos se tiene:
[ ] ( ) ( )( ) ( ) ( )( )
+−+−+= ∫ σε
σε
σε
σβα
α
dfXaFbFbFbaaFXyEb
a
iii
'1
Aplicando el teorema de Leibnitz y el hecho de que no depende de ( )εf X
Tarea
[ ] ( ) ( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )[ ]
( ) ( )( )βσβ
αασσβ
ββσβ
σβ
aFbF
afbfafbfXaFbFbbfaafXyEX
abiii
i
−=
−−+
−−+−+
−−
−=∂∂
'
Estimación
La estimación de este modelo es similar al modelo de regresión truncada.
1. Función de verosimilitud:
( ) ( )( )
=
>= ∗
∗
ayXaF
ayXyfXyf
i
ii
i si
si
=
>=
ay
ayd
si 0
si 1 ( ) ( ) ( ) d
i
d
ii XyFXyfXyf−∗∗=1
* *
*
si si
y y y ay a y a= >= ≤
Si la distribución condicional de dado un conjunto de regresores es especificada,
entonces los parámetros de la distribución pueden ser consistente y eficientemente
estimados a través de ML basados en la distribución condicinal censurada o
truncada de la variable
*y X
y
( )( )
if y X
F a X
∗
∗
Función de densidad
Función de distribución acumulada
*y
( )*y g y=
La función de densidad de es una mexcla de la pdf y la cdf de *yy
Para observaciones independientes, la máxima verosimilitud censurada maximiza:T
( ) ( ) ( ) ( ){ }∑=
∗∗ −+=T
i
iiiii XaFdXyfdL1
,ln1,lnln θθθ
Donde parámetros de la distribución de θ∗y
0 si
0 0
**
*
'*
>=
≤=
+=
iii
ii
iii
yyy
ysiy
Xy εβ ( )2,0~ σε Ni
Dado el siguiente modelo Tobit y :
( ) [ ]2' ,σβii XNyf ≡∗
0=a
( ) ( )( )
Φ=
−Φ=
≤+=
≤= ∗∗
σβ
σβ
εβ
'
'
'
1
0Prob
0Prob0
i
i
ii
i
X-
X
X
yF
Densidad censurada:
( ) ( )1
''
22
1 1exp 1
22
dd
ii i i i
Xf y X y X
ββ
σ σπσ
− = − − −Φ
El estimador MLE maximiza la siguiente función de verosimilitud censurada:( )2ˆ,ˆˆ σβθ =
( ) ( ) ( )∑=
Φ−−+
−−−−=T
i
iiiii
XdXydL
1
'2'
2
22 1ln12
1ln
2
12ln
2
1,ln
σβ
βσ
σπσβ
Condiciones de primer orden:
( ) ( )( )
01
11ln '
12
=
Φ−−−−=
∂∂
∑=
i
i
iiiii
T
i
XdXydL σφ
βσβ
( ) ( )( )∑
=
=
Φ−−+
−+−=
∂∂ T
i i
iii
iii
Xd
Xyd
L
13
'
4
2'
220
211
22
1ln
σβφ
σβ
σσ
Optimizador no lineal
Tarea
( ) ( ) ( )∑∑=>
Φ−+
−++−=
0
'
02
2'2 1lnln2ln
2
1ln
ii y
i
y
ii XXyL
σβ
σβ
σπ
Las dos partes corresponden a:
(1) la regresión clásica para observaciones ilimitadas
(2) Probabilidad relevante para observaciones limitadas
Mezcla de distribuciónes:
discreta y continua
Amemiya (1973): la estimación
Se puede llevar a cabo a través
de MLE
(1) (2)
2. Otra forma de la función de verosimilitud
Reparametrización de Olsen (1978):
σθ
σβ
γ1
, ==Definiendo:
Función de verosimilitud:
( ) ( )[ ] ( )[ ]∑∑=>
Φ−+−+−−=0
'2'2
0
1lnln2ln2
1ln
ii y
iii
y
XXyL γγθθπMayor similitud con la
regresión truncada
•Un algoritmo de optimización lineal converge de manera rápida dado que su
matriz Hessiana es siempre definida negativa.
•Después de la convergencia, los parámetros originales se pueden recuperar a
partir de:
θσβ
θγ 1
, ==