Post on 15-Jul-2016
description
BREVE NOTA Y EJEMPLO SOBRE LOS MODELOS LOGIT
Econometría de la Empresa
Rafael de Arce
- Función acotada entre cero y uno y, frecuentemente “soluciones de esquina”.
- Función no lineal en las variables
- No imponer normalidad
- La interpretación de los parámetros es algo más compleja
iXie
P211
1
Ejemplos de utilización:
- Estimación del porcentaje de usuarios de un producto (por ejemplo, internet) a
lo largo del tiempo (Logit agrupado para datos anuales).
- Estimación de actitud favorable (1) no favorable (0) respecto a mi marca (por
ejemplo, comprará el usuario un coche: sí (1) o no (0)). Logit para variable
dicotómica.
- Proporción de hogares con acceso a red de gas natural a lo largo del tiempo
(Logit agrupado).
- ¿será una empresa absorbida por otra? Logit para variable dicotómica.
- Condicionantes para que una mujer trabaje fuera de casa (1) o no (0). Logit
para variable dicotómica.
LINEALIZACIÓN:
Para simplificar, rescribimos
Z
Z
Zi
i
e
e
eP
Xz
11
1
21
Y la probabilidad del suceso contrario como:
ZZ
ZZ
Z
Z
iee
ee
e
eP
1
1
1
1
11)1(
0
0.2
0.4
0.6
0.8
1
Usando estas expresiones, se llega a que la “razón de probabilidades” (u “Odds ratio”
o “función de riesgo”) es:
Z
Z
Z
Z
i
i e
e
e
e
P
P
1
11
)1(
Lo anterior (la razón de probabilidades) se puede convertir en una función lineal
simplemente tomando logaritmos:
i
Z
i
i XeLnP
PLn 21)(
)1(
ESTIMACIÓN:
A) Endógena es una proporción o, directamente, una probabilidad: LOGIT
AGRUPADO
a. Se puede estimar directamente (es una función lineal),
b. pero heterocedástica: estimar por MCG
B) Éndogena es una variable dicotómica (solo toma valores cero o uno), al definir
el odds ratio:LOGIT PARA RESPUESTAS DICOTÓMICAS
a. Si Y=1,
0
1
)11(
1LnLn
b. Si Y=0,
1
0
)01(
0LnLn
c. Luego la función no está definida de este modo. Hay que recurrir a
maximizar la función de verosimilitud
La probabilidad sigue definida como:
iXie
P211
1
, donde es fácil calcular que, entonces,
iXie
P111
1)1(
Pero, cada valor de Y es un suceso de Bernoulli del tipo:
i
i
PXY
PXY
1)|0Pr(
)|1Pr(
Luego su función de densidad conjunta se puede escribir como:
))1((),...,,()1(
1321
ii Y
i
Y
i
n
in ppYYYYf
De forma equivalente, más simple, se pueden tomar logaritmos de esta función de
densidad conjunta y tendríamos:
n
i
i
i
ii
n
i
iiiii
n
i
iiiin
pLnp
pLnY
pLnYpLnpLnY
pLnYpLnYYYYYf
1
1
1
321
)1()1(
)1()1()(
)1()1()()),...,,(ln(
De las expresiones halladas anteriormente para la función de probabilidad de una
función LOGIT:
i
i
i XP
PLn 21
)1(
iXie
PLn111
1))1((
Luego, sustituyendo en el logaritmo de la función de densidad conjunta de la binomial
tenemos:
n
i
X
ii
n
i
X
ii
n
iXii
n
i
i
i
eLnXY
eLnLnXYe
LnXY
YYYYf
1
21
1
21
1
21
321
)1()(
)1()1()(1
1)(
)),...,,(ln(
21
21
21
Ahora, solo habría que buscar los parámetros que maximizan esta función de
densidad conjunta:
0
0
)1()(
2
1
1
2121
L
L
eLnXYMaxn
i
X
iii
Esta derivación implica el empleo de métodos no lineales que pueden consultarse en
el capítulo 15 del libro de Damodar Gujarati, “Econometría”, Ed. Mac Graw Hill, año
2003. Puede consultarse también J. Wooldridge (2006) “Introducción a la econometría:
un enfoque moderno”. Ed. Paraninfo
EJEMPLO DE ESTIMACIÓN EN EVIEWS
Datos tomados de Wooldrige (2006) para Logit
Para estimar el modelo Logit en E-views, basta con pulsar en el workfile correspondiente “quick”, “estimate equation” y, en esa pantalla, seleccionar el método de estimación de regresión binaria. Con ello, se abrirá la ventana habitual de especificación en la que, además de escribir la ecuación, habrá que seleccionar “Logit” entre las tres posibilidades que aparecen en el centro (también está disponible la estimación con un “probit” o con un modelo de valores extremos). La primera salida obtenida (la endógena es una variable dicotómica con valor cero si la mujer no trabaja fuera de casa y uno si sí lo hace) es la siguiente:
Dependent Variable: INLF
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 05/08/12 Time: 08:58
Sample: 1 753
Included observations: 753
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives Coefficient Std. Error z-Statistic Prob.
C 0.425453 0.860370 0.494500 0.6210
NWIFEINC -0.021345 0.008421 -2.534620 0.0113
EDUC 0.221170 0.043440 5.091442 0.0000
EXPER 0.205870 0.032057 6.422001 0.0000
EXPER^2 -0.003154 0.001016 -3.104093 0.0019
AGE -0.088024 0.014573 -6.040232 0.0000
KIDSLT6 -1.443354 0.203585 -7.089692 0.0000
KIDSGE6 0.060112 0.074790 0.803749 0.4215
McFadden R-squared 0.219681 Mean dependent var 0.568393
S.D. dependent var 0.495630 S.E. of regression 0.425963
Akaike info criterion 1.088354 Sum squared resid 135.1762
Schwarz criterion 1.137481 Log likelihood -401.7652
Hannan-Quinn criter. 1.107280 Restr. log likelihood -514.8732
LR statistic 226.2161 Avg. log likelihood -0.533553
Prob(LR statistic) 0.000000
Obs with Dep=0 325 Total obs 753
Obs with Dep=1 428
Dependent Variable Frequencies
Date: 05/08/12 Time: 09:25 Cumulative
Dep. Value Count Percent Count Percent
0 325 43.00 325 43.16
1 428 56.00 753 100.00
A partir de los parámetros estimados (coefficients) se puede comprobar la coherencia del modelo obtenido en cuanto al efecto que un incremento/reducción en cada variable explicativa produce sobre la endógena del modelo. Es decir, se puede realizar un “análisis de signos”. Recuérdese que la variable endógena empleada en la estimación es el “logaritmo del ratio de probabilidades”. Como información adicional, podemos calcular cual es este ratio para el total de la muestra. Dado que hay un 56,6% de mujeres trabajadoras y un 43,4% amas de casa, el ratio medio tendría un valor de 1,27 (56,3/43,4), para la muestra empleada en este ejercicio. Es decir, es 1,27 veces más probable encontrar a una mujer que trabaja fuera de casa que a una que no lo hace. Observando los signos de los coeficientes obtenidos, su carácter positivo en el caso de EDUC (años de educación recibida), EXPER (años de experiencia laboral) y KIDSGE6 (hijos mayores de 6 años) querrá decir que un aumento en el valor de estas variables producirá un incremento en el ratio (será mayor que 1,27). Para las otras variables, el signo negativo de NWIFEINC (renta familiar), EXPER^2 (valor de la experiencia al cuadrado), AGE (edad de la mujer) y KIDSLT6 (hijos menores de 6 años), habría que interpretar que un aumento en valor de estas variables llevaría a una reducción en el ratio de probabilidades. Como es habitual, la variable EXPER en niveles y al cuadrado, recoge la influencia de una circunstancia que va reduciendo su impacto según va creciendo. Se está escribiendo una forma de parábola, donde, al comienzo, el impacto de tener experiencia genera un cambio alto respecto a no tenerla, pero, su efecto diferencial entre valores altos de la misma es pequeño. Para poder interpretar en qué cuantía se incrementa o se reduce el ratio de probabilidades a aumentar el valor de la explicativa, habitualmente se deshace el valor del logaritmo en la endógena escribiendo el exponencial del parámetro (2):
Coefficient (1)
Exp(coeff.) (2)
Mod Ratio (2)*1,27
NWIFEINC -0.021345 0.978881 1.24317911
EDUC 0.221170 1.247535 1.58437008
EXPER 0.205870 1.228593 1.56031372
EXPER^2 -0.003154 0.996851 1.26600073
AGE -0.088024 0.915739 1.1629884
KIDSLT6 -1.443354 0.236134 0.29989073
KIDSGE6 0.060112 1.061955 1.34868346 (eviews no genera esta tabla, hay que hacerla en Excel)
Dicho valor será menor que uno cuando la variable supone una reducción del ratio y
mayor que uno cuando supone un aumento. Por ejemplo, un incremento unitario en el
número de años de educación medio, produce un incremento en el ratio de
probabilidades de 1,24 veces; es decir, este ratio pasaría de 1,27 a 1,58. A sensu
contrario, un incremento de un año en la edad media de una mujer produciría una
reducción del ratio de 0,91; es decir, pasaría de 1,27 a 1,16.
En el párrafo anterior se ha repetido la palabra “media”, porque es importante recordar
aquí nuevamente que una de las bondades del modelo logit es que la incidencia de los
incrementos en las exógenas no son iguales en todo el recorrido de su muestra (es un
modelo no lineal). Quiero decir con ello que tanto para los primeros como para los
últimos valores de cambio relativo, el efecto sobre la endógena serían inferiores a este
valor medio estimado; mientras que en los extremos el cambio sería más abrupto
(observar nuevamente la forma de la curva en ese al comienzo de este documento).
En cuanto a la valoración conjunta del modelo, hay que decir que el carácter
dicotómico de las variables no hace recomendable el cálculo de la varianza de la
endógena, por lo que tampoco se puede calcular una R cuadrado habitual en el MBRL.
Mac Fadden propuso un cálculo conocido como la pseudo-R cuadrado comparando la
mejora en la maximización del logaritmo de verosimilitud al explicar la variable con las
exógenas elegidas frente a la opción de explicarlo sólo en función de una constante.
Esta pseudo-R teóricamente puede variar entre 0 y 1, pero es raro que alcance valores
elevados (suele estar en torno a 0,35 para modelos aceptables).
Para valorar el modelo de un modo más aplicado y atendiendo a su utilidad real (un
buen modelo nos debería servir para saber si la mujer trabaja o no conociendo el valor
de las variables explicativas para su caso) habitualmente se realiza un análisis de la
capacidad de asignación al caso cero o uno que se produce con el modelo.
La variable endógena que realmente se está modelizando es una probabilidad y, el
usuario, debe elegir a partir de que valor de probabilidad obtenida con el modelo
asignará que la mujer trabaja y para qué valor no. A este valor se le conoce con el
nombre de “punto de corte” (cutoff). Se puede demostrar que el modelo tendrá un
mejor ratio global de acierto (asignación correcta) cuando dicho punto de corte se
establece en el porcentaje de unos en la muestra (en nuestro ejemplo, 0,56).
El e-views nos ofrece la siguiente información (en la ventana de la regresión, “views” y
“expectation-prediction evaluation”):
Expectation-Prediction Evaluation for Binary Specification
Equation: UNTITLED
Date: 05/08/12 Time: 09:25
Success cutoff: C = 0.56 Estimated Equation Constant Probability
1
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
P(Dep=1)<=C 232 100 332 0 0 0
P(Dep=1)>C 93 328 421 325 428 753
Total 325 428 753 325 428 753
Correct 232 328 560 0 428 428
% Correct 71.38 76.64 74.37 0.00 100.00 56.84
% Incorrect 28.62 23.36 25.63 100.00 0.00 43.16
Total Gain* 71.38 -23.36 17.53
Percent Gain** 71.38 NA 40.62
*Change in "% Correct" from default (constant probability) specification
1 En esta subtabla de la derecha, estamos asignado el valor 1 a todos los casos si el punto de corte es menor que la
media real, por lo que “acertamos siempre cuando efectivamente el caso real es uno y fallamos siempre cuando el caso real es cero”).
**Percent of incorrect (default) prediction corrected by equation
En el marco superior izquierdo, se puede observar una tabla de contingencia en la
que, en filas, se sitúa los valores estimados del modelo y, en columnas, los valores
reales. Por ejemplo, el primer valor (232) significa que para ese número de casos, en
la realidad la mujer no trabaja y el modelo ha estimado que efectivamente no lo hacía.
En el segundo valor abajo, para 93 mujeres que NO trabajan el modelo ha dicho que sí
lo hacen. Para 100 mujeres que SÍ trabajan, el modelo dijo que no lo hacían y,
finalmente, para 328 mujeres que SÍ trabajan, el modelo estimó que efectivamente
trabajan.
A continuación, se presentan una serie de cálculos porcentuales sencillos:
- Porcentaje de valores cero (no trabaja) correctos en la asignación:
232/325=71,38% (“cuando el modelo afirma que la mujer no trabaja, en qué
porcentaje acierta”).
- Porcentaje de valores uno (trabaja) correctos en la asignación:
328/428=76,64% (“cuando el modelo afirma que la mujer trabaja, en qué
porcentaje acierta”).
- Porcentaje global de aciertos: (232+328)/753=74,37%.
En último apartado de la tabla nos muestra cuál es la “ganancia” de emplear un
modelo con estas variables explicativas sobre el haber realizado una asignación
simplemente con una constante (que sería la media de la endógena, es decir 0,56 y,
como es ligeramente más probable en la muestra encontrar mujeres trabajando que no
trabajando, todos los casos habrían sido asignados a mujer trabajadora). En este
caso, el modelo habría asignado correctamente a las trabajadoras (de hecho, diría que
todas las mujeres trabajan), pero fallaría en las que no trabajan. Nuestro modelo con
variables explicativas acertaría un 71,38% de casos de no trabajadoras frente al 0%
del caso del modelo sólo con la constante (la media), siendo esta la ganancia.
Evidentemente, si se va reduciendo el punto de corte se obtendrá un mayor número de
aciertos en la asignación de mujeres que sí trabajan; a costa de tener un mayor
porcentaje de errores en la asignación de las que no trabajan. En algunas ocasiones
tiene interés modificar este punto de corte porque se requiere tener una mayor
seguridad del modelo en alguna de las dos alternativas. Cuando se busca tener un
mayor acierto en la asignación de unos se habla de mejorar la “sensibilidad” del
modelo, mientras que cuando se busca tener un mejor número de aciertos en la
asignación de ceros se habla de “precisión” del modelo. El modelizador ha de decidir
que coste está dispuesto a correr modificando el valor del punto de corte.
E-views ofrece una tabla adicional en la parte inferior de la anterior que sería de
utilidad para comprobar en qué medida estoy distorsionando los valores iniciales al
elegir un punto de corte u otro y, así, poder realizar un análisis coste/beneficio a la
hora de tomar mis decisiones. La tabla inferior presentaría los resultados del modelo
“funcionando por sí solo”, o asignando los casos en función de las probabilidades
estimadas (sumadas) sin establecer el usuario un punto de corte más o menos
arbitrario.
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
E(# of Dep=0) 190.18 134.82 325.00 140.27 184.73 325.00
E(# of Dep=1) 134.82 293.18 428.00 184.73 243.27 428.00
Total 325.00 428.00 753.00 325.00 428.00 753.00
Correct 190.18 293.18 483.35 140.27 243.27 383.54
% Correct 58.52 68.50 64.19 43.16 56.84 50.94
% Incorrect 41.48 31.50 35.81 56.84 43.16 49.06
Total Gain* 15.36 11.66 13.25
Percent Gain** 27.02 27.02 27.02
*Change in "% Correct" from default (constant probability) specification
**Percent of incorrect (default) prediction corrected by equation
La utilidad de esta segunda tabla podría ser la de comparar entre distintos modelos
para endógenas diferentes (con distinto número de “unos”).