introduccion_logit

8
BREVE NOTA Y EJEMPLO SOBRE LOS MODELOS LOGIT Econometría de la Empresa Rafael de Arce - Función acotada entre cero y uno y, frecuentemente “soluciones de esquina”. - Función no lineal en las variables - No imponer normalidad - La interpretación de los parámetros es algo más compleja i X i e P 2 1 1 1 Ejemplos de utilización: - Estimación del porcentaje de usuarios de un producto (por ejemplo, internet) a lo largo del tiempo (Logit agrupado para datos anuales). - Estimación de actitud favorable (1) no favorable (0) respecto a mi marca (por ejemplo, comprará el usuario un coche: sí (1) o no (0)). Logit para variable dicotómica. - Proporción de hogares con acceso a red de gas natural a lo largo del tiempo (Logit agrupado). - ¿será una empresa absorbida por otra? Logit para variable dicotómica. - Condicionantes para que una mujer trabaje fuera de casa (1) o no (0). Logit para variable dicotómica. LINEALIZACIÓN: Para simplificar, rescribimos Z Z Z i i e e e P X z 1 1 1 2 1 Y la probabilidad del suceso contrario como: Z Z Z Z Z Z i e e e e e e P 1 1 1 1 1 1 ) 1 ( 0 0.2 0.4 0.6 0.8 1

description

Estadisticas con logit

Transcript of introduccion_logit

Page 1: introduccion_logit

BREVE NOTA Y EJEMPLO SOBRE LOS MODELOS LOGIT

Econometría de la Empresa

Rafael de Arce

- Función acotada entre cero y uno y, frecuentemente “soluciones de esquina”.

- Función no lineal en las variables

- No imponer normalidad

- La interpretación de los parámetros es algo más compleja

iXie

P211

1

Ejemplos de utilización:

- Estimación del porcentaje de usuarios de un producto (por ejemplo, internet) a

lo largo del tiempo (Logit agrupado para datos anuales).

- Estimación de actitud favorable (1) no favorable (0) respecto a mi marca (por

ejemplo, comprará el usuario un coche: sí (1) o no (0)). Logit para variable

dicotómica.

- Proporción de hogares con acceso a red de gas natural a lo largo del tiempo

(Logit agrupado).

- ¿será una empresa absorbida por otra? Logit para variable dicotómica.

- Condicionantes para que una mujer trabaje fuera de casa (1) o no (0). Logit

para variable dicotómica.

LINEALIZACIÓN:

Para simplificar, rescribimos

Z

Z

Zi

i

e

e

eP

Xz

11

1

21

Y la probabilidad del suceso contrario como:

ZZ

ZZ

Z

Z

iee

ee

e

eP

1

1

1

1

11)1(

0

0.2

0.4

0.6

0.8

1

Page 2: introduccion_logit

Usando estas expresiones, se llega a que la “razón de probabilidades” (u “Odds ratio”

o “función de riesgo”) es:

Z

Z

Z

Z

i

i e

e

e

e

P

P

1

11

)1(

Lo anterior (la razón de probabilidades) se puede convertir en una función lineal

simplemente tomando logaritmos:

i

Z

i

i XeLnP

PLn 21)(

)1(

ESTIMACIÓN:

A) Endógena es una proporción o, directamente, una probabilidad: LOGIT

AGRUPADO

a. Se puede estimar directamente (es una función lineal),

b. pero heterocedástica: estimar por MCG

B) Éndogena es una variable dicotómica (solo toma valores cero o uno), al definir

el odds ratio:LOGIT PARA RESPUESTAS DICOTÓMICAS

a. Si Y=1,

0

1

)11(

1LnLn

b. Si Y=0,

1

0

)01(

0LnLn

c. Luego la función no está definida de este modo. Hay que recurrir a

maximizar la función de verosimilitud

La probabilidad sigue definida como:

iXie

P211

1

, donde es fácil calcular que, entonces,

iXie

P111

1)1(

Pero, cada valor de Y es un suceso de Bernoulli del tipo:

i

i

PXY

PXY

1)|0Pr(

)|1Pr(

Luego su función de densidad conjunta se puede escribir como:

))1((),...,,()1(

1321

ii Y

i

Y

i

n

in ppYYYYf

Page 3: introduccion_logit

De forma equivalente, más simple, se pueden tomar logaritmos de esta función de

densidad conjunta y tendríamos:

n

i

i

i

ii

n

i

iiiii

n

i

iiiin

pLnp

pLnY

pLnYpLnpLnY

pLnYpLnYYYYYf

1

1

1

321

)1()1(

)1()1()(

)1()1()()),...,,(ln(

De las expresiones halladas anteriormente para la función de probabilidad de una

función LOGIT:

i

i

i XP

PLn 21

)1(

iXie

PLn111

1))1((

Luego, sustituyendo en el logaritmo de la función de densidad conjunta de la binomial

tenemos:

n

i

X

ii

n

i

X

ii

n

iXii

n

i

i

i

eLnXY

eLnLnXYe

LnXY

YYYYf

1

21

1

21

1

21

321

)1()(

)1()1()(1

1)(

)),...,,(ln(

21

21

21

Ahora, solo habría que buscar los parámetros que maximizan esta función de

densidad conjunta:

0

0

)1()(

2

1

1

2121

L

L

eLnXYMaxn

i

X

iii

Esta derivación implica el empleo de métodos no lineales que pueden consultarse en

el capítulo 15 del libro de Damodar Gujarati, “Econometría”, Ed. Mac Graw Hill, año

2003. Puede consultarse también J. Wooldridge (2006) “Introducción a la econometría:

un enfoque moderno”. Ed. Paraninfo

Page 4: introduccion_logit

EJEMPLO DE ESTIMACIÓN EN EVIEWS

Datos tomados de Wooldrige (2006) para Logit

Para estimar el modelo Logit en E-views, basta con pulsar en el workfile correspondiente “quick”, “estimate equation” y, en esa pantalla, seleccionar el método de estimación de regresión binaria. Con ello, se abrirá la ventana habitual de especificación en la que, además de escribir la ecuación, habrá que seleccionar “Logit” entre las tres posibilidades que aparecen en el centro (también está disponible la estimación con un “probit” o con un modelo de valores extremos). La primera salida obtenida (la endógena es una variable dicotómica con valor cero si la mujer no trabaja fuera de casa y uno si sí lo hace) es la siguiente:

Dependent Variable: INLF

Method: ML - Binary Logit (Quadratic hill climbing)

Date: 05/08/12 Time: 08:58

Sample: 1 753

Included observations: 753

Convergence achieved after 5 iterations

Covariance matrix computed using second derivatives Coefficient Std. Error z-Statistic Prob.

C 0.425453 0.860370 0.494500 0.6210

NWIFEINC -0.021345 0.008421 -2.534620 0.0113

EDUC 0.221170 0.043440 5.091442 0.0000

EXPER 0.205870 0.032057 6.422001 0.0000

EXPER^2 -0.003154 0.001016 -3.104093 0.0019

AGE -0.088024 0.014573 -6.040232 0.0000

KIDSLT6 -1.443354 0.203585 -7.089692 0.0000

KIDSGE6 0.060112 0.074790 0.803749 0.4215

McFadden R-squared 0.219681 Mean dependent var 0.568393

S.D. dependent var 0.495630 S.E. of regression 0.425963

Akaike info criterion 1.088354 Sum squared resid 135.1762

Schwarz criterion 1.137481 Log likelihood -401.7652

Hannan-Quinn criter. 1.107280 Restr. log likelihood -514.8732

LR statistic 226.2161 Avg. log likelihood -0.533553

Prob(LR statistic) 0.000000

Obs with Dep=0 325 Total obs 753

Obs with Dep=1 428

Dependent Variable Frequencies

Date: 05/08/12 Time: 09:25 Cumulative

Dep. Value Count Percent Count Percent

0 325 43.00 325 43.16

1 428 56.00 753 100.00

Page 5: introduccion_logit

A partir de los parámetros estimados (coefficients) se puede comprobar la coherencia del modelo obtenido en cuanto al efecto que un incremento/reducción en cada variable explicativa produce sobre la endógena del modelo. Es decir, se puede realizar un “análisis de signos”. Recuérdese que la variable endógena empleada en la estimación es el “logaritmo del ratio de probabilidades”. Como información adicional, podemos calcular cual es este ratio para el total de la muestra. Dado que hay un 56,6% de mujeres trabajadoras y un 43,4% amas de casa, el ratio medio tendría un valor de 1,27 (56,3/43,4), para la muestra empleada en este ejercicio. Es decir, es 1,27 veces más probable encontrar a una mujer que trabaja fuera de casa que a una que no lo hace. Observando los signos de los coeficientes obtenidos, su carácter positivo en el caso de EDUC (años de educación recibida), EXPER (años de experiencia laboral) y KIDSGE6 (hijos mayores de 6 años) querrá decir que un aumento en el valor de estas variables producirá un incremento en el ratio (será mayor que 1,27). Para las otras variables, el signo negativo de NWIFEINC (renta familiar), EXPER^2 (valor de la experiencia al cuadrado), AGE (edad de la mujer) y KIDSLT6 (hijos menores de 6 años), habría que interpretar que un aumento en valor de estas variables llevaría a una reducción en el ratio de probabilidades. Como es habitual, la variable EXPER en niveles y al cuadrado, recoge la influencia de una circunstancia que va reduciendo su impacto según va creciendo. Se está escribiendo una forma de parábola, donde, al comienzo, el impacto de tener experiencia genera un cambio alto respecto a no tenerla, pero, su efecto diferencial entre valores altos de la misma es pequeño. Para poder interpretar en qué cuantía se incrementa o se reduce el ratio de probabilidades a aumentar el valor de la explicativa, habitualmente se deshace el valor del logaritmo en la endógena escribiendo el exponencial del parámetro (2):

Coefficient (1)

Exp(coeff.) (2)

Mod Ratio (2)*1,27

NWIFEINC -0.021345 0.978881 1.24317911

EDUC 0.221170 1.247535 1.58437008

EXPER 0.205870 1.228593 1.56031372

EXPER^2 -0.003154 0.996851 1.26600073

AGE -0.088024 0.915739 1.1629884

KIDSLT6 -1.443354 0.236134 0.29989073

KIDSGE6 0.060112 1.061955 1.34868346 (eviews no genera esta tabla, hay que hacerla en Excel)

Dicho valor será menor que uno cuando la variable supone una reducción del ratio y

mayor que uno cuando supone un aumento. Por ejemplo, un incremento unitario en el

número de años de educación medio, produce un incremento en el ratio de

probabilidades de 1,24 veces; es decir, este ratio pasaría de 1,27 a 1,58. A sensu

contrario, un incremento de un año en la edad media de una mujer produciría una

reducción del ratio de 0,91; es decir, pasaría de 1,27 a 1,16.

En el párrafo anterior se ha repetido la palabra “media”, porque es importante recordar

aquí nuevamente que una de las bondades del modelo logit es que la incidencia de los

Page 6: introduccion_logit

incrementos en las exógenas no son iguales en todo el recorrido de su muestra (es un

modelo no lineal). Quiero decir con ello que tanto para los primeros como para los

últimos valores de cambio relativo, el efecto sobre la endógena serían inferiores a este

valor medio estimado; mientras que en los extremos el cambio sería más abrupto

(observar nuevamente la forma de la curva en ese al comienzo de este documento).

En cuanto a la valoración conjunta del modelo, hay que decir que el carácter

dicotómico de las variables no hace recomendable el cálculo de la varianza de la

endógena, por lo que tampoco se puede calcular una R cuadrado habitual en el MBRL.

Mac Fadden propuso un cálculo conocido como la pseudo-R cuadrado comparando la

mejora en la maximización del logaritmo de verosimilitud al explicar la variable con las

exógenas elegidas frente a la opción de explicarlo sólo en función de una constante.

Esta pseudo-R teóricamente puede variar entre 0 y 1, pero es raro que alcance valores

elevados (suele estar en torno a 0,35 para modelos aceptables).

Para valorar el modelo de un modo más aplicado y atendiendo a su utilidad real (un

buen modelo nos debería servir para saber si la mujer trabaja o no conociendo el valor

de las variables explicativas para su caso) habitualmente se realiza un análisis de la

capacidad de asignación al caso cero o uno que se produce con el modelo.

La variable endógena que realmente se está modelizando es una probabilidad y, el

usuario, debe elegir a partir de que valor de probabilidad obtenida con el modelo

asignará que la mujer trabaja y para qué valor no. A este valor se le conoce con el

nombre de “punto de corte” (cutoff). Se puede demostrar que el modelo tendrá un

mejor ratio global de acierto (asignación correcta) cuando dicho punto de corte se

establece en el porcentaje de unos en la muestra (en nuestro ejemplo, 0,56).

El e-views nos ofrece la siguiente información (en la ventana de la regresión, “views” y

“expectation-prediction evaluation”):

Expectation-Prediction Evaluation for Binary Specification

Equation: UNTITLED

Date: 05/08/12 Time: 09:25

Success cutoff: C = 0.56 Estimated Equation Constant Probability

1

Dep=0 Dep=1 Total Dep=0 Dep=1 Total

P(Dep=1)<=C 232 100 332 0 0 0

P(Dep=1)>C 93 328 421 325 428 753

Total 325 428 753 325 428 753

Correct 232 328 560 0 428 428

% Correct 71.38 76.64 74.37 0.00 100.00 56.84

% Incorrect 28.62 23.36 25.63 100.00 0.00 43.16

Total Gain* 71.38 -23.36 17.53

Percent Gain** 71.38 NA 40.62

*Change in "% Correct" from default (constant probability) specification

1 En esta subtabla de la derecha, estamos asignado el valor 1 a todos los casos si el punto de corte es menor que la

media real, por lo que “acertamos siempre cuando efectivamente el caso real es uno y fallamos siempre cuando el caso real es cero”).

Page 7: introduccion_logit

**Percent of incorrect (default) prediction corrected by equation

En el marco superior izquierdo, se puede observar una tabla de contingencia en la

que, en filas, se sitúa los valores estimados del modelo y, en columnas, los valores

reales. Por ejemplo, el primer valor (232) significa que para ese número de casos, en

la realidad la mujer no trabaja y el modelo ha estimado que efectivamente no lo hacía.

En el segundo valor abajo, para 93 mujeres que NO trabajan el modelo ha dicho que sí

lo hacen. Para 100 mujeres que SÍ trabajan, el modelo dijo que no lo hacían y,

finalmente, para 328 mujeres que SÍ trabajan, el modelo estimó que efectivamente

trabajan.

A continuación, se presentan una serie de cálculos porcentuales sencillos:

- Porcentaje de valores cero (no trabaja) correctos en la asignación:

232/325=71,38% (“cuando el modelo afirma que la mujer no trabaja, en qué

porcentaje acierta”).

- Porcentaje de valores uno (trabaja) correctos en la asignación:

328/428=76,64% (“cuando el modelo afirma que la mujer trabaja, en qué

porcentaje acierta”).

- Porcentaje global de aciertos: (232+328)/753=74,37%.

En último apartado de la tabla nos muestra cuál es la “ganancia” de emplear un

modelo con estas variables explicativas sobre el haber realizado una asignación

simplemente con una constante (que sería la media de la endógena, es decir 0,56 y,

como es ligeramente más probable en la muestra encontrar mujeres trabajando que no

trabajando, todos los casos habrían sido asignados a mujer trabajadora). En este

caso, el modelo habría asignado correctamente a las trabajadoras (de hecho, diría que

todas las mujeres trabajan), pero fallaría en las que no trabajan. Nuestro modelo con

variables explicativas acertaría un 71,38% de casos de no trabajadoras frente al 0%

del caso del modelo sólo con la constante (la media), siendo esta la ganancia.

Evidentemente, si se va reduciendo el punto de corte se obtendrá un mayor número de

aciertos en la asignación de mujeres que sí trabajan; a costa de tener un mayor

porcentaje de errores en la asignación de las que no trabajan. En algunas ocasiones

tiene interés modificar este punto de corte porque se requiere tener una mayor

seguridad del modelo en alguna de las dos alternativas. Cuando se busca tener un

mayor acierto en la asignación de unos se habla de mejorar la “sensibilidad” del

modelo, mientras que cuando se busca tener un mejor número de aciertos en la

asignación de ceros se habla de “precisión” del modelo. El modelizador ha de decidir

que coste está dispuesto a correr modificando el valor del punto de corte.

E-views ofrece una tabla adicional en la parte inferior de la anterior que sería de

utilidad para comprobar en qué medida estoy distorsionando los valores iniciales al

elegir un punto de corte u otro y, así, poder realizar un análisis coste/beneficio a la

hora de tomar mis decisiones. La tabla inferior presentaría los resultados del modelo

“funcionando por sí solo”, o asignando los casos en función de las probabilidades

estimadas (sumadas) sin establecer el usuario un punto de corte más o menos

arbitrario.

Page 8: introduccion_logit

Estimated Equation Constant Probability

Dep=0 Dep=1 Total Dep=0 Dep=1 Total

E(# of Dep=0) 190.18 134.82 325.00 140.27 184.73 325.00

E(# of Dep=1) 134.82 293.18 428.00 184.73 243.27 428.00

Total 325.00 428.00 753.00 325.00 428.00 753.00

Correct 190.18 293.18 483.35 140.27 243.27 383.54

% Correct 58.52 68.50 64.19 43.16 56.84 50.94

% Incorrect 41.48 31.50 35.81 56.84 43.16 49.06

Total Gain* 15.36 11.66 13.25

Percent Gain** 27.02 27.02 27.02

*Change in "% Correct" from default (constant probability) specification

**Percent of incorrect (default) prediction corrected by equation

La utilidad de esta segunda tabla podría ser la de comparar entre distintos modelos

para endógenas diferentes (con distinto número de “unos”).