ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...

ANLISIS DE

REGRESIN LOGSTICA

TEMA IV

Modelos Multivariantes 2

Regresin Logstica. En Rial, A. y Varela, J. (2008). Estadstica

Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 223-246.

LECTURA OBLIGATORIA


INTRODUCCIN

Predecir la probabilidad de que un evento ocurra Gran utilidad en medicina y Ps. Clnica: identificar factores de riesgo y factores de proteccin, estimar cunto aumenta la probabilidad de sufrir una patologa si se dan una serie de caracterstica o condiciones,

Logstica Binaria y Logstica Multinomial

Por qu recurrir a la RL? Posibilidad de incorporar VI categricas


EJEMPLOS

ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A

PARTIR DE:

Nivel de colesterol

Edad

Presin arterial

Sexo

Antecedentes familiares

ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA

ESQUIZOFRENIA, EN FUNCIN DE UNA SERIE DE VIs

PREDECIR EL XITO O FRACASO DE UNA TERAPIA

CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIN ELECTORAL,

el absentismo laboral, el burnout, etc.


FILOSOFA

Qu hace la RL?

A partir de las puntuaciones de los sujetos en diferentes VIs, se

estiman probabilidades para poder hacer pronsticos.

Se estima la probabilidad (P) de que la VD presente uno de los dos

valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en funcin

de cmo se comporta en determinadas VI.

Si la probabilidad estimada es menor de 0.5 la prediccin ser No

se rehabilita.


Se compara la probabilidad de ocurrencia de un evento con la probabilidad de

que no ocurra. Al cociente entre ambos se le denomina ODD.

Se trata de identificar aquellas variables que implican cambios en ese ratio de

probabilidad, aumentndolo o disminuyndolo de forma significativa.

La ODD RATIO sera la razn o cociente entre dos ODDs. Permite comparar el pronstico realizado bajo dos situaciones o condiciones distintas (Ej: La

proporcin de xito/fracaso escolar es 5 veces menor en familias

desectructuradas que en familias estructuradas).

Lo que la regresin logstica pretende es identificar aquellas VI que hacen variar

esa ODD.

TRMINOS QUE DEBES DOMINAR

)1(1

)1(

YP

YP


Lo que se estima en la Regresin Logstica para cada sujeto no es un valor de

Y, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra un evento, frente a la probabilidad de que no le ocurra.

Se puede definir tambin como el Logaritmo de la ODD de cada sujeto, esto

es:

El LOGIT es, precisamente, la VD en la Regresin Logstica.

)1(1

)1(

YP

YPLn

TRMINOS QUE DEBES DOMINAR


EL MODELO

Dado que debemos llegar a un cociente de Probabilidades, el modelo

debe asumir una expresin matemtica particular, concretamente

logartmica:

La regresin logstica utiliza una Funcin de Enlace Logartmica, para pasar de los

valores cualesquiera en las VI a predicciones en trminos de un cociente

probabilidades y, de ah a una Probabilidad (entre 0 y 1) y , finalmente a un pronstico

concreto.

El modelo de regresin logstica asume que existe una relacin lineal entre los

predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no

ocurrencia de dicho evento (LOGIT).

nnXXXYP

YPLn

...

)1(1

)1(2211


SUPUESTOS

Menos exigente que el A.D. No es necesario que las VI sean mtricas, normales, y ni siquiera cuantitativas.

1. El modelo debe estar especificado correctamente, con

las VI relevantes

2. La relacin entre cada VI y el Logaritmo de las ODD debe

ser lineal

3. Que no exista multicolinealidad


ESTIMACIN DEL MODELO

Cmo se estima el modelo en la RL? En la Regresin Lineal se haca siguiendo el criterio de Mnimos

Cuadrados, mientras que en la RL se hace siguiendo el de Mxima

Verosimilitud.

Se generan Coeficientes Logsticos para las distintas VI.

Dichos coeficientes de la ecuacin (1, 2, 3,...) se utilizan para hacer las

estimaciones de probabilidad de que ocurra el evento objeto de estudio.

Al igual que en la Regresin Lineal disonemos del mtodo

directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).


EVALUACIN DEL AJUSTE

Un primer indicador es el valor de 2LL, que vendra a ser como la parte no explicada por el modelo. Excesivamente rudimentario: no est acotado. Cuanto

ms prximo a cero mejor ser el ajuste.

SPSS facilita tambin un contraste 2 para saber si la capacidad explicativa del modelo puede considerarse o no estadsticamente significativa.

Tambin disponemos de un % de sujetos correctamente clasificados (debemos de ganarle al menos al azar: al menos 62.5%).

Tambin tenemos dos R2:

R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea

perfecto)

R2 de Nagelkerke (versin corregida del anterior)


INTERPRETACIN

Qu VI son buenos predictores?

En la Regresin Lineal se recurra a un contraste t para saber si cada uno de los predictores eran o no significativamente distintos de cero. En la RL se

recurre al Estadstico de Wald.

Un coeficiente positivo implica un aumento en la probabilidad de

ocurrencia del evento y negativo una disminucin. Adems Un

negativo se corresponde con un ODD RATIO menor de 1 (una

desventaja). El SPSS le llama Exp(b)

Justamente el valor de Exp(b) indica cunto mejor o peor es el

pronstico en funcin de los valores que asume la VI. La VENTAJA o

desventaja de una poseer una determinada caracterstica, condicin o

factor.

Nos permite identificar: FACTORES DE RIESGO y FACTORES DE

PROTECCIN


PARALELISMOS CON LA RLM

Contrastes globales: F Anova

2

Contrastes particulares t Student

Wald

Mtodo de estimacin Mnimos cuadrados

Mxima verosimilitud


EJEMPLO

70 pacientes vctimas de accidentes de trfico y con dao cerebral (TCE)

Se desea saber si variables como el Tipo de Lesin, la Atencin, el Apoyo Familiar, o laEdad del sujeto influyen en la rehabilitacin del paciente

VD dicotmica: REHABILITACIN

0 (NO SE REHABILITA)

1 (SE REHABILITA)

3 Variables explicativas cualitativas (dicotmicas)

APOYO:

0 (SIN APOYO FAMILIAR)

1 (CON APOYO FAMILIAR)

LESIN:

0 (DIFUSA)

1 (FOCALIZADA)

ATENCIN

0 (NO INMEDIATA)

1 (INMEDIATA)

1 Variable explicativa cuantitativa: EDAD


Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de

una tabla de contingencia podemos calcular 4 probabilidades:

La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

se rehabilite (ODD para la rehabilitacin)


se rehabilite, si es que se trata de una lesin focalizada (ODD para la

rehabilitacin con lesin focalizada)


se rehabilite, si es que se trata de una lesin difusa (ODD para la rehabilitacin

con lesin difusa)

El cociente entre las dos ODD, la obtenida para una lesin focalizada y la

obtenida para una lesin difusa (ODD RATIO).

EJEMPLO


La probabilidad de que el sujeto se rehabilite frente a la probabilidad de

que no se rehabilite (ODD para la rehabilitacin). P/1-P

43/27=1.59, o lo que es lo mismo 43/70

27/70

Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados

Tabla de contingencia REHABILITACAIN * LESIN

19 8 27

57,6% 21,6% 38,6%

14 29 43

42,4% 78,4% 61,4%

33 37 70

100,0% 100,0% 100,0%

Recuento

% de LESIN

Recuento

% de LESIN

Recuento

% de LESIN

NO SE REHABILITA

SE REHABILITA

REHABILITACAIN

Total

DIFUSA FOCALIZADA

LESIN

Total

EJEMPLO


La probabilidad de que el sujeto se rehabilite frente a la probabilidad

de que no se rehabilite, si es que se trata de una lesin FOCALIZADA

(ODD para la rehabilitacin con lesin focalizada) 29/8= 3.62

PRIMER DATO: como la ODD focalizada es mayor que la ODD global

(ese nivel de la variable hace que aumente la probabilidad de

rehabilitacin), se tratara de un FACTOR DE PROTECCIN


19 8 27

57,6% 21,6% 38,6%

14 29 43

42,4% 78,4% 61,4%

33 37 70

100,0% 100,0% 100,0%

Recuento

% de LESIN

Recuento

% de LESIN

Recuento

% de LESIN

NO SE REHABILITA

SE REHABILITA

REHABILITACAIN

Total

DIFUSA FOCALIZADA

LESIN

Total

EJEMPLO


La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que

no se rehabilite, si es que se trata de una lesin difusa (ODD para la

rehabilitacin con lesin DIFUSA) 14/19= 0.73

SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la

variable hace que disminuya la probabilidad de rehabilitacin y, por tanto, se

tratara de un FACTOR DE RIESGO


19 8 27

57,6% 21,6% 38,6%

14 29 43

42,4% 78,4% 61,4%

33 37 70

100,0% 100,0% 100,0%

Recuento

% de LESIN

Recuento

% de LESIN

Recuento

% de LESIN

NO SE REHABILITA

SE REHABILITA

REHABILITACAIN

Total

DIFUSA FOCALIZADA

LESIN

Total

EJEMPLO


Variables en la ecuacin

1,593 ,532 8,952 1 ,003 4,920

-,305 ,352 ,752 1 ,386 ,737

LESIN

Constante

Paso

1a

B E.T. Wald gl Sig. Exp(B)

Variable(s) introduc ida(s) en el paso 1: LESIN.a.

El cociente entre las ODDs obtenidas con LESIN FOCALIZADA Vs. DIFUSA

es 3.62/0.73=4.92; esto es,

La ODD RATIO par la variable tipo de lesin sera 4.92. La proporcin de

rehabilitados es CASI 5 VECES MAYOR en el caso de una lesin focalizada

que de una difusa.

ODD

RATIO

TERCER DATO: si para una determinada caracterstica la ODD RATIO>1, poseer dicha

caracterstica supondra una ventaja de cara a la probabilidad de ocurrencia de un

evento, en este caso rehabilitarse. Si fuese similar a 1, se tratara de una variable

irrelevante en trminos de pronstico.

EJEMPLO


Veamos el modelo completo


-,152 ,040 14,808 1 ,000 ,859

4,697 1,130 17,272 1 ,000 109,623

1,770 ,665 7,086 1 ,008 5,872

-,154 ,041 13,736 1 ,000 ,858

3,950 1,177 11,258 1 ,001 51,915

EDAD

Constante

Paso

1a

LESIN

EDAD

Constante

Paso

2b


Variable(s) introduc ida(s) en el paso 1: EDAD.a.

Variable(s) introduc ida(s) en el paso 2: LESIN.b.


Si sustituimos los parmetros

)(77.1)(15.095.3)]1(ln[ LesinEdadYodd

Para el Sujeto n 1 (de 19 aos y con lesin difusa) el logaritmo de la ODD de

rehabilitarse sera:


-,152 ,040 14,808 1 ,000 ,859

4,697 1,130 17,272 1 ,000 109,623

1,770 ,665 7,086 1 ,008 5,872

-,154 ,041 13,736 1 ,000 ,858

3,950 1,177 11,258 1 ,001 51,915

EDAD

Constante

Paso

1a

LESIN

EDAD

Constante

Paso

2b




1.1)0(77.1)19(15.095.3)]1(ln[ Yodd


INTERPRETACIN DEL LOGIT

Para pasar de un LOGIT (que es un logaritmo) a una razn de

probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a

la INVERSA DEL LOGARITMO, en este caso:

Inv Log (1.1) =3

INTERPRETACIN: para un sujeto con estas caractersticas la

probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse.

Pero, cul es concretamente la probabilidad que tiene de rehabilitarse?.

Habra que despejar la ecuacin:

31

P

PODD

PPP 33)1(3

75.04

3P


Y si es una lesin FOCALIZADA?

Repitamos el clculo ahora para el caso de una lesin FOCALIZADA. El resto de

las condiciones son iguales:

Inv Log (2.87) =17.6

INTERPRETACIN: En el caso de UNA LESIN FOCALIZADA por cada paciente

no rehabilitado tendramos 17 rehabilitados. En el caso de LESIN DIFUSA por

cada paciente no rehabilitado tenemos 3 rehabilitados.

Los ingleses apostaran: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada

17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO

87.2)1(77.1)19(15.095.3)]1(ln[ Yodd



-,152 ,040 14,808 1 ,000 ,859

4,697 1,130 17,272 1 ,000 109,623

1,770 ,665 7,086 1 ,008 5,872

-,154 ,041 13,736 1 ,000 ,858

3,950 1,177 11,258 1 ,001 51,915

EDAD

Constante

Paso

1a

LESIN

EDAD

Constante

Paso

2b




INTERPRETACIN DEL EXP(B)

Si dividimos la ODD para focalizada entre la ODD para difusa,

obtendremos la ventaja (o desventaja) de tener una lesin focalizada

a la hora de hacer un pronstico de rehabilitacin. Veamos:

ODD (focalizada) = 17.6 ODD (difusa) = 3

17.6 / 3= 5.87

que es exactamente el valor de EXP(B)

ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...

Documents

Transcript of ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...