ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...
Transcript of ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...
-
ANLISIS DE
REGRESIN LOGSTICA
TEMA IV
-
Modelos Multivariantes 2
Regresin Logstica. En Rial, A. y Varela, J. (2008). Estadstica
Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 223-246.
LECTURA OBLIGATORIA
-
Modelos Multivariantes 3
INTRODUCCIN
Predecir la probabilidad de que un evento ocurra Gran utilidad en medicina y Ps. Clnica: identificar factores de riesgo y factores de proteccin, estimar cunto aumenta la probabilidad de sufrir una patologa si se dan una serie de caracterstica o condiciones,
Logstica Binaria y Logstica Multinomial
Por qu recurrir a la RL? Posibilidad de incorporar VI categricas
-
Modelos Multivariantes 4
EJEMPLOS
ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A
PARTIR DE:
Nivel de colesterol
Edad
Presin arterial
Sexo
Antecedentes familiares
ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA
ESQUIZOFRENIA, EN FUNCIN DE UNA SERIE DE VIs
PREDECIR EL XITO O FRACASO DE UNA TERAPIA
CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIN ELECTORAL,
el absentismo laboral, el burnout, etc.
-
Modelos Multivariantes 5
FILOSOFA
Qu hace la RL?
A partir de las puntuaciones de los sujetos en diferentes VIs, se
estiman probabilidades para poder hacer pronsticos.
Se estima la probabilidad (P) de que la VD presente uno de los dos
valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en funcin
de cmo se comporta en determinadas VI.
Si la probabilidad estimada es menor de 0.5 la prediccin ser No
se rehabilita.
-
Modelos Multivariantes 6
Se compara la probabilidad de ocurrencia de un evento con la probabilidad de
que no ocurra. Al cociente entre ambos se le denomina ODD.
Se trata de identificar aquellas variables que implican cambios en ese ratio de
probabilidad, aumentndolo o disminuyndolo de forma significativa.
La ODD RATIO sera la razn o cociente entre dos ODDs. Permite comparar el pronstico realizado bajo dos situaciones o condiciones distintas (Ej: La
proporcin de xito/fracaso escolar es 5 veces menor en familias
desectructuradas que en familias estructuradas).
Lo que la regresin logstica pretende es identificar aquellas VI que hacen variar
esa ODD.
TRMINOS QUE DEBES DOMINAR
)1(1
)1(
YP
YP
-
Modelos Multivariantes 7
Lo que se estima en la Regresin Logstica para cada sujeto no es un valor de
Y, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra un evento, frente a la probabilidad de que no le ocurra.
Se puede definir tambin como el Logaritmo de la ODD de cada sujeto, esto
es:
El LOGIT es, precisamente, la VD en la Regresin Logstica.
)1(1
)1(
YP
YPLn
TRMINOS QUE DEBES DOMINAR
-
Modelos Multivariantes 8
EL MODELO
Dado que debemos llegar a un cociente de Probabilidades, el modelo
debe asumir una expresin matemtica particular, concretamente
logartmica:
La regresin logstica utiliza una Funcin de Enlace Logartmica, para pasar de los
valores cualesquiera en las VI a predicciones en trminos de un cociente
probabilidades y, de ah a una Probabilidad (entre 0 y 1) y , finalmente a un pronstico
concreto.
El modelo de regresin logstica asume que existe una relacin lineal entre los
predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no
ocurrencia de dicho evento (LOGIT).
nnXXXYP
YPLn
...
)1(1
)1(2211
-
Modelos Multivariantes 9
SUPUESTOS
Menos exigente que el A.D. No es necesario que las VI sean mtricas, normales, y ni siquiera cuantitativas.
1. El modelo debe estar especificado correctamente, con
las VI relevantes
2. La relacin entre cada VI y el Logaritmo de las ODD debe
ser lineal
3. Que no exista multicolinealidad
-
Modelos Multivariantes 10
ESTIMACIN DEL MODELO
Cmo se estima el modelo en la RL? En la Regresin Lineal se haca siguiendo el criterio de Mnimos
Cuadrados, mientras que en la RL se hace siguiendo el de Mxima
Verosimilitud.
Se generan Coeficientes Logsticos para las distintas VI.
Dichos coeficientes de la ecuacin (1, 2, 3,...) se utilizan para hacer las
estimaciones de probabilidad de que ocurra el evento objeto de estudio.
Al igual que en la Regresin Lineal disonemos del mtodo
directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).
-
Modelos Multivariantes 11
EVALUACIN DEL AJUSTE
Un primer indicador es el valor de 2LL, que vendra a ser como la parte no explicada por el modelo. Excesivamente rudimentario: no est acotado. Cuanto
ms prximo a cero mejor ser el ajuste.
SPSS facilita tambin un contraste 2 para saber si la capacidad explicativa del modelo puede considerarse o no estadsticamente significativa.
Tambin disponemos de un % de sujetos correctamente clasificados (debemos de ganarle al menos al azar: al menos 62.5%).
Tambin tenemos dos R2:
R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea
perfecto)
R2 de Nagelkerke (versin corregida del anterior)
-
Modelos Multivariantes 12
INTERPRETACIN
Qu VI son buenos predictores?
En la Regresin Lineal se recurra a un contraste t para saber si cada uno de los predictores eran o no significativamente distintos de cero. En la RL se
recurre al Estadstico de Wald.
Un coeficiente positivo implica un aumento en la probabilidad de
ocurrencia del evento y negativo una disminucin. Adems Un
negativo se corresponde con un ODD RATIO menor de 1 (una
desventaja). El SPSS le llama Exp(b)
Justamente el valor de Exp(b) indica cunto mejor o peor es el
pronstico en funcin de los valores que asume la VI. La VENTAJA o
desventaja de una poseer una determinada caracterstica, condicin o
factor.
Nos permite identificar: FACTORES DE RIESGO y FACTORES DE
PROTECCIN
-
Modelos Multivariantes 13
PARALELISMOS CON LA RLM
Contrastes globales: F Anova
2
Contrastes particulares t Student
Wald
Mtodo de estimacin Mnimos cuadrados
Mxima verosimilitud
-
Modelos Multivariantes 14
EJEMPLO
70 pacientes vctimas de accidentes de trfico y con dao cerebral (TCE)
Se desea saber si variables como el Tipo de Lesin, la Atencin, el Apoyo Familiar, o laEdad del sujeto influyen en la rehabilitacin del paciente
VD dicotmica: REHABILITACIN
0 (NO SE REHABILITA)
1 (SE REHABILITA)
3 Variables explicativas cualitativas (dicotmicas)
APOYO:
0 (SIN APOYO FAMILIAR)
1 (CON APOYO FAMILIAR)
LESIN:
0 (DIFUSA)
1 (FOCALIZADA)
ATENCIN
0 (NO INMEDIATA)
1 (INMEDIATA)
1 Variable explicativa cuantitativa: EDAD
-
Modelos Multivariantes 15
Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de
una tabla de contingencia podemos calcular 4 probabilidades:
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite (ODD para la rehabilitacin)
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite, si es que se trata de una lesin focalizada (ODD para la
rehabilitacin con lesin focalizada)
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite, si es que se trata de una lesin difusa (ODD para la rehabilitacin
con lesin difusa)
El cociente entre las dos ODD, la obtenida para una lesin focalizada y la
obtenida para una lesin difusa (ODD RATIO).
EJEMPLO
-
Modelos Multivariantes 16
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de
que no se rehabilite (ODD para la rehabilitacin). P/1-P
43/27=1.59, o lo que es lo mismo 43/70
27/70
Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados
Tabla de contingencia REHABILITACAIN * LESIN
19 8 27
57,6% 21,6% 38,6%
14 29 43
42,4% 78,4% 61,4%
33 37 70
100,0% 100,0% 100,0%
Recuento
% de LESIN
Recuento
% de LESIN
Recuento
% de LESIN
NO SE REHABILITA
SE REHABILITA
REHABILITACAIN
Total
DIFUSA FOCALIZADA
LESIN
Total
EJEMPLO
-
Modelos Multivariantes 17
La probabilidad de que el sujeto se rehabilite frente a la probabilidad
de que no se rehabilite, si es que se trata de una lesin FOCALIZADA
(ODD para la rehabilitacin con lesin focalizada) 29/8= 3.62
PRIMER DATO: como la ODD focalizada es mayor que la ODD global
(ese nivel de la variable hace que aumente la probabilidad de
rehabilitacin), se tratara de un FACTOR DE PROTECCIN
Tabla de contingencia REHABILITACAIN * LESIN
19 8 27
57,6% 21,6% 38,6%
14 29 43
42,4% 78,4% 61,4%
33 37 70
100,0% 100,0% 100,0%
Recuento
% de LESIN
Recuento
% de LESIN
Recuento
% de LESIN
NO SE REHABILITA
SE REHABILITA
REHABILITACAIN
Total
DIFUSA FOCALIZADA
LESIN
Total
EJEMPLO
-
Modelos Multivariantes 18
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que
no se rehabilite, si es que se trata de una lesin difusa (ODD para la
rehabilitacin con lesin DIFUSA) 14/19= 0.73
SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la
variable hace que disminuya la probabilidad de rehabilitacin y, por tanto, se
tratara de un FACTOR DE RIESGO
Tabla de contingencia REHABILITACAIN * LESIN
19 8 27
57,6% 21,6% 38,6%
14 29 43
42,4% 78,4% 61,4%
33 37 70
100,0% 100,0% 100,0%
Recuento
% de LESIN
Recuento
% de LESIN
Recuento
% de LESIN
NO SE REHABILITA
SE REHABILITA
REHABILITACAIN
Total
DIFUSA FOCALIZADA
LESIN
Total
EJEMPLO
-
Modelos Multivariantes 19
Variables en la ecuacin
1,593 ,532 8,952 1 ,003 4,920
-,305 ,352 ,752 1 ,386 ,737
LESIN
Constante
Paso
1a
B E.T. Wald gl Sig. Exp(B)
Variable(s) introduc ida(s) en el paso 1: LESIN.a.
El cociente entre las ODDs obtenidas con LESIN FOCALIZADA Vs. DIFUSA
es 3.62/0.73=4.92; esto es,
La ODD RATIO par la variable tipo de lesin sera 4.92. La proporcin de
rehabilitados es CASI 5 VECES MAYOR en el caso de una lesin focalizada
que de una difusa.
ODD
RATIO
TERCER DATO: si para una determinada caracterstica la ODD RATIO>1, poseer dicha
caracterstica supondra una ventaja de cara a la probabilidad de ocurrencia de un
evento, en este caso rehabilitarse. Si fuese similar a 1, se tratara de una variable
irrelevante en trminos de pronstico.
EJEMPLO
-
Modelos Multivariantes 20
Veamos el modelo completo
Variables en la ecuacin
-,152 ,040 14,808 1 ,000 ,859
4,697 1,130 17,272 1 ,000 109,623
1,770 ,665 7,086 1 ,008 5,872
-,154 ,041 13,736 1 ,000 ,858
3,950 1,177 11,258 1 ,001 51,915
EDAD
Constante
Paso
1a
LESIN
EDAD
Constante
Paso
2b
B E.T. Wald gl Sig. Exp(B)
Variable(s) introduc ida(s) en el paso 1: EDAD.a.
Variable(s) introduc ida(s) en el paso 2: LESIN.b.
-
Modelos Multivariantes 21
Si sustituimos los parmetros
)(77.1)(15.095.3)]1(ln[ LesinEdadYodd
Para el Sujeto n 1 (de 19 aos y con lesin difusa) el logaritmo de la ODD de
rehabilitarse sera:
Variables en la ecuacin
-,152 ,040 14,808 1 ,000 ,859
4,697 1,130 17,272 1 ,000 109,623
1,770 ,665 7,086 1 ,008 5,872
-,154 ,041 13,736 1 ,000 ,858
3,950 1,177 11,258 1 ,001 51,915
EDAD
Constante
Paso
1a
LESIN
EDAD
Constante
Paso
2b
B E.T. Wald gl Sig. Exp(B)
Variable(s) introduc ida(s) en el paso 1: EDAD.a.
Variable(s) introduc ida(s) en el paso 2: LESIN.b.
1.1)0(77.1)19(15.095.3)]1(ln[ Yodd
-
Modelos Multivariantes 22
INTERPRETACIN DEL LOGIT
Para pasar de un LOGIT (que es un logaritmo) a una razn de
probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a
la INVERSA DEL LOGARITMO, en este caso:
Inv Log (1.1) =3
INTERPRETACIN: para un sujeto con estas caractersticas la
probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse.
Pero, cul es concretamente la probabilidad que tiene de rehabilitarse?.
Habra que despejar la ecuacin:
31
P
PODD
PPP 33)1(3
75.04
3P
-
Modelos Multivariantes 23
Y si es una lesin FOCALIZADA?
Repitamos el clculo ahora para el caso de una lesin FOCALIZADA. El resto de
las condiciones son iguales:
Inv Log (2.87) =17.6
INTERPRETACIN: En el caso de UNA LESIN FOCALIZADA por cada paciente
no rehabilitado tendramos 17 rehabilitados. En el caso de LESIN DIFUSA por
cada paciente no rehabilitado tenemos 3 rehabilitados.
Los ingleses apostaran: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada
17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO
87.2)1(77.1)19(15.095.3)]1(ln[ Yodd
-
Modelos Multivariantes 24
Variables en la ecuacin
-,152 ,040 14,808 1 ,000 ,859
4,697 1,130 17,272 1 ,000 109,623
1,770 ,665 7,086 1 ,008 5,872
-,154 ,041 13,736 1 ,000 ,858
3,950 1,177 11,258 1 ,001 51,915
EDAD
Constante
Paso
1a
LESIN
EDAD
Constante
Paso
2b
B E.T. Wald gl Sig. Exp(B)
Variable(s) introduc ida(s) en el paso 1: EDAD.a.
Variable(s) introduc ida(s) en el paso 2: LESIN.b.
INTERPRETACIN DEL EXP(B)
Si dividimos la ODD para focalizada entre la ODD para difusa,
obtendremos la ventaja (o desventaja) de tener una lesin focalizada
a la hora de hacer un pronstico de rehabilitacin. Veamos:
ODD (focalizada) = 17.6 ODD (difusa) = 3
17.6 / 3= 5.87
que es exactamente el valor de EXP(B)