ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · SE REHABILITA REHABILITACAIÓN Total DIFUSA...
Transcript of ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · SE REHABILITA REHABILITACAIÓN Total DIFUSA...
ANÁLISIS DE
REGRESIÓN LOGÍSTICA
TEMA V
Modelos Multivariantes 2
Regresión Logística. En Rial, A. y Varela, J. (2008). Estadística
Práctica para la Investigación en Ciencias de la Salud. Coruña: Netbiblo. Páginas 223-246.
LECTURA OBLIGATORIA
Modelos Multivariantes 3
INTRODUCCIÓN
Predecir la probabilidad de que un evento ocurra Gran utilidad en medicina y Ps. Clínica: identificar factores de riesgo y factores de protección, estimar cuánto aumenta la probabilidad de sufrir una patología si se dan una serie de característica o condiciones, …
Logística Binaria y Logística Multinomial
¿Por qué recurrir a la RL? Posibilidad de incorporar VI categóricas
Modelos Multivariantes 4
EJEMPLOS
ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A
PARTIR DE:
Nivel de colesterol
Edad
Presión arterial
Sexo
Antecedentes familiares
ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA
ESQUIZOFRENIA, EN FUNCIÓN DE UNA SERIE DE VIs
PREDECIR EL ÉXITO O FRACASO DE UNA TERAPIA
CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIÓN ELECTORAL,
el absentismo laboral, el burnout, etc.
Modelos Multivariantes 5
FILOSOFÍA
¿Qué hace la RL?
A partir de las puntuaciones de los sujetos en diferentes VIs, se
estiman probabilidades para poder hacer pronósticos.
Se estima la probabilidad (P) de que la VD presente uno de los dos
valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en función
de cómo se comporta en determinadas VI.
Si la probabilidad estimada es menor de 0.5 la predicción será “No
se rehabilita”.
Modelos Multivariantes 6
Se compara la probabilidad de ocurrencia de un evento con la probabilidad de
que no ocurra. Al cociente entre ambos se le denomina ODD.
Se trata de identificar aquellas variables que implican cambios en ese ratio de
probabilidad, aumentándolo o disminuyéndolo de forma significativa.
La ODD RATIO sería la razón o cociente entre dos ODDs. Permite comparar
el pronóstico realizado bajo dos situaciones o condiciones distintas (Ej: La
proporción de éxito/fracaso escolar es 5 veces menor en familias
desectructuradas que en familias estructuradas).
Lo que la regresión logística pretende es identificar aquellas VI que hacen variar
esa ODD.
TÉRMINOS QUE DEBES DOMINAR
)1(1
)1(
YP
YP
Modelos Multivariantes 7
Lo que se estima en la Regresión Logística para cada sujeto no es un valor de
Y’, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra
un evento, frente a la probabilidad de que no le ocurra.
Se puede definir también como el Logaritmo de la ODD de cada sujeto, esto
es:
El LOGIT es, precisamente, la VD en la Regresión Logística.
)1(1
)1(
YP
YPLn
TÉRMINOS QUE DEBES DOMINAR
Modelos Multivariantes 8
EL MODELO
Dado que debemos llegar a un cociente de Probabilidades, el modelo
debe asumir una expresión matemática particular, concretamente
logarítmica:
La regresión logística utiliza una Función de Enlace Logarítmica, para pasar de los
valores cualesquiera en las VI a predicciones en términos de un cociente
probabilidades y, de ahí a una Probabilidad (entre 0 y 1) y , finalmente a un pronóstico
concreto.
El modelo de regresión logística asume que existe una relación lineal entre los
predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no
ocurrencia de dicho evento (LOGIT).
nn XXXYP
YPLn ...
)1(1
)1(2211
Modelos Multivariantes 9
SUPUESTOS
Menos exigente que el A.D. No es necesario que las VI
sean métricas, normales, y ni siquiera cuantitativas.
1. El modelo debe estar especificado correctamente, con
las VI relevantes
2. La relación entre cada VI y el Logaritmo de las ODD debe
ser lineal
3. Que no exista multicolinealidad
Modelos Multivariantes 10
ESTIMACIÓN DEL MODELO
¿Cómo se estima el modelo en la RL? En la Regresión Lineal se hacía siguiendo el criterio de Mínimos
Cuadrados, mientras que en la RL se hace siguiendo el de Máxima
Verosimilitud.
Se generan Coeficientes Logísticos para las distintas VI.
Dichos coeficientes de la ecuación ( 1, 2, 3,...) se utilizan para hacer las
estimaciones de probabilidad de que ocurra el evento objeto de estudio.
Al igual que en la Regresión Lineal disonemos del método
directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).
Modelos Multivariantes 11
EVALUACIÓN DEL AJUSTE
Un primer indicador es el valor de –2LL, que vendría a ser como la parte no
explicada por el modelo. Excesivamente rudimentario: no está acotado. Cuanto
más próximo a cero mejor será el ajuste.
SPSS facilita también un contraste 2 para saber si la capacidad explicativa
del modelo puede considerarse o no estadísticamente significativa.
También disponemos de un % de sujetos correctamente clasificados
(debemos de ganarle al menos ¼ al azar: al menos 62.5%).
También tenemos dos R2:
– R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea
perfecto)
– R2 de Nagelkerke (versión corregida del anterior)
Modelos Multivariantes 12
INTERPRETACIÓN
¿Qué VI son buenos predictores?
En la Regresión Lineal se recurría a un contraste “t” para saber si cada uno
de los predictores eran o no significativamente distintos de cero. En la RL se
recurre al Estadístico de Wald.
Un coeficiente “ ” positivo implica un aumento en la probabilidad de
ocurrencia del evento y negativo una disminución. Además Un “ ”
negativo se corresponde con un ODD RATIO menor de 1 (una
“desventaja”). El SPSS le llama Exp(b)
Justamente el valor de Exp(b) indica cuánto mejor o peor es el
pronóstico en función de los valores que asume la VI. La VENTAJA o
desventaja de una poseer una determinada característica, condición o
factor.
Nos permite identificar: FACTORES DE RIESGO y FACTORES DE
PROTECCIÓN
Modelos Multivariantes 13
PARALELISMOS CON LA RLM
Contrastes globales: “F” Anova
2
Contrastes particulares “t” Student
Wald
Método de estimación Mínimos cuadrados
Máxima verosimilitud
Modelos Multivariantes 14
EJEMPLO
70 pacientes víctimas de accidentes de tráfico y con daño cerebral (TCE)
Se desea saber si variables como el Tipo de Lesión, la Atención, el Apoyo Familiar, o laEdad del sujeto influyen en la rehabilitación del paciente
VD dicotómica: REHABILITACIÓN
0 (NO SE REHABILITA)
1 (SE REHABILITA)
• 3 Variables explicativas cualitativas (dicotómicas)
APOYO:
0 (SIN APOYO FAMILIAR)
1 (CON APOYO FAMILIAR)
LESIÓN:
0 (DIFUSA)
1 (FOCALIZADA)
ATENCIÓN
0 (NO INMEDIATA)
1 (INMEDIATA)
• 1 Variable explicativa cuantitativa: EDAD
Modelos Multivariantes 15
Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de
una tabla de contingencia podemos calcular 4 probabilidades:
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite (ODD para la rehabilitación)
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite, si es que se trata de una lesión focalizada (ODD para la
rehabilitación con lesión focalizada)
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no
se rehabilite, si es que se trata de una lesión difusa (ODD para la rehabilitación
con lesión difusa)
El cociente entre las dos ODD, la obtenida para una lesión focalizada y la
obtenida para una lesión difusa (ODD RATIO).
EJEMPLO
Modelos Multivariantes 16
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de
que no se rehabilite (ODD para la rehabilitación). P/1-P
43/27=1.59, o lo que es lo mismo 43/70
27/70
Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados
Tabla de contingencia REHABILITACAIÓN * LESIÓN
19 8 27
57,6% 21,6% 38,6%
14 29 43
42,4% 78,4% 61,4%
33 37 70
100,0% 100,0% 100,0%
Recuento
% de LESIÓN
Recuento
% de LESIÓN
Recuento
% de LESIÓN
NO SE REHABILITA
SE REHABILITA
REHABILITACAIÓN
Total
DIFUSA FOCALIZADA
LESIÓN
Total
EJEMPLO
Modelos Multivariantes 17
La probabilidad de que el sujeto se rehabilite frente a la probabilidad
de que no se rehabilite, si es que se trata de una lesión FOCALIZADA
(ODD para la rehabilitación con lesión focalizada) 29/8= 3.62
PRIMER DATO: como la ODD focalizada es mayor que la ODD global
(ese nivel de la variable hace que aumente la probabilidad de
rehabilitación), se trataría de un FACTOR DE PROTECCIÓN
Tabla de contingencia REHABILITACAIÓN * LESIÓN
19 8 27
57,6% 21,6% 38,6%
14 29 43
42,4% 78,4% 61,4%
33 37 70
100,0% 100,0% 100,0%
Recuento
% de LESIÓN
Recuento
% de LESIÓN
Recuento
% de LESIÓN
NO SE REHABILITA
SE REHABILITA
REHABILITACAIÓN
Total
DIFUSA FOCALIZADA
LESIÓN
Total
EJEMPLO
Modelos Multivariantes 18
La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que
no se rehabilite, si es que se trata de una lesión difusa (ODD para la
rehabilitación con lesión DIFUSA) 14/19= 0.73
SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la
variable hace que disminuya la probabilidad de rehabilitación y, por tanto, se
trataría de un FACTOR DE RIESGO
Tabla de contingencia REHABILITACAIÓN * LESIÓN
19 8 27
57,6% 21,6% 38,6%
14 29 43
42,4% 78,4% 61,4%
33 37 70
100,0% 100,0% 100,0%
Recuento
% de LESIÓN
Recuento
% de LESIÓN
Recuento
% de LESIÓN
NO SE REHABILITA
SE REHABILITA
REHABILITACAIÓN
Total
DIFUSA FOCALIZADA
LESIÓN
Total
EJEMPLO
Modelos Multivariantes 19
Variables en la ecuación
1,593 ,532 8,952 1 ,003 4,920
-,305 ,352 ,752 1 ,386 ,737
LESIÓN
Constante
Paso
1a
B E.T. Wald gl Sig. Exp(B)
Variable(s) introducida(s) en el paso 1: LESIÓN.a.
El cociente entre las ODDs obtenidas con LESIÓN FOCALIZADA Vs. DIFUSA
es 3.62/0.73=4.92; esto es,
La ODD RATIO par la variable tipo de lesión sería 4.92. La proporción de
rehabilitados es CASI 5 VECES MAYOR en el caso de una lesión focalizada
que de una difusa.
ODD
RATIO
TERCER DATO: si para una determinada característica la ODD RATIO>1, poseer dicha
característica supondría una ventaja de cara a la probabilidad de ocurrencia de un
evento, en este caso rehabilitarse. Si fuese similar a 1, se trataría de una variable
irrelevante en términos de pronóstico.
EJEMPLO
Modelos Multivariantes 20
Veamos el modelo completo
Variables en la ecuación
-,152 ,040 14,808 1 ,000 ,859
4,697 1,130 17,272 1 ,000 109,623
1,770 ,665 7,086 1 ,008 5,872
-,154 ,041 13,736 1 ,000 ,858
3,950 1,177 11,258 1 ,001 51,915
EDAD
Constante
Paso
1a
LESIÓN
EDAD
Constante
Paso
2b
B E.T. Wald gl Sig. Exp(B)
Variable(s) introducida(s) en el paso 1: EDAD.a.
Variable(s) introducida(s) en el paso 2: LESIÓN.b.
Modelos Multivariantes 21
Si sustituimos los parámetros
)(77.1)(15.095.3)]1(ln[ LesiónEdadYodd
Para el Sujeto nº 1 (de 19 años y con lesión difusa) el logaritmo de la ODD de
rehabilitarse sería:
Variables en la ecuación
-,152 ,040 14,808 1 ,000 ,859
4,697 1,130 17,272 1 ,000 109,623
1,770 ,665 7,086 1 ,008 5,872
-,154 ,041 13,736 1 ,000 ,858
3,950 1,177 11,258 1 ,001 51,915
EDAD
Constante
Paso
1a
LESIÓN
EDAD
Constante
Paso
2b
B E.T. Wald gl Sig. Exp(B)
Variable(s) introducida(s) en el paso 1: EDAD.a.
Variable(s) introducida(s) en el paso 2: LESIÓN.b.
1.1)0(77.1)19(15.095.3)]1(ln[ Yodd
Modelos Multivariantes 22
INTERPRETACIÓN DEL LOGIT
Para pasar de un LOGIT (que es un logaritmo) a una razón de
probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a
la INVERSA DEL LOGARITMO, en este caso:
Inv Log (1.1) =3
INTERPRETACIÓN: para un sujeto con estas características la
probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse.
Pero, ¿cuál es concretamente la probabilidad que tiene de rehabilitarse?.
Habría que despejar la ecuación:
31 P
PODD
PPP 33)1(3
75.04
3P
Modelos Multivariantes 23
¿Y si es una lesión FOCALIZADA?
Repitamos el cálculo ahora para el caso de una lesión FOCALIZADA. El resto de
las condiciones son iguales:
Inv Log (2.87) =17.6
INTERPRETACIÓN: En el caso de UNA LESIÓN FOCALIZADA por cada paciente
no rehabilitado tendríamos 17 rehabilitados. En el caso de LESIÓN DIFUSA por
cada paciente no rehabilitado tenemos 3 rehabilitados.
Los ingleses apostarían: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada
17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO
87.2)1(77.1)19(15.095.3)]1(ln[ Yodd
Modelos Multivariantes 24
Variables en la ecuación
-,152 ,040 14,808 1 ,000 ,859
4,697 1,130 17,272 1 ,000 109,623
1,770 ,665 7,086 1 ,008 5,872
-,154 ,041 13,736 1 ,000 ,858
3,950 1,177 11,258 1 ,001 51,915
EDAD
Constante
Paso
1a
LESIÓN
EDAD
Constante
Paso
2b
B E.T. Wald gl Sig. Exp(B)
Variable(s) introducida(s) en el paso 1: EDAD.a.
Variable(s) introducida(s) en el paso 2: LESIÓN.b.
INTERPRETACIÓN DEL EXP(B)
Si dividimos la ODD para focalizada entre la ODD para difusa,
obtendremos la ventaja (o desventaja) de tener una lesión focalizada
a la hora de hacer un pronóstico de rehabilitación. Veamos:
ODD (focalizada) = 17.6 ODD (difusa) = 3
17.6 / 3= 5.87
que es exactamente el valor de EXP(B)