ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...

24
ANÁLISIS DE REGRESIÓN LOGÍSTICA TEMA IV

Transcript of ANÁLISIS DE REGRESIÓN LOGÍSTICA - usc.es · Modelos Multivariantes 3 INTRODUCCIÓN Predecir la...

  • ANLISIS DE

    REGRESIN LOGSTICA

    TEMA IV

  • Modelos Multivariantes 2

    Regresin Logstica. En Rial, A. y Varela, J. (2008). Estadstica

    Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 223-246.

    LECTURA OBLIGATORIA

  • Modelos Multivariantes 3

    INTRODUCCIN

    Predecir la probabilidad de que un evento ocurra Gran utilidad en medicina y Ps. Clnica: identificar factores de riesgo y factores de proteccin, estimar cunto aumenta la probabilidad de sufrir una patologa si se dan una serie de caracterstica o condiciones,

    Logstica Binaria y Logstica Multinomial

    Por qu recurrir a la RL? Posibilidad de incorporar VI categricas

  • Modelos Multivariantes 4

    EJEMPLOS

    ESTIMAR LA PROBABILIDAD DE QUE UN INDIVIDUO SUFRA UN INFARTO A

    PARTIR DE:

    Nivel de colesterol

    Edad

    Presin arterial

    Sexo

    Antecedentes familiares

    ESTIMAR LA PROBABILIDAD DE QUE UN DETERMINADO SUJETO SUFRA

    ESQUIZOFRENIA, EN FUNCIN DE UNA SERIE DE VIs

    PREDECIR EL XITO O FRACASO DE UNA TERAPIA

    CONOCER LAS VARIABLES QUE EXPLICAN LA ABSTENCIN ELECTORAL,

    el absentismo laboral, el burnout, etc.

  • Modelos Multivariantes 5

    FILOSOFA

    Qu hace la RL?

    A partir de las puntuaciones de los sujetos en diferentes VIs, se

    estiman probabilidades para poder hacer pronsticos.

    Se estima la probabilidad (P) de que la VD presente uno de los dos

    valores posibles ( 0= No se rehabilita; 1= Se rehabilita) en funcin

    de cmo se comporta en determinadas VI.

    Si la probabilidad estimada es menor de 0.5 la prediccin ser No

    se rehabilita.

  • Modelos Multivariantes 6

    Se compara la probabilidad de ocurrencia de un evento con la probabilidad de

    que no ocurra. Al cociente entre ambos se le denomina ODD.

    Se trata de identificar aquellas variables que implican cambios en ese ratio de

    probabilidad, aumentndolo o disminuyndolo de forma significativa.

    La ODD RATIO sera la razn o cociente entre dos ODDs. Permite comparar el pronstico realizado bajo dos situaciones o condiciones distintas (Ej: La

    proporcin de xito/fracaso escolar es 5 veces menor en familias

    desectructuradas que en familias estructuradas).

    Lo que la regresin logstica pretende es identificar aquellas VI que hacen variar

    esa ODD.

    TRMINOS QUE DEBES DOMINAR

    )1(1

    )1(

    YP

    YP

  • Modelos Multivariantes 7

    Lo que se estima en la Regresin Logstica para cada sujeto no es un valor de

    Y, sino un LOGIT, es decir, el logaritmo de la probabilidad de que le ocurra un evento, frente a la probabilidad de que no le ocurra.

    Se puede definir tambin como el Logaritmo de la ODD de cada sujeto, esto

    es:

    El LOGIT es, precisamente, la VD en la Regresin Logstica.

    )1(1

    )1(

    YP

    YPLn

    TRMINOS QUE DEBES DOMINAR

  • Modelos Multivariantes 8

    EL MODELO

    Dado que debemos llegar a un cociente de Probabilidades, el modelo

    debe asumir una expresin matemtica particular, concretamente

    logartmica:

    La regresin logstica utiliza una Funcin de Enlace Logartmica, para pasar de los

    valores cualesquiera en las VI a predicciones en trminos de un cociente

    probabilidades y, de ah a una Probabilidad (entre 0 y 1) y , finalmente a un pronstico

    concreto.

    El modelo de regresin logstica asume que existe una relacin lineal entre los

    predictores y el logaritmo de la probabilidad de ocurrencia de un evento, frente a la no

    ocurrencia de dicho evento (LOGIT).

    nnXXXYP

    YPLn

    ...

    )1(1

    )1(2211

  • Modelos Multivariantes 9

    SUPUESTOS

    Menos exigente que el A.D. No es necesario que las VI sean mtricas, normales, y ni siquiera cuantitativas.

    1. El modelo debe estar especificado correctamente, con

    las VI relevantes

    2. La relacin entre cada VI y el Logaritmo de las ODD debe

    ser lineal

    3. Que no exista multicolinealidad

  • Modelos Multivariantes 10

    ESTIMACIN DEL MODELO

    Cmo se estima el modelo en la RL? En la Regresin Lineal se haca siguiendo el criterio de Mnimos

    Cuadrados, mientras que en la RL se hace siguiendo el de Mxima

    Verosimilitud.

    Se generan Coeficientes Logsticos para las distintas VI.

    Dichos coeficientes de la ecuacin (1, 2, 3,...) se utilizan para hacer las

    estimaciones de probabilidad de que ocurra el evento objeto de estudio.

    Al igual que en la Regresin Lineal disonemos del mtodo

    directo (ENTER) y el de Pasos (STEPWISE: Adelante Wald).

  • Modelos Multivariantes 11

    EVALUACIN DEL AJUSTE

    Un primer indicador es el valor de 2LL, que vendra a ser como la parte no explicada por el modelo. Excesivamente rudimentario: no est acotado. Cuanto

    ms prximo a cero mejor ser el ajuste.

    SPSS facilita tambin un contraste 2 para saber si la capacidad explicativa del modelo puede considerarse o no estadsticamente significativa.

    Tambin disponemos de un % de sujetos correctamente clasificados (debemos de ganarle al menos al azar: al menos 62.5%).

    Tambin tenemos dos R2:

    R2 de Cox y Snell (de 0 a 1, pero no suele alcanzar el 1 aunque el modelo sea

    perfecto)

    R2 de Nagelkerke (versin corregida del anterior)

  • Modelos Multivariantes 12

    INTERPRETACIN

    Qu VI son buenos predictores?

    En la Regresin Lineal se recurra a un contraste t para saber si cada uno de los predictores eran o no significativamente distintos de cero. En la RL se

    recurre al Estadstico de Wald.

    Un coeficiente positivo implica un aumento en la probabilidad de

    ocurrencia del evento y negativo una disminucin. Adems Un

    negativo se corresponde con un ODD RATIO menor de 1 (una

    desventaja). El SPSS le llama Exp(b)

    Justamente el valor de Exp(b) indica cunto mejor o peor es el

    pronstico en funcin de los valores que asume la VI. La VENTAJA o

    desventaja de una poseer una determinada caracterstica, condicin o

    factor.

    Nos permite identificar: FACTORES DE RIESGO y FACTORES DE

    PROTECCIN

  • Modelos Multivariantes 13

    PARALELISMOS CON LA RLM

    Contrastes globales: F Anova

    2

    Contrastes particulares t Student

    Wald

    Mtodo de estimacin Mnimos cuadrados

    Mxima verosimilitud

  • Modelos Multivariantes 14

    EJEMPLO

    70 pacientes vctimas de accidentes de trfico y con dao cerebral (TCE)

    Se desea saber si variables como el Tipo de Lesin, la Atencin, el Apoyo Familiar, o laEdad del sujeto influyen en la rehabilitacin del paciente

    VD dicotmica: REHABILITACIN

    0 (NO SE REHABILITA)

    1 (SE REHABILITA)

    3 Variables explicativas cualitativas (dicotmicas)

    APOYO:

    0 (SIN APOYO FAMILIAR)

    1 (CON APOYO FAMILIAR)

    LESIN:

    0 (DIFUSA)

    1 (FOCALIZADA)

    ATENCIN

    0 (NO INMEDIATA)

    1 (INMEDIATA)

    1 Variable explicativa cuantitativa: EDAD

  • Modelos Multivariantes 15

    Sea 0= No se rehabilita y 1= Se rehabilita. A partir de los datos de

    una tabla de contingencia podemos calcular 4 probabilidades:

    La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

    se rehabilite (ODD para la rehabilitacin)

    La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

    se rehabilite, si es que se trata de una lesin focalizada (ODD para la

    rehabilitacin con lesin focalizada)

    La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que no

    se rehabilite, si es que se trata de una lesin difusa (ODD para la rehabilitacin

    con lesin difusa)

    El cociente entre las dos ODD, la obtenida para una lesin focalizada y la

    obtenida para una lesin difusa (ODD RATIO).

    EJEMPLO

  • Modelos Multivariantes 16

    La probabilidad de que el sujeto se rehabilite frente a la probabilidad de

    que no se rehabilite (ODD para la rehabilitacin). P/1-P

    43/27=1.59, o lo que es lo mismo 43/70

    27/70

    Es decir, por cada individuo no rehabilitado encontramos 1.59 rehabilitados

    Tabla de contingencia REHABILITACAIN * LESIN

    19 8 27

    57,6% 21,6% 38,6%

    14 29 43

    42,4% 78,4% 61,4%

    33 37 70

    100,0% 100,0% 100,0%

    Recuento

    % de LESIN

    Recuento

    % de LESIN

    Recuento

    % de LESIN

    NO SE REHABILITA

    SE REHABILITA

    REHABILITACAIN

    Total

    DIFUSA FOCALIZADA

    LESIN

    Total

    EJEMPLO

  • Modelos Multivariantes 17

    La probabilidad de que el sujeto se rehabilite frente a la probabilidad

    de que no se rehabilite, si es que se trata de una lesin FOCALIZADA

    (ODD para la rehabilitacin con lesin focalizada) 29/8= 3.62

    PRIMER DATO: como la ODD focalizada es mayor que la ODD global

    (ese nivel de la variable hace que aumente la probabilidad de

    rehabilitacin), se tratara de un FACTOR DE PROTECCIN

    Tabla de contingencia REHABILITACAIN * LESIN

    19 8 27

    57,6% 21,6% 38,6%

    14 29 43

    42,4% 78,4% 61,4%

    33 37 70

    100,0% 100,0% 100,0%

    Recuento

    % de LESIN

    Recuento

    % de LESIN

    Recuento

    % de LESIN

    NO SE REHABILITA

    SE REHABILITA

    REHABILITACAIN

    Total

    DIFUSA FOCALIZADA

    LESIN

    Total

    EJEMPLO

  • Modelos Multivariantes 18

    La probabilidad de que el sujeto se rehabilite frente a la probabilidad de que

    no se rehabilite, si es que se trata de una lesin difusa (ODD para la

    rehabilitacin con lesin DIFUSA) 14/19= 0.73

    SEGUNDO DATO: si la ODD difusa es menor que la global, ese nivel de la

    variable hace que disminuya la probabilidad de rehabilitacin y, por tanto, se

    tratara de un FACTOR DE RIESGO

    Tabla de contingencia REHABILITACAIN * LESIN

    19 8 27

    57,6% 21,6% 38,6%

    14 29 43

    42,4% 78,4% 61,4%

    33 37 70

    100,0% 100,0% 100,0%

    Recuento

    % de LESIN

    Recuento

    % de LESIN

    Recuento

    % de LESIN

    NO SE REHABILITA

    SE REHABILITA

    REHABILITACAIN

    Total

    DIFUSA FOCALIZADA

    LESIN

    Total

    EJEMPLO

  • Modelos Multivariantes 19

    Variables en la ecuacin

    1,593 ,532 8,952 1 ,003 4,920

    -,305 ,352 ,752 1 ,386 ,737

    LESIN

    Constante

    Paso

    1a

    B E.T. Wald gl Sig. Exp(B)

    Variable(s) introduc ida(s) en el paso 1: LESIN.a.

    El cociente entre las ODDs obtenidas con LESIN FOCALIZADA Vs. DIFUSA

    es 3.62/0.73=4.92; esto es,

    La ODD RATIO par la variable tipo de lesin sera 4.92. La proporcin de

    rehabilitados es CASI 5 VECES MAYOR en el caso de una lesin focalizada

    que de una difusa.

    ODD

    RATIO

    TERCER DATO: si para una determinada caracterstica la ODD RATIO>1, poseer dicha

    caracterstica supondra una ventaja de cara a la probabilidad de ocurrencia de un

    evento, en este caso rehabilitarse. Si fuese similar a 1, se tratara de una variable

    irrelevante en trminos de pronstico.

    EJEMPLO

  • Modelos Multivariantes 20

    Veamos el modelo completo

    Variables en la ecuacin

    -,152 ,040 14,808 1 ,000 ,859

    4,697 1,130 17,272 1 ,000 109,623

    1,770 ,665 7,086 1 ,008 5,872

    -,154 ,041 13,736 1 ,000 ,858

    3,950 1,177 11,258 1 ,001 51,915

    EDAD

    Constante

    Paso

    1a

    LESIN

    EDAD

    Constante

    Paso

    2b

    B E.T. Wald gl Sig. Exp(B)

    Variable(s) introduc ida(s) en el paso 1: EDAD.a.

    Variable(s) introduc ida(s) en el paso 2: LESIN.b.

  • Modelos Multivariantes 21

    Si sustituimos los parmetros

    )(77.1)(15.095.3)]1(ln[ LesinEdadYodd

    Para el Sujeto n 1 (de 19 aos y con lesin difusa) el logaritmo de la ODD de

    rehabilitarse sera:

    Variables en la ecuacin

    -,152 ,040 14,808 1 ,000 ,859

    4,697 1,130 17,272 1 ,000 109,623

    1,770 ,665 7,086 1 ,008 5,872

    -,154 ,041 13,736 1 ,000 ,858

    3,950 1,177 11,258 1 ,001 51,915

    EDAD

    Constante

    Paso

    1a

    LESIN

    EDAD

    Constante

    Paso

    2b

    B E.T. Wald gl Sig. Exp(B)

    Variable(s) introduc ida(s) en el paso 1: EDAD.a.

    Variable(s) introduc ida(s) en el paso 2: LESIN.b.

    1.1)0(77.1)19(15.095.3)]1(ln[ Yodd

  • Modelos Multivariantes 22

    INTERPRETACIN DEL LOGIT

    Para pasar de un LOGIT (que es un logaritmo) a una razn de

    probabilidades (la ODD entre rehabilitarse y no rehabilitarse), se recurre a

    la INVERSA DEL LOGARITMO, en este caso:

    Inv Log (1.1) =3

    INTERPRETACIN: para un sujeto con estas caractersticas la

    probabilidad de rehabilitarse es 3 veces mayor que de no rehabilitarse.

    Pero, cul es concretamente la probabilidad que tiene de rehabilitarse?.

    Habra que despejar la ecuacin:

    31

    P

    PODD

    PPP 33)1(3

    75.04

    3P

  • Modelos Multivariantes 23

    Y si es una lesin FOCALIZADA?

    Repitamos el clculo ahora para el caso de una lesin FOCALIZADA. El resto de

    las condiciones son iguales:

    Inv Log (2.87) =17.6

    INTERPRETACIN: En el caso de UNA LESIN FOCALIZADA por cada paciente

    no rehabilitado tendramos 17 rehabilitados. En el caso de LESIN DIFUSA por

    cada paciente no rehabilitado tenemos 3 rehabilitados.

    Los ingleses apostaran: Si es difusa, 3 a 1 a que se rehabilita; si es focalizada

    17 a 1. Existe una manera de cuantificar esa ventaja: la ODD RATIO

    87.2)1(77.1)19(15.095.3)]1(ln[ Yodd

  • Modelos Multivariantes 24

    Variables en la ecuacin

    -,152 ,040 14,808 1 ,000 ,859

    4,697 1,130 17,272 1 ,000 109,623

    1,770 ,665 7,086 1 ,008 5,872

    -,154 ,041 13,736 1 ,000 ,858

    3,950 1,177 11,258 1 ,001 51,915

    EDAD

    Constante

    Paso

    1a

    LESIN

    EDAD

    Constante

    Paso

    2b

    B E.T. Wald gl Sig. Exp(B)

    Variable(s) introduc ida(s) en el paso 1: EDAD.a.

    Variable(s) introduc ida(s) en el paso 2: LESIN.b.

    INTERPRETACIN DEL EXP(B)

    Si dividimos la ODD para focalizada entre la ODD para difusa,

    obtendremos la ventaja (o desventaja) de tener una lesin focalizada

    a la hora de hacer un pronstico de rehabilitacin. Veamos:

    ODD (focalizada) = 17.6 ODD (difusa) = 3

    17.6 / 3= 5.87

    que es exactamente el valor de EXP(B)