1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y...

62
1 Modelos Lineales Modelos Lineales Generalizados Aplicados a Generalizados Aplicados a las Ciencias Biológicas las Ciencias Biológicas Modelos para Datos Binarios Modelos para Datos Binarios y Regresión Logística y Regresión Logística MLGAplicados 2009 MPDíaz

Transcript of 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y...

Page 1: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

1

Modelos Lineales Generalizados Modelos Lineales Generalizados Aplicados a las Ciencias BiológicasAplicados a las Ciencias Biológicas

Modelos para Datos BinariosModelos para Datos Binarios

y Regresión Logísticay Regresión Logística

MLGAplicados 2009 MPDíaz

Page 2: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

MLGAplicados 2009 MPDíaz 2

Modelos de Regresión Modelos de Regresión Logística Logística

(enfoque generalizado)(enfoque generalizado)

Page 3: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

3

Planificación del TemaPlanificación del Tema

• Modelos lineales generalizados para datos binarios ( distinto)

• Interpretación de parámetros (’s, ’s)

• Modelos específicos: dosis-respuesta

• Inferencia y Diagnóstico

• Regresión logistica múltiple

MLGAplicados 2009 MPDíaz

Page 4: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

4

IntroducciónIntroducción

Datos binarios patrón de datos más común dentro de Variables categóricas

Regresión Logística (MRL) modelo más usado para datos binarios

Yij con f.d.p. B(m,i) E(Yij) = i para todo i=1,2 ; j=1,...,6 y su funcioón de distribución de probab.

Naturaleza dicotómica de la respuesta.

AIymmy

mymyf )1()1()(

MLGAplicados 2009 MPDíaz

Page 5: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

5

Interpretación del MRLInterpretación del MRL

Supongamos Y v.a. (binaria), X covariable cuantitativa.

(x) prob de éxito cuando X=x

•Modelo de regresión logística (más simple)

(x) se incrementa o decrece con una función S de x.(Fig)

•Cómo lo vemos en la escala de probabilidad?

,))(1

)(log()]([ x

x

xxLogit

MLGAplicados 2009 MPDíaz

Page 6: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

6

DOSIS

PROPORCI

0.0

0.2

0.4

0.6

0.8

1.0

0 2 4 6 8 10 12

MLGAplicados 2009 MPDíaz

Page 7: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

7

Interpretación de CoeficientesInterpretación de Coeficientes

.)exp(1

)exp()(

x

xx

determina la tasa de incremento o decrecimiento de la S-curva.

•Sig() indica si la curva “asciende”o “desciende”.

•| | crece la tasa de cambio crece.

=0 relación constante en x (la prob es la misma x

Y es “indenpendiente” de X.

[1]

MLGAplicados 2009 MPDíaz

Page 8: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

8

InterpretaciónInterpretación

•La función [1] implica que la tasa de cambio en (x) varía por unidad de cambio de x (la tg a lo largo de la S-curva varía).

•Tasa de variación, tg, (x)(1-(x)),

•Ejemplo: -si (x)=0.5, la recta tg tiene pendiente (0.5)(0.5)=0.25

-si (x)=0.9, la recta tg tiene pendiente (0.9)(0.1)=0.09

La pte. 0 a medida que la prob 1 ó 0.

MLGAplicados 2009 MPDíaz

Page 9: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

9

TareaTarea

Leer el item 5.1.2 sobre aplicación en Cangrejos hembras (herradura), Ethology (1996), sobre la presencia de “satélites” (otros machos residiendo con ella) en función a diferentes factores del individuo: color, tamaño (peso), condición del espinazo y ancho del caparazón (ver fig).

Y=0 si no tiene satélite,

Y=1 si tiene al menos un satélite.

X1=ancho, continua (x) denota la prob que un cangrejo hembra de ancho x tenga satélite.

MLGAplicados 2009 MPDíaz

Page 10: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

10

TareaTarea

,092.0766.1ˆˆ)(ˆ

)(

xxx

xx

Lo más simple modelo lineal para la probabilidad como f(x)

Cuando x=33.5, la (x)=1.3!!!!

No respeta el rango posible de valores de la función

MLGAplicados 2009 MPDíaz

Page 11: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

11

Ejemplo de cangrejos…

.)497.035.12exp(1

)497.035.12exp()(ˆ

x

xx

Estimando por MV al MRL

Nota:

estimado es >0 la prob estimada crece cuando x crece

•Para un ancho mínimo, x=21.0 la prob estimada es 0.129.

•Para un ancho máximo, x=33.5 la prob estimada es 0.987. (otros…x=promedio?, con prob de ½ de tener?)MLGAplicados 2009 MPDíaz

Page 12: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

12

Ejemplo de cangrejos…• la tasa incremental de cambio en la prob ajustada, para el punto medio de tamaño del individuo (x=26.3cm) es la estimación de (x)(1-(x)), 0.11.

Hembras con tamaño aproximadamente medio la prob estimada de tener satélite se incrementa a un tasa del 0.11 por incremento del ancho, en cm.

Si modifico la probabilidad? Por ej. 0.5?

La tasa de incremento es del 0.12 y asi…

MLGAplicados 2009 MPDíaz

Page 13: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

13

Interpretación de CoeficientesInterpretación de Coeficientes

• Odds Ratio: cociente de odds de respuesta 1 (“éxito”)Concepto, Ejemplo

• Qué dice? El odds crece de manera multiplicativa en exp() a medida que crece x en una unidad

• O, el odds al nivel x+1=odds al nivel x multiplicado por exp().

xeexx

x)()exp(

)(1

)(

MLGAplicados 2009 MPDíaz

Page 14: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

14

Interpretación de CoeficientesInterpretación de Coeficientes

• Ejemplo: odds de tener satélite es 1.64=exp(0.497) por cada cm que se incrementa en ancho,

• O, existe un 64% de incremento.• Caso 1) Tamaño medio, x=26.3, con (xest)=0.674 y odds est.

0.674/0.326=2.07;

Caso 2) Tamaño x=27.3=26.3+1, con (xest)=0.773 y odds est. 0.773/0.227=3.40, que es el 64% de incremento en el odds anterior (3.40=2.07(1.64)).

El log del odds tiene una relación lineal con la covariable.

MLGAplicados 2009 MPDíaz

Page 15: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

15

Ensayos de tipoEnsayos de tipo

Dosis-RespuestaDosis-Respuesta

MLGAplicados 2009 MPDíaz

Page 16: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

16

Introducción (Introducción (su diseñosu diseño))

Un conjunto de individuos m1, m2, ..., mk se les suministra una drogra determinada, en d1, d2, ..., dk dosis diferentes, obteniéndose como respuesta, después de un cierto período de tiempo, r1, r2, ..., rk individuos que cambian de estado.

ASIGNACIÓN ALEATORIA

Naturaleza de la Respuesta:

Un individuo puede o no responder a la droga

dicotómicadicotómicasólo dos resultados complementarios

MLGAplicados 2009 MPDíaz

Page 17: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

17

IntroducciónIntroducción

Control de Plagas y EnfermedadesControl de Plagas y Enfermedades:

•estudios de efectividad de productos

Grupos de insectos se le aplica un insecticida, observando muerte (éxito) o la sobrevida (fracaso)

DosisDosis: log de la concentración del ingrediente activo

(tal que d cuando la concentración 0.

MLGAplicados 2009 MPDíaz

Page 18: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

18

IntroducciónIntroducción

Dos componentes:• la intensidad del estímulo (dosis de droga, de veneno, de

medicamento, de insecticida)• el individuo (planta, insecto, paciente, semilla, etc.)

aplicación individuo estímulo R (respuesta)

MLGAplicados 2009 MPDíaz

Page 19: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

19

IntroducciónIntroducción

Respuesta binaria: cuya ocurrencia dependerá de la intensidad del estímulo aplicado.

(para cada sujeto existe un nivel de intensidad por debajo del cual no se produce la respuesta y por encima de la cual ocurre)

Nivel de Intensidad:Nivel de Intensidad: Tolerancia

MLGAplicados 2009 MPDíaz

Page 20: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

20

IntroducciónIntroducción

Existe una Distribución de Tolerancias f(z) (gracias a la asignación aleatoria...!)

Objetivo General:

Determinar dosis específicas,

LD50, dosis letal (dosis que mata el 50% de los insectos, e.g.;

LD90, dosis para la cual sólo sobrevive el 10% de los individuos.

MLGAplicados 2009 MPDíaz

Page 21: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

21

Ejemplos clásicosEjemplos clásicos

Collett (1991). Experimento de toxicidad realizado en individuos de Heliothis virescens bajo dosis de piretroide.

Conjuntos (extraídos de manera aleatoria) de 20 individuos de cada sexo fueron expuestos durante 3 días al piretroide y cuantificado el número de muertos o con síntomas de knock.

D O S I SSEXO 1 2 4 8 16

32Macho 1 4 9 13 18 20Hembra 0 2 6 10 12 16

dosis en g log2(dosis)MLGAplicados 2009 MPDíaz

Page 22: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

22

TendenciaTendencia

Diagrama de dispersión: no insectos vs dosis del producto por sexo

Número de machos “supera” número de hembras?MLGAplicados 2009 MPDíaz

Page 23: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

23

Ejemplos clásicosEjemplos clásicos

Martin (1942). Ensayo para evaluar toxicidad de Rotenone en Macrosiphoniella sanborni (pulgón plaga).

Seis dosis del producto aplicadas a grupos de 50 individuos

(aprox.). Luego de un período de tiempo se registró el número de insectos muertos para cada dosis.

ASIGNACIÓN ALEATORIA

MLGAplicados 2009 MPDíaz

Page 24: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

24

Ejemplos clásicosEjemplos clásicos

Dosis Total Muertos Proporcion10.2 50 44 0.887.7 49 42 0.865.1 46 24 0.523.8 48 16 0.332.6 50 6 0.120 49 0 0

DOSIS

PROPORCI

0.0

0.2

0.4

0.6

0.8

1.0

0 2 4 6 8 10 12

MLGAplicados 2009 MPDíaz

Page 25: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

25

ModelaciónModelación

Collett (1991)

Yij v.a. que representa al número de insectos muertos o con síntomas de sexo i-ésimo a los que se le aplicó la dosis j-ésima de piretroide Yij con f.d.p. B(m,i) , donde la parametrización satisface que

E(Yij) = i para todo i=1,2 ; j=1,...,6

Es decir, la función de densidad de probabilidad es tal que:

.)1()1()(A

Iymmymymyf

MLGAplicados 2009 MPDíaz

Page 26: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

26

....Modelación....Modelación

Objetivo: estimar un modelo para el valor esperado

Modelo Dosis - Respuesta

ligan la parte sistemática (e.g. incluyendo efecto de dosis y sexo) del modelo con una función del valor esperado.

Las funciones? Existen varias:

•Logística

•Probit funciones

•Complemento log-log no linealesMLGAplicados 2009 MPDíaz

Page 27: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

27

....Modelación....Modelación

jlog(dosis)

2isexo

1o)1

log( βββμ

μ

.j

log(dosis)2

βi

sexo1

βoβ)]-ln[-ln(1

,j

log(dosis)2

βi

sexo1

βoβ1

Otras.....

MLGAplicados 2009 MPDíaz

Page 28: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

28

....Modelación....Modelación

Decisión: basada en el conocimiento del material (biológico, etc).

Por qué? Función de Tolerancia

Si una población de individuos se les suministra la dosis di se

obtiene una función de densidad f(z) para la distribución de tolerancia de los mismos.

MLGAplicados 2009 MPDíaz

Page 29: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

29

....Modelación....Modelación

La probabilidad de que una respuesta (éxito) ocurra será nula para valores pequeño de dosis y aprox. uno para valores grandes

función creciente

.)()(][

id

dzzfidFidZPi

MLGAplicados 2009 MPDíaz

Page 30: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

30

....Modelación....Modelación

•Modelo logístico función de tolerancia es

distribución Logística,

•Modelo Probit función de tolerancia es

distribución Normal con y 2,

•Modelo Complemento log-log función de

tolerancia Valor Extremo.

etc .........

MLGAplicados 2009 MPDíaz

Page 31: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

31

EstimaciónEstimación

•Modelos Lineales Generalizados Métodos MCIP

• Procesos de Estimación e Inferencia conocidos:

Collett (1991). Para Machos: Sexo=0

Luego, para p=0.50

),(2

log064.1375.2)1

log( dosisp

p

MLGAplicados 2009 MPDíaz

Page 32: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

32

....Modelación....Modelación

).50(2

log064.1375.2)5.01

5.0log( LD

Esto es,

0 = - 2.375 + 1.064 log(LD50) log(LD50)=2.375/1.064

LD50 = 2 2.232 = 4.698

MLGAplicados 2009 MPDíaz

Page 33: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

33

....Modelación....Modelación

Para Hembras: Sexo=1

),50(2

log064.1476.3)5.01

5.0log( LD

0 = - 3.476 + 1.064 log(LD50) log(LD50)=3.476/1.064

LD50 = 2 3.267 = 9.626

Las hembras resultan más resistentes a la acción del piretroide, ya que para knockear al 50%

se necesita más del doble de la dosis de machos.

MLGAplicados 2009 MPDíaz

Page 34: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

34

....Modelación....Modelación

LD50 = -a/b (modelo simétrico)

Nota:

•Dosis 0 usada para estimar MORTALIDAD NATURAL

•Puede usarse para predecir el número de muertos para una dosis determinada (no extrapolar!)

•Cambia el modelo de tolerancia, cambia la estimación de la dosis letal, o del valor esperado

MLGAplicados 2009 MPDíaz

Page 35: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

35

....Modelación....Modelación

Martin (1942) Rotenone.....pulgón

,605.0226.3)1

log( dosisp

p

Luego, LD50 = -a/b = 3.226/0.605 = 5.33

Por ej.: para dosis de 6 unidades, se tiene que

p = 0.599 ------> 60% de insectos muertos (Fig.).

MLGAplicados 2009 MPDíaz

Page 36: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

36

....Modelación....Modelación

DOSIS

PROPORCI

0.0

0.2

0.4

0.6

0.8

1.0

0 2 4 6 8 10 12

LD50

P=0.50

MLGAplicados 2009 MPDíaz

Page 37: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

37

Inferencia en MRL

• MRL son casos particulares de MLG

• Cuáles son esos estadísticos?

Estadísticos de Bondad de Ajuste

Estadísticos

de para Ho: =0

MLGAplicados 2009 MPDíaz

Page 38: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

38

Inferencia en MRL

• IC (muestras grandes), para logit[(x)]=+x, es

• LI y LS para exp() son los exponenciales de éstos límites asintóticos. Para ejemplo de cangrejos….(ver pág. 109)

).(ˆ2/ ASEz ).(ˆ2/ ASEz

MLGAplicados 2009 MPDíaz

Page 39: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

39

Inferencia en MRL

Prueba de Hipótesis: Ho: =0 (prob. de éxito es independiente de X):

1) n sufi grande

2) El estadístico de Wald es

ASEz

,)(

ˆ2

2

ASE

sigue, bajo Ho, una N(0,1)

sigue una dist. Chi-cuadrado con gl=1.

MLGAplicados 2009 MPDíaz

Page 40: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

40

Inferencia en MRL

Recomendaciones:• Test de Wald es óptimo para tamaños (n) grandes

muestras,

• Test cociente de verosimilitud es más poderoso y confiable para n usuales, compara verosimilitudes en espacios con y sin restricción paramétrica, -2(Lo-L1).

• Ejemplo: z=0497/0.102=4.09 (**)

z2=23.9, Lo=-112.88, L1=-97.23,

-2(Lo-L1)=31.3 (**) (gl=1)

MLGAplicados 2009 MPDíaz

Page 41: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

41

Distribución de Estimadores

La prob estimada para Y=1, x fijo es:

Cómo construyo un IC para la estimación de la prob? usando

la matriz de var-cov de las estimaciones de los parámetros en escala logit

(ej.pag 110)

.)ˆˆexp(1

)ˆˆexp()(ˆ

x

xx

).ˆ,ˆ(2)ˆ()ˆ()ˆˆ(

ˆˆ,2

xCovVxVxV

xx

MLGAplicados 2009 MPDíaz

Page 42: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

42

Distribución de Estimadores

• Otra manera: estimaciones de proporciones:– Ignora el modelo, fija un valor de x y estima la

prop de éxito.– Basándose en la binomial, construye un IC para .Resultado: menos precisión!

Ejemplo: bajo modelo logit, [0.61, 0.77]95%

bajo binomial, [0.22, 0.96]95%

Por qué?

MLGAplicados 2009 MPDíaz

Page 43: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

43

• El modelo usa la información de todas las n observaciones, a lo largo de todos los x’s, y no sólo de aquellas que corresponde al x fijo para el cual se calcula la proporción, bajo modelo binomial pp. dicho.

• Desde el modelo, se usan todas la observaciones para estimar SÓLO DOS parámetros y de ahí se calculan los IC para los parámetros (funciones de éstos).

• Resumiendo: MRL describe (bastante) bien la dependencia verdadera de (x) en x, y las estimaciones de son útiles

MLGAplicados 2009 MPDíaz

Page 44: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

44

Diagnóstico

• Criterios de bondad de ajuste (Pearson, G2, deviance, para datos agrupados en x).

• Análisis de hipótesis jerárquicas mediante estadísticos de bondad de ajustes (tests,

G2(Mo|M1)=-2(Lo-L1)=-2(Lo-Ls)-[-2(L1-Ls)]

= G2(Mo)- G2(M1).)

• Residuos para modelos logit (ei de Pearson).

• Medidas de influencia (DfBeta, residuos por delection, cambios de X2 o G2 cuando se omite una yi)

MLGAplicados 2009 MPDíaz

Page 45: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

45

Modelos logit para Covariables Cualitativas

• MRL es extendido (asemejándose a regresión múltiple normal) para incorporar múltiples predictores covariables cualitativas (modelo logit)

• Cómo? Definiendo variables tipo dummy (factores).

• Se trata como un MLG con predictor lineal, , correspondiendo a un modelo de ANOVA (análisis de la varianza). Ej:

.Y binaria, X, Z predictores binarios (niveles 0, 1) tabla de contingencia 2 x 2 x 2, modelo para de éxito (Y=1) es

.)],([ 21 zxzxLogit MLGAplicados 2009 MPDíaz

Page 46: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

46

• Tiene efectos principales (separados) sin interacción (el efecto de un factor siendo el mismo en cada nivel del otro factor).

• X y Z son variables dummies. A un nivel fijo de Z, el efecto (en escala logit) de pasar de X=0 a X=1 es

• Diferencia entre dos logit es diferencia de log de odds log del OR entre X e Y, controlando por Z!

Exp(1) describe OR condicional entre X e Y.

.)],([ 21 zxzxLogit

.

])0([])1([

1

2121

zz

MLGAplicados 2009 MPDíaz

Page 47: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

47

• Validez? Sólo si NO existe interacción entre X y Z valor común de OR para tablas parciales en los dos niveles de Z (modelo de asociación homogénea)

• Independencia condicional entre Y y X sii

1= 0, i.e

(Ver ejem 5.4.2)

.)],([ 21 zxzxLogit

.)],([ 2zzxLogit

MLGAplicados 2009 MPDíaz

Page 48: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

48

Modelos logit o Regresión logística múltiple

• Si las variables son cuantitativas, el modelo es el de regresión logística múltiple.

• Sean X1, X2, …, Xk covariables, Y respuesta binaria

i efecto de Xi en el log odds de Y=1, controlando por las otras Xj’s. O sea, exp(i) es el efecto multiplicativo en el odds por un incremento en Xi fijando los otros nivels de las X’s

....)( 332211 kk xxxxLogit

MLGAplicados 2009 MPDíaz

Page 49: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

49

Modelo de Regresión Múltiple.

kk

kk

XXXX

XXXX

...]1)P(Y-1

1)P(Ylog[

...]p-1

plog[

321

321

Las X’s pueden ser variables regresoras o variables de Clasificación

MLGAplicados 2009 MPDíaz

Page 50: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

50

Las Variables Cualitativas en RL• Pero….la estimación del modelo logístico usa variables

cuantitativas.

• Si son categóricas? asignación de un número a cada categoría? NO.

• La solución: crear tantas variables dicotómicas como número de respuestas − 1 Variables "dummy", (variables internas, indicadoras, o variables diseño).

• Cómo resulta la matriz de las variables indicadoras?Ver ejemplos…

MLGAplicados 2009 MPDíaz

Page 51: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

51

• Ejemplo: tabaquismo Nunca fumó, Ex−fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios,

4 posibles respuestas construiremos 3 variables internas dicotómicas (valores 0,1),

Dieta Dietas A, B y C. Construiremos dos variables dummy.

MLGAplicados 2009 MPDíaz

Page 52: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

52

Las variables cualitativas en el modelo logístico

Referencia (baseline)

Variables Indicadoras

MLGAplicados 2009 MPDíaz

Page 53: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

53

Las variables cualitativas en el modelo logístico

?MLGAplicados 2009 MPDíaz

Page 54: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

54

Volvemos al ejemplo….

MLGAplicados 2009 MPDíaz

Page 55: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

55

Ejemplo:• Objetivo: Estudiar la posible asociación entre la presencia de

cáncer de vejiga y tanto, el consumo de café como el ambiente de residencia del sujeto.

Se eligen, aleatoriamente, 50 pacientes con cáncer (casos) y 50 individuos sin la enfermedad (controles) y se definen tres variables:

CANCER con los valores 0 (no cáncer) y 1 (cáncer), (respuesta)

CAFE con los valores 0 (sin consumo de café) y 1 (consumo de café),

MEDIO con los valores 0 (medio rural) y 1 (medio urbano).

MLGAplicados 2009 MPDíaz

Page 56: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

56

Ejemplo

  Café No Café

  Urbano Rural Urbano Rural

Cáncer 32 1 15 2

No Cáncer 15 10 15 10

Sub-tablas? Qué indican?

MLGAplicados 2009 MPDíaz

Page 57: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

57

Ejemplo:

Medio Rural

Medio Urbano

Cáncer 3 47

No Cáncer 20 30

a) Sólo la presencia del evento y el medio de residencia,

b) Sólo la presencia del evento y el café?

MLGAplicados 2009 MPDíaz

Page 58: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

58

Ejemplo: Modelo

• Cuál es el modelo de RL?

MEDIOX

CAFEX

XX

MEDIOCAFE

2

1

211)P(Y-1

1)P(Ylog

]p-1

plog[

MLGAplicados 2009 MPDíaz

Page 59: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

59

Ejemplo: resultados

• Estimación del Modelo

OR de las variables

MLGAplicados 2009 MPDíaz

Page 60: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

60

Ejemplo: Resultados

• Factores de confusión? Existe interacción?

0 no significa nada, 1 es el aumento del logaritmo del odds por consumir café en un ambiente rural, 2 es el aumento del logaritmo del odds por vivir en un ambiente urbano, con respecto al rural, sin considerar café y

3 modeliza la posible interacción o el "sobreaumento" por ambas cosas (consumir café en un medio urbano).

• El primer contraste a realizar es sobre la interacción!!, es decir, H0: 3 =0.

MLGAplicados 2009 MPDíaz

Page 61: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

61

Ejemplo: Resultados

• ConclusionesInterpretación!

MLGAplicados 2009 MPDíaz

Page 62: 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y Regresión Logística MLGAplicados 2009 MPDíaz.

62

Conceptos….

Odds: indica cuánto más probable es el éxito que el fracaso, como parámetro característico de la distribución binomial aunque, ambas representaciones son totalmente equivalentes.cont..

MLGAplicados 2009 MPDíaz