1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y...
-
Upload
roberto-agueero-gomez -
Category
Documents
-
view
221 -
download
0
Transcript of 1 Modelos Lineales Generalizados Aplicados a las Ciencias Biológicas Modelos para Datos Binarios y...
1
Modelos Lineales Generalizados Modelos Lineales Generalizados Aplicados a las Ciencias BiológicasAplicados a las Ciencias Biológicas
Modelos para Datos BinariosModelos para Datos Binarios
y Regresión Logísticay Regresión Logística
MLGAplicados 2009 MPDíaz
MLGAplicados 2009 MPDíaz 2
Modelos de Regresión Modelos de Regresión Logística Logística
(enfoque generalizado)(enfoque generalizado)
3
Planificación del TemaPlanificación del Tema
• Modelos lineales generalizados para datos binarios ( distinto)
• Interpretación de parámetros (’s, ’s)
• Modelos específicos: dosis-respuesta
• Inferencia y Diagnóstico
• Regresión logistica múltiple
MLGAplicados 2009 MPDíaz
4
IntroducciónIntroducción
Datos binarios patrón de datos más común dentro de Variables categóricas
Regresión Logística (MRL) modelo más usado para datos binarios
Yij con f.d.p. B(m,i) E(Yij) = i para todo i=1,2 ; j=1,...,6 y su funcioón de distribución de probab.
Naturaleza dicotómica de la respuesta.
AIymmy
mymyf )1()1()(
MLGAplicados 2009 MPDíaz
5
Interpretación del MRLInterpretación del MRL
Supongamos Y v.a. (binaria), X covariable cuantitativa.
(x) prob de éxito cuando X=x
•Modelo de regresión logística (más simple)
(x) se incrementa o decrece con una función S de x.(Fig)
•Cómo lo vemos en la escala de probabilidad?
,))(1
)(log()]([ x
x
xxLogit
MLGAplicados 2009 MPDíaz
6
DOSIS
PROPORCI
0.0
0.2
0.4
0.6
0.8
1.0
0 2 4 6 8 10 12
MLGAplicados 2009 MPDíaz
7
Interpretación de CoeficientesInterpretación de Coeficientes
.)exp(1
)exp()(
x
xx
determina la tasa de incremento o decrecimiento de la S-curva.
•Sig() indica si la curva “asciende”o “desciende”.
•| | crece la tasa de cambio crece.
=0 relación constante en x (la prob es la misma x
Y es “indenpendiente” de X.
[1]
MLGAplicados 2009 MPDíaz
8
InterpretaciónInterpretación
•La función [1] implica que la tasa de cambio en (x) varía por unidad de cambio de x (la tg a lo largo de la S-curva varía).
•Tasa de variación, tg, (x)(1-(x)),
•Ejemplo: -si (x)=0.5, la recta tg tiene pendiente (0.5)(0.5)=0.25
-si (x)=0.9, la recta tg tiene pendiente (0.9)(0.1)=0.09
La pte. 0 a medida que la prob 1 ó 0.
MLGAplicados 2009 MPDíaz
9
TareaTarea
Leer el item 5.1.2 sobre aplicación en Cangrejos hembras (herradura), Ethology (1996), sobre la presencia de “satélites” (otros machos residiendo con ella) en función a diferentes factores del individuo: color, tamaño (peso), condición del espinazo y ancho del caparazón (ver fig).
Y=0 si no tiene satélite,
Y=1 si tiene al menos un satélite.
X1=ancho, continua (x) denota la prob que un cangrejo hembra de ancho x tenga satélite.
MLGAplicados 2009 MPDíaz
10
TareaTarea
,092.0766.1ˆˆ)(ˆ
)(
xxx
xx
Lo más simple modelo lineal para la probabilidad como f(x)
Cuando x=33.5, la (x)=1.3!!!!
No respeta el rango posible de valores de la función
MLGAplicados 2009 MPDíaz
11
Ejemplo de cangrejos…
.)497.035.12exp(1
)497.035.12exp()(ˆ
x
xx
Estimando por MV al MRL
Nota:
estimado es >0 la prob estimada crece cuando x crece
•Para un ancho mínimo, x=21.0 la prob estimada es 0.129.
•Para un ancho máximo, x=33.5 la prob estimada es 0.987. (otros…x=promedio?, con prob de ½ de tener?)MLGAplicados 2009 MPDíaz
12
Ejemplo de cangrejos…• la tasa incremental de cambio en la prob ajustada, para el punto medio de tamaño del individuo (x=26.3cm) es la estimación de (x)(1-(x)), 0.11.
Hembras con tamaño aproximadamente medio la prob estimada de tener satélite se incrementa a un tasa del 0.11 por incremento del ancho, en cm.
Si modifico la probabilidad? Por ej. 0.5?
La tasa de incremento es del 0.12 y asi…
MLGAplicados 2009 MPDíaz
13
Interpretación de CoeficientesInterpretación de Coeficientes
• Odds Ratio: cociente de odds de respuesta 1 (“éxito”)Concepto, Ejemplo
• Qué dice? El odds crece de manera multiplicativa en exp() a medida que crece x en una unidad
• O, el odds al nivel x+1=odds al nivel x multiplicado por exp().
xeexx
x)()exp(
)(1
)(
MLGAplicados 2009 MPDíaz
14
Interpretación de CoeficientesInterpretación de Coeficientes
• Ejemplo: odds de tener satélite es 1.64=exp(0.497) por cada cm que se incrementa en ancho,
• O, existe un 64% de incremento.• Caso 1) Tamaño medio, x=26.3, con (xest)=0.674 y odds est.
0.674/0.326=2.07;
Caso 2) Tamaño x=27.3=26.3+1, con (xest)=0.773 y odds est. 0.773/0.227=3.40, que es el 64% de incremento en el odds anterior (3.40=2.07(1.64)).
El log del odds tiene una relación lineal con la covariable.
MLGAplicados 2009 MPDíaz
15
Ensayos de tipoEnsayos de tipo
Dosis-RespuestaDosis-Respuesta
MLGAplicados 2009 MPDíaz
16
Introducción (Introducción (su diseñosu diseño))
Un conjunto de individuos m1, m2, ..., mk se les suministra una drogra determinada, en d1, d2, ..., dk dosis diferentes, obteniéndose como respuesta, después de un cierto período de tiempo, r1, r2, ..., rk individuos que cambian de estado.
ASIGNACIÓN ALEATORIA
Naturaleza de la Respuesta:
Un individuo puede o no responder a la droga
dicotómicadicotómicasólo dos resultados complementarios
MLGAplicados 2009 MPDíaz
17
IntroducciónIntroducción
Control de Plagas y EnfermedadesControl de Plagas y Enfermedades:
•estudios de efectividad de productos
Grupos de insectos se le aplica un insecticida, observando muerte (éxito) o la sobrevida (fracaso)
DosisDosis: log de la concentración del ingrediente activo
(tal que d cuando la concentración 0.
MLGAplicados 2009 MPDíaz
18
IntroducciónIntroducción
Dos componentes:• la intensidad del estímulo (dosis de droga, de veneno, de
medicamento, de insecticida)• el individuo (planta, insecto, paciente, semilla, etc.)
aplicación individuo estímulo R (respuesta)
MLGAplicados 2009 MPDíaz
19
IntroducciónIntroducción
Respuesta binaria: cuya ocurrencia dependerá de la intensidad del estímulo aplicado.
(para cada sujeto existe un nivel de intensidad por debajo del cual no se produce la respuesta y por encima de la cual ocurre)
Nivel de Intensidad:Nivel de Intensidad: Tolerancia
MLGAplicados 2009 MPDíaz
20
IntroducciónIntroducción
Existe una Distribución de Tolerancias f(z) (gracias a la asignación aleatoria...!)
Objetivo General:
Determinar dosis específicas,
LD50, dosis letal (dosis que mata el 50% de los insectos, e.g.;
LD90, dosis para la cual sólo sobrevive el 10% de los individuos.
MLGAplicados 2009 MPDíaz
21
Ejemplos clásicosEjemplos clásicos
Collett (1991). Experimento de toxicidad realizado en individuos de Heliothis virescens bajo dosis de piretroide.
Conjuntos (extraídos de manera aleatoria) de 20 individuos de cada sexo fueron expuestos durante 3 días al piretroide y cuantificado el número de muertos o con síntomas de knock.
D O S I SSEXO 1 2 4 8 16
32Macho 1 4 9 13 18 20Hembra 0 2 6 10 12 16
dosis en g log2(dosis)MLGAplicados 2009 MPDíaz
22
TendenciaTendencia
Diagrama de dispersión: no insectos vs dosis del producto por sexo
Número de machos “supera” número de hembras?MLGAplicados 2009 MPDíaz
23
Ejemplos clásicosEjemplos clásicos
Martin (1942). Ensayo para evaluar toxicidad de Rotenone en Macrosiphoniella sanborni (pulgón plaga).
Seis dosis del producto aplicadas a grupos de 50 individuos
(aprox.). Luego de un período de tiempo se registró el número de insectos muertos para cada dosis.
ASIGNACIÓN ALEATORIA
MLGAplicados 2009 MPDíaz
24
Ejemplos clásicosEjemplos clásicos
Dosis Total Muertos Proporcion10.2 50 44 0.887.7 49 42 0.865.1 46 24 0.523.8 48 16 0.332.6 50 6 0.120 49 0 0
DOSIS
PROPORCI
0.0
0.2
0.4
0.6
0.8
1.0
0 2 4 6 8 10 12
MLGAplicados 2009 MPDíaz
25
ModelaciónModelación
Collett (1991)
Yij v.a. que representa al número de insectos muertos o con síntomas de sexo i-ésimo a los que se le aplicó la dosis j-ésima de piretroide Yij con f.d.p. B(m,i) , donde la parametrización satisface que
E(Yij) = i para todo i=1,2 ; j=1,...,6
Es decir, la función de densidad de probabilidad es tal que:
.)1()1()(A
Iymmymymyf
MLGAplicados 2009 MPDíaz
26
....Modelación....Modelación
Objetivo: estimar un modelo para el valor esperado
Modelo Dosis - Respuesta
ligan la parte sistemática (e.g. incluyendo efecto de dosis y sexo) del modelo con una función del valor esperado.
Las funciones? Existen varias:
•Logística
•Probit funciones
•Complemento log-log no linealesMLGAplicados 2009 MPDíaz
27
....Modelación....Modelación
jlog(dosis)
2isexo
1o)1
log( βββμ
μ
.j
log(dosis)2
βi
sexo1
βoβ)]-ln[-ln(1
,j
log(dosis)2
βi
sexo1
βoβ1
Otras.....
MLGAplicados 2009 MPDíaz
28
....Modelación....Modelación
Decisión: basada en el conocimiento del material (biológico, etc).
Por qué? Función de Tolerancia
Si una población de individuos se les suministra la dosis di se
obtiene una función de densidad f(z) para la distribución de tolerancia de los mismos.
MLGAplicados 2009 MPDíaz
29
....Modelación....Modelación
La probabilidad de que una respuesta (éxito) ocurra será nula para valores pequeño de dosis y aprox. uno para valores grandes
función creciente
.)()(][
id
dzzfidFidZPi
MLGAplicados 2009 MPDíaz
30
....Modelación....Modelación
•Modelo logístico función de tolerancia es
distribución Logística,
•Modelo Probit función de tolerancia es
distribución Normal con y 2,
•Modelo Complemento log-log función de
tolerancia Valor Extremo.
etc .........
MLGAplicados 2009 MPDíaz
31
EstimaciónEstimación
•Modelos Lineales Generalizados Métodos MCIP
• Procesos de Estimación e Inferencia conocidos:
Collett (1991). Para Machos: Sexo=0
Luego, para p=0.50
),(2
log064.1375.2)1
log( dosisp
p
MLGAplicados 2009 MPDíaz
32
....Modelación....Modelación
).50(2
log064.1375.2)5.01
5.0log( LD
Esto es,
0 = - 2.375 + 1.064 log(LD50) log(LD50)=2.375/1.064
LD50 = 2 2.232 = 4.698
MLGAplicados 2009 MPDíaz
33
....Modelación....Modelación
Para Hembras: Sexo=1
),50(2
log064.1476.3)5.01
5.0log( LD
0 = - 3.476 + 1.064 log(LD50) log(LD50)=3.476/1.064
LD50 = 2 3.267 = 9.626
Las hembras resultan más resistentes a la acción del piretroide, ya que para knockear al 50%
se necesita más del doble de la dosis de machos.
MLGAplicados 2009 MPDíaz
34
....Modelación....Modelación
LD50 = -a/b (modelo simétrico)
Nota:
•Dosis 0 usada para estimar MORTALIDAD NATURAL
•Puede usarse para predecir el número de muertos para una dosis determinada (no extrapolar!)
•Cambia el modelo de tolerancia, cambia la estimación de la dosis letal, o del valor esperado
MLGAplicados 2009 MPDíaz
35
....Modelación....Modelación
Martin (1942) Rotenone.....pulgón
,605.0226.3)1
log( dosisp
p
Luego, LD50 = -a/b = 3.226/0.605 = 5.33
Por ej.: para dosis de 6 unidades, se tiene que
p = 0.599 ------> 60% de insectos muertos (Fig.).
MLGAplicados 2009 MPDíaz
36
....Modelación....Modelación
DOSIS
PROPORCI
0.0
0.2
0.4
0.6
0.8
1.0
0 2 4 6 8 10 12
LD50
P=0.50
MLGAplicados 2009 MPDíaz
37
Inferencia en MRL
• MRL son casos particulares de MLG
• Cuáles son esos estadísticos?
Estadísticos de Bondad de Ajuste
Estadísticos
de para Ho: =0
MLGAplicados 2009 MPDíaz
38
Inferencia en MRL
• IC (muestras grandes), para logit[(x)]=+x, es
• LI y LS para exp() son los exponenciales de éstos límites asintóticos. Para ejemplo de cangrejos….(ver pág. 109)
).(ˆ2/ ASEz ).(ˆ2/ ASEz
MLGAplicados 2009 MPDíaz
39
Inferencia en MRL
Prueba de Hipótesis: Ho: =0 (prob. de éxito es independiente de X):
1) n sufi grande
2) El estadístico de Wald es
,ˆ
ASEz
,)(
ˆ2
2
ASE
sigue, bajo Ho, una N(0,1)
sigue una dist. Chi-cuadrado con gl=1.
MLGAplicados 2009 MPDíaz
40
Inferencia en MRL
Recomendaciones:• Test de Wald es óptimo para tamaños (n) grandes
muestras,
• Test cociente de verosimilitud es más poderoso y confiable para n usuales, compara verosimilitudes en espacios con y sin restricción paramétrica, -2(Lo-L1).
• Ejemplo: z=0497/0.102=4.09 (**)
z2=23.9, Lo=-112.88, L1=-97.23,
-2(Lo-L1)=31.3 (**) (gl=1)
MLGAplicados 2009 MPDíaz
41
Distribución de Estimadores
La prob estimada para Y=1, x fijo es:
Cómo construyo un IC para la estimación de la prob? usando
la matriz de var-cov de las estimaciones de los parámetros en escala logit
(ej.pag 110)
.)ˆˆexp(1
)ˆˆexp()(ˆ
x
xx
).ˆ,ˆ(2)ˆ()ˆ()ˆˆ(
ˆˆ,2
xCovVxVxV
xx
MLGAplicados 2009 MPDíaz
42
Distribución de Estimadores
• Otra manera: estimaciones de proporciones:– Ignora el modelo, fija un valor de x y estima la
prop de éxito.– Basándose en la binomial, construye un IC para .Resultado: menos precisión!
Ejemplo: bajo modelo logit, [0.61, 0.77]95%
bajo binomial, [0.22, 0.96]95%
Por qué?
MLGAplicados 2009 MPDíaz
43
• El modelo usa la información de todas las n observaciones, a lo largo de todos los x’s, y no sólo de aquellas que corresponde al x fijo para el cual se calcula la proporción, bajo modelo binomial pp. dicho.
• Desde el modelo, se usan todas la observaciones para estimar SÓLO DOS parámetros y de ahí se calculan los IC para los parámetros (funciones de éstos).
• Resumiendo: MRL describe (bastante) bien la dependencia verdadera de (x) en x, y las estimaciones de son útiles
MLGAplicados 2009 MPDíaz
44
Diagnóstico
• Criterios de bondad de ajuste (Pearson, G2, deviance, para datos agrupados en x).
• Análisis de hipótesis jerárquicas mediante estadísticos de bondad de ajustes (tests,
G2(Mo|M1)=-2(Lo-L1)=-2(Lo-Ls)-[-2(L1-Ls)]
= G2(Mo)- G2(M1).)
• Residuos para modelos logit (ei de Pearson).
• Medidas de influencia (DfBeta, residuos por delection, cambios de X2 o G2 cuando se omite una yi)
MLGAplicados 2009 MPDíaz
45
Modelos logit para Covariables Cualitativas
• MRL es extendido (asemejándose a regresión múltiple normal) para incorporar múltiples predictores covariables cualitativas (modelo logit)
• Cómo? Definiendo variables tipo dummy (factores).
• Se trata como un MLG con predictor lineal, , correspondiendo a un modelo de ANOVA (análisis de la varianza). Ej:
.Y binaria, X, Z predictores binarios (niveles 0, 1) tabla de contingencia 2 x 2 x 2, modelo para de éxito (Y=1) es
.)],([ 21 zxzxLogit MLGAplicados 2009 MPDíaz
46
• Tiene efectos principales (separados) sin interacción (el efecto de un factor siendo el mismo en cada nivel del otro factor).
• X y Z son variables dummies. A un nivel fijo de Z, el efecto (en escala logit) de pasar de X=0 a X=1 es
• Diferencia entre dos logit es diferencia de log de odds log del OR entre X e Y, controlando por Z!
Exp(1) describe OR condicional entre X e Y.
.)],([ 21 zxzxLogit
.
])0([])1([
1
2121
zz
MLGAplicados 2009 MPDíaz
47
• Validez? Sólo si NO existe interacción entre X y Z valor común de OR para tablas parciales en los dos niveles de Z (modelo de asociación homogénea)
• Independencia condicional entre Y y X sii
1= 0, i.e
(Ver ejem 5.4.2)
.)],([ 21 zxzxLogit
.)],([ 2zzxLogit
MLGAplicados 2009 MPDíaz
48
Modelos logit o Regresión logística múltiple
• Si las variables son cuantitativas, el modelo es el de regresión logística múltiple.
• Sean X1, X2, …, Xk covariables, Y respuesta binaria
i efecto de Xi en el log odds de Y=1, controlando por las otras Xj’s. O sea, exp(i) es el efecto multiplicativo en el odds por un incremento en Xi fijando los otros nivels de las X’s
....)( 332211 kk xxxxLogit
MLGAplicados 2009 MPDíaz
49
Modelo de Regresión Múltiple.
kk
kk
XXXX
XXXX
...]1)P(Y-1
1)P(Ylog[
...]p-1
plog[
321
321
Las X’s pueden ser variables regresoras o variables de Clasificación
MLGAplicados 2009 MPDíaz
50
Las Variables Cualitativas en RL• Pero….la estimación del modelo logístico usa variables
cuantitativas.
• Si son categóricas? asignación de un número a cada categoría? NO.
• La solución: crear tantas variables dicotómicas como número de respuestas − 1 Variables "dummy", (variables internas, indicadoras, o variables diseño).
• Cómo resulta la matriz de las variables indicadoras?Ver ejemplos…
MLGAplicados 2009 MPDíaz
51
• Ejemplo: tabaquismo Nunca fumó, Ex−fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios,
4 posibles respuestas construiremos 3 variables internas dicotómicas (valores 0,1),
Dieta Dietas A, B y C. Construiremos dos variables dummy.
MLGAplicados 2009 MPDíaz
52
Las variables cualitativas en el modelo logístico
Referencia (baseline)
Variables Indicadoras
MLGAplicados 2009 MPDíaz
53
Las variables cualitativas en el modelo logístico
?MLGAplicados 2009 MPDíaz
54
Volvemos al ejemplo….
MLGAplicados 2009 MPDíaz
55
Ejemplo:• Objetivo: Estudiar la posible asociación entre la presencia de
cáncer de vejiga y tanto, el consumo de café como el ambiente de residencia del sujeto.
Se eligen, aleatoriamente, 50 pacientes con cáncer (casos) y 50 individuos sin la enfermedad (controles) y se definen tres variables:
CANCER con los valores 0 (no cáncer) y 1 (cáncer), (respuesta)
CAFE con los valores 0 (sin consumo de café) y 1 (consumo de café),
MEDIO con los valores 0 (medio rural) y 1 (medio urbano).
MLGAplicados 2009 MPDíaz
56
Ejemplo
Café No Café
Urbano Rural Urbano Rural
Cáncer 32 1 15 2
No Cáncer 15 10 15 10
Sub-tablas? Qué indican?
MLGAplicados 2009 MPDíaz
57
Ejemplo:
Medio Rural
Medio Urbano
Cáncer 3 47
No Cáncer 20 30
a) Sólo la presencia del evento y el medio de residencia,
b) Sólo la presencia del evento y el café?
MLGAplicados 2009 MPDíaz
58
Ejemplo: Modelo
• Cuál es el modelo de RL?
MEDIOX
CAFEX
XX
MEDIOCAFE
2
1
211)P(Y-1
1)P(Ylog
]p-1
plog[
MLGAplicados 2009 MPDíaz
59
Ejemplo: resultados
• Estimación del Modelo
OR de las variables
MLGAplicados 2009 MPDíaz
60
Ejemplo: Resultados
• Factores de confusión? Existe interacción?
0 no significa nada, 1 es el aumento del logaritmo del odds por consumir café en un ambiente rural, 2 es el aumento del logaritmo del odds por vivir en un ambiente urbano, con respecto al rural, sin considerar café y
3 modeliza la posible interacción o el "sobreaumento" por ambas cosas (consumir café en un medio urbano).
• El primer contraste a realizar es sobre la interacción!!, es decir, H0: 3 =0.
MLGAplicados 2009 MPDíaz
61
Ejemplo: Resultados
• ConclusionesInterpretación!
MLGAplicados 2009 MPDíaz
62
Conceptos….
Odds: indica cuánto más probable es el éxito que el fracaso, como parámetro característico de la distribución binomial aunque, ambas representaciones son totalmente equivalentes.cont..
MLGAplicados 2009 MPDíaz