Análisis de supervivencia bivariado utilizando cópulas · Angélica Hernández Análisis de...
Transcript of Análisis de supervivencia bivariado utilizando cópulas · Angélica Hernández Análisis de...
Análisis de supervivencia bivariado utilizando cópulas
Angélica Hernández Quintero
IV verano de probabilidad y estadística, CIMAT
6 de julio de 2011
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 1 / 30
1 Análisis de supervivenciaAnálisis de supervivencia bivariado
2 CópulasFamilias de cópulas
3 Análisis de supervivencia bivariado usando cópulasRepresentación gráfica
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 2 / 30
¿Qué es el análisis de supervivencia?
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 3 / 30
Características de los datos de supervivencia:
Son datos de cola larga.
Son censurados.
Tipos de censura:
Censura tipo I.
Censura tipo II.
Censura aleatoria.
Categorías:
Censura por la derecha.
Censura por la izquierda.
Censura por intervalos.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 4 / 30
Características de los datos de supervivencia:
Son datos de cola larga.
Son censurados.
Tipos de censura:
Censura tipo I.
Censura tipo II.
Censura aleatoria.
Categorías:
Censura por la derecha.
Censura por la izquierda.
Censura por intervalos.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 4 / 30
Características de los datos de supervivencia:
Son datos de cola larga.
Son censurados.
Tipos de censura:
Censura tipo I.
Censura tipo II.
Censura aleatoria.
Categorías:
Censura por la derecha.
Censura por la izquierda.
Censura por intervalos.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 4 / 30
Notaciones
[0,τ], (τ < ∞): intervalo de observación,
T : v.a. tiempo de ocurrencia,
C: tiempo de censura,
Y = min(T ,C): duración de vida observada,
ν = 1(T ≤ C): indicador de censura.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 5 / 30
DefiniciónLa función de distribución de T es,
F(t) = P{T < t}=∫ t
0f (u)du.
DefiniciónLa función de supervivencia es,
S(t) = P{T ≥ t}= 1−F(t).
DefiniciónLa fuerza de mortalidad es,
λ (t) = limδ t→0
[P{t < T ≤ t + δ t | T ≥ t}
δ t
].
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 6 / 30
La fuerza de mortalidad puede ser expresada como,
λ (t) =f (t)S(t)
=− ddt{logS(t)}.
La función de supervivencia puede se escrita como,
S(t) = exp{−Λ(t)},
donde Λ(t) =∫ t
0 λ (u)du, es la la función de riesgo acumulado.La función de verosimilitud para n observaciones independientes es,
Ln(θ) =n
∏i=1{f (Yi |θ)}νi{S(Yi |θ)}(1−νi). (1)
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 7 / 30
La fuerza de mortalidad puede ser expresada como,
λ (t) =f (t)S(t)
=− ddt{logS(t)}.
La función de supervivencia puede se escrita como,
S(t) = exp{−Λ(t)},
donde Λ(t) =∫ t
0 λ (u)du, es la la función de riesgo acumulado.La función de verosimilitud para n observaciones independientes es,
Ln(θ) =n
∏i=1{f (Yi |θ)}νi{S(Yi |θ)}(1−νi). (1)
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 7 / 30
Modelos Paramétricos
Modelo exponencial. Si t ∼ EXP(γ) con γ > 0,
S(t) = exp{−γ t} f (t) = γ exp{−γ t} λ (t) = γ Λ(t) = γ t.
Modelo weibull. Si t ∼WEI(α,γ)
f (t) = αγ tα−1 exp{−γ tα}
S(t) = exp(−γ tα ).
Otros modelos paramétricos de supervivencia: el modelo del valor extremo, elmodelo de Gompertz-Makeham, el modelo lognormal, el modelo de pedazosexponeciales, entre otros (ver, Cox y Oakes, 1984; Klein y Moeschberger,1997; Johonson et al.,1994; Lawless, 1982; Meeker y Escobar,1998 y Voivnovy Nikulin, 1993).
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 8 / 30
Análisis de supervivencia bivariado
Ejemplos:
El síndrome de corazones rotos.
Modelo de riesgos competitivos.
Los tiempos de fallo de una enfermedad de órganos pares.
Los tiempos hasta la primera y segunda falla de un equipo reparable
Supóngase que se tienen T1,T2 tiempos de fallo registrados para cadaobservación. La función de supervivencia bivariada es definida como:
S(t1, t2) = P{T1 ≥ t1,T2 ≥ t2}
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 9 / 30
Análisis de supervivencia bivariado
Ejemplos:
El síndrome de corazones rotos.
Modelo de riesgos competitivos.
Los tiempos de fallo de una enfermedad de órganos pares.
Los tiempos hasta la primera y segunda falla de un equipo reparable
Supóngase que se tienen T1,T2 tiempos de fallo registrados para cadaobservación. La función de supervivencia bivariada es definida como:
S(t1, t2) = P{T1 ≥ t1,T2 ≥ t2}
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 9 / 30
Si la función de supervivencia S(t1, t2) es absolutamente continua, ladensidad conjunta es expresada
h(t1, t2) =∂ 2S(t1, t2)
∂ t1∂ t2
Dadas n pares de observaciones pueden ser divididas en 4 grupos:
G1: T1 y T2 son observados.
G2: T1 es observado y T2 es censurado.
G3: T1 es censurado y T2 es observado.
G4: T1 y T2 son censurados.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 10 / 30
La función de verosimilitud para el caso bivariado es expresada como:
Ln(θ) = ∏i∈G1
f (t1,i , t2,i) ∏i∈G2
−∂S(t1,i , t2,i)∂ t1,i
∏i∈G3
−∂S(t1,i , t2,i)∂ t2,i
∏i∈G4
S(t1,i , t2,i)
=n
∏i=1
{f (t1i , t2,i)
δ1,i δ2,i f2(t1i , t2,i)δ1,i(1−δ2,i)
f1(t1i , t2,i)(1−δ1,i)δ2,i S(t1i , t2,i)
(1−δ1,i)(1−δ2,i)}
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 11 / 30
¿Qué son las cópulas?
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 12 / 30
Cópulas
Definición
Una cópula bivariada es una función C : I2→ I = [0,1] que satisface lassiguientes condiciones,
C(0, t) = C(t,0) = 0 y C(1, t) = C(t,1) = t para toda t ∈ I
C(u2,v2)−C(u1,v2)−C(u2,v1) + C(u1,v1)≥ 0 para toda u1, u2, v1,v2 ∈ I, tales que u1 < u2 y v1 < v2
| C(u1,u2)−C(v1,v2) |≤2∑
n=1| un− vn | para toda u1, u2, v1, v2 ∈ I
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 13 / 30
(Ver e.g. Nelsen, 1999.)
Teorema (Sklar)Sea X ,Y variables aleatorias con función de distribución conjunta H ymarginales F y G respectivamente. Entonces existe una función cópulabivariada C tal que:
H(x ,y) = C [F(x),G(y)] (2)
para toda x ,y ∈ R. Más aún si F y G son continuas entonces C es únicasobre el rango F × rango G. Inversamente, si C es una cópula y F , G sonfunciones de distribución, entonces H definida en (2) es una función dedistribución conjunta con marginales F y G.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 14 / 30
CorolarioDada una función de distribución conjunta H con marginales continuas F1 yF2, como está indicado en el teorema de Sklar, es fácil construir la cópulacorrespondiente como se muestra a continuación:
C(v1,v2) = H(
F (−1)1 (v1),F (−1)
2 (v2)),
donde F (−1)j es la función cuasi-inversa de Fj dada por Fj [F
(−1)j (u)] = u si
u ∈ rangoFj , o por F (−1)j (u) = sup{z | Fj(z)≤ u} si u /∈ rangoFj , para
j = 1,2. Nótese que si Y1 y Y2 son variables aleatorias continuas confunciones de distribución F1 y F2 respectivamente, entonces C es la funciónde distribución conjunta de V1 = F1(Y1) y V2 = F2(Y2) ya que F1(Y1) yF2(Y2) se distribuyen uniformemente en I = (0,1).
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 15 / 30
Ejemplo:Supóngase una distribución logística bivariada, la cual está dada por
F(x ,y) = exp
(−(
x−θ + y−θ
) 1θ
)x > 0,y > 0,θ ≥ 1.
Reescribiendo ésta función como:
F(x ,y) = exp
(−((− loge−1/x
)θ
+(− loge−1/y
)θ)1/θ
).
⇒ Las marginales de una logísitca bivariada son Fréchet.⇒ Se obtiene la cópula Gumbel-Hougard.
C(u1,u2) = exp
(−(
(− logu1)θ + ((− logu2)θ) 1
θ
).
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 16 / 30
Si F(x) G(y) y la cópula C(v1,v2) son diferenciables, la densidad conjunta esexpresada como,
h(x ,y) = f (x)g (y)c [F(x),G(y)] , (3)
donde f (x) y g(y) son las funciones de densidad de las marginalescorrespondientes y
c [F(x),G(y)] =∂ 2C(F (x) ,G (y))
∂x∂y,
la cual es conocida como la función cópula de densidad.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 17 / 30
Medidas de correlación y concordancia
DefiniciónSean Y1,Y2 variables aleatorias con varianzas finitas. Entonces el coeficientede correlación de Pearson, se define como:
Cor(Y1,Y2) =Cov(Y1,Y2)√
Var[Y1]√
Var[Y2]
=E{(Y1−E[Y1]) (Y2−E[Y2])}{
E(Y1−E[Y1])2}1/2{
E(Y2−E[Y2])2}1/2
.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 18 / 30
Definición
Una medida numérica κ de asociación entre dos variables aleatoriascontinuas Y1 y Y2 cuya cópula es C es una medida de concordancia si:
1 κ esta definida para cualquier pareja de variables aleatorias continuas;2 κ ∈ [−1,1], con κ(Y ,Y ) = 1 y κ(Y ,−Y ) =−1;3 κ(Y1,Y2) = κ(Y2,Y1);4 si Y1 y Y2 son independientes entonces κ(Y1,Y2) = 0;5 κ(−Y1,Y2) = κ(Y1,−Y2) =−κ(Y1,Y2);6 dos parejas aleatorias están representadas por las cópulas C1 y C2 de
manera tal que C1 ≺ C2, y si κi denota la medición de concordanciacorrespondiente a la cópula Ci , donde i = 1,2, entonces κ1 ≤ κ2;
7 las parejas aleatorias en la sucesión {Yn} estánn representadas por lascópulas Cn cuya medida de concordancia es κn, y si {Cn} converge a Ccuya medida de concordancia es κ , entonces l«ımn→∞ κn = κ .
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 19 / 30
DefiniciónSean X ,Y variables aleatorias continuas con función cópula C. La tau deKendall para X ,Y está definida por,
τ = 4∫ ∫
I2C(u,v)dC(u,v)−1
DefiniciónSean X ,Y variables aleatorias continuas con función cópula C. La rho deSpearman par X ,Y, está definida por,
ρ = 12∫ ∫
I2[C (u,v)−uv ]dudv
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 20 / 30
La cópula Morgenstern
La cópula Morgenstern es representada por
Cα (u,v) = uv [1 + α (1−u)(1− v)] , α ∈ [−1,1]. (4)
La función de densidad cópula correspondiente es
cα (u,v) = [1 + α(1−2u)(1−2v)]
La τ de Kendall está dada por τ = 2α/9, por lo que τ ∈ [−2/9,2/9]
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 21 / 30
La cópula Gaussiana
La familia Gaussiana de cópulas tiene la representacion
Cα (u,v) = Φ2(Φ−1 (u) ,Φ−1 (v)
)(5)
donde Φ2(·, ·) es la función de distribución conjunta de una normal bivariadacon media (0,0)T y matriz de covarianza R, igual a una matriz de 2×2 cuyoslos elementos fuera de la diagonal son iguales a α y los elementos de ladiagonal son igual a 1, Φ−1 es la inversa de la función de distribución de lanormal estándar. Para esta familia se tiene que, −1≤ α ≤ 1.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 22 / 30
La función de la cópula densidad es representada por:
cα (u,v) =φ2[Φ−1 (u) ,Φ−1 (v)
]φ [Φ−1 (u)]×φ [Φ−1 (v)]
donde Φ y φ denotan las funciones de distribución y de densidad de la normalestándar univariada respectivamente, y φ2 denota la función de densidadbivariada de una normal.La τ de Kendall y la ρ de Spearman para la cópula gaussiana son:
τα =2π
arcsen(α) ρα =6π
arcsen(α
2).
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 23 / 30
Cópulas arquimedianas
Una distribución bivariada pertene a la familia de modelos de cópulasarquimedianos si tiene la siguiente representación:
C(x ,y) = φ−1[φ(x) + φ(y)] 0≤ x ,y ≤ 1,
donde φ : [0,1]→ [0,∞], es convexa y decreciente, tal que φ(1) = 0.Al término φ se le conoce como el generador de la cópula Cφ .La función de densidad h(x ,y) asociada con la ecuación (3) estárepresentada por:
h(x ,y) =−φ ′′(H)φ ′(x)φ(y)
[φ ′(H)]3
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 24 / 30
La tau de Kendall es de la siguiente forma:
τ(X ,Y ) = 4∫ 1
0
φ(t)φ ′(t)
dt + 1
Familias de cópulas arquimedianas
Nombre Parámetro Cópula bivariada GeneradorClayton α > 1 {u1−α + v1−α −1}1/(1−α) t1−α −1
Gumbel- α ≥ 1 exp{− [(− logu)α + (− logv)α ]1/α
}(− log t)α
Hougaard
Frank α 6= 0 1α
[1 + (eαu−1)(eαv−1)
eα−1
]log eα t−1
eα−1
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 25 / 30
La cópula Frank
La τ de Kendall asociada es:
τα = 1− 4α
(1− 1
α
∫α
0
tet −1
dt
)La cópula Gumbel-Hougaard
La cópula densidad para ésta cópula es expresada por:
cα (u,v) =1
Cα
∂Cα
∂u∂Cα
∂v
[(α−1)(− logCα )−1 + 1
]La τ de Kendall asociada es:
τα = 1−α−1
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 26 / 30
Análisis de supervivencia bivariado usando cópulas
Dados T1 y T2 tiempos de fallos, la función de supervivencia conjunta sedefine como:
S(t1, t2) = P{T1 ≥ t1,T2 ≥ t2}
Sean dos funciones de supervivencia marginales Sj(tj) = P{Tj ≥ tj}, conj = 1,2, éstas pueden ser “copuladas” para formar la función de supervivenciaconjunta, de la manera siguiente:
S(t1, t2) = C(S1(t1),S2(t2)) (6)
Y por tanto la función de densidad conjunta es:
h(t1, t2) = f1(t1)f2(t2)× c(S1(t1),S2(t2)),
donde c(·, ·) es la cópula de densidad.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 27 / 30
Análisis de supervivencia bivariado usando cópulas
Dados T1 y T2 tiempos de fallos, la función de supervivencia conjunta sedefine como:
S(t1, t2) = P{T1 ≥ t1,T2 ≥ t2}
Sean dos funciones de supervivencia marginales Sj(tj) = P{Tj ≥ tj}, conj = 1,2, éstas pueden ser “copuladas” para formar la función de supervivenciaconjunta, de la manera siguiente:
S(t1, t2) = C(S1(t1),S2(t2)) (6)
Y por tanto la función de densidad conjunta es:
h(t1, t2) = f1(t1)f2(t2)× c(S1(t1),S2(t2)),
donde c(·, ·) es la cópula de densidad.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 27 / 30
Consíderese funciones Weibull parametrizadas como
S(ti) = exp{−(bi ti)ai} j = 1,2
donde:
b1 = 0,028
a1 = 2
b2 = 0,039
a2 = 1,5
Se estudiaron 3 niveles de asociación
τ = 0,1
τ = 0,4
τ = 0,7
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 28 / 30
Cópula Frank
Cópulagaussiana
Cópulapositiva estable
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 29 / 30
Bibliografía
D.R. Cox, Regression models and life-tables (with Discussion). J.R.Statist. Soc. B 34, 187-220, 1972.G. Escarela and J.F. Carriere, Fitting competing risks with an assumedcopula, Statistical Methods in Medical Research, 12, 333-349, 2003.E.W. Frees and E.A. Valdez, Understanding relationships using sopulas.Noth American Actuarial Journal, 2,1-25,1998.C. Genest and R.J. MacKay, The joy of copulas: bivariate distributions withuniform marginals, The American Statistician 40, 280-283,1986.J.D. Kalbfleisch and R. L. Prentice, Marginal likelihood based on Cox’sregression ans life model. Biometrica, 60, 267-278, 1973.R. B. Nelsen, An introduction to copulas, Springer, New York, UnitedStates, 1999.
Angélica Hernández () Análisis de supervivencia bivariado 6 de julio de 2011 30 / 30