Análisis de supervivencia Tema 5 Itziar Aretxaga.

12
Análisis de supervivencia Tema 5 Itziar Aretxaga

Transcript of Análisis de supervivencia Tema 5 Itziar Aretxaga.

Page 1: Análisis de supervivencia Tema 5 Itziar Aretxaga.

Análisis de supervivencia

Tema 5

Itziar Aretxaga

Page 2: Análisis de supervivencia Tema 5 Itziar Aretxaga.

Transformadas de Fourier

Page 3: Análisis de supervivencia Tema 5 Itziar Aretxaga.

♦ Coeficiente generalizado de rangos de Kendall o test BHK (Brown, Hollander & Korwar) • Recomendaciones: funciona para variables ordinales o continuas derivadas de cualquier distribución, pero en condiciones de muchas ligaduras, deja de ser efectivo. El test es no paramétrico. • Método:

con m detecciones y n cotas (límites superiores o inferiores), donde

y bij de define de forma análoga con las y

La significancia de que x,y sean independientes viene dada por z=S/σS que está distribuida de forma normal

Correlaciones con límites superiores e inferiores

nm

i

nm

jijijbaS

1 1

si 1

si 0

si 1

ji

ji

ji

ij

xx

xx

xx

a

nm

i

nm

jij

nm

i

nm

jij

nm

i

nm

j

nm

k

nm

i

mm

jijikij

nm

i

nm

j

nm

k

nm

i

mm

jijikijS

bann

bbbaaannn

1 1

2

1 1

2

1 1 1 1 1

2

1 1 1 1 1

22

)1(

2

)2)(1(

4

(Isobe et al 1986, ApJ, 306, 490)

Page 4: Análisis de supervivencia Tema 5 Itziar Aretxaga.

En Estadística se denomina • cota derecha el valor de una variable de la que sólo se sabe que se encuentra entre [A,+∞] ≡ límite inferior• cota izquierda el valor de una variable de la que sólo se sabe que se encuentra entre [−∞,C] ≡ límite superiorEn Astrofísica nos encontramos casi siempre con cotas izquierdas, mientras que las técnicas de análisis de supervivencia se han desarrollado para cotas derechas. Sin embargo, es posible transformar unas en otras mediante una constante M: Ci=M−Ai

Ejemplo: {30,24−,11,19−} con M=30 se convierten en {0,6+,19,11+}

♦ Algoritmo EM de expectación y maximización (Nelson & Hahn 1972)

Sea {xi,yi}i=1,…,n+m tal que fijado x, la distribución de y sea gaussiana. El test es paramétrico, y análogo a un ajuste por mínimos cuadrados.Definimos los residuos del ajuste lineal dado por los coeficientes ak, bk y la desviación estándar del ajuste σk comoLa probabilidad de que un punto se detecte en un intervalo Δz es

La probabilidad de que un dato se acote (a la derecha) viene dado por la función de supervivencia

Métodos de regresión con valores censados

kikkii xbayz /)(

2/)( , )()( 2/2iz

iii ezfzzfzP

dtezSdttfzSjj z

tjzj

2/2

2/1)( , )()( (Isobe et al 1986, ApJ, 306, 490)

Page 5: Análisis de supervivencia Tema 5 Itziar Aretxaga.

La función de probabilidad de tener m observaciones detectadas y n acotadas viene dada por

tomando logaritmos

Los parámetros vienen de la maximización

donde la variancia

El método implica: 1. estimar a1, b1, σ1 de una regresión por mínimos cuadrados sin utilizar los valores censados. 2. estimar los valores acotados 3. calcular a2, b2, σ2 4. estimar e iterar hasta que converja

Métodos de regresión con valores censados

n

j

mj

m

ii zzSzfL

11

)()()(

cte

k

m

jj

m

ii mzSzfL ln)(ln)(lnln

11

0)(

)(11ln , 0

)(

)(11ln

1111

n

jj

j

j

ki

m

ii

kk

n

j j

j

k

m

ii

kk

xzS

zfxz

b

L

zS

zfz

a

L

acotado está si )(/)()(

detectado está siˆ donde )(ˆ

1

1 iikikk

ii

nm

iiikki

kk zSzfxba

yyzxbay

a

L

2

1

2 )(ˆ2

1

nm

iikkik xbay

nm

iy

iy

z = y/k

(codificado en IRAF) (Isobe et al 1986, ApJ, 306, 790)

cte

Page 6: Análisis de supervivencia Tema 5 Itziar Aretxaga.

(Isobe et al 1986, ApJ, 306, 790)

Page 7: Análisis de supervivencia Tema 5 Itziar Aretxaga.

Para mejorar la convergencia en el caso de muchas cotas (Aitkin 1981)

se redefine

Los errores en los parámetros vienen dados por la diagonal de la matriz de covariancia V=I-1 donde

Métodos de regresión con valores censados

m

i

n

j kj

j

j

ki

kk

mz

zS

zfz

L

1 1

2

)(

)(110

ln

n

j jjj

m

i ikkik

zSzfzm

xbay

1

2

1

)(/)(

)(

(Isobe et al 1986, ApJ, 306, 790)

k

k

k

cc

bb

aa

L

b

L

a

Lb

L

b

L

ba

La

L

ba

L

a

L

I

2

222

2

2

22

22

2

2

lnlnln

lnlnln

lnlnln

Page 8: Análisis de supervivencia Tema 5 Itziar Aretxaga.

♦ Algoritmo EM con el estimador de Kaplan-MeierEl estimador de Kaplan-Meier provee de una estimación no paramétrica de la función de supervivencia.Se define la muestra de riesgo R(zi) como el conjunto de datos que, con toda seguridad, no se ha detectado antes de zi.

Ejemplo: y(1) < y(2) < y(3)+ < y(4)R[y(1)]={ y(1), y(2), y(3)+, y(4)} , R[y(2)]={y(2),y(3)+,y(4)} , R[y(4)]={y(4)} no existe la muestra de riesgo de valores censados

El estimador de Kaplan-Meier se define formalmente como

donde los zi han sido indexados de forma creciente: z1≤…≤zn+m ni es el tamaño de la muestra de riesgo R(zi) di es el número de detecciones con valor zi

es una función escalón decreciente que sólo salta en las detecciones. xi ni di 1-di /ni S(xi) 0 8 1 0.8750 1 3 6 1 0.8333 0.8750 Ejemplo: {0,6+,19,11+,3,19,6,2+} 6 5 1 0.8000 0.7292 19 2 2 0.0000 0.5833 >19 0

Métodos de regresión con valores censados

1

1, si

si

1

/1)(ˆ

zz

zzndzS

i

izzj

jji ij

j

acotado está si

detectado está si

0

1

j

jj z

z

)(ˆizS

(Feigelson & Nelson 1985, ApJ, 293, 192)

Page 9: Análisis de supervivencia Tema 5 Itziar Aretxaga.

Para realizar un ajuste con este método se debe obtener una estimación de los coeficientes ak, bk sin tomar en cuenta los valores censados, y de forma iterativa encontrar el valor más probable de los coeficientes con

donde los pesos

y se ordenan de forma creciente.

Los coeficientes en el paso k serán

Buckley & James (1979) recomiendan usar como estimador de la desviación estándar σk la fórmula empírica

Donde D denota que sólo se utilizan valores detectados. El error de la pendiente es y puede estimar la significancia del

Métodos de regresión con valores censados

acotado si

detectado si)(ˆ

ji

jkijik

i

i bwxb

yy

jkjj

j

jjij xby

S

SSw

, )(ˆ1

)(ˆ)1(ˆj

xbyaxxxxyb kk

nm

i

nm

iiiik

, )(/)(ˆ1 1

2

)(2

1

1

22

m

D

iDikDik xxbyy

m

)(

)(

1

2

2

m

D

iDi

kk

xxb

ajuste

Page 10: Análisis de supervivencia Tema 5 Itziar Aretxaga.

Para el caso general de querer obtener el ajuste de una función no-lineal φ(x,a), definimos de igual manera los residuosy podemos plantear la maximización de la probabilidad

que en general, puede no tener una solución analítica. Lo que siempre se puede intentar es la minimización con un algoritmo adaptable, tal como amoeba.

Métodos de ajuste con valores censados: caso general

n

j

mj

m

ii zzSzfL

11

)()()(

(Aretxaga, Hughes & Dunlop MNRAS, 2003, in prep)

iiii axyz /),(

Ejemplo:

Page 11: Análisis de supervivencia Tema 5 Itziar Aretxaga.

• Suposiciones: tests no paramétricos formulados para cotas derechas Sean

los valores de una distribución, donde i recorre las distribuciones i=1,2; y j recorre el número de puntos j=1,2,...,Ni; y Aij denota las cotas• Método: se formula la hipótesis nula de que las dos distribuciones son iguales. Sean y1< y2< ...< yr con r≤N1+N2 los valores detectados en ambas distribuciones de forma conjunta, ordenados de forma creciente. Se definen las variables:

La estadística de rangos lineales con cotas se calcula mediante

donde wj son pesos asociados a diferentes estadísticas:

Comparación de distribuciones con cotas

(Feigelson & Nelson 1985, ApJ, 293, 192)

ijij

ijij

ij

ij

ij AT

AT

A

Tx

si

si

)acotado( si

)(detectado si

0

1

ijij

ijij

ij AT

AT

rjiyxd jikij ,...,1;2,1),(número rjiyxn jikij ,...,1;2,1),(número

jjj ddd 21 jjj nnn 21

21 NNn

10

1

,,,...,1;2,1

),0, que tal(número

r

ikjikjikij

yyrji

yxyxm

jjj mmm 21

)/( 11 1 jj

r

j jjjn nnddwL

logrank

Gehan

1

jj

nw

Page 12: Análisis de supervivencia Tema 5 Itziar Aretxaga.

Para n grande, Ln es aproximadamente gaussiana, con media 0 y variancia

de forma que a un nivel h se puede decir que las dos distribuciones difieren si donde zh/2 es el intervalo para el cual el área de la distribución normal entre [−zh/2,zh/2] es igual a 1−h , y la significancia de este resultado viene dada por el área de la distribución normal con valores mayores que

Ejemplo: {30,24−,11,19−,27,11,24,28−} y {3,23,17−,8−,10,5−} se convierten en cotas derechas con una traslación con M=30. Utilizando las definiciones del análisis de supervivencia tenemos N1=8, N2=6, n=14, r=7

logrank da Ln=2.5 σn=1.1 que es significante con una probabilidad p=0.032Gehan da Ln= 23 σn=11 que es significativo con una probabilidad p=0.056

Latta (1981) introduce unos nuevos pesos que dan lugar al test Peto-Prentice, que supuestamente es menos sensible a diferencias de acotado

Comparación de distribuciones con cotas

(Feigelson & Nelson 1985, ApJ, 293, 192)

2// hnn zL

r

j jjjjjjjjjn ndnnnnnwd1 21

22 )1/())(/)(/(

nnL /