ITAM - Correo electrónico para académicos y empleados del...

27
PROFESOR:LUIS E. NIETO BARAJAS 87 Análisis de Supervivencia 5. Modelos de regresión En el análisis de tiempos de falla, es común suponer que el riesgo de presentar la falla está en función de una serie de covariables o variables explicativas inherentes a cada individuo. Es decir, la población bajo estudio no es homogénea y es necesario reconocer las diferencias entre los individuos como parte del análisis. Existen varios modelos que incorporan variables explicativas para el análisis de tiempos de falla. Estos modelos se conocen como modelos de regresión de supervivencia. Los principales modelos son dos: Modelo de vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos de vida acelerada Sea T i el tiempo de falla del individuo i y suponga que pi i 2 i 1 i X , , X , X ' X es un vector de p covariables correspondientes al mismo individuo i, i1,…,n. El modelo de vida acelerada se puede definir en términos de la v.a. T i o en términos de la función de riesgo h i (t). En términos de la v.a., el modelo de vida acelerada se define como , x T T i 0 i

Transcript of ITAM - Correo electrónico para académicos y empleados del...

Page 1: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

87 Análisis de Supervivencia 

5. Modelos de regresión 

 

En  el  análisis  de  tiempos  de  falla,  es  común  suponer  que  el  riesgo  de 

presentar  la  falla está en  función de una serie de covariables o variables 

explicativas  inherentes  a  cada  individuo.  Es  decir,  la  población  bajo 

estudio no es homogénea y es necesario  reconocer  las diferencias entre 

los individuos como parte del análisis.  

 

Existen  varios  modelos  que  incorporan  variables  explicativas  para  el 

análisis de tiempos de falla. Estos modelos se conocen como modelos de 

regresión de supervivencia. Los principales modelos son dos: Modelo de 

vida acelerada y modelo de riesgos proporcionales.  

 

 

5.1 Modelos de vida acelerada   

 

Sea Ti el tiempo de falla del individuo i y suponga que  pii2i1i X,,X,X'X  

es  un  vector  de  p  covariables  correspondientes  al  mismo  individuo  i, 

i1,…,n.  

 

El modelo de vida acelerada se puede definir en términos de la v.a. Ti o en 

términos de la función de riesgo hi(t). En términos de la v.a., el modelo de 

vida acelerada se define como 

,x

TT

i

0i  

Page 2: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

88 Análisis de Supervivencia 

donde  p1 ,'   en  un  vector  de  dimensión  p  de  coeficientes  de 

regresión,  ,  es una  función que  liga  las covariables con el tiempo de 

fallo y T0 es un tiempo de fallo base.  

 

Se  puede  observar  que  el modelo  de  vida  acelerada  especifica  que  el 

efecto de la covariable es multiplicativo en t. Es decir, la covariable altera 

la  tasa  en  la  que  un  individuo  envejece  o  rejuvenece  en  el  tiempo. Un 

individuo  con  tiempo  de  fallo  t  bajo  x00,  tendría  un  tiempo  de  fallo 

,xt i  bajo xi.  

 

La  función  ,   tiene  por  lo  general  una  forma  paramétrica  y  debe 

satisfacer la condición  1,0 . La forma más común es 

'xi

ie,x . 

Nota que para que  se  satisfaga  la  condición el vector de  covariables no 

debe de incluir constante.  

 

De manera alternativa, el modelo de vida acelerada se puede ver como un 

modelo de regresión log‐lineal, i.e.,  

0i0i 'xTlog  

donde  00 TlogE   y  000 Tlog   es  una  v.a.  con  media  cero  y 

distribución independiente de xi.  

 

Las implicaciones del modelo de vida acelerada en las funciones de riesgo 

y de supervivencia son las siguientes. Sea h0(t), f0(t) y S0(t) las funciones de 

Page 3: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

89 Análisis de Supervivencia 

riesgo, densidad y de supervivencia, respectivamente, para el tiempo base 

T0. Entonces, haciendo el cambio de variable, la función de densidad para 

el tiempo Ti es 

tefetf 'x0

'xi

ii . 

Integrando la función de densidad de t a , la función de supervivencia es  

teStS 'x0i

i . 

Finalmente ala función de riesgo es 

teheth 'x0

'xi

ii . 

 

Si  h0(t)  tiene  una  forma  paramétrica  específica,  el  modelo  de  vida 

acelerada en completamente paramétrico, en cambio, si h0(t) se deja sin 

especificar, el modelo es semiparamétrico y se requieren de procesos de 

inferencia específicos para este caso.  

 

Por lo general, el modelo de vida acelerado, se considera completamente 

paramétrico  especificando  la  distribución  de  los  errores  mediante  un 

miembro de la familia de log‐localización y escala.  

 

Recordemos que si T es una variable de tiempo de  falla y YlogT es una 

v.a.  con  distribución  de  localización  y  escala,  entonces  T  tiene  una 

distribución  de  log‐localización‐escala.  Es  decir,  sea  Y0  una  v.a.  con 

distribución  con  soporte  en  los  reales  con media  cero  y  varianza  uno. 

Entonces  0ii bYaY  tiene una función de supervivencia  

b

aySb,ayS i*0i

*i , 

Page 4: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

90 Análisis de Supervivencia 

y  iYi eT  tienen función de supervivencia 

b

atlogSb,atS i*0ii  

Si  tomamos  'xxaa i0ii  en  la especificación anterior obtenemos 

el  modelo  de  vida  acelerada  con  00 bY   una  v.a.  con  media  cero  y 

varianza b2. Si  0ixa , el efecto del vector de covariables es desacelerar 

el tiempo, mientras que si  0ixa , el efecto es de acelerar el tiempo.  

 

 

 

Consideremos  algunos  casos  específicos  del modelo  de  vida  acelerada 

completamente paramétrico.  

 

Page 5: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

91 Análisis de Supervivencia 

o T0  Weibull  (o  valor  extremo  para  Y0logT0).  Como  distribución  de  log 

localización y escala, este modelo se obtiene cuando  z*0 eexpzS . Es 

este caso la función de supervivencia para Ti de vida acelerada es  

b/'xb/b/1b/ab/1i

i0i eetexpetexptS . 

La función de riesgo acumulado es de la forma 

b/ab/1ii

iettSlogtH . 

Finalmente derivando obtenemos la función de riesgo 

1b/1b/b/'xb/a1b/1i t

b

1eeet

b

1th 0ii . 

Por  otro  lado,  partiendo  de  la  distribución  de  riesgo  Weibull  base 

10 tth   y  tomando  teheth 'x

0'x

iii   como  en  la  definición  del 

riesgo de vida acelerada obtenemos 

1'xi teth i . 

Si tomamos  1b  y  b/0e   llegamos a  la misma expresión anterior, 

pero con parametrizaciones diferentes.  

 

o Notemos que para el modelo Weibull de vida acelerada el efecto de  las 

covariables  no  afecta  directamente  el  tiempo,  sino  que  representa 

únicamente  un  efecto  multiplicativo  “constante”  sobre  la  función  de 

riesgo base, i.e.,  

theth 0'x

i

*i ,  

con  * .  

 

Page 6: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

92 Análisis de Supervivencia 

o T0  log‐logístico  (o  logístico  para  Y0logT0).  Como  distribución  de  log 

localización y escala, este modelo se obtiene cuando  z*0 e11zS . La 

función de supervivencia para Ti de vida acelerada es 

b/ab/1i

iet1

1tS . 

Haciendo álgebra obtenemos que la función de riesgo para Ti es 

b/ab/1

b/a1b/11

ii

i

et1

etbth

Alternativamente,  si  partimos  de  la  función  de  riesgo  log‐logística  base 

t1tth 10  obtenemos que la función de riesgo para Ti es 

te1

teth

'x

1'x

ii

i

Si tomamos  1b  y  b/0e  obtenemos la misma expresión anterior, 

pero con parametrizaciones diferentes.  

 

La inferencia para este tipo de modelos de vida acelerada paramétricos se 

hace por máxima  verosimilitud,  como en el  caso de  los modelos de  log 

localización y escala.  

 

Sean  iii x,,t ,  i1,…,n  un  conjunto  de  observaciones  independientes, 

que incluyen los tiempos de fallo o de censura, indicador de censura por la 

derecha  y  conjunto  de  variables  explicativas.  Sea  0ii Tlog baTlog , 

con  'xa i0i  un modelo de vida acelerada. Es recomendable que  las 

variables  explicativas  estén  centradas  en  cero  para  mejorar  la 

Page 7: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

93 Análisis de Supervivencia 

interpretación del  intercepto.   La  función de verosimilitud para  b,,0  

es de la forma 

ii 1

i0i*0

n

1i

i0i*0

i0

b

'xtlogS

b

'xtlogf

bt

1b,,L

 

La forma de la verosimilitud anterior depende de la elección particular de 

S0*,  ya  sea  valor  extremo,  logístico  o  normal.  En  cualquier  caso  los 

estimadores se obtienen numéricamente. Estimación por  intervalo de  los 

parámetros y pruebas de hipótesis se obtiene con teoría asintótica usando 

la  aproximación  normal  asintótica  para  los  EMV’s  o  la  distribución 

asintótica ji‐cuadrada para menos dos veces el logaritmo de la estadística 

cociente de verosimilitudes generalizado.  

 

El  comando  survreg  de  la  librería  survival  del  paquete  R  obtiene  estos 

estimadores para las distintas opciones de familias S0*.  

 

Además de estimar  los parámetros del modelo de vida acelerada, es de 

interés  la estimación de  los cuantiles. Sea  xyp  el cuantil de orden p del 

logaritmo de un tiempo de fallo con vector de covariables x, entonces,  

pp bwxaxy , 

donde  p1Sw1*

0p

  es  el  cuantil  de  orden  p  de  una  variable  Y0.  El 

estimador  puntual máximo  verosímil  es  pp wbxaxy   y  estimación 

por intervalo se puede hacer suponiendo normalidad asintótica.  

 

Page 8: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

94 Análisis de Supervivencia 

Los  modelos  de  vida  acelerada  son  particularmente  útiles  cuando  los 

tiempos de fallo de diferentes individuos varían en órdenes de magnitud. 

Es decir, en escala  logarítmica de  los  tiempos de  fallo,  las  funciones de 

densidad y de supervivencia de los individuos tienen la misma forma, pero 

están separados por una distancia  ji aa . En aplicaciones de confiabilidad 

en  ingeniería,  los  tiempos  de  falla  son  acelerados  por  calentamiento, 

voltaje u otro tipo de estrés.  

 

EJEMPLO:  Tiempos  de  supervivencia  de  leucemia.  Feigl  &  Zelen  (1965) 

estudiaron  datos  de  tiempos  de  supervivencia  de  33  pacientes  con 

leucemia. Los tiempos de supervivencia están dados en semanas desde el 

diagnóstico  y  adicionalmente  hay  dos  covariables:  conteo  de  glóbulos 

blancos  (WBC)  al  momento  del  diagnóstico  y  un  indicador  sobre  las 

características de los glóbulos blancos, (AG=1) positivo o (AG=0) negativo.  

 

Los datos se presentan más abajo. Gráficas de diagnóstico inicial son logti 

vs. wbc ó log(wbc) y gráficas de caja y brazos para la logti y cada valor de 

la covariable AG.  

 

Page 9: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

95 Análisis de Supervivencia 

 

 

 

EJEMPLO:  Falla  de  fluido  de  aislamiento.  Nelson  (1972)  presenta  los 

resultados de un experimento en donde especímenes de cierto fluido de 

aislamiento  fueron  sujetos  a  estrés  de  voltaje  constante  con  distintos 

niveles. Se registró el tiempo de falla de cada espécimen. En particular se 

desea  estimar  la  distribución  de  falla  a  un  voltaje  “normal”  de  20  kV. 

Gráficas  de  diagnóstico  sugeridas  para  el  modelo  Weibull  son 

tSloglog j  vs.  logt, para  j1,…,7  los siete distintos niveles de voltaje. 

Adicionalmente, para verificar la relación lineal con la variable explicativa 

se sugiere graficar logTi vs. log(voltaje).  

Page 10: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

96 Análisis de Supervivencia 

 

 

 

5.2 Modelos de riesgos proporcionales   

 

El modelo de riesgos proporcionales fue  introducido por Cox (1972) y ha 

sido el modelo más utilizado en análisis de tiempos de fallo en presencia 

de  covariables.  Este  modelo  también  es  conocido  como  modelo  de 

regresión de riesgos multiplicativos.  

 

Sea Ti el tiempo de falla del individuo i y suponga que  pii2i1i X,,X,X'X  

es  un  vector  de  p  covariables  correspondientes  al  mismo  individuo  i, 

i1,…,n.  

 

El modelo de riesgos proporcionales se definió originalmente en términos 

de la función de riesgo de la siguiente manera  

th,xth 0.ii  

Page 11: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

97 Análisis de Supervivencia 

donde  p1 ,'   en  un  vector  de  dimensión  p  de  coeficientes  de 

regresión,  ,  es una  función que  liga  las covariables con el tiempo de 

fallo y h0 es una función de riesgo base.  

 

La  función  ,   debe  satisfacer  la  condición  1,0 .  La  forma más 

común es  'xi

ie,x . La condición anterior supone que xi no contiene 

intercepto.  

 

Usando  la  función  liga  anterior,  en  escala  logarítmica,  el  cociente  de  la 

función de riesgo del individuo i con respecto al riesgo base es  

'xth

thlog i

0

i , 

el cual tiene forma lineal en los parámetros.  

 

El nombre de riesgos proporcionales se debe al hecho de que el cociente 

de las funciones de riesgo de dos individuos, digamos i y j,  

'xx

i

i jieth

th   (riesgo relativo) 

es una constante en el tiempo cuyo valor depende de la diferencia en los 

valores de  las  covariables de  los dos  individuos. En particular,  si  x1i1  y 

x1j0  representan  tratamiento  y  placebo  respectivamente,  y  todas  las 

demás covariables  se mantienen constante, entonces  1e es el  riesgo de 

presentar  la  falla  con  el  tratamiento  relativo  a  presentar  la  falla  con 

placebo.  

 

Page 12: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

98 Análisis de Supervivencia 

El  modelo  de  riesgos  proporcionales  implica  que  las  funciones  de 

supervivencia y de densidad para el individuo i son, respectivamente 

'xexp0i

itStS ,   y 

'xexp00

'xi

ii tSthetf , 

donde  tHexptS 00   es  la  función  de  supervivencia  base  y 

t

0 00 duuhtH  es la función de riesgo acumulado base.  

 

Una consecuencia del supuesto de proporcionalidad entre  los riesgos de 

dos individuos con covariables xi y xj, es que las funciones de riesgo no se 

intersectan y una debe de estar completamente por arriba de  la otra. Lo 

mismo ocurre  con  las  funciones de  supervivencia. Este  comportamiento 

se puede observar en la siguiente gráfica 

 

Page 13: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

99 Análisis de Supervivencia 

 

Cuando  h0  se  especifica  de manera  paramétrica,  el modelo  de  riesgos 

proporcionales es completamente paramétrico, mientras que si h0 se deja 

sin especificar, el modelo  se convierte en  semiparamétrico. A diferencia 

del modelo de vida acelerada, el caso semiparamétrico en el modelo de 

riesgos proporcionales es el más común en las aplicaciones.  

 

Una característica del modelo de riesgos proporcionales es que si S0(t) es 

miembro de una familia paramétrica específica, por  lo general Si(t) no es 

miembro de la misma familia.  

 

Veamos  algunos  ejemplos  del  modelo  de  riesgos  proporcionales 

completamente paramétricos. 

 

o Riesgo  base Weibull:  Sea  10 tth ,  entonces  la  función  de  riesgo 

para un individuo i con covariables xi es  

1'xi teth i  

Lo que implica que Ti  'xie,Weibull .  

Si  comparamos  este modelo  de  riesgos  proporcionales Weibull  con  el 

modelo  de  vida  acelerada Weibull  nos  damos  cuenta  que  se  trata  del 

mismo  modelo,  pero  con  distinto  vector  de  parámetros  * .  El 

modelo Weibull es el único modelo paramétrico que es a  la  vez de  vida 

acelerada y de riesgos proporcionales.  

 

Page 14: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

100 Análisis de Supervivencia 

o Riesgo base log‐logístico: Sea  t1tth 10 , entonces la función 

de riesgo para un individuo i con covariables xi es  

t1teth 1'xi

i . 

Esta nueva función de riesgo no pertenece a la misma familia.  

 

o Riesgo  base  log‐normal:  Sea  tlog1tS0 ,  entonces  la 

función de supervivencia para un individuo i con covariables xi es 

'xexpi

itlog1tS . 

La  forma  analítica  de  Si(t)  no  es  simple  pero  se  puede  manipular 

numéricamente.   

 

o Riesgo  base  gamma:  Sea  ,tIg1tS0 ,  entonces  la  función  de 

supervivencia para el individuo i con covariables xi es 

'xexpi

i,tIg1tS . 

 

La inferencia para los modelos de riesgos proporcionales paramétricos se 

hace por máxima verosimilitud.  

 

Sean  iii x,,t ,  i1,…,n  un  conjunto  de  observaciones  independientes, 

que incluyen los tiempos de fallo o de censura, indicador de censura por la 

derecha  y  conjunto de variables explicativas. Sean  ,th0  y  ,tS0  

las  funciones de riesgo base y de supervivencia base parametrizadas por 

(,). La función de verosimilitud para  ,,  es de la forma 

Page 15: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

101 Análisis de Supervivencia 

ii

i

i'xexp

i0

n

1ii0

'x ,tS,the,,L

 

La  forma explicita de  la  función de verosimilitud anterior depende de  la 

elección de h0. En cualquier caso, los EMV’s se obtienen numéricamente e 

inferencias para  los parámetros más allá de estimación puntual se basan 

en resultados asintóticos.  

 

ESTIMACIÓN SEMIPARAMÉTRICA DEL MODELO DE RIESGOS PROPORCIONALES  

 

El modelo  de  riesgos  proporcionales  semiparamétrico  surge  cuando  la 

función  de  riesgo  base  h0(t)  se  considera  como  un  parámetro 

desconocido. En este caso es necesario hacer inferencia para  th, 0 .  

 

El  parámetro  de  interés  más  importante  del  modelo  es    y  h0(t)  es 

considerado  parámetro  de  ruido.  En  presencia  de  parámetros  de  ruido 

existen  dos  técnicas  muy  útiles  de  inferencia:  la  verosimilitud  parcial, 

introducida por Cox (1972, 1975) y  la verosimilitud marginal (Kalfleisch & 

Sprott, 1970).  

 

Suponga  que  los  datos  consisten  de  un  vector  de  observaciones 

n1 T,,TT  de la densidad  ,tf , donde  es el vector de parámetros 

de  interés  y   es  un  parámetro  de  ruido,  por  lo  general  de  dimensión 

infinita o muy grande,  como es el  caso de  la  función de  riesgo base en 

nuestro modelo de riesgos proporcionales.  

Page 16: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

102 Análisis de Supervivencia 

 

Suponga  ahora  que  los  datos  T  son  transformados  en  un  conjunto  de 

variables  mm11 B,A,B,A  de  forma uno a uno, y sean  j1j A,,AA  y 

j1j B,,BB .  Suponga  que  la  función  de  densidad  conjunta  de 

mm B,A   se  puede  escribir  como  el  producto  de  una  verosimilitud 

marginal y otra condicional  

mmm af,,abf,tf . 

El  segundo  factor  de  la  expresión  anterior  es  llamado  verosimilitud 

marginal, e  incluso en modelo complicados, no dependerá de  y puede 

ser usada para realizar inferencias sobre . Noten que el primer factor por 

lo  general depende de   y de , por  lo que parte de  la  información  se 

perderá al usar únicamente el segundo factor.  

 

Un  segundo  enfoque  para  estimar    es  el  descomponer  la  densidad 

conjunta de  mm B,A  como 

m

1j

1jjj

m

1j

1j1jj ,a,baf,,a,bbf,tf . 

El  segundo  término  es  llamado  verosimilitud  parcial.  Nuevamente 

observamos que parte de la información de los datos sobre  se perderá si 

únicamente se usa el segundo término.  

 

Sean  )D()2()1( ttt   los  tiempos de  fallo observados de manera exacta 

ordenados.  Sea  )j(x   la  covariable  asociada  al  individuo  cuyo  tiempo  de 

fallo  es  )j(t . Definimos  el  conjunto de  riesgo  )j(tR como  el  conjunto de 

Page 17: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

103 Análisis de Supervivencia 

todos  los  individuos que están en riesgo  justo antes de  )j(t . Sin entrar en 

detalles, si Aj especifica  la  información de  los  individuos que fallan y Bj  la 

información de  las  censuras y de  las  covariables en  )t,t[ )j()1j( ,  se puede 

demostrar que la verosimilitud parcial para  es 

D

1j tRi )j(i

)j()j(

)j(th

thpL . 

Expresando esta verosimilitud parcial en términos de  las covariables y  la 

función de riesgo base, tenemos 

D

1j tRi i

)j(

)j('xexp

'xexppL , 

la cual no depende de h0(t). Vale la pena notar que el numerador depende 

sólo  de  la  información  del  individuo  que  falla,  mientras  que  el 

denominador  usa  información  de  todos  los  individuos  que  aún  no  han 

experimentado el fallo, incluyendo aquellos que se censurarán después.  

 

Esta verosimilitud parcial es tratada como cualquier otra verosimilitud. Se 

saca  logaritmo, se deriva, se  iguala a cero y se obtienen  los estimadores 

máximo verosímiles parciales de . Recuerden que como  es un vector de 

dimensión p, se  tendrán que obtener p derivadas parciales y se  tendrán 

que  resolver  p  ecuaciones  simultáneas.  La  mayoría  de  los  paquetes 

estadísticos obtienen estos estimadores de manera numérica mediante el 

uso de algoritmos de Newton‐Raphson.  

 

Page 18: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

104 Análisis de Supervivencia 

Pruebas de hipótesis e  intervalos de confianza para  se pueden obtener 

notando  que    el  estimador  máximo  verosímil  parcial  tiene  una 

distribución  asintótica  normal  con  media    y  matriz  de  varianzas  y 

covarianzas  estimadas  1

.ˆI

.  La  prueba  de  hipótesis más  común  para 

00 :H   se  basa  en  la  normalidad  asintótica  y  es  llamada  prueba  de 

Wald. La estadística de prueba es  0.

'

0ˆˆIˆW  tal que  2

)p(W  

si H0 es verdadera y para un tamaño de muestra grande.  

 

Otras estadísticas de prueba se basan en menos dos veces el cociente de 

verosimilitudes parciales generalizado, cuya distribución asintótica es una 

ji‐cuadrada con p grados de libertad.  

 

Vale la pena notar que en presencia de empates (múltiples individuos con 

el mismo tiempo de falla), es necesario hacer un ajuste a la verosimilitud 

parcial que reconozca la naturaleza discreta de las observaciones.  

 

Si  las  funciones base  son  también de  interés, es posible estimar H0(t)  y 

S0(t).  Breslow  (1974)  propuso  un  estimador  para  la  función  de  riesgo 

acumulado  generalizando  el  estimador de Nelson‐Aalen.  Este  estimador 

se justifica mediante procesos de conteo. La forma del estimador es:  

tt:i

n

1j

ˆ'xij

i0

ijetY

tH , 

Page 19: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

105 Análisis de Supervivencia 

donde  ttItY i.i  es una v.a. indicadora. Cuando  0ˆ  este estimador 

se  reduce  al  estimador  Nelson‐Aalen.  Finalmente,  usando  la  relación 

continua entre las funciones de riesgo acumulado y la de supervivencia 

tHexptS 00 . 

Cuando  0ˆ ,  este  estimador  no  se  reduce  al  estimador  Kaplan‐Meier, 

sino al estimador conocido como Fleming‐Harrington.  

 

Es posible obtener intervalos de confianza para los estimadores anteriores 

calculando el error estándar y usando normalidad asintótica.  

 

Vale la pena mencionar que el modelo de riesgos proporcionales, como lo 

propuso  originalmente  Cox,  permite  la  incorporación  de  covariables 

dependientes  del  tiempo.  Es  decir,  variables  explicativas  cuyo  valor  va 

cambiando conforme avanza el tiempo de supervivencia.  

 

EJEMPLO. Tiempos de  remisión. Los  siguientes datos consisten en  tiempos 

de  remisión para 40 pacientes con  leucemia asignados aleatoriamente a 

los tratamientos A o B.  

 

 

EJEMPLO.  Pacientes  con  cáncer  de mama.  Se  desarrolló  un  estudio  para 

determinar  si  los  pacientes  originalmente  clasificados  como  “nodo 

linfático negativo” se podían clasificar de una mejor manera mediante un 

Page 20: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

106 Análisis de Supervivencia 

nuevo  procedimiento.  45  pacientes  con  un  mínimo  de  10  años  de 

seguimiento fueron seleccionados. De los 45, 9 fueron inmunoperoxidasa 

positivo y  los restante 36 fueron negativos. Se registraron los tiempos de 

supervivencia, desde el diagnóstico, en meses.  

 

 

 

5.3 Validación de supuestos y ajuste del modelo   

 

AJUSTE DEL MODELO. Una vez que un modelo de regresión de supervivencia 

ha sido ajustado, es necesario validar los supuestos del modelo a la luz de 

los  datos  y  verificar  sensibilidad  de  las  conclusiones  en  cambios  en  los 

modelos o los datos. Hay varias formas de hacer esta validación:  

 

1. Mediante  las gráficas empíricas de de ajuste usando el estimador KM 

de la función de supervivencia.  

 

2. Expansión  del  modelo  agregando  más  parámetros  que  representen 

modificaciones  a  las  especificaciones  actuales.  La  necesidad  de  un 

Page 21: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

107 Análisis de Supervivencia 

parámetro extra se puede validar mediante pruebas de hipótesis. Por 

ejemplo:  

 

o Agregando  más  covariables,  o  interacciones  de  las  covariables 

actuales o términos no lineales.  

 

o Permitir que el parámetro b en un modelo de  vida acelerado  sea 

función de x.  

 

o Permitir interacciones de las covariables con el tiempo mediante la 

inclusión de covariables dependientes del tiempo (en el modelo de 

riesgos proporcionales).  

 

o Expandir  la  familia  base  S0*  a  que  sea  más  general  con  más 

parámetros.  

 

ANÁLISIS DE RESIDUOS. Es común en análisis de regresión hacer un análisis de 

residuos para  validación de  los  supuestos del modelo.  Si un modelo de 

regresión  es  ajustado  a  variables  independientes  iii x,,t ,  i1,…,n, 

entonces los residuos  ˆ,x,tge iii  deben de tener ciertas propiedades si 

el modelo es correcto, como independencia con la misma distribución.  

 

o Modelo de vida acelerada. En este  caso nuestros parámetros de  interés 

son  b,,0 .  Si  b,ˆˆ 0   denotan  los  EMV’s  entonces  los  residuos 

definidos como  

Page 22: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

108 Análisis de Supervivencia 

b

atlogz iii

, i1,..,n 

con  ˆ'xˆa i0i  deberían de parecer una m.a. de S0*. Nótese que estos 

residuos  sólo  existen  para  observaciones  exactas.  Par  el  caso  de 

observaciones censuradas se sugiere hacer una corrección 

iiiiiadji zZZE1zz  

donde Zi es una v.a. con función de supervivencia S0*. Gráficas de zi o 

adjiz  

vs. covariables deberían de mostrar un patrón constante. Gráficas de zi o 

adjiz  vs.  ia  apoyarían el supuesto del parámetro b constante. Finalmente 

gráficas de probabilidad de zi o adjiz  con respecto a la distribución base S0

apoyarían el supuesto paramétrico.  

 

o Modelo  de  riesgos  proporcionales  (y  otros modelos  de  regresión).  Una 

forma  genérica  de  definir  los  residuos  es  ˆ,x,tge iii .  Por  ejemplo, 

,xTFe iii   o  ,xTSe iii   tienen  una  distribución  U(0,1).  Una 

transformación equivalente que es muy útil en análisis de  supervivencia 

es  ,xTHe iii .  Dado  que  ,xTSlog,xTH iiii ,  los  ei’s  obtenidos 

con  la  función  de  riesgo  acumulado  son  v.a.’s  independientes  con 

distribución Exp(1). Definir  los  residuos ajustados para datos censurados 

es  simple  si  vemos  que  1Expei   entonces  1eeeeE iiii ,  por  lo 

tanto 

ˆ,xTHe iii      y     iiadji 1ee . 

Page 23: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

109 Análisis de Supervivencia 

Nótese que  ˆ'x

0iietHˆ,xtH  para el modelo de riesgos proporcionales, 

con  tH0  el estimador de Breslow. Los residuos  ie  son llamados residuos 

de Cox‐Snell.  

Para  verificar  que  una muestra  de  residuos  ie   siguen  una  distribución 

Exp(1),  se  calcula  la  función  de  riesgo  acumulada  empírica  (estimador 

Nelson‐Aalen)  de  los  residuos  y  se  compara  con  la  función  de  riesgo 

acumulado de un modelo Exp(1) que es  ttH . Por lo tanto si el modelo 

de  riesgos  proporcionales  ajusta  los  datos,  la  gráfica  del  estimador 

Nelson‐Aalen de los residuos debe de ser una línea recta que pasa por el 

origen. 

 

Page 24: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

110 Análisis de Supervivencia 

 

5.4 Comparación de curvas de supervivencia   

 

En análisis de supervivencia es de  interés probar si dos tratamientos dan 

lugar  a  curvas  de  supervivencia  distintas.  Si  la  diferencia  entre 

tratamientos  está  parametrizada  por  un  modelo  de  regresión 

semiparamétrico,  probar  la  diferencia  entre  curvas  de  supervivencia  es 

quivalente  a  realizar  una  prueba  de  hipótesis  sobre  el  parámetro  que 

cuantifica la diferencia.  

 

En  un  contexto  general,  fuera  de modelos  paramétricos,  es  de  interés 

probar  tStS:H 210 , o equivalentemente  thth:H 210 .  

 

De manera  introductoria, supongamos que un  individuo puede presentar 

su evento de fallo dentro de cierta ventana de tiempo t (fija). En este caso, 

podemos dividir a  los  individuos de ambas poblaciones en aquellos que 

presentaron  su  evento  de  fallo  en  un momento  anterior  o  igual  a  t  y 

aquellos que no. Esta  información se puede representar en una tabla de 

contingencia:  

  Num. Fallas  Num. No fallas   

Pob. 1  a  b  n1 

Pob. 2  c  d  n2 

  m1  m2  n 

 

Page 25: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

111 Análisis de Supervivencia 

o Sea p1P(falla | Pob. 1) y p2P(falla | Pob. 1). La hipótesis de  interés  se 

puede escribir como  210 pp:H .  

 

o Prueba exacta de Fisher: Sea A la v.a. que da lugar a la observación “a” de 

la  celda  (1,1).  Considerando m1, m2,  n1,  n2  cantidades  fijas,  bajo  H0,  A 

tienen una distribución hipergeométrica de la siguiente forma:  

1

1

21

m

n

am

n

a

n

aAP , 

con media y varianza dadas por  

n

mnAE 11   y  

1nn

mmnnAVar

22121

Podemos definir la estadística de prueba  

2

AVar

AEaW

,  

la cual bajo H0 tiene una distribución asintótica 2)1( . La región de rechazo 

sería  2),1(wRR . 

 

o Prueba  de  log‐rangos  .  Sean  t1,t2,…,tk,  kn1+n2  los  k  tiempos  de  fallo 

observados para  la muestra combinada de  las dos poblaciones. Suponga 

que para  cada  tj,  j1,…,k obtenemos valores n1j, n2j, m1j y m2j. Entonces 

para  probar  la  hipótesis  j2j10 pp:H   para  j1,…,k,  construimos  la 

estadística W de la siguiente manera:  

Page 26: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

112 Análisis de Supervivencia 

2

k

1j j

k

1jjj

AVar

AEa

W

Aunque los componentes de la suma no sean independientes, bajo H0, W 

tiene  una  distribución  asintótica  2)1( .  La  región  de  rechazo  es 

2),1(wRR . La estadística  W  es también conocida como estadística 

Mantel‐Haenszel (1959).  

 

o Existe  una  versión más  general  de  la  prueba  para  comparar  curvas  de 

supervivencia que permite ponderar la contribución de cada observación. 

La estadística de prueba es 

k

1j j1Y

dY

Y

Y

Y

Y2j

k

1j Y

d

1j1jj

d1tW

YdtWZ

i

jj

j

1j

j

1j

j

j

,  

donde  1jd  y  2jd  son el número de fallos en el tiempo tj de la muestra 

combinada,  1jY  y  2jY  son el número de individuos en riesgo al tiempo tj, 

para las poblaciones 1 y 2 respectivamente;  2j1jj ddd ;  2j1jj YYY .  

 

La  estadística  Z,  bajo  H0,  tiene  una  distribución  asintótica  normal 

estándar.  Con  esta  estadística  es  posible  hacer  pruebas  de  una  sola 

cola para probar que una curva de supervivencia es mayor a otra, o de 

dos colas para probar diferencias en cualquier sentido.  

Page 27: ITAM - Correo electrónico para académicos y empleados del ITAMallman.rhon.itam.mx/~lnieto/index_archivos/NotasAS5.pdf · vida acelerada y modelo de riesgos proporcionales. 5.1 Modelos

PROFESOR: LUIS E. NIETO BARAJAS 

113 Análisis de Supervivencia 

Opciones para  la función de ponderación son:  1tW j  con  la que se 

obtiene  la prueba de  log‐rangos,  jj YtW  con  la que se obtiene una 

generalización de la prueba de Mann‐Whitney‐Wilcoxon.  

 

o Esta  prueba  se  puede  calcular  en  R  con  la  librería  survival mediante  el 

comando survdiff.