Modelos mixtos de suavizado - UC3M

Modelos mixtos de suavizado

Maria Durbán

Universidad Carlos III de Madrid

Septiembre 2010

Maria Durbán () Septiembre 2010 1 / 68

1 Modelos de suavizado2 P-splines3 P-splines como modelos mixtos4 Aplicaciones


Modelos de suavizado

Ensayos clínicos en el Dana Faber Cancer Institute, Boston USADatos longitudinales: altura de 197 niñas sometidas a trestratamientos por leucemia linfoblástica aguda.

¿Cuál es el efecto a largo plazo de las terapias en la altura de lasniñas?

age (years)

heig

ht (

cm)

●●

●

●●

●

●

●

●

●

●●

● ●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

● ●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●

●

●

●●

●●●

●● ● ●

●●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●●

●

●●

●

●

●●

●

●

●

●

●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

80

100

120

140

160

5 10 15 20

hyperfractionated radiation

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

● ● ●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

●●

●

●

●●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●●

●●

● ●

●

●

●●

●

●

●

●●

●●

●●

●

●

●

●

●

●

●

●●

●● ●●● ● ●

●

●

●●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●●

●

●

●

●

●●●

●

●●

●

●

●

●

●

●

●

●

●

●● ● ●

●●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●

●

●

●

●

●

●

●●●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●●

●

●

●

●

● ●

●●

●

●

●●

●●

●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●

● ●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●● ●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●● ●

●●

●

●●

●●

●

●

●●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●●

●●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●●

●

●

●

●

●

●●

●

●

●

●

●●

●●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●●

●

●●

●

●

●●

●

●

●

●●

●

●

●

●

● ●

●

●

●

●

●●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●●

●

●

●

●

●

●●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●●

●●

●

●●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●●

●

●

●

●

●●●●

●●

●●

●●

●

●

●●

●●

●

●

●●

●●

●●

●

●

●●

●

●

●●

●

●

●

●●

●

●

●●●

●

●●●

●●

●

●

●●●

●

●

●

●

●

●

●●●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●●●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●●

●●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●●●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●●

●

●

●

●

●●

●

● ●●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

NO radiation

5 10 15 20

●●

●

●

●

●●

●

●

●

●●

●

●

●

●●

●● ● ●

●●

●●

●

●●

●●

●

●

●

●

●

● ●● ●

●●

●●

●●

●

●●

●

●

●

●

●●

●●

● ●

●

●●

●

●

●

●

●

●

●●

●

●

●●

●●

●●

●

●●

●●

●●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

● ●

●●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●●●

●●

●

●●

●●

●

●

●●

●●●

●

●

●

●●

●●●

●

●●●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●●●

●●

●

●

●

●

●

●

●●

●

●●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●●

●

●●

●

5 10 15 20

standard radiation


Modelos de Suavizado

Para cada niña, la altura aumenta de forma suave a los largo de losaños.

Un modelo apropiado para estos datos sería:

y = f (x) + ε

donde x es la variable explicativa (edad), f es una función suave de xque depende de λ =el parámetro de suavizado

Los métodos de suavizado se dividen en dos grupos:

Los especificados por el método de ajuste: KernelsLos que son el resultado de minimizar una función: Splines


Modelos de Suavizado

10 12 14

age

135

140

145

150

155

160

heig

ht


P-splines

Eilers and Marx, 1996.Son una generalización del modelo de regresión.Utiliza la verosimilitud, modificada por una penalización.

y = f (x) + ε f (x) ≈ Ba S = (y − Ba)′(y − Ba) + λa′Pa

a = (B′B + λP)−1B′y

B es la base para la regresión:B-splinesPolinomios truncadosBases radiales...


P-splines

Eilers and Marx, 1996.Son una generalización del modelo de regresión.Utiliza la verosimilitud, modificada por una penalización.

y = f (x) + ε f (x) ≈ Ba S = (y − Ba)′(y − Ba) + λa′Pa

a = (B′B + λP)−1B′y

P es la penalización:En el caso de los spline cúbicos λ

∫(f ′′(x))2

En el caso de los P-splines se utiliza una aproximación discreta


P-splines

10 12 14

age

140

150

160

heig

ht


B-splines

Trozos de polinomios de grado p unidos de forma suave en nodosinternosEl número de B-splines en la base, determinado por el número denodos y p.Tienen forma de campana de Gauss. Están desplazadashorizontalmente.No padecen de efectos de frontera comunes en kernels.

Polinomios Truncados

1, x , x2, . . . , xp, {(x − t1)+}p , . . . ,{

(x − tk )p+

}p donde x+ = max(0, x).

Más fáciles de construirPeores propiedades numéricas en algunos casos.


B-splines

0 10 20 30 40

0.0

0.1

0.2

0.3

0.4

0.5

0.6

B-spline basis

0 10 20 30 40

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Scaled B-splines and their sum

0 10 20 30 40

010

2030

Truncated lines basis


Penalizaciones

Una aproximación discretaPenaliza las diferencias entre los coeficientes adyacentes⇒reduce la dimensión del problema de n el número de datos a k elnúmero de B-splinesLineal (a1 − a2)2 + (a2 − a3)2 + . . .+ (ak−1 − ak )2

Cuadrática (a1 − 2a2 − a3)2 . . .+ (ap−k − 2ak−1 + ak )2

Se puede escribir en forma matricial como:

P = D′D

D es la matriz de diferencias


Efecto de la penalización

28 CHAPTER 2. SMOOTHING MIXED MODELS

we have that the penalty is equivalent to

(θ1 + 2θ2 + θ3)2 + ...+ (θc−2 + 2θc−1 + θc)

2 = θ′D′Dθ . (2.6)

Note that, other orders might be more appropiate in some cases. Figure 2.2 illustratesthe performance of the P -spline methodology. We simulated n = 100, (xi,yi) points,from the function f(xi) = 1.2 + sin(5xi) + εi , with εi ∼ N (0, 0.2) and xi ∼ Unif[0, 1].Figure 2.2 (a) shows the P -spline fit without penalty (i.e. λ = 0), corresponding to asimple B-spline regression. Figure 2.2 (b) shows the P -spline fit with a penalty (with λfixed to 10). In both figures, we used a cubic spline for the B-spline basis (p = 3), withm = 20 knots and a second order penalty (q = 2). In both figures we also represent theB-splines bases multiplied by the vector of coefficients θ (represented in circles).

(a) B-splines with unpenalized coefficients (b) B-splines with penalized coefficients

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

x

y

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

● ●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

x

y

●

●

●

●

●

●●

● ●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

Figure 2.2: (a) fitted curve with unpenalized coefficients (red circles). Bottom: fittedcurve with penalized coefficients (blue circles).

It is obvious that the shape of the fitted curve is influenced by the value of the smoo-thing parameter. The smoothing parameter controls the trade-off between the model fitand the model smoothness. Then, when λ → ∞ the fitted curve tends to a polynomialof degree d − 1, if the degree of the B-spline is equal to or higher to the penalty order,i.e. if q ≥ d. When λ = 0, the result is a the least squares estimate in (2.3). Therefore,the estimation of the degree of smoothness for the model consists in the estimation ofthe smoothing parameter λ. We discuss the selection of the optimal amount of λ in nextsection. Figure 2.3 shows the fitted curves for different values of λ.


¿Por qué P-splines?

El número de funciones en la base no crece con el tamaño de lamuestra (entre 5 y 40 nodos).Robustos con respecto a la elección de nodos (Ruppert, 2000).Computacionalmente sencillos.No necesitan utilizar el “backfitting algorithm” en el caso demodelos aditivos.Se extiende de forma sencilla al caso de 2 o más dimensiones, yal caso de datos no Gaussianos.Método sencillo para hacer predicciones


P-splines como modelos mixtos: caso 1-d

y = f (x) + ε ε ∼ N(0, σ2I)Modelos aditivos sin “backfitting”⇒ transformar las bases de Bsplines.

Suponemos que f (x) = Ba.Ba se puede escribir como la suma de una parte polinómica (lineal) y otraque no lo es:

Xβ + Zα

10 12 14

age

135

140

145

150

155

160

heig

ht



y = f (x) + ε ε ∼ N(0, σ2I)Modelos aditivos sin “backfitting”⇒ transformar las bases de Bsplines.

Suponemos que f (x) = Ba.Ba se puede escribir como la suma de una parte polinómica (lineal) y otraque no lo es:

Xβ + Zα

10 12 14

age

135

140

145

150

155

160

heig

ht



Queremos reparametrizar y = Ba + ε, ε ∼ N(0, σ2I)

La suavidad se impone mediante la matriz de penalización P = D′DP rango deficiente⇒ buscamos una transformación uno a uno para loscoeficientes:

a = T[

βα

]

β corresponde a la parte de la función suave no penalizada por P

α es ortogonal a β y es penalizada por P

T no es única,utilizamos la d.v.s. de la penalización para construirla:





a = T[

βα

]




DDT= sU nU

00

Σ~ TsUTnU





a = T[

βα

]




T = [Un : Us]⇒ β = U ′na α = U ′sa



U ′nPUn = 0⇒ a′Pa = α′ Σ︸︷︷︸diagonal

α

Ba = BT[

βα

]= Xβ + Zα

Verosimilitud Penalizaday = Ba + ε, ε ∼ N(0, σ2I)

⇓(y − Ba)′(y − Ba) + λa′Pa

Verosimilitud de un modelo mixto

(y − Xβ − Zα)′(y − Xβ − Zα) + λα′Σα⇓

y = Xβ + Zα + ε, α ∼ N(0, σ2αΣ−1

), ε ∼ N(0, σ2I)

λ =σ2

σ2α



Ventajas

Eficientes con conjuntos de datos grandes, lo cual no seríaposible con splines de suavizado.Se implementan de forma sencilla en Splus y R.lme(y~X-1,random=pdIdent(~Z-1))

GAM⇒ GLMM.


Modelos de suavizado en dos o más dimensiones

Datos sobre el número de pólizas de seguros en UKFuente: Continuous Mortality Investigation Bureau (CMIB).Para cada año (1947-1999) y cada edad (11-100) tenemos:

Años de vida (exposición).

Número de pólizas reclamadas (muertes).


Modelos de suavizado en dos o más dimensiones

Modelos aditivos (Hastie y Tibshirani, 1987):

y = f (x1) + f (x2) + ε

Hipótesis de aditividad demasiado restrictiva→ superficie no aditiva.Varios enfoques:

Thin plate splines⇒ problemas computacionales, isotrópicoP-splines con bases radiales⇒ isotrópico, localización de nodos.

Solución: Base de B-splines en 2-d con penalización no-isotrópica yque permita la representación como modelos mixtos.


P-splines en dos dimensiones

y = f (x1,x2) + ε

yij , i = 1, . . . ,n1, j = 1, . . . ,n2, organizados en un array con n1 filas y

n2 columnas,

f (x1,x2) ≈ Ba B = B2 ⊗ B1 ⇒ Ba = B1AB2

B1 matriz n1 × c1 de B-splines para el suavizado a lo largo de x1

B2 matriz n2 × c2 de B-splines para el suavizado a lo largo de x2

Penalizar las filas y columnas de la matriz de coeficientes A equivalea:

P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2 ⊗ Ic1

λ1 6= λ2 → no isotrópico.


P-splines en dos dimensiones

5

1015

20

x12

46

810

1214

16

x2

00.

10.

20.

30.

40.

52-

d B

-spl

ine


P-splines en dos dimensiones como modelos mixtos

Ahora es más complicada debido a la forma de la penalización:

P = λ1 Ic2 ⊗ D′1D1︸︷︷︸P1

+λ2 D′2D2 ⊗ Ic1︸︷︷︸P2

Nueva base que permita escribir el modelo anterior como:

y = Xβ + Zα + ε α ∼ N(0, σ2αG) ε ∼ N(0, σ2I),

La nueva base se basa en la diagonalización simultánea de P1 y P2.



Ahora es más complicada debido a la forma de la penalización:

P = λ1 Ic2 ⊗ D′1D1︸︷︷︸P1

+λ2 D′2D2 ⊗ Ic1︸︷︷︸P2

Nueva base que permita escribir el modelo anterior como:


La nueva base se basa en la diagonalización simultánea de P1 y P2.




X = X 2 ⊗ X 1

Z = [Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1]

G =

λ2Σ2s ⊗ Iq1

λ1Iq2 ⊗Σ1sλ1Ic2−q2 ⊗Σ1s + λ2Σ2s ⊗ Ic1−q1

−1



La descomposición de la penalización a partir de lasdescomposiciones de las penalizaciones individuales permite:

⇓Descomponer la superficie como suma de funciones suaves encada dirección, más un término de interacción:f (x) + f (y) + f (x , y)

Clarifica el papel de la penalizaciónNo necesita imponer ninguna restricción para evitar problemas deidentificabilidad.



Ejemplo: Datos en un enrejado de 30Datos simuladosB1, 30× 13, y B2, 20× 10

X = (X 2 ⊗ X 1)

Z = (Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1).

Esta descomposición facilita dos cosas:1 Descomponer la superfice.2 Ajustar submodelos⇒ enfoque jerárquico que facilitará la

selección del modelo.



Data Term for X1

Term for X2 Interaction term

Fitted surface



Comentarios

Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS

Z puede ser una matriz muy grande⇒ problemas con los cálculos

⇓

Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B


P-splines bayesianos

y = f (x) + ε

Para definir distribución a priopi para la función suave f = Ba:

Definir la matriz de diseño B

Distribución a priori de los coeficientes a

En general:

p(a|σ2a) ∝ exp

(− 1

2σ2a

a′Pa)

P penaliza los saltos no suaves entre coeficientes vecinos

P tiene rango deficiente⇒ la a priori de a es parcialmente impropia

1/σ2a es equivalente al parámetro de suavizado


P-splines bayesianos

1 A priopi para covariables continuas:

Paseo Aleatorio:

aj = aj−1 + uj aj = 2aj−1 − aj−2 + uj uj ∼ N(0, σ2a)

⇓P = D′D

2 A priori para efectos espaciales

Markov Random Field

aj |aj′ , j ′ 6= j ∼ N

1Nj

∑j′∈∂j

a′j ,σ2

a

Nj


Software

Hay dos paquetes en R que permiten trabajar con P-splines comomodelos mixtos:

1 SemiPar (Ruppert, Wand y Carroll).Utiliza bases de polinomios truncados o radialesSencillo de usar pero no muy eficiente en dos dismensiones

2 mgcv (Simon Wood)Muy completo. Permite utilizar distintas basesEficiente en dos dimensiones si los datos no están en un enrejadoP-splines como modelo mixtos o de forma clásica

En el contexto bayesiano:1 BayesX (Brezger, Kneib y Lang)2 ggamm (Thomas Kneib). Son una serie de funciones en R para

ajustar modelos geoaditivos.


Aplicación a datos longitudinales

Ensayos clínicos en el Dana Faber Cancer Institute, Boston USADatos longitudinales: altura de 197 niñas sometidas a tres tratamientos porleucemia linfoblástica aguda.

¿Cuál es el efecto a largo plazo de las terapias en la altura de las niñas?

age (years)

heig

ht (

cm)

●●

●

●●

●

●

●

●

●

●●

● ●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

● ●

●

● ●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●

●

●

●●

●●●

●● ● ●

●●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●●

●

●●

●

●

●●

●

●

●

●

●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

80

100

120

140

160

5 10 15 20

hyperfractionated radiation

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

● ● ●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

● ●

●●

●

●

●●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●●

●●

● ●

●

●

●●

●

●

●

●●

●●

●●

●

●

●

●

●

●

●

●●

●● ●●● ● ●

●

●

●●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●●

●

●

●

●

●●●

●

●●

●

●

●

●

●

●

●

●

●

●● ● ●

●●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ● ●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●

●

●

●

●

●

●

●●●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●●

●

●

●

●

● ●

●●

●

●

●●

●●

●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●

● ●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●● ●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

● ●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●● ●

●●

●

●●

●●

●

●

●●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

● ●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●

●●

●●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●●

●

●

●

●

●

●●

●

●

●

●

●●

●●●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●●

●

●●

●

●

●●

●

●

●

●●

●

●

●

●

● ●

●

●

●

●

●●

●●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●

●●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●●

●

●

●

●●●

●●

●

●

●

●

●

●●

●

●

●●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●●

●●

●

●●

●

●●

●

●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●●●

●

●

●

●

●

●

●●

●

●●

●

●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●●

●

●

●

●

●●●●

●●

●●

●●

●

●

●●

●●

●

●

●●

●●

●●

●

●

●●

●

●

●●

●

●

●

●●

●

●

●●●

●

●●●

●●

●

●

●●●

●

●

●

●

●

●

●●●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●

●

●

●

●

●●

●●●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●●

●

●

●●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●●

●●

●●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●●

●

●

●●●

●●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●●

●

●

●

●

●●

●

● ●●

●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

NO radiation

5 10 15 20

●●

●

●

●

●●

●

●

●

●●

●

●

●

●●

●● ● ●

●●

●●

●

●●

●●

●

●

●

●

●

● ●● ●

●●

●●

●●

●

●●

●

●

●

●

●●

●●

● ●

●

●●

●

●

●

●

●

●

●●

●

●

●●

●●

●●

●

●●

●●

●●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

● ●

●●●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●

●●

●

●

● ●

●

●

●

●

●

●

●

●

●●

●

●

●

●●

●●

●●

●

●

●

●

●●

●

●

●

●●

●

●

●

●

●

●

●

●●●

●●

●

●●

●●

●

●

●●

●●●

●

●

●

●●

●●●

●

●●●

●

●

●●

●

●

●

●

●

●

●●●

●

●

●

●●●

●●

●

●

●

●

●

●

●●

●

●●

●●●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●

●●●

●●

●

●●

●

5 10 15 20

standard radiation



yij → altura de la niña i i = 1, . . . ,m con edad xij , j = 1, . . . ,ni

Modelo básico ( Laird and Ware, 1982):

yij = β0 + β1xij + Ui + εij Ui ∼ N(0, σ2U) εij ∼ N(0, σ2

ε)

β0 → media Ui → ordenada en el origen aleatoria para la niña i . Un solo

parámetro.

La hipótesis de linealidad no es coherente con los datos

⇓

yij = f (xij ) + Ui + εij



yij = f (xij) + Ui + εij

En este modelo la diferencia entre la niñas viene reflejada sólo por laordenada en el origen→ curvas de crecimiento son paralelas

⇓

Extensión: considerar que las diferencias individuales vienen dadaspor líneas.

yij = f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σ2ε ) (ai1,ai2)T ∼ N(0,Σ)



Un modelo más flexible→las diferencias específicas de cada individuo sonfunciones no-paramétricas→ Psplines

yij = f (xij ) + gi (xij ) + εij ,

Cada curva individual tiene dos componentes: lineal y no-lineal: ambasaleatoriasAunque es un modelo complejo tiene representación sencilla en el contextode los modelos mixtos: Y = Xβ + Zu + ε

Uno de los objetivos del estudio: Comparar los efectos a largo plazo de tresterapiasAjustamos una curva para cada terapia:

yij = fgr(j)(tij ) + gi (tij ) + εij 1 ≤ i ≤ 197 1 ≤ j ≤ ni



Interés:

Estimar el efecto medio de los tratamientos

Estimar las respuestas individuales a los tratamietos

Para comparar las curvas de tratamiento comparamos los modelos:

yij = fgr(j)(xij ) + gi (xij ) + εij ,yij = f (xij ) + gi (xij ) + εij ,

Problema: contrastar que un parámetro de varianza = 0

⇓

Bootstrap→computacionalmente intensivo

RLRT →aproximadamente12χ2

2 +12χ2

3


Aplicación a datos longitudinalesResultado:

La altura se ve afectada por las distintas terapias

Los tres grupos tienen tendencias similares pero ausencia de radiación→niñasmás altas

Confirma resultados que asocian la radiación con deficiencia de hormona delcrecimiento

5 10 15

Age (in years)

100

120

140

160

Hei

ght (

in c

m)

treatment 1treatment 2treatment 3

5 10 15

Age (in years)

-20

-15

-10

-50

5

Diff

eren

ce

treatment 3 vs 1treatment 2 vs 1



Para comprobar si la respuesta individual al tratameinto es lineal o no,comparamos:

yij = fgr(j)(xij) + ai1 + ai2xij + εij ,

yij = fgr(j)(xij) + gi(xij) + εij ,

5 10 15

Age (in years)

-20

-10

010

20

Ran

dom

effe

cts

Resultado: La variación entre-individuos es considerable. Efectos aleatorios linealesno decribirían correctamente la variación intra-individuos



5 10 15Age (in years)

100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

heig

ht (i

n cm

)

La desviación de cada niña respecto de media poblacional debe ser modelizada deforma no-paramétrica




100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

heig

ht (i

n cm

)

Las curvas de grupo no reflejan la respuesta individual→ se pierde información si nose utilizan curvas individuales




100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

Hei

ght (

in c

m)


100

120

140

160

heig

ht (i

n cm

)

No tener en cuenta de forma correcta la variación individual puede afectar a lacomparación entre las curvas para las distintas terapias


Aplicación a áreas pequeñas

Hasta ahora no se habían usado métodos de regresión no-paramétricapara estimación de áreas pequeñas

P-spline como modelos mixtos + efectos aleatorios para cada área⇒modelo mixto

Estos modelos permiten mejorar las predicciones en áreas donde nohay datos disponibles

Northeastern U.S. lakes survey

334 lagos, 551 medidas

133 áreas pequeñas, en algunas no hay datos

Variablede interés: Capacidad de neutralizacón de ácidos: indicador delriesgo de acidez

Covariables: Posición geográfica y elevación



●●●●

●●●●●●●●

●●

●●●●● ●●●

●●●

●●●

●

●●●

●●●

●●

●●●●●●●

●●●●●

●● ●

● ●

●●●

●●●

●

●

●●

●

●

●

●

● ●

●●

●

●

●

●●

●●●

●●●

●●●

●●●

●●●

●

●

●●●●

●

●

●●

●●●

●

●

●●

●

●●●

●

●●

●●●

●●●

●●●●●●●

●

● ●●●●

●●●●

●●

●●●●●●●●●

●●●●

●●●●●●

●●●●●●

●●

●●●●●●●●●●●●●

●●●

●●●

●●

●

●●●●

●●●●

●●●●

●●

●

●●●

●●●

●●●

●●

●●

●●●●

●●●●

●

●●

●●●●●

●●●●●

●●

●

●

●●●●

●

●

●●

●

●

●●

●

●

●●●●

●●

●●●●●●

●●●

●●

●●

●

●

●●●

●●●●●●●

●

●

●●●

●●

●●●●●●●● ●●

●●●

●

●●

●●●●●

●

●

●

●

●●●●●

●●●●●

●●●

●●●●●

●●●●●●●

●●●●

●●

●●●●●

●●

●●●●●●●●●●●●●●●●

●●

●

●●●

● ●

●

●●

●

●●●

●●●●●●●●●●●●

●●●

●●●

●

●●

●●●●●●

●●●●●

●● ●●●●●●●●●

●●●●

●●

●

●●●●●

●●●●

●●●

●●●

●

●●●●

●

● ●●●●

●●

●●●●

●●

●

●●●●●

●

●

●

●● ●

●

●

●●●●

●●

●

●

●●●●●

●

●●

●●

●●●

●●●

●●

●●●

●

●●

●

●●●●

●●●●●●●●

●

●

●●●●●

●●

●●●●●●

●

●●

●

●●●●

●●●●●●●●

●●

●●●●● ●●●

●●●

●●●

●

●●●

●●●

●●

●●●●●●●

●●●●●

●● ●

● ●

●●●

●●●

●

●

●●

●

●

●

●

● ●

●●

●

●

●

●●

●●●

●●●

●●●

●●●

●●●

●

●

●●●●

●

●

●●

●●●

●

●

●●

●

●●●

●

●●

●●●

●●●

●●●●●●●

●

● ●●●●

●●●●

●●

●●●●●●●●●

●●●●

●●●●●●

●●●●●●

●●

●●●●●●●●●●●●●

●●●

●●●

●●

●

●●●●

●●●●

●●●●

●●

●

●●●

●●●

●●●

●●

●●

●●●●

●●●●

●

●●

●●●●●

●●●●●

●●

●

●

●●●●

●

●

●●

●

●

●●

●

●

●●●●

●●

●●●●●●

●●●

●●

●●

●

●

●●●

●●●●●●●

●

●

●●●

●●

●●●●●●●● ●●

●●●

●

●●

●●●●●

●

●

●

●

●●●●●

●●●●●

●●●

●●●●●

●●●●●●●

●●●●

●●

●●●●●

●●

●●●●●●●●●●●●●●●●

●●

●

●●●

● ●

●

●●

●

●●●

●●●●●●●●●●●●

●●●

●●●

●

●●

●●●●●●

●●●●●

●● ●●●●●●●●●

●●●●

●●

●

●●●●●

●●●●

●●●

●●●

●

●●●●

●

● ●●●●

●●

●●●●

●●

●

●●●●●

●

●

●

●● ●

●

●

●●●●

●●

●

●

●●●●●

●

●●

●●

●●●

●●●

●●

●●●

●

●●

●

●●●●

●●●●●●●●

●

●

●●●●●

●●

●●●●●●

●

●●

●

North Eastern States



Modelo ajustado:y = Xβ + Zu + Tv + ε

Z ⇒ representación de P-spline bidimensional como modelo mixto

T ⇒ áreas pequeñas

T =

11 0 . . . 00 12 . . . 0...

.... . .

...0 0 . . . 1133

u ∼ N(0,Σ(σ2u1, σ

2u2))

v ∼ N(0, Iσ2v )

ε ∼ N(0, Iσ2ε )



under 250250 − 550550 − 750750 − 1000over 1000




Predicciones de los P-splines

under 250250 − 550550 − 750750 − 1000over 1000




Predicciones del efecto de áreas pequeñas

under −301−301 − −147−147 − 100100 − 300over 300




Predicción de medias

under 250250 − 550550 − 750750 − 1000over 1000


under 250250 − 550550 − 750750 − 1000over 1000



Medias observadas y predichas

under 250250 − 550550 − 750750 − 1000over 1000


under 250250 − 550550 − 750750 − 1000over 1000


under 250250 − 550550 − 750750 − 1000over 1000


Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK

Fuente: Continuous Mortality Investigation Bureau (CMIB).Para cada año (1947-1999) y cada edad (11-100) tenemos:



La mortalidad de los asegurados ha mejorado sustanciamente em los últimos30 años

⇓

Objetivo: modelo para ajustar la tendencia de la mortalidad a lo largo deltiempo y su dependencia de la edad, así como predecir la mortalidad a largoplazo.


Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UKFuente: Continuous Mortality Investigation Bureau (CMIB).Para cada año (1947-1999) y cada edad (11-100) tenemos:





Partimos de,

Yij ∼ P(Eijµij ), i = 1, . . .90 j = 1, . . . ,53ηij = log(Eij ) + log(µij ),

la diferencia entre los distintos modelos está en como se modela log(µij )



Modelo aditivo de suavizado Edad-Periodo:

η = log(E) + log(Xβ + Zα) donde Z = [Z a : Z y ] α′ = [α′a,α′y ]

αa ∼ N(0, σ2a I) αy ∼ N(0, σ2

y I).

Modelo additivo de suavizado Edad-Periodo-Cohorte:

En este caso Z = [Z a : Z y : Z c ] α′ = [α′a,α′y ,α

′c ]

αa ∼ N(0, σ2a I) αy ∼ N(0, σ2

y I) αc ∼ N(0, σ2c I).

Modelo de suavizado bidimensional:

η = log(E) + log(Xβ + Zα)

αa ∼ N(0, σ2(λaψa + λyψy )−1)



Modelo aditivo de suavizado Edad-Periodo

Year

log(

mor

talit

y)

1950 1960 1970 1980 1990 2000

-7.8

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Year

log(

mor

talit

y)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Age: 34 Age: 60



Modelo aditivo de suavizado Edad-Periodo-Cohorte

Year

log(

mu)

1950 1960 1970 1980 1990 2000

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Year

log(

mu)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Age: 34 Age: 60



Modelo de suavizado bidimensional

Year

log(

mor

talit

y)

1950 1960 1970 1980 1990 2000

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Year

log(

mor

talit

y)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Age: 34 Age: 60



Modelo de suavizado bidimensional

20

40

60

80

100

Age1950

1960

1970

1980

1990

Year

-8-6

-4-2

0Lo

g(m

orta

lity)

28



Comparamos los modelos

1950 1960 1970 1980 1990 2000

Year

-7.8

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

log(

mor

talit

y)

1950 1960 1970 1980 1990 2000

Year

-5.0

-4.8

-4.6

-4.4

-4.2

log(

mor

talit

y)

AdditiveTensorAPC

Age: 34 Age: 60


Aplicación a datos bidimensionales: Contaminaciónpor ozono en Europa

45 estaciones de monitorización

Medias mesuales de niveles de O3

desde Enero 1999 a Diciembre 2005 (t = 1, ...,84)

Ozone pollution in EuropeLee and Durbán (2010)

• Sample of 45 monitoring stations

• Monthly averages of O3 levels (in µg/m3 units)

• from january 1999 to december 2005 (t = 1, ..., 84)

−5 0 5 10 15 20 25 30

4045

5055

6065

Longitude

Latit

ude

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●●

●

●

●

●

●

●

●

●

●

●

●

Spain

Austria

Sweden

UK

1999 2000 2001 2002 2003 2004 2005 2006

2040

6080

100

120

140

Year

O3

SpainSwedenAustriaUK

Monitoring stations Time series plot

Source: EEA

Maria Durban Dae-Jin Lee (Uc3m) July 2010 p. 26Maria Durbán () Septiembre 2010 63 / 68


fs(x1,x2) + ft (x t )

0 5 10 15 20 25

4045

5055

6065

Latitude

Long

itude

40

50

60

70

80

90

1999 2000 2001 2002 2003 2004 2005−

20−

100

1020

year

f(tim

e)

X No se incluye la interacción espacio-tiempo

X La tendencia temporal es aditiva



Play animation =

+ +

y f(space)

f(time)

1999 : 1

f(space,time)



Modelo aditivo Modelos con interacciónfs(x1, x2) + fs(x t) fs(x1, x2) + ft(x t) + fst(x1, x2, x t)

1999 2000 2001 2002 2003 2004 2005 2006

2040

6080

100

120

140

year

O3


1999 2000 2001 2002 2003 2004 2005 200620

4060

8010

012

014

0

year

O3


X Modelo aditivo: Asume una tendencia espacial que permanece constante a lo largo deltiempo.

X Modelo con interacción: Captura las diferencias individuales de las estaciones a lo largodel tiempo.


Conclusiones

Los P-splines son una herramienta muy útil para el análisis de datos enmuchas situacioines

Los P-splines como modelos mixtos permiten la utilización del softwareestándar: SAS, Splus, R

La bases y el modelo de suavizado bidimensional presentado permiteun suavizado no isotrópico que hasta ahora no era posible

Los P-splines se acomodan a todas las “religiones”: clásicos, modelosmixtos, bayesianos.....


Referencias

Eilers, P.H.C. & Marx, B.D. (1996). Flexible smoothing with B-splines anspenalties. Statist. Sci. 11.

Durbán, M. and Currie,I. (2003). A note on P-Spline additive models withcorrelated errors. Comp. Stat., 18.

Lang, S. and Brezger, A. (2003). Bayesian P-splines. J. Computational andGraphical Statistics.

Eilers, P., Currie, I. and Durbán, M. (2006). Fast and compact smoothing onlarge multidimensional grids. Comp. Stat. and Data Analysis.

Durbán, M., Harezlak,J., Carrol, R. and Wand, M. (2005). Simple fitting ofsubject-specific curves for longitudinal data. Statistics in Medicine

Currie, I., Durban, M. and Eilers, P. (2006). Generalized linear array models withapplications to multidimensional smoothing. J. Royal Statist. Society B.

Lee, D.J. and Durbán, M. (2010). P-splines ANOVA-type interaction models forspatio-temporal smoothing. Statistical Modelling .(en prensa)


Modelos mixtos de suavizado - UC3M

Documents

Transcript of Modelos mixtos de suavizado - UC3M