Modelos mixtos de suavizado - UC3M
Transcript of Modelos mixtos de suavizado - UC3M
Modelos mixtos de suavizado
Maria Durbán
Universidad Carlos III de Madrid
Septiembre 2010
Maria Durbán () Septiembre 2010 1 / 68
1 Modelos de suavizado2 P-splines3 P-splines como modelos mixtos4 Aplicaciones
Maria Durbán () Septiembre 2010 2 / 68
1 Modelos de suavizado2 P-splines3 P-splines como modelos mixtos4 Aplicaciones
Maria Durbán () Septiembre 2010 2 / 68
Modelos de suavizado
Ensayos clínicos en el Dana Faber Cancer Institute, Boston USADatos longitudinales: altura de 197 niñas sometidas a trestratamientos por leucemia linfoblástica aguda.
¿Cuál es el efecto a largo plazo de las terapias en la altura de lasniñas?
age (years)
heig
ht (
cm)
●●
●
●●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●●
●●●
●● ● ●
●●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
80
100
120
140
160
5 10 15 20
hyperfractionated radiation
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
● ● ●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
● ●
●
●
●●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●●
●● ●●● ● ●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●● ● ●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
● ●
●●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
● ●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●● ●
●●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●
●
●
●●
●
●
●
●
●●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●●●●
●●
●●
●●
●
●
●●
●●
●
●
●●
●●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●●
●
●●●
●●
●
●
●●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●●
●
● ●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
NO radiation
5 10 15 20
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●● ● ●
●●
●●
●
●●
●●
●
●
●
●
●
● ●● ●
●●
●●
●●
●
●●
●
●
●
●
●●
●●
● ●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
● ●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●●
●●
●
●
●●
●●●
●
●
●
●●
●●●
●
●●●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●●●
●●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●●
●
●●
●
5 10 15 20
standard radiation
Maria Durbán () Septiembre 2010 3 / 68
Modelos de Suavizado
Para cada niña, la altura aumenta de forma suave a los largo de losaños.
Un modelo apropiado para estos datos sería:
y = f (x) + ε
donde x es la variable explicativa (edad), f es una función suave de xque depende de λ =el parámetro de suavizado
Los métodos de suavizado se dividen en dos grupos:
Los especificados por el método de ajuste: KernelsLos que son el resultado de minimizar una función: Splines
Maria Durbán () Septiembre 2010 4 / 68
Modelos de Suavizado
Para cada niña, la altura aumenta de forma suave a los largo de losaños.
Un modelo apropiado para estos datos sería:
y = f (x) + ε
donde x es la variable explicativa (edad), f es una función suave de xque depende de λ =el parámetro de suavizado
Los métodos de suavizado se dividen en dos grupos:
Los especificados por el método de ajuste: KernelsLos que son el resultado de minimizar una función: Splines
Maria Durbán () Septiembre 2010 4 / 68
Modelos de Suavizado
Para cada niña, la altura aumenta de forma suave a los largo de losaños.
Un modelo apropiado para estos datos sería:
y = f (x) + ε
donde x es la variable explicativa (edad), f es una función suave de xque depende de λ =el parámetro de suavizado
Los métodos de suavizado se dividen en dos grupos:
Los especificados por el método de ajuste: KernelsLos que son el resultado de minimizar una función: Splines
Maria Durbán () Septiembre 2010 4 / 68
Modelos de Suavizado
10 12 14
age
135
140
145
150
155
160
heig
ht
Maria Durbán () Septiembre 2010 5 / 68
P-splines
Eilers and Marx, 1996.Son una generalización del modelo de regresión.Utiliza la verosimilitud, modificada por una penalización.
y = f (x) + ε f (x) ≈ Ba S = (y − Ba)′(y − Ba) + λa′Pa
a = (B′B + λP)−1B′y
B es la base para la regresión:B-splinesPolinomios truncadosBases radiales...
Maria Durbán () Septiembre 2010 6 / 68
P-splines
Eilers and Marx, 1996.Son una generalización del modelo de regresión.Utiliza la verosimilitud, modificada por una penalización.
y = f (x) + ε f (x) ≈ Ba S = (y − Ba)′(y − Ba) + λa′Pa
a = (B′B + λP)−1B′y
B es la base para la regresión:B-splinesPolinomios truncadosBases radiales...
Maria Durbán () Septiembre 2010 6 / 68
P-splines
Eilers and Marx, 1996.Son una generalización del modelo de regresión.Utiliza la verosimilitud, modificada por una penalización.
y = f (x) + ε f (x) ≈ Ba S = (y − Ba)′(y − Ba) + λa′Pa
a = (B′B + λP)−1B′y
B es la base para la regresión:B-splinesPolinomios truncadosBases radiales...
Maria Durbán () Septiembre 2010 6 / 68
P-splines
Eilers and Marx, 1996.Son una generalización del modelo de regresión.Utiliza la verosimilitud, modificada por una penalización.
y = f (x) + ε f (x) ≈ Ba S = (y − Ba)′(y − Ba) + λa′Pa
a = (B′B + λP)−1B′y
P es la penalización:En el caso de los spline cúbicos λ
∫(f ′′(x))2
En el caso de los P-splines se utiliza una aproximación discreta
Maria Durbán () Septiembre 2010 7 / 68
P-splines
10 12 14
age
140
150
160
heig
ht
Maria Durbán () Septiembre 2010 8 / 68
P-splines
10 12 14
age
140
150
160
heig
ht
Maria Durbán () Septiembre 2010 9 / 68
B-splines
Trozos de polinomios de grado p unidos de forma suave en nodosinternosEl número de B-splines en la base, determinado por el número denodos y p.Tienen forma de campana de Gauss. Están desplazadashorizontalmente.No padecen de efectos de frontera comunes en kernels.
Polinomios Truncados
1, x , x2, . . . , xp, {(x − t1)+}p , . . . ,{
(x − tk )p+
}p donde x+ = max(0, x).
Más fáciles de construirPeores propiedades numéricas en algunos casos.
Maria Durbán () Septiembre 2010 10 / 68
B-splines
Trozos de polinomios de grado p unidos de forma suave en nodosinternosEl número de B-splines en la base, determinado por el número denodos y p.Tienen forma de campana de Gauss. Están desplazadashorizontalmente.No padecen de efectos de frontera comunes en kernels.
Polinomios Truncados
1, x , x2, . . . , xp, {(x − t1)+}p , . . . ,{
(x − tk )p+
}p donde x+ = max(0, x).
Más fáciles de construirPeores propiedades numéricas en algunos casos.
Maria Durbán () Septiembre 2010 10 / 68
B-splines
0 10 20 30 40
0.0
0.1
0.2
0.3
0.4
0.5
0.6
B-spline basis
0 10 20 30 40
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Scaled B-splines and their sum
0 10 20 30 40
010
2030
Truncated lines basis
Maria Durbán () Septiembre 2010 11 / 68
Penalizaciones
Una aproximación discretaPenaliza las diferencias entre los coeficientes adyacentes⇒reduce la dimensión del problema de n el número de datos a k elnúmero de B-splinesLineal (a1 − a2)2 + (a2 − a3)2 + . . .+ (ak−1 − ak )2
Cuadrática (a1 − 2a2 − a3)2 . . .+ (ap−k − 2ak−1 + ak )2
Se puede escribir en forma matricial como:
P = D′D
D es la matriz de diferencias
Maria Durbán () Septiembre 2010 12 / 68
Penalizaciones
Una aproximación discretaPenaliza las diferencias entre los coeficientes adyacentes⇒reduce la dimensión del problema de n el número de datos a k elnúmero de B-splinesLineal (a1 − a2)2 + (a2 − a3)2 + . . .+ (ak−1 − ak )2
Cuadrática (a1 − 2a2 − a3)2 . . .+ (ap−k − 2ak−1 + ak )2
Se puede escribir en forma matricial como:
P = D′D
D es la matriz de diferencias
Maria Durbán () Septiembre 2010 12 / 68
Penalizaciones
Una aproximación discretaPenaliza las diferencias entre los coeficientes adyacentes⇒reduce la dimensión del problema de n el número de datos a k elnúmero de B-splinesLineal (a1 − a2)2 + (a2 − a3)2 + . . .+ (ak−1 − ak )2
Cuadrática (a1 − 2a2 − a3)2 . . .+ (ap−k − 2ak−1 + ak )2
Se puede escribir en forma matricial como:
P = D′D
D es la matriz de diferencias
Maria Durbán () Septiembre 2010 12 / 68
Efecto de la penalización
28 CHAPTER 2. SMOOTHING MIXED MODELS
we have that the penalty is equivalent to
(θ1 + 2θ2 + θ3)2 + ...+ (θc−2 + 2θc−1 + θc)
2 = θ′D′Dθ . (2.6)
Note that, other orders might be more appropiate in some cases. Figure 2.2 illustratesthe performance of the P -spline methodology. We simulated n = 100, (xi,yi) points,from the function f(xi) = 1.2 + sin(5xi) + εi , with εi ∼ N (0, 0.2) and xi ∼ Unif[0, 1].Figure 2.2 (a) shows the P -spline fit without penalty (i.e. λ = 0), corresponding to asimple B-spline regression. Figure 2.2 (b) shows the P -spline fit with a penalty (with λfixed to 10). In both figures, we used a cubic spline for the B-spline basis (p = 3), withm = 20 knots and a second order penalty (q = 2). In both figures we also represent theB-splines bases multiplied by the vector of coefficients θ (represented in circles).
(a) B-splines with unpenalized coefficients (b) B-splines with penalized coefficients
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
x
y
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
● ●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
2.5
x
y
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Figure 2.2: (a) fitted curve with unpenalized coefficients (red circles). Bottom: fittedcurve with penalized coefficients (blue circles).
It is obvious that the shape of the fitted curve is influenced by the value of the smoo-thing parameter. The smoothing parameter controls the trade-off between the model fitand the model smoothness. Then, when λ → ∞ the fitted curve tends to a polynomialof degree d − 1, if the degree of the B-spline is equal to or higher to the penalty order,i.e. if q ≥ d. When λ = 0, the result is a the least squares estimate in (2.3). Therefore,the estimation of the degree of smoothness for the model consists in the estimation ofthe smoothing parameter λ. We discuss the selection of the optimal amount of λ in nextsection. Figure 2.3 shows the fitted curves for different values of λ.
Maria Durbán () Septiembre 2010 13 / 68
¿Por qué P-splines?
El número de funciones en la base no crece con el tamaño de lamuestra (entre 5 y 40 nodos).Robustos con respecto a la elección de nodos (Ruppert, 2000).Computacionalmente sencillos.No necesitan utilizar el “backfitting algorithm” en el caso demodelos aditivos.Se extiende de forma sencilla al caso de 2 o más dimensiones, yal caso de datos no Gaussianos.Método sencillo para hacer predicciones
Maria Durbán () Septiembre 2010 14 / 68
¿Por qué P-splines?
El número de funciones en la base no crece con el tamaño de lamuestra (entre 5 y 40 nodos).Robustos con respecto a la elección de nodos (Ruppert, 2000).Computacionalmente sencillos.No necesitan utilizar el “backfitting algorithm” en el caso demodelos aditivos.Se extiende de forma sencilla al caso de 2 o más dimensiones, yal caso de datos no Gaussianos.Método sencillo para hacer predicciones
Maria Durbán () Septiembre 2010 14 / 68
¿Por qué P-splines?
El número de funciones en la base no crece con el tamaño de lamuestra (entre 5 y 40 nodos).Robustos con respecto a la elección de nodos (Ruppert, 2000).Computacionalmente sencillos.No necesitan utilizar el “backfitting algorithm” en el caso demodelos aditivos.Se extiende de forma sencilla al caso de 2 o más dimensiones, yal caso de datos no Gaussianos.Método sencillo para hacer predicciones
Maria Durbán () Septiembre 2010 14 / 68
P-splines como modelos mixtos: caso 1-d
y = f (x) + ε ε ∼ N(0, σ2I)Modelos aditivos sin “backfitting”⇒ transformar las bases de Bsplines.
Suponemos que f (x) = Ba.Ba se puede escribir como la suma de una parte polinómica (lineal) y otraque no lo es:
Xβ + Zα
10 12 14
age
135
140
145
150
155
160
heig
ht
Maria Durbán () Septiembre 2010 15 / 68
P-splines como modelos mixtos: caso 1-d
y = f (x) + ε ε ∼ N(0, σ2I)Modelos aditivos sin “backfitting”⇒ transformar las bases de Bsplines.
Suponemos que f (x) = Ba.Ba se puede escribir como la suma de una parte polinómica (lineal) y otraque no lo es:
Xβ + Zα
10 12 14
age
135
140
145
150
155
160
heig
ht
Maria Durbán () Septiembre 2010 15 / 68
P-splines como modelos mixtos: caso 1-d
y = f (x) + ε ε ∼ N(0, σ2I)Modelos aditivos sin “backfitting”⇒ transformar las bases de Bsplines.
Suponemos que f (x) = Ba.Ba se puede escribir como la suma de una parte polinómica (lineal) y otraque no lo es:
Xβ + Zα
10 12 14
age
135
140
145
150
155
160
heig
ht
Maria Durbán () Septiembre 2010 16 / 68
P-splines como modelos mixtos: caso 1-d
Queremos reparametrizar y = Ba + ε, ε ∼ N(0, σ2I)
La suavidad se impone mediante la matriz de penalización P = D′DP rango deficiente⇒ buscamos una transformación uno a uno para loscoeficientes:
a = T[
βα
]
β corresponde a la parte de la función suave no penalizada por P
α es ortogonal a β y es penalizada por P
T no es única,utilizamos la d.v.s. de la penalización para construirla:
Maria Durbán () Septiembre 2010 17 / 68
P-splines como modelos mixtos: caso 1-d
Queremos reparametrizar y = Ba + ε, ε ∼ N(0, σ2I)
La suavidad se impone mediante la matriz de penalización P = D′DP rango deficiente⇒ buscamos una transformación uno a uno para loscoeficientes:
a = T[
βα
]
β corresponde a la parte de la función suave no penalizada por P
α es ortogonal a β y es penalizada por P
T no es única,utilizamos la d.v.s. de la penalización para construirla:
Maria Durbán () Septiembre 2010 17 / 68
P-splines como modelos mixtos: caso 1-d
Queremos reparametrizar y = Ba + ε, ε ∼ N(0, σ2I)
La suavidad se impone mediante la matriz de penalización P = D′DP rango deficiente⇒ buscamos una transformación uno a uno para loscoeficientes:
a = T[
βα
]
β corresponde a la parte de la función suave no penalizada por P
α es ortogonal a β y es penalizada por P
T no es única,utilizamos la d.v.s. de la penalización para construirla:
Maria Durbán () Septiembre 2010 17 / 68
P-splines como modelos mixtos: caso 1-d
Queremos reparametrizar y = Ba + ε, ε ∼ N(0, σ2I)
La suavidad se impone mediante la matriz de penalización P = D′DP rango deficiente⇒ buscamos una transformación uno a uno para loscoeficientes:
a = T[
βα
]
β corresponde a la parte de la función suave no penalizada por P
α es ortogonal a β y es penalizada por P
T no es única,utilizamos la d.v.s. de la penalización para construirla:
DDT= sU nU
00
Σ~ TsUTnU
Maria Durbán () Septiembre 2010 18 / 68
P-splines como modelos mixtos: caso 1-d
Queremos reparametrizar y = Ba + ε, ε ∼ N(0, σ2I)
La suavidad se impone mediante la matriz de penalización P = D′DP rango deficiente⇒ buscamos una transformación uno a uno para loscoeficientes:
a = T[
βα
]
β corresponde a la parte de la función suave no penalizada por P
α es ortogonal a β y es penalizada por P
T no es única,utilizamos la d.v.s. de la penalización para construirla:
T = [Un : Us]⇒ β = U ′na α = U ′sa
Maria Durbán () Septiembre 2010 19 / 68
P-splines como modelos mixtos: caso 1-d
U ′nPUn = 0⇒ a′Pa = α′ Σ︸︷︷︸diagonal
α
Ba = BT[
βα
]= Xβ + Zα
Verosimilitud Penalizaday = Ba + ε, ε ∼ N(0, σ2I)
⇓(y − Ba)′(y − Ba) + λa′Pa
Verosimilitud de un modelo mixto
(y − Xβ − Zα)′(y − Xβ − Zα) + λα′Σα⇓
y = Xβ + Zα + ε, α ∼ N(0, σ2αΣ−1
), ε ∼ N(0, σ2I)
λ =σ2
σ2α
Maria Durbán () Septiembre 2010 20 / 68
P-splines como modelos mixtos: caso 1-d
U ′nPUn = 0⇒ a′Pa = α′ Σ︸︷︷︸diagonal
α
Ba = BT[
βα
]= Xβ + Zα
Verosimilitud Penalizaday = Ba + ε, ε ∼ N(0, σ2I)
⇓(y − Ba)′(y − Ba) + λa′Pa
Verosimilitud de un modelo mixto
(y − Xβ − Zα)′(y − Xβ − Zα) + λα′Σα⇓
y = Xβ + Zα + ε, α ∼ N(0, σ2αΣ−1
), ε ∼ N(0, σ2I)
λ =σ2
σ2α
Maria Durbán () Septiembre 2010 20 / 68
P-splines como modelos mixtos: caso 1-d
U ′nPUn = 0⇒ a′Pa = α′ Σ︸︷︷︸diagonal
α
Ba = BT[
βα
]= Xβ + Zα
Verosimilitud Penalizaday = Ba + ε, ε ∼ N(0, σ2I)
⇓(y − Ba)′(y − Ba) + λa′Pa
Verosimilitud de un modelo mixto
(y − Xβ − Zα)′(y − Xβ − Zα) + λα′Σα⇓
y = Xβ + Zα + ε, α ∼ N(0, σ2αΣ−1
), ε ∼ N(0, σ2I)
λ =σ2
σ2α
Maria Durbán () Septiembre 2010 20 / 68
P-splines como modelos mixtos: caso 1-d
Ventajas
Eficientes con conjuntos de datos grandes, lo cual no seríaposible con splines de suavizado.Se implementan de forma sencilla en Splus y R.lme(y~X-1,random=pdIdent(~Z-1))
GAM⇒ GLMM.
Maria Durbán () Septiembre 2010 21 / 68
Modelos de suavizado en dos o más dimensiones
Datos sobre el número de pólizas de seguros en UKFuente: Continuous Mortality Investigation Bureau (CMIB).Para cada año (1947-1999) y cada edad (11-100) tenemos:
Años de vida (exposición).
Número de pólizas reclamadas (muertes).
Maria Durbán () Septiembre 2010 22 / 68
Modelos de suavizado en dos o más dimensiones
Modelos aditivos (Hastie y Tibshirani, 1987):
y = f (x1) + f (x2) + ε
Hipótesis de aditividad demasiado restrictiva→ superficie no aditiva.Varios enfoques:
Thin plate splines⇒ problemas computacionales, isotrópicoP-splines con bases radiales⇒ isotrópico, localización de nodos.
Solución: Base de B-splines en 2-d con penalización no-isotrópica yque permita la representación como modelos mixtos.
Maria Durbán () Septiembre 2010 23 / 68
Modelos de suavizado en dos o más dimensiones
Modelos aditivos (Hastie y Tibshirani, 1987):
y = f (x1) + f (x2) + ε
Hipótesis de aditividad demasiado restrictiva→ superficie no aditiva.Varios enfoques:
Thin plate splines⇒ problemas computacionales, isotrópicoP-splines con bases radiales⇒ isotrópico, localización de nodos.
Solución: Base de B-splines en 2-d con penalización no-isotrópica yque permita la representación como modelos mixtos.
Maria Durbán () Septiembre 2010 23 / 68
Modelos de suavizado en dos o más dimensiones
Modelos aditivos (Hastie y Tibshirani, 1987):
y = f (x1) + f (x2) + ε
Hipótesis de aditividad demasiado restrictiva→ superficie no aditiva.Varios enfoques:
Thin plate splines⇒ problemas computacionales, isotrópicoP-splines con bases radiales⇒ isotrópico, localización de nodos.
Solución: Base de B-splines en 2-d con penalización no-isotrópica yque permita la representación como modelos mixtos.
Maria Durbán () Septiembre 2010 23 / 68
P-splines en dos dimensiones
y = f (x1,x2) + ε
yij , i = 1, . . . ,n1, j = 1, . . . ,n2, organizados en un array con n1 filas y
n2 columnas,
f (x1,x2) ≈ Ba B = B2 ⊗ B1 ⇒ Ba = B1AB2
B1 matriz n1 × c1 de B-splines para el suavizado a lo largo de x1
B2 matriz n2 × c2 de B-splines para el suavizado a lo largo de x2
Penalizar las filas y columnas de la matriz de coeficientes A equivalea:
P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2 ⊗ Ic1
λ1 6= λ2 → no isotrópico.
Maria Durbán () Septiembre 2010 24 / 68
P-splines en dos dimensiones
y = f (x1,x2) + ε
yij , i = 1, . . . ,n1, j = 1, . . . ,n2, organizados en un array con n1 filas y
n2 columnas,
f (x1,x2) ≈ Ba B = B2 ⊗ B1 ⇒ Ba = B1AB2
B1 matriz n1 × c1 de B-splines para el suavizado a lo largo de x1
B2 matriz n2 × c2 de B-splines para el suavizado a lo largo de x2
Penalizar las filas y columnas de la matriz de coeficientes A equivalea:
P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2 ⊗ Ic1
λ1 6= λ2 → no isotrópico.
Maria Durbán () Septiembre 2010 24 / 68
P-splines en dos dimensiones
y = f (x1,x2) + ε
yij , i = 1, . . . ,n1, j = 1, . . . ,n2, organizados en un array con n1 filas y
n2 columnas,
f (x1,x2) ≈ Ba B = B2 ⊗ B1 ⇒ Ba = B1AB2
B1 matriz n1 × c1 de B-splines para el suavizado a lo largo de x1
B2 matriz n2 × c2 de B-splines para el suavizado a lo largo de x2
Penalizar las filas y columnas de la matriz de coeficientes A equivalea:
P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2 ⊗ Ic1
λ1 6= λ2 → no isotrópico.
Maria Durbán () Septiembre 2010 24 / 68
P-splines en dos dimensiones
5
1015
20
x12
46
810
1214
16
x2
00.
10.
20.
30.
40.
52-
d B
-spl
ine
Maria Durbán () Septiembre 2010 25 / 68
P-splines en dos dimensiones como modelos mixtos
Ahora es más complicada debido a la forma de la penalización:
P = λ1 Ic2 ⊗ D′1D1︸ ︷︷ ︸P1
+λ2 D′2D2 ⊗ Ic1︸ ︷︷ ︸P2
Nueva base que permita escribir el modelo anterior como:
y = Xβ + Zα + ε α ∼ N(0, σ2αG) ε ∼ N(0, σ2I),
La nueva base se basa en la diagonalización simultánea de P1 y P2.
Maria Durbán () Septiembre 2010 26 / 68
P-splines en dos dimensiones como modelos mixtos
Ahora es más complicada debido a la forma de la penalización:
P = λ1 Ic2 ⊗ D′1D1︸ ︷︷ ︸P1
+λ2 D′2D2 ⊗ Ic1︸ ︷︷ ︸P2
Nueva base que permita escribir el modelo anterior como:
y = Xβ + Zα + ε α ∼ N(0, σ2αG) ε ∼ N(0, σ2I),
La nueva base se basa en la diagonalización simultánea de P1 y P2.
Maria Durbán () Septiembre 2010 27 / 68
P-splines en dos dimensiones como modelos mixtos
y = Xβ + Zα + ε α ∼ N(0, σ2αG) ε ∼ N(0, σ2I),
X = X 2 ⊗ X 1
Z = [Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1]
G =
λ2Σ2s ⊗ Iq1
λ1Iq2 ⊗Σ1sλ1Ic2−q2 ⊗Σ1s + λ2Σ2s ⊗ Ic1−q1
−1
Maria Durbán () Septiembre 2010 28 / 68
P-splines en dos dimensiones como modelos mixtos
y = Xβ + Zα + ε α ∼ N(0, σ2αG) ε ∼ N(0, σ2I),
X = X 2 ⊗ X 1
Z = [Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1]
G =
λ2Σ2s ⊗ Iq1
λ1Iq2 ⊗Σ1sλ1Ic2−q2 ⊗Σ1s + λ2Σ2s ⊗ Ic1−q1
−1
Maria Durbán () Septiembre 2010 28 / 68
P-splines en dos dimensiones como modelos mixtos
y = Xβ + Zα + ε α ∼ N(0, σ2αG) ε ∼ N(0, σ2I),
X = X 2 ⊗ X 1
Z = [Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1]
G =
λ2Σ2s ⊗ Iq1
λ1Iq2 ⊗Σ1sλ1Ic2−q2 ⊗Σ1s + λ2Σ2s ⊗ Ic1−q1
−1
Maria Durbán () Septiembre 2010 28 / 68
P-splines en dos dimensiones como modelos mixtos
La descomposición de la penalización a partir de lasdescomposiciones de las penalizaciones individuales permite:
⇓Descomponer la superficie como suma de funciones suaves encada dirección, más un término de interacción:f (x) + f (y) + f (x , y)
Clarifica el papel de la penalizaciónNo necesita imponer ninguna restricción para evitar problemas deidentificabilidad.
Maria Durbán () Septiembre 2010 29 / 68
P-splines en dos dimensiones como modelos mixtos
La descomposición de la penalización a partir de lasdescomposiciones de las penalizaciones individuales permite:
⇓Descomponer la superficie como suma de funciones suaves encada dirección, más un término de interacción:f (x) + f (y) + f (x , y)
Clarifica el papel de la penalizaciónNo necesita imponer ninguna restricción para evitar problemas deidentificabilidad.
Maria Durbán () Septiembre 2010 29 / 68
P-splines en dos dimensiones como modelos mixtos
La descomposición de la penalización a partir de lasdescomposiciones de las penalizaciones individuales permite:
⇓Descomponer la superficie como suma de funciones suaves encada dirección, más un término de interacción:f (x) + f (y) + f (x , y)
Clarifica el papel de la penalizaciónNo necesita imponer ninguna restricción para evitar problemas deidentificabilidad.
Maria Durbán () Septiembre 2010 29 / 68
P-splines en dos dimensiones como modelos mixtos
La descomposición de la penalización a partir de lasdescomposiciones de las penalizaciones individuales permite:
⇓Descomponer la superficie como suma de funciones suaves encada dirección, más un término de interacción:f (x) + f (y) + f (x , y)
Clarifica el papel de la penalizaciónNo necesita imponer ninguna restricción para evitar problemas deidentificabilidad.
Maria Durbán () Septiembre 2010 29 / 68
P-splines en dos dimensiones como modelos mixtos
Ejemplo: Datos en un enrejado de 30Datos simuladosB1, 30× 13, y B2, 20× 10
X = (X 2 ⊗ X 1)
Z = (Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1).
Esta descomposición facilita dos cosas:1 Descomponer la superfice.2 Ajustar submodelos⇒ enfoque jerárquico que facilitará la
selección del modelo.
Maria Durbán () Septiembre 2010 30 / 68
P-splines en dos dimensiones como modelos mixtos
Ejemplo: Datos en un enrejado de 30Datos simuladosB1, 30× 13, y B2, 20× 10
X = (X 2 ⊗ X 1)
Z = (Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1).
Esta descomposición facilita dos cosas:1 Descomponer la superfice.2 Ajustar submodelos⇒ enfoque jerárquico que facilitará la
selección del modelo.
Maria Durbán () Septiembre 2010 30 / 68
P-splines en dos dimensiones como modelos mixtos
Ejemplo: Datos en un enrejado de 30Datos simuladosB1, 30× 13, y B2, 20× 10
X = (X 2 ⊗ X 1)
Z = (Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1).
Esta descomposición facilita dos cosas:1 Descomponer la superfice.2 Ajustar submodelos⇒ enfoque jerárquico que facilitará la
selección del modelo.
Maria Durbán () Septiembre 2010 30 / 68
P-splines en dos dimensiones como modelos mixtos
Ejemplo: Datos en un enrejado de 30Datos simuladosB1, 30× 13, y B2, 20× 10
X = (X 2 ⊗ X 1)
Z = (Z 2 ⊗ X 1 : X 2 ⊗ Z 1 : Z 2 ⊗ Z 1).
Esta descomposición facilita dos cosas:1 Descomponer la superfice.2 Ajustar submodelos⇒ enfoque jerárquico que facilitará la
selección del modelo.
Maria Durbán () Septiembre 2010 30 / 68
P-splines en dos dimensiones como modelos mixtos
Data Term for X1
Term for X2 Interaction term
Fitted surface
Maria Durbán () Septiembre 2010 31 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines en dos dimensiones como modelos mixtos
Comentarios
Aunque parece complicada es muy sencilla de calcularSe utiliza con P-splines aunque no se utilice la representacióncomo modelos mixtosConvierte la matriz penalización en una matriz diagonal⇒cálculos más rápidosYa no es tan inmediata la implementación en Splus, R o SAS
Z puede ser una matriz muy grande⇒ problemas con los cálculos
⇓
Solución: un nuevo algoritmo que utiliza la estructura de los datos paraacelerar los cálculos. Currie, Durbán y Eilers. (2006) J. Royal Stat.Soc., B
Maria Durbán () Septiembre 2010 32 / 68
P-splines bayesianos
y = f (x) + ε
Para definir distribución a priopi para la función suave f = Ba:
Definir la matriz de diseño B
Distribución a priori de los coeficientes a
En general:
p(a|σ2a) ∝ exp
(− 1
2σ2a
a′Pa)
P penaliza los saltos no suaves entre coeficientes vecinos
P tiene rango deficiente⇒ la a priori de a es parcialmente impropia
1/σ2a es equivalente al parámetro de suavizado
Maria Durbán () Septiembre 2010 33 / 68
P-splines bayesianos
y = f (x) + ε
Para definir distribución a priopi para la función suave f = Ba:
Definir la matriz de diseño B
Distribución a priori de los coeficientes a
En general:
p(a|σ2a) ∝ exp
(− 1
2σ2a
a′Pa)
P penaliza los saltos no suaves entre coeficientes vecinos
P tiene rango deficiente⇒ la a priori de a es parcialmente impropia
1/σ2a es equivalente al parámetro de suavizado
Maria Durbán () Septiembre 2010 33 / 68
P-splines bayesianos
y = f (x) + ε
Para definir distribución a priopi para la función suave f = Ba:
Definir la matriz de diseño B
Distribución a priori de los coeficientes a
En general:
p(a|σ2a) ∝ exp
(− 1
2σ2a
a′Pa)
P penaliza los saltos no suaves entre coeficientes vecinos
P tiene rango deficiente⇒ la a priori de a es parcialmente impropia
1/σ2a es equivalente al parámetro de suavizado
Maria Durbán () Septiembre 2010 33 / 68
P-splines bayesianos
1 A priopi para covariables continuas:
Paseo Aleatorio:
aj = aj−1 + uj aj = 2aj−1 − aj−2 + uj uj ∼ N(0, σ2a)
⇓P = D′D
2 A priori para efectos espaciales
Markov Random Field
aj |aj′ , j ′ 6= j ∼ N
1Nj
∑j′∈∂j
a′j ,σ2
a
Nj
Maria Durbán () Septiembre 2010 34 / 68
P-splines bayesianos
1 A priopi para covariables continuas:
Paseo Aleatorio:
aj = aj−1 + uj aj = 2aj−1 − aj−2 + uj uj ∼ N(0, σ2a)
⇓P = D′D
2 A priori para efectos espaciales
Markov Random Field
aj |aj′ , j ′ 6= j ∼ N
1Nj
∑j′∈∂j
a′j ,σ2
a
Nj
Maria Durbán () Septiembre 2010 34 / 68
Software
Hay dos paquetes en R que permiten trabajar con P-splines comomodelos mixtos:
1 SemiPar (Ruppert, Wand y Carroll).Utiliza bases de polinomios truncados o radialesSencillo de usar pero no muy eficiente en dos dismensiones
2 mgcv (Simon Wood)Muy completo. Permite utilizar distintas basesEficiente en dos dimensiones si los datos no están en un enrejadoP-splines como modelo mixtos o de forma clásica
En el contexto bayesiano:1 BayesX (Brezger, Kneib y Lang)2 ggamm (Thomas Kneib). Son una serie de funciones en R para
ajustar modelos geoaditivos.
Maria Durbán () Septiembre 2010 35 / 68
Software
Hay dos paquetes en R que permiten trabajar con P-splines comomodelos mixtos:
1 SemiPar (Ruppert, Wand y Carroll).Utiliza bases de polinomios truncados o radialesSencillo de usar pero no muy eficiente en dos dismensiones
2 mgcv (Simon Wood)Muy completo. Permite utilizar distintas basesEficiente en dos dimensiones si los datos no están en un enrejadoP-splines como modelo mixtos o de forma clásica
En el contexto bayesiano:1 BayesX (Brezger, Kneib y Lang)2 ggamm (Thomas Kneib). Son una serie de funciones en R para
ajustar modelos geoaditivos.
Maria Durbán () Septiembre 2010 35 / 68
Software
Hay dos paquetes en R que permiten trabajar con P-splines comomodelos mixtos:
1 SemiPar (Ruppert, Wand y Carroll).Utiliza bases de polinomios truncados o radialesSencillo de usar pero no muy eficiente en dos dismensiones
2 mgcv (Simon Wood)Muy completo. Permite utilizar distintas basesEficiente en dos dimensiones si los datos no están en un enrejadoP-splines como modelo mixtos o de forma clásica
En el contexto bayesiano:1 BayesX (Brezger, Kneib y Lang)2 ggamm (Thomas Kneib). Son una serie de funciones en R para
ajustar modelos geoaditivos.
Maria Durbán () Septiembre 2010 35 / 68
Software
Hay dos paquetes en R que permiten trabajar con P-splines comomodelos mixtos:
1 SemiPar (Ruppert, Wand y Carroll).Utiliza bases de polinomios truncados o radialesSencillo de usar pero no muy eficiente en dos dismensiones
2 mgcv (Simon Wood)Muy completo. Permite utilizar distintas basesEficiente en dos dimensiones si los datos no están en un enrejadoP-splines como modelo mixtos o de forma clásica
En el contexto bayesiano:1 BayesX (Brezger, Kneib y Lang)2 ggamm (Thomas Kneib). Son una serie de funciones en R para
ajustar modelos geoaditivos.
Maria Durbán () Septiembre 2010 35 / 68
Aplicación a datos longitudinales
Ensayos clínicos en el Dana Faber Cancer Institute, Boston USADatos longitudinales: altura de 197 niñas sometidas a tres tratamientos porleucemia linfoblástica aguda.
¿Cuál es el efecto a largo plazo de las terapias en la altura de las niñas?
age (years)
heig
ht (
cm)
●●
●
●●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●
●
●●
●●●
●● ● ●
●●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
80
100
120
140
160
5 10 15 20
hyperfractionated radiation
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
● ● ●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●●
●●
● ●
●
●
●●
●
●
●
●●
●●
●●
●
●
●
●
●
●
●
●●
●● ●●● ● ●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●●
●
●
●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●● ● ●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●●
●
●
●
●
● ●
●●
●
●
●●
●●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
● ●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●● ●
●●
●
●●
●●
●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●
●
●
●●
●
●
●
●
●●
●●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●●
●
●
●
●
● ●
●
●
●
●
●●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●●
●●
●
●
●
●
●
●●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●
●●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●●●●
●●
●●
●●
●
●
●●
●●
●
●
●●
●●
●●
●
●
●●
●
●
●●
●
●
●
●●
●
●
●●●
●
●●●
●●
●
●
●●●
●
●
●
●
●
●
●●●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●
●●
●●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●●
●
● ●●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
NO radiation
5 10 15 20
●●
●
●
●
●●
●
●
●
●●
●
●
●
●●
●● ● ●
●●
●●
●
●●
●●
●
●
●
●
●
● ●● ●
●●
●●
●●
●
●●
●
●
●
●
●●
●●
● ●
●
●●
●
●
●
●
●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
● ●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●●
●
●
● ●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●●
●●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●●●
●●
●
●●
●●
●
●
●●
●●●
●
●
●
●●
●●●
●
●●●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●●●
●●
●
●
●
●
●
●
●●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●●
●
●●
●
5 10 15 20
standard radiation
Maria Durbán () Septiembre 2010 36 / 68
Aplicación a datos longitudinales
yij → altura de la niña i i = 1, . . . ,m con edad xij , j = 1, . . . ,ni
Modelo básico ( Laird and Ware, 1982):
yij = β0 + β1xij + Ui + εij Ui ∼ N(0, σ2U) εij ∼ N(0, σ2
ε)
β0 → media Ui → ordenada en el origen aleatoria para la niña i . Un solo
parámetro.
La hipótesis de linealidad no es coherente con los datos
⇓
yij = f (xij ) + Ui + εij
Maria Durbán () Septiembre 2010 37 / 68
Aplicación a datos longitudinales
yij → altura de la niña i i = 1, . . . ,m con edad xij , j = 1, . . . ,ni
Modelo básico ( Laird and Ware, 1982):
yij = β0 + β1xij + Ui + εij Ui ∼ N(0, σ2U) εij ∼ N(0, σ2
ε)
β0 → media Ui → ordenada en el origen aleatoria para la niña i . Un solo
parámetro.
La hipótesis de linealidad no es coherente con los datos
⇓
yij = f (xij ) + Ui + εij
Maria Durbán () Septiembre 2010 37 / 68
Aplicación a datos longitudinales
yij = f (xij) + Ui + εij
En este modelo la diferencia entre la niñas viene reflejada sólo por laordenada en el origen→ curvas de crecimiento son paralelas
⇓
Extensión: considerar que las diferencias individuales vienen dadaspor líneas.
yij = f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σ2ε ) (ai1,ai2)T ∼ N(0,Σ)
Maria Durbán () Septiembre 2010 38 / 68
Aplicación a datos longitudinales
yij = f (xij) + Ui + εij
En este modelo la diferencia entre la niñas viene reflejada sólo por laordenada en el origen→ curvas de crecimiento son paralelas
⇓
Extensión: considerar que las diferencias individuales vienen dadaspor líneas.
yij = f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σ2ε ) (ai1,ai2)T ∼ N(0,Σ)
Maria Durbán () Septiembre 2010 38 / 68
Aplicación a datos longitudinales
Un modelo más flexible→las diferencias específicas de cada individuo sonfunciones no-paramétricas→ Psplines
yij = f (xij ) + gi (xij ) + εij ,
Cada curva individual tiene dos componentes: lineal y no-lineal: ambasaleatoriasAunque es un modelo complejo tiene representación sencilla en el contextode los modelos mixtos: Y = Xβ + Zu + ε
Uno de los objetivos del estudio: Comparar los efectos a largo plazo de tresterapiasAjustamos una curva para cada terapia:
yij = fgr(j)(tij ) + gi (tij ) + εij 1 ≤ i ≤ 197 1 ≤ j ≤ ni
Maria Durbán () Septiembre 2010 39 / 68
Aplicación a datos longitudinales
Un modelo más flexible→las diferencias específicas de cada individuo sonfunciones no-paramétricas→ Psplines
yij = f (xij ) + gi (xij ) + εij ,
Cada curva individual tiene dos componentes: lineal y no-lineal: ambasaleatoriasAunque es un modelo complejo tiene representación sencilla en el contextode los modelos mixtos: Y = Xβ + Zu + ε
Uno de los objetivos del estudio: Comparar los efectos a largo plazo de tresterapiasAjustamos una curva para cada terapia:
yij = fgr(j)(tij ) + gi (tij ) + εij 1 ≤ i ≤ 197 1 ≤ j ≤ ni
Maria Durbán () Septiembre 2010 39 / 68
Aplicación a datos longitudinales
Un modelo más flexible→las diferencias específicas de cada individuo sonfunciones no-paramétricas→ Psplines
yij = f (xij ) + gi (xij ) + εij ,
Cada curva individual tiene dos componentes: lineal y no-lineal: ambasaleatoriasAunque es un modelo complejo tiene representación sencilla en el contextode los modelos mixtos: Y = Xβ + Zu + ε
Uno de los objetivos del estudio: Comparar los efectos a largo plazo de tresterapiasAjustamos una curva para cada terapia:
yij = fgr(j)(tij ) + gi (tij ) + εij 1 ≤ i ≤ 197 1 ≤ j ≤ ni
Maria Durbán () Septiembre 2010 39 / 68
Aplicación a datos longitudinales
Un modelo más flexible→las diferencias específicas de cada individuo sonfunciones no-paramétricas→ Psplines
yij = f (xij ) + gi (xij ) + εij ,
Cada curva individual tiene dos componentes: lineal y no-lineal: ambasaleatoriasAunque es un modelo complejo tiene representación sencilla en el contextode los modelos mixtos: Y = Xβ + Zu + ε
Uno de los objetivos del estudio: Comparar los efectos a largo plazo de tresterapiasAjustamos una curva para cada terapia:
yij = fgr(j)(tij ) + gi (tij ) + εij 1 ≤ i ≤ 197 1 ≤ j ≤ ni
Maria Durbán () Septiembre 2010 39 / 68
Aplicación a datos longitudinales
Un modelo más flexible→las diferencias específicas de cada individuo sonfunciones no-paramétricas→ Psplines
yij = f (xij ) + gi (xij ) + εij ,
Cada curva individual tiene dos componentes: lineal y no-lineal: ambasaleatoriasAunque es un modelo complejo tiene representación sencilla en el contextode los modelos mixtos: Y = Xβ + Zu + ε
Uno de los objetivos del estudio: Comparar los efectos a largo plazo de tresterapiasAjustamos una curva para cada terapia:
yij = fgr(j)(tij ) + gi (tij ) + εij 1 ≤ i ≤ 197 1 ≤ j ≤ ni
Maria Durbán () Septiembre 2010 39 / 68
Aplicación a datos longitudinales
Interés:
Estimar el efecto medio de los tratamientos
Estimar las respuestas individuales a los tratamietos
Para comparar las curvas de tratamiento comparamos los modelos:
yij = fgr(j)(xij ) + gi (xij ) + εij ,yij = f (xij ) + gi (xij ) + εij ,
Problema: contrastar que un parámetro de varianza = 0
⇓
Bootstrap→computacionalmente intensivo
RLRT →aproximadamente12χ2
2 +12χ2
3
Maria Durbán () Septiembre 2010 40 / 68
Aplicación a datos longitudinales
Interés:
Estimar el efecto medio de los tratamientos
Estimar las respuestas individuales a los tratamietos
Para comparar las curvas de tratamiento comparamos los modelos:
yij = fgr(j)(xij ) + gi (xij ) + εij ,yij = f (xij ) + gi (xij ) + εij ,
Problema: contrastar que un parámetro de varianza = 0
⇓
Bootstrap→computacionalmente intensivo
RLRT →aproximadamente12χ2
2 +12χ2
3
Maria Durbán () Septiembre 2010 40 / 68
Aplicación a datos longitudinales
Interés:
Estimar el efecto medio de los tratamientos
Estimar las respuestas individuales a los tratamietos
Para comparar las curvas de tratamiento comparamos los modelos:
yij = fgr(j)(xij ) + gi (xij ) + εij ,yij = f (xij ) + gi (xij ) + εij ,
Problema: contrastar que un parámetro de varianza = 0
⇓
Bootstrap→computacionalmente intensivo
RLRT →aproximadamente12χ2
2 +12χ2
3
Maria Durbán () Septiembre 2010 40 / 68
Aplicación a datos longitudinales
Interés:
Estimar el efecto medio de los tratamientos
Estimar las respuestas individuales a los tratamietos
Para comparar las curvas de tratamiento comparamos los modelos:
yij = fgr(j)(xij ) + gi (xij ) + εij ,yij = f (xij ) + gi (xij ) + εij ,
Problema: contrastar que un parámetro de varianza = 0
⇓
Bootstrap→computacionalmente intensivo
RLRT →aproximadamente12χ2
2 +12χ2
3
Maria Durbán () Septiembre 2010 40 / 68
Aplicación a datos longitudinales
Interés:
Estimar el efecto medio de los tratamientos
Estimar las respuestas individuales a los tratamietos
Para comparar las curvas de tratamiento comparamos los modelos:
yij = fgr(j)(xij ) + gi (xij ) + εij ,yij = f (xij ) + gi (xij ) + εij ,
Problema: contrastar que un parámetro de varianza = 0
⇓
Bootstrap→computacionalmente intensivo
RLRT →aproximadamente12χ2
2 +12χ2
3
Maria Durbán () Septiembre 2010 40 / 68
Aplicación a datos longitudinalesResultado:
La altura se ve afectada por las distintas terapias
Los tres grupos tienen tendencias similares pero ausencia de radiación→niñasmás altas
Confirma resultados que asocian la radiación con deficiencia de hormona delcrecimiento
5 10 15
Age (in years)
100
120
140
160
Hei
ght (
in c
m)
treatment 1treatment 2treatment 3
5 10 15
Age (in years)
-20
-15
-10
-50
5
Diff
eren
ce
treatment 3 vs 1treatment 2 vs 1
Maria Durbán () Septiembre 2010 41 / 68
Aplicación a datos longitudinales
Para comprobar si la respuesta individual al tratameinto es lineal o no,comparamos:
yij = fgr(j)(xij) + ai1 + ai2xij + εij ,
yij = fgr(j)(xij) + gi(xij) + εij ,
5 10 15
Age (in years)
-20
-10
010
20
Ran
dom
effe
cts
Resultado: La variación entre-individuos es considerable. Efectos aleatorios linealesno decribirían correctamente la variación intra-individuos
Maria Durbán () Septiembre 2010 42 / 68
Aplicación a datos longitudinales
Para comprobar si la respuesta individual al tratameinto es lineal o no,comparamos:
yij = fgr(j)(xij) + ai1 + ai2xij + εij ,
yij = fgr(j)(xij) + gi(xij) + εij ,
5 10 15
Age (in years)
-20
-10
010
20
Ran
dom
effe
cts
Resultado: La variación entre-individuos es considerable. Efectos aleatorios linealesno decribirían correctamente la variación intra-individuos
Maria Durbán () Septiembre 2010 42 / 68
Aplicación a datos longitudinales
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
heig
ht (i
n cm
)
La desviación de cada niña respecto de media poblacional debe ser modelizada deforma no-paramétrica
Maria Durbán () Septiembre 2010 43 / 68
Aplicación a datos longitudinales
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
heig
ht (i
n cm
)
Las curvas de grupo no reflejan la respuesta individual→ se pierde información si nose utilizan curvas individuales
Maria Durbán () Septiembre 2010 44 / 68
Aplicación a datos longitudinales
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
Hei
ght (
in c
m)
5 10 15Age (in years)
100
120
140
160
heig
ht (i
n cm
)
No tener en cuenta de forma correcta la variación individual puede afectar a lacomparación entre las curvas para las distintas terapias
Maria Durbán () Septiembre 2010 45 / 68
Aplicación a áreas pequeñas
Hasta ahora no se habían usado métodos de regresión no-paramétricapara estimación de áreas pequeñas
P-spline como modelos mixtos + efectos aleatorios para cada área⇒modelo mixto
Estos modelos permiten mejorar las predicciones en áreas donde nohay datos disponibles
Northeastern U.S. lakes survey
334 lagos, 551 medidas
133 áreas pequeñas, en algunas no hay datos
Variablede interés: Capacidad de neutralizacón de ácidos: indicador delriesgo de acidez
Covariables: Posición geográfica y elevación
Maria Durbán () Septiembre 2010 46 / 68
Aplicación a áreas pequeñas
Hasta ahora no se habían usado métodos de regresión no-paramétricapara estimación de áreas pequeñas
P-spline como modelos mixtos + efectos aleatorios para cada área⇒modelo mixto
Estos modelos permiten mejorar las predicciones en áreas donde nohay datos disponibles
Northeastern U.S. lakes survey
334 lagos, 551 medidas
133 áreas pequeñas, en algunas no hay datos
Variablede interés: Capacidad de neutralizacón de ácidos: indicador delriesgo de acidez
Covariables: Posición geográfica y elevación
Maria Durbán () Septiembre 2010 46 / 68
Aplicación a áreas pequeñas
●●●●
●●●●●●●●
●●
●●●●● ●●●
●●●
●●●
●
●●●
●●●
●●
●●●●●●●
●●●●●
●● ●
● ●
●●●
●●●
●
●
●●
●
●
●
●
● ●
●●
●
●
●
●●
●●●
●●●
●●●
●●●
●●●
●
●
●●●●
●
●
●●
●●●
●
●
●●
●
●●●
●
●●
●●●
●●●
●●●●●●●
●
● ●●●●
●●●●
●●
●●●●●●●●●
●●●●
●●●●●●
●●●●●●
●●
●●●●●●●●●●●●●
●●●
●●●
●●
●
●●●●
●●●●
●●●●
●●
●
●●●
●●●
●●●
●●
●●
●●●●
●●●●
●
●●
●●●●●
●●●●●
●●
●
●
●●●●
●
●
●●
●
●
●●
●
●
●●●●
●●
●●●●●●
●●●
●●
●●
●
●
●●●
●●●●●●●
●
●
●●●
●●
●●●●●●●● ●●
●●●
●
●●
●●●●●
●
●
●
●
●●●●●
●●●●●
●●●
●●●●●
●●●●●●●
●●●●
●●
●●●●●
●●
●●●●●●●●●●●●●●●●
●●
●
●●●
● ●
●
●●
●
●●●
●●●●●●●●●●●●
●●●
●●●
●
●●
●●●●●●
●●●●●
●● ●●●●●●●●●
●●●●
●●
●
●●●●●
●●●●
●●●
●●●
●
●●●●
●
● ●●●●
●●
●●●●
●●
●
●●●●●
●
●
●
●● ●
●
●
●●●●
●●
●
●
●●●●●
●
●●
●●
●●●
●●●
●●
●●●
●
●●
●
●●●●
●●●●●●●●
●
●
●●●●●
●●
●●●●●●
●
●●
●
●●●●
●●●●●●●●
●●
●●●●● ●●●
●●●
●●●
●
●●●
●●●
●●
●●●●●●●
●●●●●
●● ●
● ●
●●●
●●●
●
●
●●
●
●
●
●
● ●
●●
●
●
●
●●
●●●
●●●
●●●
●●●
●●●
●
●
●●●●
●
●
●●
●●●
●
●
●●
●
●●●
●
●●
●●●
●●●
●●●●●●●
●
● ●●●●
●●●●
●●
●●●●●●●●●
●●●●
●●●●●●
●●●●●●
●●
●●●●●●●●●●●●●
●●●
●●●
●●
●
●●●●
●●●●
●●●●
●●
●
●●●
●●●
●●●
●●
●●
●●●●
●●●●
●
●●
●●●●●
●●●●●
●●
●
●
●●●●
●
●
●●
●
●
●●
●
●
●●●●
●●
●●●●●●
●●●
●●
●●
●
●
●●●
●●●●●●●
●
●
●●●
●●
●●●●●●●● ●●
●●●
●
●●
●●●●●
●
●
●
●
●●●●●
●●●●●
●●●
●●●●●
●●●●●●●
●●●●
●●
●●●●●
●●
●●●●●●●●●●●●●●●●
●●
●
●●●
● ●
●
●●
●
●●●
●●●●●●●●●●●●
●●●
●●●
●
●●
●●●●●●
●●●●●
●● ●●●●●●●●●
●●●●
●●
●
●●●●●
●●●●
●●●
●●●
●
●●●●
●
● ●●●●
●●
●●●●
●●
●
●●●●●
●
●
●
●● ●
●
●
●●●●
●●
●
●
●●●●●
●
●●
●●
●●●
●●●
●●
●●●
●
●●
●
●●●●
●●●●●●●●
●
●
●●●●●
●●
●●●●●●
●
●●
●
North Eastern States
Maria Durbán () Septiembre 2010 47 / 68
Aplicación a áreas pequeñas
Modelo ajustado:y = Xβ + Zu + Tv + ε
Z ⇒ representación de P-spline bidimensional como modelo mixto
T ⇒ áreas pequeñas
T =
11 0 . . . 00 12 . . . 0...
.... . .
...0 0 . . . 1133
u ∼ N(0,Σ(σ2u1, σ
2u2))
v ∼ N(0, Iσ2v )
ε ∼ N(0, Iσ2ε )
Maria Durbán () Septiembre 2010 48 / 68
Aplicación a áreas pequeñas
under 250250 − 550550 − 750750 − 1000over 1000
North Eastern States
Maria Durbán () Septiembre 2010 49 / 68
Aplicación a áreas pequeñas
Predicciones de los P-splines
under 250250 − 550550 − 750750 − 1000over 1000
North Eastern States
Maria Durbán () Septiembre 2010 50 / 68
Aplicación a áreas pequeñas
Predicciones del efecto de áreas pequeñas
under −301−301 − −147−147 − 100100 − 300over 300
North Eastern States
Maria Durbán () Septiembre 2010 51 / 68
Aplicación a áreas pequeñas
Predicción de medias
under 250250 − 550550 − 750750 − 1000over 1000
North Eastern States
under 250250 − 550550 − 750750 − 1000over 1000
Maria Durbán () Septiembre 2010 52 / 68
Aplicación a áreas pequeñas
Medias observadas y predichas
under 250250 − 550550 − 750750 − 1000over 1000
North Eastern States
under 250250 − 550550 − 750750 − 1000over 1000
North Eastern States
under 250250 − 550550 − 750750 − 1000over 1000
Maria Durbán () Septiembre 2010 53 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Fuente: Continuous Mortality Investigation Bureau (CMIB).Para cada año (1947-1999) y cada edad (11-100) tenemos:
Años de vida (exposición).
Número de pólizas reclamadas (muertes).
La mortalidad de los asegurados ha mejorado sustanciamente em los últimos30 años
⇓
Objetivo: modelo para ajustar la tendencia de la mortalidad a lo largo deltiempo y su dependencia de la edad, así como predecir la mortalidad a largoplazo.
Maria Durbán () Septiembre 2010 54 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UKFuente: Continuous Mortality Investigation Bureau (CMIB).Para cada año (1947-1999) y cada edad (11-100) tenemos:
Años de vida (exposición).
Número de pólizas reclamadas (muertes).
Maria Durbán () Septiembre 2010 55 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Partimos de,
Yij ∼ P(Eijµij ), i = 1, . . .90 j = 1, . . . ,53ηij = log(Eij ) + log(µij ),
la diferencia entre los distintos modelos está en como se modela log(µij )
Maria Durbán () Septiembre 2010 56 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Modelo aditivo de suavizado Edad-Periodo:
η = log(E) + log(Xβ + Zα) donde Z = [Z a : Z y ] α′ = [α′a,α′y ]
αa ∼ N(0, σ2a I) αy ∼ N(0, σ2
y I).
Modelo additivo de suavizado Edad-Periodo-Cohorte:
En este caso Z = [Z a : Z y : Z c ] α′ = [α′a,α′y ,α
′c ]
αa ∼ N(0, σ2a I) αy ∼ N(0, σ2
y I) αc ∼ N(0, σ2c I).
Modelo de suavizado bidimensional:
η = log(E) + log(Xβ + Zα)
αa ∼ N(0, σ2(λaψa + λyψy )−1)
Maria Durbán () Septiembre 2010 57 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Modelo aditivo de suavizado Edad-Periodo
Year
log(
mor
talit
y)
1950 1960 1970 1980 1990 2000
-7.8
-7.6
-7.4
-7.2
-7.0
-6.8
-6.6
-6.4
Year
log(
mor
talit
y)
1950 1960 1970 1980 1990 2000
-5.0
-4.8
-4.6
-4.4
-4.2
Age: 34 Age: 60
Maria Durbán () Septiembre 2010 58 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Modelo aditivo de suavizado Edad-Periodo-Cohorte
Year
log(
mu)
1950 1960 1970 1980 1990 2000
-7.6
-7.4
-7.2
-7.0
-6.8
-6.6
-6.4
Year
log(
mu)
1950 1960 1970 1980 1990 2000
-5.0
-4.8
-4.6
-4.4
-4.2
Age: 34 Age: 60
Maria Durbán () Septiembre 2010 59 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Modelo de suavizado bidimensional
Year
log(
mor
talit
y)
1950 1960 1970 1980 1990 2000
-7.6
-7.4
-7.2
-7.0
-6.8
-6.6
-6.4
Year
log(
mor
talit
y)
1950 1960 1970 1980 1990 2000
-5.0
-4.8
-4.6
-4.4
-4.2
Age: 34 Age: 60
Maria Durbán () Septiembre 2010 60 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Modelo de suavizado bidimensional
20
40
60
80
100
Age1950
1960
1970
1980
1990
Year
-8-6
-4-2
0Lo
g(m
orta
lity)
28
Maria Durbán () Septiembre 2010 61 / 68
Aplicación a datos bidimensionales: Datos sobre elnúmero de pólizas de seguros en UK
Comparamos los modelos
1950 1960 1970 1980 1990 2000
Year
-7.8
-7.6
-7.4
-7.2
-7.0
-6.8
-6.6
-6.4
log(
mor
talit
y)
1950 1960 1970 1980 1990 2000
Year
-5.0
-4.8
-4.6
-4.4
-4.2
log(
mor
talit
y)
AdditiveTensorAPC
Age: 34 Age: 60
Maria Durbán () Septiembre 2010 62 / 68
Aplicación a datos bidimensionales: Contaminaciónpor ozono en Europa
45 estaciones de monitorización
Medias mesuales de niveles de O3
desde Enero 1999 a Diciembre 2005 (t = 1, ...,84)
Ozone pollution in EuropeLee and Durbán (2010)
• Sample of 45 monitoring stations
• Monthly averages of O3 levels (in µg/m3 units)
• from january 1999 to december 2005 (t = 1, ..., 84)
−5 0 5 10 15 20 25 30
4045
5055
6065
Longitude
Latit
ude
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
Spain
Austria
Sweden
UK
1999 2000 2001 2002 2003 2004 2005 2006
2040
6080
100
120
140
Year
O3
SpainSwedenAustriaUK
Monitoring stations Time series plot
Source: EEA
Maria Durban Dae-Jin Lee (Uc3m) July 2010 p. 26Maria Durbán () Septiembre 2010 63 / 68
Aplicación a datos bidimensionales: Contaminaciónpor ozono en Europa
fs(x1,x2) + ft (x t )
0 5 10 15 20 25
4045
5055
6065
Latitude
Long
itude
40
50
60
70
80
90
1999 2000 2001 2002 2003 2004 2005−
20−
100
1020
year
f(tim
e)
X No se incluye la interacción espacio-tiempo
X La tendencia temporal es aditiva
Maria Durbán () Septiembre 2010 64 / 68
Aplicación a datos bidimensionales: Contaminaciónpor ozono en Europa
Play animation =
+ +
y f(space)
f(time)
1999 : 1
f(space,time)
Maria Durbán () Septiembre 2010 65 / 68
Aplicación a datos bidimensionales: Contaminaciónpor ozono en Europa
Modelo aditivo Modelos con interacciónfs(x1, x2) + fs(x t) fs(x1, x2) + ft(x t) + fst(x1, x2, x t)
1999 2000 2001 2002 2003 2004 2005 2006
2040
6080
100
120
140
year
O3
SpainSwedenAustriaUK
1999 2000 2001 2002 2003 2004 2005 200620
4060
8010
012
014
0
year
O3
SpainSwedenAustriaUK
X Modelo aditivo: Asume una tendencia espacial que permanece constante a lo largo deltiempo.
X Modelo con interacción: Captura las diferencias individuales de las estaciones a lo largodel tiempo.
Maria Durbán () Septiembre 2010 66 / 68
Conclusiones
Los P-splines son una herramienta muy útil para el análisis de datos enmuchas situacioines
Los P-splines como modelos mixtos permiten la utilización del softwareestándar: SAS, Splus, R
La bases y el modelo de suavizado bidimensional presentado permiteun suavizado no isotrópico que hasta ahora no era posible
Los P-splines se acomodan a todas las “religiones”: clásicos, modelosmixtos, bayesianos.....
Maria Durbán () Septiembre 2010 67 / 68
Conclusiones
Los P-splines son una herramienta muy útil para el análisis de datos enmuchas situacioines
Los P-splines como modelos mixtos permiten la utilización del softwareestándar: SAS, Splus, R
La bases y el modelo de suavizado bidimensional presentado permiteun suavizado no isotrópico que hasta ahora no era posible
Los P-splines se acomodan a todas las “religiones”: clásicos, modelosmixtos, bayesianos.....
Maria Durbán () Septiembre 2010 67 / 68
Conclusiones
Los P-splines son una herramienta muy útil para el análisis de datos enmuchas situacioines
Los P-splines como modelos mixtos permiten la utilización del softwareestándar: SAS, Splus, R
La bases y el modelo de suavizado bidimensional presentado permiteun suavizado no isotrópico que hasta ahora no era posible
Los P-splines se acomodan a todas las “religiones”: clásicos, modelosmixtos, bayesianos.....
Maria Durbán () Septiembre 2010 67 / 68
Conclusiones
Los P-splines son una herramienta muy útil para el análisis de datos enmuchas situacioines
Los P-splines como modelos mixtos permiten la utilización del softwareestándar: SAS, Splus, R
La bases y el modelo de suavizado bidimensional presentado permiteun suavizado no isotrópico que hasta ahora no era posible
Los P-splines se acomodan a todas las “religiones”: clásicos, modelosmixtos, bayesianos.....
Maria Durbán () Septiembre 2010 67 / 68
Referencias
Eilers, P.H.C. & Marx, B.D. (1996). Flexible smoothing with B-splines anspenalties. Statist. Sci. 11.
Durbán, M. and Currie,I. (2003). A note on P-Spline additive models withcorrelated errors. Comp. Stat., 18.
Lang, S. and Brezger, A. (2003). Bayesian P-splines. J. Computational andGraphical Statistics.
Eilers, P., Currie, I. and Durbán, M. (2006). Fast and compact smoothing onlarge multidimensional grids. Comp. Stat. and Data Analysis.
Durbán, M., Harezlak,J., Carrol, R. and Wand, M. (2005). Simple fitting ofsubject-specific curves for longitudinal data. Statistics in Medicine
Currie, I., Durban, M. and Eilers, P. (2006). Generalized linear array models withapplications to multidimensional smoothing. J. Royal Statist. Society B.
Lee, D.J. and Durbán, M. (2010). P-splines ANOVA-type interaction models forspatio-temporal smoothing. Statistical Modelling .(en prensa)
Maria Durbán () Septiembre 2010 68 / 68