UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · EL MODELO ANOVA DE UN...
Transcript of UNIDAD 9-Análisis de Datos: perspectiva estadística de la ...€¦ · EL MODELO ANOVA DE UN...
MÓDULO 2 PLANEAMIENTO Y EJECUCIÓN DE TRABAJOS
DE CAMPO
Programa de Capacitación en Planeamiento, Regulación y Gestión Pública del Transporte Urbano Metropolitano (PTUBA)
UNIDAD 9-Análisis de Datos: perspectiva estadística de la explotación de la encuesta
TEMA 9.2: MODELOS DE RESPUESTA NORMAL. ANÁLISIS DE LA VARIANZA Y LA COVARIANZA. MODELO LINEAL GENERAL.
AUTORA:
Lídia Montero Mercadé DEIO-UPC Versió 1.2
Buenos Aires, 7 a 11 Diciembre 2009
TABLA DE CONTENIDOS ➩➩➩➩ INTRODUCCIÓN ➩➩➩➩ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ MODELOS ANOVA MÁS COMPLEJOS ➩➩➩➩ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
➩➩➩➩ INTRODUCCIÓN ➩➩➩➩ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ MODELOS ANOVA MÁS COMPLEJOS ➩➩➩➩ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
INTRODUCCIÓN (CONT.)
El Tema 9.2 de Regresión Normal Clásica ha presentado: � El modelo de regresión permite medir el efecto relativo de cada variable explicativa sobre la respuesta y hacer predicciones sobre la respuesta conocido el valor de las variables explicativas
� Estimación por mínimos cuadrados (justificado en clase): se presentan como aquellos que satisfacen las ecuaciones normales. Aspectos geométricos y estadísticos.
� Se conoce el principio de la varianza incremental para contrastación, la interpretación de la tabla ANOVA y la diagnosis y validación del modelo vía el análisis de los residuos.
� Se va a suponer la existencia de un término independiente asociado al parámetro primero.
INTRODUCCIÓN (CONT.)
La extensión de los modelos de regresión lineal para el tratamiento del análisis de la varianza y de la covarianza se denomina Modelo Lineal General. El análisis de la varianza es un método para el análisis de datos procedentes del diseño experimental frecuentemente empleado ... �� Resulta desconocido por muchos ingenieros e investigadores que los modelos de análisis de
varianza pueden tratarse a través de los procedimientos generales de regresión lineal (múltiple) tomando determinadas precauciones: ya que los modelos ANOVA resultan sobreparametrizados
�� El tratamiento del análisis de la varianza mediante regresión lineal enfatiza la existencia de un
modelo subyacente: el modelo de análisis de la varianza �� La diagnosis y validación de los modelos ANOVA (y ANCOVA) puede remitirse a los
procedimientos generales de análisis de los residuos empleados en regresión múltiple, con la ventaja de ser procedimientos gráficos y que entran por los ojos
�� Además, la formulación por regresión hace más llevadero el trabajo con experimentos con un
número de réplicas distintas (diseños no balanceados, o balanceados inicialmente, pero con problemas posteriores) o diseños complejos
➨➨➨➨ INTRODUCCIÓN ➩➩➩➩ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ MODELOS ANOVA MÁS COMPLEJOS ➩➩➩➩ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (1)
1.1.1 Caso de Estudio 1 (Ejemplo de MINITAB v1.1) Una consultora de Ingeniería e Informática quiere evaluar la reducción de horas-hombre que supone la introducción de una nueva herramienta de cálculo, un programa nuevo con mayores requerimientos de hardware, pero con unas prestaciones superiores según los artículos aparecidos en revistas especializadas de software. La empresa dispone de 6 ingenieros senior y se diseña un experimento aleatorizado que asigna a cada ingeniero 4 problemas, de dos tipos (Factor B), 2 de sistemas lineales y 2 de modelización estadística, a resolver aleatoriamente, uno de cada, con la nueva herramienta y con la habitual (Factor A). Se contabiliza el tiempo de resolución en minutos y se introducen los datos en el programa estadístico MINITAB.
Adams Dixon EricksonJones Maynes Williams
2
3
4
5
6
7
8
FACTOR A
TIE
MP
O
NEW OLD
INGENIERO
CASO DE ESTUDIO 1: EL MODELO ANOVA DE UN FACTOR (2)
Datos y Resultados MINITAB ... Worksheet size: 100000 cells MTB > Retrieve "G:\LIDIA\CURRI\TU\MEMO2\DOCSWORD\C as1.mtw". Retrieving worksheet from fi le: G:\LIDIA\CURRI\TU\M EMO2\DOCSWORD\Cas1.mtw Current worksheet: Cas1.mtw MTB > Plot 'TIEMPO'* 'FACTOR A'; SUBC> Symbol ' INGENIERO'; SUBC> ScFrame; SUBC> ScAnnotat ion. MTB > Oneway 'TIEMPO' 'FACTOR A'. One-way Analysis of Variance Analysis of Variance for TIEMPO Source DF SS MS F P FACTOR A 1 72,11 72,11 70,78 0,000 Error 22 22,41 1,02 Total 23 94,52 Indiv idual 95% C Is For Mean Based on Pooled StDev Level N Mean StDev -----+---------+ ---------+---------+- New 12 2,925 0,538 (----*---) Old 12 6,392 1,322 ( - --*---) - - ---+---------+ ---------+---------+- Pooled StDev = 1,009 3,0 4,5 6,0 7,5 MTB > PRINT C1-C7
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (1)
El modelo ANOVA de un factor (genéricamente con I niveles). Se fijan las ideas en el Caso de Estudio 2: formulación y construcción de los modelos de regresión, interpretación de sus parámetros y discusión de su empleo en inferencia.
Grupo 1 111211 ,,, nyyy L Media 1y Grupo 2 222221 ,,, nyyy L Media 2y ... ... ... Grupo I IInII yyy ,,, 21 L Media Iy
(1) ijiijY εµ += , I parámetros y ( )I0N2,σn≈εεεε .
(2) ijiijY εαµ ++= , µ es la esperanza del efecto para todos los niveles, I+1 parámetros.
La hipótesis nula habitual es que no hay diferencias entre las medias de los grupos:
(1) µµµ === IL1:0H frente :1H Alguna iµ distinta.
(2) 0: 1 === Iαα L0H frente 0: ≠∃ iα1H .
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (3)
(R 1) ijiijY εαµ ++= El modelo de regresión correspondiente tiene I+1 parámetros y XXT
es singular,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y
,
} } } } }
=
===
1001
01
001
0101
00011
X
Ii2i1i1
L
MLM
MM
M
L
,
=
Iα
αµ
M
1ββββ ,
−
=
IJ
I
J
ε
ε
ε
ε
M
M
M
1
1
11
_
εεεε,
=
JJ
JJ
JJn
00
00
0
OM
L
XXT
�� No existe una solución única a las ecuaciones normales, sinó infinitas y todas ellas facilitan una suma de cuadrados de los residuos de igual valor.
�� Técnicamente, existen infinitas posibilidades de formular un modelo de regresión equivalente,
pero con solución única, basta añadir cualquier restricción del tipo 010 =+∑ =
I
i iiαωµω .
Se van a ver dos posibilidades ...
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (4)
(R 2) ijiijY εαµ ++= más la restricción 01=α . Si el número de réplicas por clase es idéntico e igual a J el modelo de regresión equivalente es,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y
,
In×
=
1
01
L
OMM
M
01
0
1
0001
XR
,
=
Iα
αµ
M
2
ΡΡΡΡ����ββββ ,
�� I parámetros.
�� El efecto del nivel 1 viene expresado por µ y el efecto aditivo debido al nivel i por iα .
�� Sin embargo, la formulación más habitual contempla µ como la media global y iα como el efecto diferencial (positivo o negativo) debido al nivel i-ésimo sobre la media global.
( )
−
−=
==
∑
∑∑ ∑
= −
=
= =−
−
1
12
1
1 ,1
1 1
1 1
1
0
0
yy
yy
y
y
y
y
JJ
JJ
JJn
IJ
j jI
J
j j
I
i
J
j ij
RMM
L
OMM
L
YXXXbT
R
1
R
T
R
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (5)
(R 3) ijiijY εαµ ++= más la restricción 01
=∑ =
I
i iα (o ∑−
=−= 1
1
I
i iI αα ): el efecto medio viene
expresado por µ y el efecto aditivo debido al nivel i por iα ,
−
=
IJ
I
J
y
y
y
y
IM
M
M
M
1
1
11
_
1
Y
,
Inx
−−
=
111
1
101
0011
XR
L
OMM
M
,
=
−1
1
R
Iα
αµ
Mββββ
,
−
=
IJ
I
J
ε
ε
ε
ε
M
M
M
1
1
11
_
εεεε
( )
−
−===
−
−
yy
yy
y
I
RRR
1
1
RM
YXXXbT1T
�� El número de parámetros es I . La matriz RR XXT
es no singular de dimensiones IxI . Las columnas de la matriz de diseño o variables mudas (dummies) se notan como 11 ,, −IDD L .
�� La última de la propuesta produce una estimación de los parámetros tales que,
I
I
i i∑ == 1ˆ
ˆµ
µ , µµα ˆˆ −= ii y ∑−
=−= 1
1
I
i iI αα de donde iiij yyy =+= αˆ .
FORMULACIÓN DEL MODELO ANOVA DE UN FACTOR POR REGRESIÓN (6)
�� El contraste de la hipótesis nula 0: 1 === Iαα L0H frente a la hipótesis alternativa 0: ≠∃ iα1H
en (R2) ijiijY εαµ ++= más la restricción de suma cero (o base-line) es, Si H1 es correcta la suma de cuadrados de los residuos correspondiente al modelo completo SCR1,
satisface 2
21
InSCR
−≈ χσ .
Si además 0: 1 === Iαα L0H es correcta entonces ( )∑∑ −== 2yySCTSCR ijo ,
212
0
−≈n
SCR χσ y
de ahí, 212
10
−≈−I
SCRSCR χσ y
InIIn
SCR
I
SCRSCRf −−≈
−−−
= ,1110
1F
CONTINUACIÓN DEL CASO DE ESTUDIO 1 (1)
�� Definición del modelo de regresión estándar (R2), sin considerar la dependencia lineal de las columnas de la matriz de diseño: MINITAB detecta la singularidad y toma la decisión de eliminar una de las columnas, la del nivel 2, lo que facilita el modelo de regresión restringido (R3). Códigos: I=2 i=1 ‘Old’ e i=2 ‘New’.
�� D1A 1 si Old y 0 de otro modo (New). D2A 0 si Old y 1 si New. Regression Analysis * D2A is highly correlated with other X var iables * D2A has been removed from the equat ion The regression equat ion is TIEMPO = 2,93 + 3,47 D1A Predictor Coef StDev T P Constant 2,9250 0,2914 10,04 0,0 00 D1A 3,4667 0,4121 8,41 0,0 00 S = 1,009 R-Sq = 76,3% R-Sq(adj) = 75,2% Analysis of Var iance Source DF SS MS F P Regression 1 72,107 72,107 70 ,78 0,000 Residual Error 22 22,412 1,019 Total 23 94,518
(R 3)
93,2ˆˆ
39,6ˆˆˆˆ
22
12111
====+=+==
µααµ
yy
yyy
j
j
CONTINUACIÓN DEL CASO DE ESTUDIO 1 (2)
�� Modelo de regresión restringido (R4): D1A 1 si Old y –1 de otro modo (New). �� El término independiente estimado proporciona el valor medio del efecto que debe
incrementarse en 1,73 minutos para estimar la media del programa habitual y decrementarse en la misma cantidad para reflejar la media estimada para el programa nuevo.
�� La varianza estimada del modelo coincide con el valor facilitado por los procedimientos
ONEWAY y Balanced ANOVA y el coeficiente de determinación del modelo es del 76,3%. MTB > LET ‘D1A’= ‘D1A’ – ‘D2A’ MTB > REGRESS ‘TIEMPO’ 1 ‘D1A’; SUBC > Constant. MTB > Regression Analysis The regression equat ion is TIEMPO = 4,66 + 1,73 D1A Predictor Coef StDev T P Constant 4,6583 0,2060 22,61 0,0 00 D1A 1,7333 0,2060 8,41 0,0 00 S = 1,009 R-Sq = 76,3% R-Sq(adj) = 75,2% Analysis of Var iance Source DF SS MS F P Regression 1 72,107 72,107 70 ,78 0,000 Residual Error 22 22,412 1,019 Total 23 94,518
(R 4)
93,2ˆˆˆˆˆ
39,673,166,4ˆˆˆ
1222
111
=−=+===+=+==
αµαµαµ
yy
yy
j
j
➨➨➨➨ INTRODUCCIÓN ➨➨➨➨ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ MODELOS ANOVA MÁS COMPLEJOS ➩➩➩➩ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
CASO DE ESTUDIO 3: EL MODELO ANOVA DE DOS FACTORES
1.1.2 Caso de Estudio 1 (Ejemplo de MINITAB v1.1) Una consultora de Ingeniería e Informática quiere evaluar la reducción de horas-hombre que supone la introducción de una nueva herramienta de cálculo, un programa nuevo con mayores requerimientos de hardware, pero con unas prestaciones superiores según los artículos aparecidos en revistas especializadas de software. La empresa dispone de 6 ingenieros senior y se diseña un experimento aleatorizado que asigna a cada ingeniero 4 problemas, de dos tipos (Factor B), 2 de sistemas lineales y 2 de modelización estadística, a resolver aleatoriamente, uno de cada, con la nueva herramienta y con la habitual (Factor A). Se contabiliza el tiempo de resolución en minutos y se introducen los datos en el programa estadístico MINITAB.
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (1)
�� El análisis de la varianza de 2 factores examina la relación entre una variable de respuesta
cuantitativa y dos variables explicativas cualitativas.
�� La inclusión del segundo factor permite la modelización y contraste de relaciones de dependencia parciales e introducir interacciones.
�� Al suponer en Two-way ANOVA que se dispone de las medias poblacionales de cada celda de las combinaciones de los niveles de los factores: JjIiij ,,1,,1, KK ==µ , se pueden establecer patrones de relación habituales claramente.
1 .... J
1 11µ .... J1µ •1µ M M M M M I 1Iµ ....
IJµ •Iµ
1•µ .... J•µ
�� Si A y B no interaccionan, entonces la relación parcial entre cada factor y la variable de
respuesta no depende del nivel del otro factor, es decir, la diferencia entre niveles es constante. Se supone I = 4 y J = 2 en los diagramas bivariantes siguientes.
A B
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (2)
1 2
543210
8
7
6
5
4
3
FACTOR A
mu_
ij
FACTOR B
Factores A y B son significativos. No hay efectos interactivos entre A y B.
Factor A es significativo.
Factor B no es significativo.
No hay efectos
interactivos entre A y B.
1 2
0 1 2 3 4 5
3
4
5
6
7
8
mu_
ij
FACTOR A
FACTOR B
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (3)
Factor A no es significativo. Factor B es significativo. No hay efectos interactivos entre A y B.
1 2
1 2 3 4
2
3
4
5
6
mu_
ij
FACTOR A
FACTOR B
1 2
543210
8
7
6
5
4
3
mu_
ij
FACTOR A
FACTOR B
Factor A es significativo.
Factor B es significativo.
Hay efectos interactivos entre A y B.
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (4)
Los posibles modelos ANOVA de 2 factores son, en función de la existencia de efectos principales de alguno de los factores, o de ambos, y de interacciones adicionales:
(M 0) El modelo básico de ausencia de efectos: ijkijkY εµ +=
(M 1) El modelo ANOVA completo: ijkijjiijkY εγβαµ ++++=
(M 2) El modelo ANOVA aditivo es: ijkjiijkY εβαµ +++=
(M 3) El modelo ANOVA del factor A: ijkiijkY εαµ ++=
(M 4) El modelo ANOVA del factor B: ijkjijkY εβµ ++= Las hipótesis que suelen contrastarse más habitualmente son: • H1: No existen efectos interactivos o equivalentemente, los efectos de los factores A y B son aditivos.
• H2: No existen diferencias en la variable de respuesta asociadas a los distintos niveles del factor A.
• H3: No existen diferencias en la variable de respuesta asociadas a los distintos niveles del factor B.
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (5)
�� La hipótesis anteriores se contrastan a partir la suma de cuadrados residual y el test de Fisher: • H1: Se compara el modelo completo con el modelo aditivo. • H2: Se compara el modelo aditivo con el modelo ANOVA de B. • H3: Se compara el modelo aditivo con el modelo ANOVA de A. �� Pero para disponer de las sumas de cuadrados residuales de los modelos implicados (M0) a (M3),
es necesario hacer la estimación de los parámetros del modelo: ( ) yXbyyTTT −=−= ∑ =
n
1l
2ˆ ll yySCR .
MODELO # Parám. (ν ) S.C.Residual Hipótesis Estad. Fisher
(M1) ijkijjiijkY εγβαµ ++++= IJ n-IJ SCR1
(M2) ijkjiijkY εβαµ +++= I+J-1 n-I-J+1 SCR2 H1 (M2) (M1) 1
1
12
21
νννSCRSCR
−∆
(M3) ijkiijkY εαµ ++= I n-I SCR3 H2
(M3) (M2) 1
1
23
32
νννSCRSCR
−∆
(M4) ijkjijkY εβµ ++= J n-J SCR4 H3
(M4) (M2) 1
1
24
42
νννSCRSCR
−∆
(M0) ijkijkY εµ += 1 n-1 SCR0
DESCRIPCIÓN DEL MODELO ANOVA CON 2 FACTORES (6)
Caso de Estudio 3: Mecánica de la inferencia en ANOVA 2 factores
MODELO # Parám.
(ν ) S.C.Residual Hipótesis Estad. Fisher
(M1) ijkijjiijkY εγβαµ ++++= IJ=4 n-IJ=20 2,063
(M2) ijkjiijkY εβαµ +++= I+J-1=3 n-I-J+1=21 ¿? (5,745)
H1 (M2) (M1)
20
063,2
1
683,3
(M3) ijkiijkY εαµ ++= I=2 n-I=22 ¿? (22,412)
H2
(M3) (M2) 20
063,2
1
667,16
(M4) ijkjijkY εβµ ++= J=2 n-J=22 ¿? (77,852)
H3
(M4) (M2) 20
063,2
1
107,72
(M0) ijkijkY εµ += 1 n-1=23 94,518
�� La ortogonalidad de las distintas componentes permite una inferencia sencilla:
( ) ( ) ( ) 1SCRSCMSCMSCMSCT +++= γγγγββββαααα ( ) ( ) ( )11 1
2
1
2
1
2SCRyyyyKyyKIyyKJ
I
i
J
j jiij
J
j j
I
i i ++−−+−+−= ∑ ∑∑∑ = ===
y
( ) ( ) ( )αααααααααααα 321 SCMSCMSCM == , así como ( ) ( ) ( )ββββββββββββ 321 SCMSCMSCM == .
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (1)
�� … Se pueden dar reglas mecánicas fáciles para la construcción del modelo εεεεββββ += RRXY . Más
sintéticamente, respetando la ordenación de los datos ilustrada anteriormente para I=J=3 …
�� El modelo aditivo ijkjiijkY εβαµ +++= del factor A y del factor B tiene un total de parámetros de 1 + I + J ⇒ matriz de diseño con columnas linealmente dependientes reparametrización base-line del primer nivel (defecto en R).
1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1 1 1 0 0 X= 1 1 1 XR = 1 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 1 1 1 1 1 0 1 µ 1α … Iα
1β … Jβ µ 2α Iαααα 2ββββ Jββββ
0
0
1
1
==
βα
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (2)
�� El modelo de regresión ANOVA interactivo ijkijjiijkY εγβαµ ++++= .
�� Total de parámetros del modelo completo es 1 + I + J + IJ = (I+1)(J+1).
�� El número de parámetros independientes es: 1 + (I-1) + (J-1) + (I-1)(J-1) = IJ.
�� Restricciones base-line 01 =α y 01 =β (las anteriores del modelo aditivo) más,
IiJj ij LK 10,10 11 =∀==∀= γγ, que son I+J restricciones, pero una
es redundante, y sin pérdida de generalidad se elimina la primera 011 =γ .
TRATAMIENTO POR REGRESIÓN DEL MODELO ANOVA DE 2 FACTORES (3)
El modelo de regresión ANOVA con interacciones ijkijjiijkY εγβαµ ++++= resulta de lógica de construcción muy automatizable en las 2 reparametrizaciones habituales. �� … Se pueden dar reglas mecánicas fáciles para la construcción del modelo εεεεββββ += RRXY .
Sintéticamente, respetando la ordenación de los datos ilustrada anteriormente para I=J=3 …
1 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 XR = 1 1 1 0 1 0 0 0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 0 0 1 1 1 0 0 0 1 0 1 1 0 1 0 0 0 1 µ 2α Iαααα 2ββββ Jββββ
22γγγγ 23γγγγ 32γγγγ 33γγγγ
Base-line i=j=1
CASO DE ESTUDIO 4: TWO-WAY ANOVA (1)
Construcción del modelo de regresión para la estimación de un modelo ANOVA de 2 factores, a partir de datos ficticios correspondientes a un Factor A con I=3 niveles, un Factor B con J=2 niveles y un número de réplicas constante K=2, en total n=12 . Se detalla la construcción del modelo ANOVA completo por regresión, para a continuación estimar el modelo con un procedimiento de Regresion..
Niveles Factor B Niveles Factor A
B1 B2 Total
A1 6,8 6,6 5,3 6,1 24,8 A2 7,5 7,4 7,2 6,5 28,6 A3 7,8 9,1 8,8 9,1 34,8
Total 45,2 43,0 88,2
El modelo ANOVA completo ijkijjiijkY εγβαµ ++++= tiene 12 (=1+3+2+6) parámetros lo que da un modelo inicial al que deben añadirse los constricciones...
Base-line i=1
0
0
0
0
0
0
31
21
12
11
1
1
======
γγγγβ
α
CASO DE ESTUDIO 4: TWO-WAY ANOVA (2)
La formulación por regresión del modelo con 1+2+1+2x1=6 variables mudas resultante de la reparametrización con las constricciones de referencia el primer grupo i=1 da unas matrices de diseño restringidas,
εεεε
ββββ
+
=
322
321
311
311
222
221
212
211
122
121
112
111
32
22
2
3
2
612
101101
101101
000101
000101
011011
011011
000011
000011
001001
001001
000001
000001
1,9
8,8
1,9
8,7
5,6
2,7
4,7
5,7
1,6
3,5
6,6
8,6
2
εεεεεεεεεεεε
γγβααµ
R
x
322
321
312
311
222
221
21
211
122
121
112
111
RXY
Base-line i=j=1
95,845,10,175,17,6ˆˆˆˆˆ
45,80075,17,6ˆˆˆˆˆ
85,64,00,175,07,6ˆˆˆˆˆ
45,70075,07,6ˆˆˆˆˆ
7,500,107,6ˆˆˆˆˆ
7,60007,6ˆˆˆˆˆ
322332
311331
222222
211221
122112
111111
=+−+=+++==+++=+++=
=+−+=+++==+++=+++==+−+=+++=
=+++=+++=
γβαµγβαµ
γβαµγβαµγβαµγβαµ
y
y
y
y
y
y
CASO DE ESTUDIO 4: TWO-WAY ANOVA (4)
( )
−===⇔= −
45.1
4.0
0,1
75,1
75,0
7,6
YXXXbYXbXX T
R
1
R
T
RR
T
RRR
T
R
�� La suma de cuadrados explicada por el modelo vale 14,35 y los estimadores de
los parámetros del modelo ANOVA completo ...
�� Interpretación del modelo
0ˆ0,1ˆ
0ˆ75,1ˆ75,0ˆ
7,6ˆ
142
13322
1
=−=======
==
ββααα
µ
b
bb
b
0ˆ
0ˆ45,1ˆ
0ˆ0ˆ4,0ˆ
31
21632
1211522
====
====
γγγ
γγγb
b
Base-line i=j=1
CASO DE ESTUDIO 4: TWO-WAY ANOVA (6)
�� El modelo ANOVA aditivo ijkjiijkY εβαµ +++= tiene 6 (=1+3+2) parámetros lo que da un modelo inicial reparametrizable con las constricciones de base-line i=j=1 en un modelo de regresión con 1+2+1=4 variables mudas independientes,
�� Los estimadores de los parámetros se
calculan resolviendo las ecuaciones normales.
�� La suma de cuadrados explicada por el
modelo es 13,14. Los estimadores de los parámetros del modelo ANOVA aditivo son:
0
0
1
1
==
βα
εεεε
ββββ
+
=
322
321
311
311
222
221
212
211
122
121
112
111
2
3
2
1101
1101
0101
0101
1011
1011
0011
0011
1001
1001
0001
0001
1,9
8,8
1,9
8,7
5,6
2,7
4,7
5,7
1,6
3,5
6,6
8,6
2
εεεεεεεεεεεε
βααµ
R
RXY
322
321
312
311
222
221
21
211
122
121
112
111
0ˆˆ
0ˆˆˆ
ˆ
242
13322
1
=====
=
ββααα
µ
b
bb
b
➨➨➨➨ INTRODUCCIÓN ➨➨➨➨ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➨➨➨➨ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➩➩➩➩ MODELOS ANOVA MÁS COMPLEJOS ➩➩➩➩ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
MODELOS ANOVA MÁS COMPLEJOS
�� La extensión de la formulación por regresión a modelos ANOVA más complejos, por ejemplo al aumentar el número de factores en los diseños experimentales o contrastar hipótesis más complicadas.
�� En los diseños de experimentos reales los factores pueden estar cruzados o anidados o una
mezcla de ambos: todos ellos pueden tratarse con el procedimiento General Linear Model de MINITAB o formularse mediante variable mudas por modelos de regresión.
�� Al aumentar el número de factores (A, B, C, ...) también deben formularse modelos que incluyan
términos de interacción de orden superior (AB, BC, AC, ABC,...), no supone diferencias esenciales en el proceder, aunque sin lugar a dudas se complica grandemente la interpretación de los resultados.
�� Las interacciones de orden elevado pueden conducir a pérdida de robustez por la presencia de
valores aberrantes y a contrastes en cadena escabrosos, AB significativo, BC no significativo, ABC significativo, etc.
�� Las hipótesis a contrastar surgen del conocimiento externo del problema.
➨➨➨➨ INTRODUCCIÓN ➨➨➨➨ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➨➨➨➨ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➨➨➨➨ MODELOS ANOVA MÁS COMPLEJOS ➩➩➩➩ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
EL MODELO ANCOVA
�� Los modelos ANCOVA o modelos de análisis de la covarianza son modelos mixtos en los que
aparecen tanto variables mudas que representan niveles de factores o interacciones como variables continuas o covariantes.
�� Se pretende analizar las medias definidas por los niveles de los factores (y sus interacciones),
después de incluir el efecto de las covariantes en la variable de respuesta. �� Se presenta un Caso de Estudio con una única covariante, pero el método de análisis propuesto
se puede extender directamente a situaciones más generales.
CASO DE ESTUDIO 6: “LOS VELOCISTAS”
Los datos muestran las prestaciones obtenidas por unos velocistas según los tres niveles de un factor que representan tres métodos de entrenamiento distintos, y una variable explicativa, covariante, que representa las prestaciones obtenidas antes de iniciar el entrenamiento. Se desea comparar los métodos de entrenamiento teniendo en cuenta las diferencias en las aptitudes iniciales en las tres clases de sujetos de estudio (Dobson, 1990). Factor A Réplica A1 A2 A3 k=1 6 3 8 4 6 3 k=2 4 1 9 5 7 2 k=3 5 3 7 5 7 2 k=4 3 1 9 4 7 3 k=5 4 2 8 3 8 4 k=6 3 1 5 1 5 1 k=7 6 4 7 2 7 4
(y, x) y x y x y x
�� El gráfico indica que las prestaciones finales se
incrementan linealmente con las aptitudes iniciales y que las prestaciones finales son generalmente superiores para los métodos de entrenamiento 2 y 3 que para el 1.
1 2 3
54321
9
8
7
6
5
4
3
X
Y
FACTOR A
FORMULACIÓN DEL MODELO ANCOVA (1)
�� Ejemplo sin datos, de carácter sociológico y muy intuitivo, inspirado en la propuesta de Fox (84): relación entre los ingresos (Y) y el nivel de educación (X) entre la población blanca, oriental y negra de los EEUU (Factor A, I=3 ).
Modelo (M1) Interacción factor – covariante: sin correlación entre raza y educación
1 2 3
1 2 3 4 5 6 7 8
1
2
3
4
5
6
7
8
9
X
Y
Bl
Bl
Bl
Bl
OrOr
OrOr
Ne Ne Ne Ne
FACTOR A
1 2
3
0 1 2 3 4 5 6 7 8 9
0
1
2
3
4
5
6
7
8
9
X
Y
Bl
Bl
Bl
Bl
OrOr
OrOr
Ne Ne Ne Ne
FACTOR A
Modelo (M1) Interacción factor – covariante: con correlación entre raza y educación
FORMULACIÓN DEL MODELO ANCOVA (2)
Modelo (M2): Sin interacción factor –covariante, sin correlación entre raza y educación
Modelo (M2): Sin Interacción factor –
covariante, con correlación entre raza y
educación
1 2 3
9876543210
9
8
7
6
5
4
3
2
1
0
X
Y
NeNe
NeNe
OrOr
OrOr
BlBl
BlBl
FACTOR A
1 2 3
87654321
7
6
5
4
3
2
X
Y
Ne
Ne
Ne
Ne
Or
Or
Or
Or
Bl
Bl
Bl
Bl
FACTOR A
FORMULACIÓN DEL MODELO ANCOVA (3)
Modelo (M3) sin efecto aditivo de raza
Modelo (M4) ingresos y
educación sin efecto de raza
Modelo (M5) sin relación
con educación o raza
1 2 3
3 4 5 6
3
4
5
6
X
Y
Bl
Bl
Bl
Bl
Or Or Or Or
Ne
Ne
Ne
Ne
FACTOR A
1 2 3
3 4 5 6
3
4
5
6
X
Y
Bl
Bl
Bl
Bl
Or
Or
Or
Or
Ne
Ne
Ne
NeFACTOR A
1 2 3
3 4 5 6
3
4
5
6
X
Y
Bl
Bl
Bl
BlOr
Or
Or
Or
Ne
Ne
Ne
Ne
FORMULACIÓN DEL MODELO ANCOVA: REPARAMETRIZACIÓN BASE-LINE
(M1) El modelo ANCOVA completo se formula ikikiiik xY εθηαµ ++++= )( tiene 8 (=1+3+4) parámetros al reparametrizarse con las constricciones de base-line del grupo i=1 , se configura una matriz de diseño restringida con 6 (=1+2+1+2) columnas independientes:
0 0 1 1 x1 x1 1 0 0 x1 0 0 0 0 1 0 X= 1 1 x2 x2 XR = 1 1 0 x2 x2 0 1 0 0 1 0 0 1 1 x3 x3 1 0 1 x3 0 x3 0 1 0 0 µ 1α 2α 3α η 1θ 2θ 3θ µ 2α 3α η 2θ 3θ
0
0
1
1
==
θα
FORMULACIÓN DEL MODELO ANCOVA: REPARAMETRIZACIÓN BASE-LINE
El modelo ANCOVA de pendientes paralelas se formula ikikiik xY εηαµ +++= , tiene 5 (=1+3+1) parámetros con las constricciones de base-line del grupo i=1 , da un modelo de regresión equivalente con 1+2+1=4 variables independientes.
1 1 x1 1 0 0 x1 X= 1 1 x2 XR = 1 1 0 x2 0 1 1 1 x3 1 0 1 x3 0 1 µ 1α 2α 3α η µ 2α 3α η
1 x1 X= XR = 1 x2 1 x3 µ η
El modelo de regresión simple ikikik xY εηα ++= tiene 2 (=1+1) parámetros independientes.
(M 2)
(M 4)
01 =α
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-41
FORMULACIÓN DEL MODELO ANCOVA: REPARAMETRIZACIÓN BASE-LINE
El modelo ANCOVA de centro de gravedad común se formula ( ) ikikiik xY εθηµ +++=
tiene 5 (=1+1+1) parámetros y la constricción 01 =θ configura un modelo de regresión equivalente con 1+1+2=4 variables independientes.
1 x1 x1 1 x1 0 0 0 X= 1 x2 x2 XR = 1 x2 x2 0 0 0 1 x3 x3 1 x3 0 x3 0 µ η 1θ 2θ 3θ µ η 2θ 3θ
1 XR = 1 1 µ
Un caso extremo es el modelo ikikY εµ += de perturbación aleaotoria que tiene 1 parámetro.
(M 3)
(M 5)
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-42
CASO DE ESTUDIO 6: Los Velocistas (4)
�� En este punto una consideración final:
los modelos deben validarse y para ello se debe proceder a un análisis de los residuos.
�� La contrastación de la hipótesis nula
“No hay interacción entre los niveles del factor y la covariante, (M2) versus (M1)”, mediante el estadístico de Fisher a partir de los resultados de la regresión muestra que no hay evidencia para rechazar la hipótesis nula:
68,35192,015
635,9
2
635,9302,10
6212
05,0
15,2112 ==−=
−−
= < FSCRSCRSCR
f
1 2 3
1 2 3 4 5
-2
-1
0
1
X
RE
SI1
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-43
CASO DE ESTUDIO 6: Los Velocistas (CONT. BASE-LINE 1)
�� La formulación del modelo ANCOVA completo por regresión tiene 8 (=1+3+4) parámetros
ikikiiik xY εθηαµ ++++= )( al que deben añadirse las constricciones de suma cero:
�� La suma de cuadrados explicada por el modelo es
54,175 y los estimadores de los parámetros del modelo ANCOVA completo son:
0
0
1
1
==
θα
747,0ˆ
0ˆˆˆ
ˆ
4
13322
1
=====
=
b
bb
b
ηααα
µ
0ˆ
ˆˆ
1
6352
===
θθθ bb
εεεε
ββββ
+
=
37
36
35
34
33
32
31
27
26
25
24
23
22
21
17
16
15
14
13
12
11
3
2
3
2
404101
101101
404101
303101
202101
202101
303101
022011
011011
033011
044011
055011
055011
044011
004001
001001
002001
001001
003001
001001
003001
7
5
8
7
7
7
6
7
5
8
9
7
9
8
6
3
4
3
5
4
6
εεεεεεεεεεεεεεεεεεεεε
θθηααµ
R
37
36
35
34
33
32
31
27
26
25
24
23
22
21
17
16
15
14
13
12
11
RXY
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-44
CASO DE ESTUDIO 6: Los Velocistas (6)
�� En la formulación del modelo ANCOVA completo los estimadores de los parámetros se calculan resolviendo las ecuaciones normales:
Interpretación del Modelo Completo (base-line i=1)
�� El modelo ANCOVA sin interacciones (rectas paralelas) ikikiik xY εηαµ +++= tiene 5 (=1+3+1) parámetros al que debe añadirse la constricción 01 =α para formular por regresión el modelo con 1+2+1=4 variables independientes ...
( ) ( )( ) ( )( ) ( ) xxxy
xxxy
xxxy
6,009,5368,0968,074,235,2ˆˆˆˆˆ
817,025,5151,0968,09,235,2ˆˆˆˆˆ
968,035,20ˆ0ˆˆˆˆˆˆ
33.3
22.2
11.1
+=−++=+++=+=−++=+++=
+=+++=+++=
θηαµθηαµ
ηµθηαµ( )
−−
== −
368,0
151,0
968,0
74,2
9,2
35,2
YXXXbT
R
1
R
T
RR
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-45
CASO DE ESTUDIO 6: Los Velocistas (7)
�� El modelo ANCOVA sin interacciones (rectas paralelas) ikikiik xY εηαµ +++=
�� La suma de cuadrados explicada por el modelo tiene el
valor 53,507. Los estimadores de los parámetros del modelo ANCOVA sin interacciones factor-covariante se calculan resolviendo las ecuaciones normales:
εεεε
ββββ
+
=
R
RXY
ηααµ
3
2
4101
1101
4101
3101
2101
2101
3101
2011
1011
3011
4011
5011
5011
4011
4001
1001
2001
1001
3001
1001
3001
7
5
8
7
7
7
6
7
5
8
9
7
9
8
6
3
4
3
5
4
6
37
36
35
34
33
32
31
27
26
25
24
23
22
21
17
16
15
14
13
12
11
( )
==⇔= −
743,0
862,1
188,2
846,2
YXXXbYXbXX T
R
1
R
T
RR
T
RRR
T
R
743,0ˆ
0ˆ862,1ˆ188,2ˆ
846,2ˆ
4
13322
1
=======
==
b
bb
b
ηααα
µ
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-46
➨➨➨➨ INTRODUCCIÓN ➨➨➨➨ EL MODELO ANOVA DE UN FACTOR
③③ CASO DE ESTUDIO 1 ③③ FORMULACIÓN DEL MODELO POR REGRESIÓN
➨➨➨➨ EL MODELO ANOVA DE DOS FACTORES
④④ CASO DE ESTUDIO 3 ④④ FORMULACIÓN DEL MODELO POR REGRESIÓN
➨➨➨➨ MODELOS ANOVA MÁS COMPLEJOS ➨➨➨➨ EL MODELO ANCOVA
⑥⑥ CASO DE ESTUDIO 6 ⑥⑥ FORMULACIÓN DEL MODELO ANCOVA POR REGRESIÓN
➩➩➩➩ CONCLUSIONES ➩➩➩➩ BIBLIOGRAFÍA
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-47
CONCLUSIONES (1)
➨➨➨➨ En la exposición del tema se ha ilustrado como modelos específicos de análisis de la varianza y
análisis de la covarianza se podían estimar por técnicas estándar de regresión múltiple, así como el proceder en la contrastación de hipótesis habituales que aparecen en tales análisis.
➨➨➨➨ La selección cuidadosa de las variables mudas es el punto crucial. A pesar de que muchas
reparametrizaciones pueden resultar válidas en modelos simples, algunas son mejores que otras, principalmente cuando se estudian interacciones entre los niveles de factores.
➨➨➨➨ En diseños de experimentos complejos no estándares y no balanceados es donde se aprecia la
potencia del enfoque descrito. Si el diseño de experimentos es estándar y balanceado es más interpretable el tratamiento del modelo por los procedimientos Balanced ANOVA o Two-Way ANOVA de MINITAB.
➨➨➨➨ Ante diseños no balanceados o muy complejos y por falta de ortogonalidad en las componentes,
resulta más seguro y exacto recalcular los sucesivos modelos por regresión y realizar los contrastes de significación manualmente a partir de las sumas de cuadrados residuales de los modelos representativos (varianza incremental) y el estadístico de Fisher.
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-48
CONCLUSIONES (2)
➨➨➨➨ La formulación por regresión pone de manifiesto la existencia de un modelo en el análisis de la
varianza y la covarianza. ➨➨➨➨ La formulación por regresión pone de manifiesto que el análisis de los residuos en los modelos
de análisis de la varianza y de la covarianza juega el mismo papel que en los modelos de regresión normal clásica.
➨➨➨➨ Los modelos lineales generales ofrecen una visión unificada de la regresión, el análisis de la
varianza y el análisis de la covarianza, son elegantes y potentes, y mirando más allá, el siguiente paso consiste en permitir distribuciones de los errores no normales y relaciones entre regresores y respuesta no lineales que nos ocupa el resto del temario.
Setembre del 2.009 Dra. Lídia Montero pàgina 3.2-49
BIBLIOGRAFÍA
� A. Dobson (1.990). An Introduction to Generalized Linear Models. Chapman and Hall. � N.R. Draper y H. Smith (1.981). Applied Regression Analysis. John Wiley. � J. Fox (1.997). Applied Regression Analysis, Models and Related Methods. Sage Publications. � L. Lebart, A. Morineau y J.P. Fénelon (1.985). Traitement des données statistiques: Méthodes
et programmes. Ed. Bordas (Paris). � J.K. Lindsey (1.997). Applying Generalized Linear Models. Springer-Verlag. � P. McCullagh y J.A. Nelder (1.989). Generalized Linear Models. Chapman and Hall. � MINITAB Reference Manual, Release 1.1 for Windows. State College, PA: MINITAB Inc.
(1.996). � D. Peña Sánchez de la Rivera (1.994). Estadística Modelos y Métodos (2): Modelos lineales y
series temporales. Alianza Universidad Textos.