Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6...

156

Transcript of Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6...

Page 1: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 2: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 3: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseno de Experimentos 12 de abril de 2012

Cuestiones

(30 minutos, 4 puntos)

1. Los siguientes datos son medidas de presion (psi) en un muelle a torsion para diferentes configuracionesentre el extremo del muelle y un punto de apoyo.

La tabla de analisis de la varianza para la comparacion de las medias correspondientes a los cinconiveles determinados por el angulo (angle) se ha obtenido con R y es la siguiente

Realizar la comparacion dos a dos de las medias de los cinco tratamientos (LSD). Interpretar losresultados de la comparacion.

Nota: Para todo el ejercicio utilizad α = 0.05.

2. Obtener la descomposicion de la variabilidad (analisis de la varianza) en el modelo de un factor,justificando cada paso. Indicar por que se anula el termino correspondiente al doble producto en elsegundo miembro de la igualdad.

Page 4: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseno de Experimentos 12 de abril de 2012

Problema

(45 minutos, 6 puntos)

En un estudio realizado en la Universidad Virginia Tech, se desea comprobar el efecto de anadir unproducto quımico quelante (Carboximetil Celulosa, CMC) como parte del acabado ignıfugo de tejidos dealgodon con el fin de retardar su tiempo de combustion. El tejido de algodon en estudio se ha lavado en dossoluciones distintas: Bano 1 con CMC y Bano 2 sin CMC. Para estudiar si la intensidad de lavado influyeen el resultado, se ha hecho el experimento con cinco lavados y diez lavados. En cada caso se utilizaron 12telas, que posteriormente se quemaron, midiendose los tiempos de combustion (segundos) que se muestranen la tabla.

Lavados Bano 1 Bano 2

5 13.7 23.0 15.7 6.2 5.4 5.025.5 15.8 14.8 4.4 5.0 3.314.0 29.4 9.7 16.0 2.5 1.614.0 12.3 12.3 3.9 2.5 7.1

10 27.2 16.8 12.9 18.2 8.8 14.514.9 17.1 13.0 14.7 17.1 13.910.8 13.5 25.5 10.6 5.8 7.314.2 27.4 11.5 17.7 18.3 9.9

La media y la varianza corregida para cada tratamiento es:

Lavados Bano Media Varianza

5 1 16.68 35.925 2 5.24 14.0710 1 17.07 37.3110 2 13.07 19.75

1. Obten la tabla de analisis de la varianza del experimento y realiza los contrastes con nivel de signifi-cacion 0.05.

2. Calcula el intervalo de confianza (α = 0.05) para la media de cada tratamiento, dibuja el grafico deinteracciones con los intervalos de confianza correspondientes e interpreta los resultados del experi-mento.

3. Como se aprecia en la segunda tabla, las varianzas correspondientes a los tratamientos del Bano 2son parecidas y bastante inferiores a las varianzas de los tratamientos correspondientes al Bano 1.Llamando σ

21a la varianza teorica para los datos del bano 1 y σ

22a la varianza teorica para los datos

del bano 2, realiza el contraste:

H0 : σ2

1 = σ2

2

H1 : σ2

1 6= σ2

2

Nota: Utilizad α = 0.05.

Page 5: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

0.0520,

2

1 1 1 1ˆ· · 2.09· 1.16·R

i j i j

LSD t sn n n n

Page 6: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

1 1

2 2

1 1 1 1

( ) : restando ,

( ) ( )

elevando al cuadrado y sumando para todo

(donde ( )( ) 0)

( ) ( )

i

i i

ij

ij i ij ij iji i

ij iji i

nK

iji i

i j

n nK

ij i

i j i j

yy u y y y y y

n

y y y y y y

i, j

y y y y

y y y y

2

1 1

2 2 2

1 1 1 1 1

( )

( ) ( ) ( )

i

i i

nK K

ij i

i j

n nK K K

ij i iji i

i j i i j

y y

y y n y y y y

2

1 1

2

1

2 2

1 1 1 1

Variabilidades Grados de libertad

( ) 1

( ) 1

( )

i

i i

nK

ij

i j

K

i i

i

n nK K

ij iji

i j i j

VT y y n -

VE n y y K -

VNE y y e n - K

1 1 1 1

( )( ) ( )· ( ) 0i in nK K

ij iji i i i

i j i j

y y y y y y y y

1

( ) 0in

ij i

j

y y

Page 7: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Analysis of Variance Table

Response: Tiempo

Df Sum Sq Mean Sq F value Pr(>F)

Lavados 1 202.13 202.13 7.5519 0.008659 **

Bath 1 715.34 715.34 26.7261 5.494e-06 ***

Lavados:Bath 1 166.14 166.14 6.2071 0.016567 *

Residuals 44 1177.68 26.77

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

· 0.05 · ·44,

2

1 1ˆ· · 2.01· 26.77· 3.01

12ij R ij ij

i

y t s y yn

B1 B2

L10 17.067 13.067

L5 16.683 5.242

Page 8: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

2

1

2

2

11·35.92 11·37.31ˆ 36.61

11 11

11·14.07 11·19.75ˆ 16.91

11 11

R

R

s

s

2

122,222

2

ˆ~

ˆ

36.612.16

16.91

R

R

sF

s

0.424

2.357

a

b

F

F

Page 9: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

2o Examen Parcial Diseno de Experimentos y Regresion 21 de mayo de 2012

Cuestiones (30 minutos, 4 puntos)

1. Sea Y ∈ ℜn el vector de la variable dependiente de un modelo de regresion multiple, con los regresoresdefinidos por la matriz X ∈ ℜn×(k+1), tal que

Y = Xβ + U (1)

donde U ∼ N(0, σ2I). Un modelo de regresion multiple se replica cuando se obtienen dos vectores de

variable respuesta Y1 e Y2, cada uno de dimension n, para los mismos regresores (la misma matriz X).Se ajusta el modelo:

Y′ = Xβ + U

′ (2)

donde Y′ = 1

2 (Y1 + Y2). Sea β al vector de parametros estimados para el modelo (1), y β′

para el

modelo (2). Obtener la relacion entre V ar(β′

) y V ar(β), justificando la respuesta.

2. Dos propietarios de un vinedo de Oregon cultivan diferentes variedades de uva con las que fabricanvino. Durante el proceso de fabricacion han recabado diferentes datos con el fin de identificar aquellasvariables que, a juicio de los catadores, producen el mejor vino. En concreto se ha recabado informacionsobre la edad de la barrica de roble (x1 : anos), el porcentaje del racimos completos utilizados (x2 : %),la temperatura de fermentacion (x3 : o

C), y sobre las variables cualitativas Clon de pinot noir, quepuede tomar dos valores (Pommard y Wadenswill), y el tipo de roble empleado en la fabricacion de lasbarricas que tambien puede tomar dos valores (Allier y Troncais).

Escriba la ecuacion del modelo de regresion lineal que permite relacionar la puntuacion emitida porlos catadores (y) con los regresores mencionados anteriormente. Interprete los parametros del modelo.

Page 10: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

2o Examen Parcial Diseno de Experimentos y Regresion 21 de mayo de 2012

Problema (45 minutos, 6 puntos)

Durante la produccion y el transporte del petroleo, este se mezcla con agua formando una emulsion. Unamanera de separar los dos lıquidos es creando un campo electrico fuerte, de forma que las gotas de petroleocrecen y suben a la superficie. Un grupo de investigacion de la Universidad de Bergen (Noruega) tomo unaserie de datos para determinar los factores que influıan en el voltaje requerido para separar la mezcla. Lassiete variables investigadas fueron las siguientes:

x1 : Composicion porcentual de la mezcla (%)x2 : Salinidad de la emulsion (%)x3 : Temperatura de la emulsion (oC)x4 : Tiempo en reposo desde que se realiza la mezcla (horas)x5 : Concentracion de sulfatante (reduce la tension superficial)(% en peso)x6 : Proporcion de sustancias quımicas sulfatantes (Span y Triton)(%)x7 : Cantidad de solidos anadidos (% en peso)

Se prepararon las 19 emulsiones que se muestran en la tabla. Para cada emulsion se midio el voltaje(kilovoltios por centımetro) necesario para que se iniciara el proceso de separacion, este valor representa lavariable respuesta (y).

DATOS

Experimento y (tension) x1 x2 x3 x4 x5 x6 x7

1 0,64 40 1 4 0,25 2 0,25 0,52 0,80 80 1 4 0,25 4 0,25 23 3,20 40 4 4 0,25 4 0,75 0,54 0,48 80 4 4 0,25 2 0,75 25 1,72 40 1 23 0,25 4 0,75 26 0,32 80 1 23 0,25 2 0,75 0,57 0,64 40 4 23 0,25 2 0,25 28 0,68 80 4 23 0,25 4 0,25 0,59 0,12 40 1 4 24 2 0,75 210 0,88 80 1 4 24 4 0,75 0,511 2,32 40 4 4 24 4 0,25 212 0,40 80 4 4 24 2 0,25 0,513 1,04 40 1 23 24 4 0,25 0,514 0,12 80 1 23 24 2 0,25 215 1,28 40 4 23 24 2 0,75 0,516 0,72 80 4 23 24 4 0,75 217 1,08 60 2,5 13,5 12,125 3 0,50 1,2518 1,08 60 2,5 13,5 12,125 3 0,50 1,2519 1,04 60 2,5 13,5 12,125 3 0,50 1,25

El experimento cumple que la matriz de varianzas de los siete regresores es una matriz diagonal, es decir

Sxx =1

n( ˜XT

˜X) =

355, 56 0 0 0 0 0 00 2 0 0 0 0 00 0 80, 22 0 0 0 00 0 0 125, 347 0 0 00 0 0 0 0, 889 0 00 0 0 0 0 0, 0556 00 0 0 0 0 0 0, 5

.

Page 11: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

2o Examen Parcial Diseno de Experimentos y Regresion 21 de mayo de 2012

El modelo estimado es

yi = 0, 6081 − 0, 0205x1 + 0, 1700x2 − 0, 0153x3 − 0, 0084x4 + 0, 4600x5 + 0, 5200x6 − 0, 1267x7,

con varianza residual s2R = 0, 2086.

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo(α = 0, 05).

2. Realice el constraste general de regresion (α = 0, 05) y calcule el coeficiente de determinacion delmodelo.

3. Tras la diagnosis del modelo se considero la opcion de introducir como regresores los productos x1x2 yx1x5. El modelo resultante, unicamente con los regresores significativos, aparece en la tabla siguiente(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.

Una de las variables que pueden controlar los tecnicos en el proceso de separacion es x5 (sulfatante).Explique el efecto conjunto de las variables x1 y x5, teniendo en cuenta que x1 varıa de 40 a 80 y x5

entre 2 y 4.

MODELO B

mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5)

Call:

lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)

Residuals:

Min 1Q Median 3Q Max

-0.55684 -0.10684 0.03316 0.10816 0.62316

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.933158 0.926881 -3.165 0.007460 **

x1 0.035083 0.014664 2.392 0.032543 *

x2 0.640000 0.172971 3.700 0.002670 **

x5 1.180000 0.259457 4.548 0.000547 ***

x1:x2 -0.007833 0.002735 -2.864 0.013290 *

x1:x5 -0.012000 0.004102 -2.925 0.011823 *

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.3282 on 13 degrees of freedom

Multiple R-squared: 0.8643, Adjusted R-squared: 0.8122

F-statistic: 16.56 on 5 and 13 DF, p-value: 3.086e-05

Page 12: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

1

2ˆvar TX X

1 2'2

Y YY

12ˆvar ' ' TX X

2

2 2 2

1 21 2

var( )

1var( ' ) var var

2 4 4 2

Y X I

Y Y I I IY X X Y Y X

1ˆ ˆvar ' var2

Page 13: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

1 2

0 Pommard (Referencia) 0 Allier (Referencia)

1 Wadenswill 1 Troncaisz z

0 1 1 2 2 3 3 1 1 2 2y x x x z z u

0 1 2 3 1 2, , , , ,

2

0 1 1 2 2 3 3 1 1 2 2ˆ ˆ ˆ ˆ ˆ ˆy x x x z z e

0 1 2 3 1 2ˆ ˆ ˆ ˆ ˆ ˆ, , , , ,

1

2

Page 14: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

3

1

2

0

0 0 1

0 2 0 1 2

Page 15: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

2o Examen Parcial Diseno de Experimentos y Regresion 21 de mayo de 2012

El modelo estimado es

yi = 0, 6081 − 0, 0205x1 + 0, 1700x2 − 0, 0153x3 − 0, 0084x4 + 0, 4600x5 + 0, 5200x6 − 0, 1267x7,

con varianza residual s2R = 0, 2086.

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo(α = 0, 05).

2. Realice el constraste general de regresion (α = 0, 05) y calcule el coeficiente de determinacion delmodelo.

3. Tras la diagnosis del modelo se considero la opcion de introducir como regresores los productos x1x2 yx1x5. El modelo resultante, unicamente con los regresores significativos, aparece en la tabla siguiente(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.

Una de las variables que pueden controlar los tecnicos en el proceso de separacion es x5 (sulfatante).Explique el efecto conjunto de las variables x1 y x5, teniendo en cuenta que x1 varıa de 40 a 80 y x5

entre 2 y 4.

MODELO B

mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5)

Call:

lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)

Residuals:

Min 1Q Median 3Q Max

-0.55684 -0.10684 0.03316 0.10816 0.62316

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -2.933158 0.926881 -3.165 0.007460 **

x1 0.035083 0.014664 2.392 0.032543 *

x2 0.640000 0.172971 3.700 0.002670 **

x5 1.180000 0.259457 4.548 0.000547 ***

x1:x2 -0.007833 0.002735 -2.864 0.013290 *

x1:x5 -0.012000 0.004102 -2.925 0.011823 *

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.3282 on 13 degrees of freedom

Multiple R-squared: 0.8643, Adjusted R-squared: 0.8122

F-statistic: 16.56 on 5 and 13 DF, p-value: 3.086e-05

Page 16: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial de Diseño de Experimentos y Regresión 21 de mayo de 2012

Problema (45 minutos, 6 puntos)

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto signi�cativo(� = 0; 05):

Para los contrastes individuales hay que comparar con el percentil 0,975 de la distribución t con 11(19-7-1) grados de libertad que es 2; 20

t1 =�0;0205p

0;2086(1=355;56�19)= �3; 689 *

t2 =0;17p

0;2086(1=2�19)= 2; 29 *

t3 =�0;0153p

0;2086(1=80;22�19)= �1; 3078

t4 =�0;0084p

0;2086(1=125;34�19)= �0; 897

t5 =0;46p

0;2086(1=0;889�19)= 4; 139 *

t6 =0;52p

0;2086(1=0;0556�19)= 1; 17

t7 =�0;126p

0;2086(1=0;5�19)= �0; 855

V E = V T � V NE = 19� s2y � 11� bs2R = 19� 0;5432� 11� 0;2086 = 8; 032. Realice el constraste general de regresión (� = 0; 05) y calcule el coe�ciente de determinación delmodelo.

Contraste conjunto F = (V E=7)=bs2R = 5; 4992 > F7;11 = 3; 01: Se rechaza H0:R2 = V E=V T =

8;03

10;32= 0; 7781:

Otra posibilidad es a partir del contraste de la F, F =R2 � 1

7

(1�R2)� 1

19� 7� 1

= 5; 4992 =) R2 =

F11

7+ F

= 0;7778:

3. Mejor el modelo B. Diagnosis adecuada, R2 mayor y bs2R menor.La interpretación:

Page 17: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar latensión a 10 enfermos con un aparato en cada brazo (se selecciona aleaoriamente el aparato que se poneen cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para contrastarsi existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla ADEVA einterprete los resultados (� = 0;05):

Aparato 1 Aparato 2 MediasEnfermo 1 12.46 12.06 12.26Enfermo 2 9.39 10.50 9.94Enfermo 3 10.39 10.17 10.28Enfermo 4 10.53 12.78 11.65Enfermo 5 12.21 11.61 11.91Enfermo 6 11.60 11.86 11.73Enfermo 7 9.35 8.13 8.74Enfermo 8 11.95 10.81 11.38Enfermo 9 8.91 9.59 9.25Enfermo 10 12.07 13.32 12.7

Medias 10.89 11.08 10.98

.

2 Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalode con�anza para la varianza del error experimental.

Page 18: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para estudiar la in�uencia sobre el rendimiento (Y ) de un proceso químico,de la Presión y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la presión ydos también (300K y 400K) para la temperatura, realizándose tres replicaciones para cada combinación defactores. En tabla se muestran los resultados:

Presión1 Atm 2 Atm

Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88400 K 1.19 1.27 2.89 4.39 6.31 7.23

1. Inicialmente se consideró como único factor de análisis la Temperatura. Estudie la in�uencia de laTemperatura sobre el rendimiento, sin incluir la Presión en el análisis.

2. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,indicando qué efectos son signi�cativos.

3. Construya el grá�co de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?

Nota. Utilice � = 0;05 en todos los contrastes.

Page 19: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Obtenga la varianza del estimador del coe�ciente de regresión simple �1 e interprétela en función decada uno de los términos de los que depende.

2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tresmodelos diferentes de regresión que se representan en las Tablas 1 a 3.

Tabla 1: Modelo 1

Tabla 2: Modelo 2

Tabla 3: Modelo 3

Sabiendo que el coe�ciente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justi�candola respuesta ¿Se puede a�rmar con un 95% de con�anza que los regresores x1 y x2 in�uyen en la variablerespuesta?

Page 20: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variablescuantitativas X1; X2; X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modelaa través de dos variables z1 y z2 que identi�can a No Máster y Máster respectivamente. A partir de losdatos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresiónmúltiple:

byi = 4;688 + 3;732x1i � 0;229x2i + 3;751x3i + 5;562z2i ,

siendo (X 0X)�1 =

0BBBB@2;31 �0;75 �0;75 �0;375 0;75�0;75 0;5 0;25 0 �0:; 5�0;75 0;25 0;5 0 �0;5�0;375 0 0 0;25 00;75 �0;5 �0;5 0 1

1CCCCA ; y bsR = 1;9:

1) Realice los contrastes individuales indicando las variables que in�uyen signi�cativamente en la pro-ductividad. Interprete el resultado explicando el signi�cado de cada parámetro. (� = 0; 05):

2) Sabiendo que el coe�ciente de determinación es igual a 0;877, realice el contraste conjunto. (� = 0;05):

3) Si se escribe el modelo en la siguiente forma alternativa,

yi = �01z1i + �02z2i + �1x1i + �2x2i + �3x3i + ui ,

donde �01 y �02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál será elvalor estimado de �01 y �02?:

Realice el contraste:�H0 : �02 = 0H1 : �02 6= 0

Page 21: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar latensión a 10 enfermos con un aparato en cada brazo (se selecciona aleatoriamente el aparato que sepone en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo paracontrastar si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tablaADEVA e interprete los resultados (α = 0,05).

Aparato 1 Aparato 2 Medias

Enfermo 1 12.46 12.06 12.26Enfermo 2 9.39 10.50 9.94Enfermo 3 10.39 10.17 10.28Enfermo 4 10.53 12.78 11.65Enfermo 5 12.21 11.61 11.91Enfermo 6 11.60 11.86 11.73Enfermo 7 9.35 8.13 8.74Enfermo 8 11.95 10.81 11.38Enfermo 9 8.91 9.59 9.25Enfermo 10 12.07 13.32 12.7

Medias 10.89 11.08 10.98

.

SOLUCIÓN:Es un modelo en bloques aleatorizados. El factor es el aparato, con dos niveles (I=2) y el bloque los

enfermos, con 10 niveles (J=10)La tabla ADEVA es

Se concluye que no existen diferencias significativas entre las mediciones realizadas con los dos aparatos.Sí existen diferencias significativas entre los enfermos.

2. Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalode confianza para la varianza del error experimental.

SOLUCIÓN:

En un modelo con dos factores e interacción se verifica que:

V NE

σ2−→ χ2IJ(m−1);

Page 22: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

siendo I y J respectivamente los niveles de los dos factores y m el número de replicaciones.Una expresión alternativa es

IJ(m− 1)s2Rσ2

−→ χ2IJ(m−1).

Se puede deducir que la expresión del intervalo con confianza (1− α)% es:

V NE

χ2IJ(m−1);α/2≤ σ2 ≤ V NE

χ2IJ(m−1);1−α/2.

Page 23: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para estudiar la influencia sobre el rendimiento (Y ) de un proceso químico,de la Presión y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la Presión ydos también (300K y 400K) para la Temperatura, realizándose tres replicaciones para cada combinación defactores. En tabla se muestran los resultados:

1.Presión

1 Atm 2 AtmTemperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88

400 K 1.19 1.27 2.89 4.39 6.31 7.23

2. Inicialmente se consideró como único factor de análisis la Temperatura. Estudie la influencia de laTemperatura sobre el rendimiento, sin incluir la Presión en el análisis.

3. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,indicando qué efectos son significativos.

4. Construya el gráfico de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?

Nota. Utilice α =0.05 en todos los contrastes.

1. SOLUCIÓN:

2. Se puede hacer mediante un contraste de igualdad de media de dos distribuciones normales,

H0 : µ1 = µ2

H1 : µ1 �= µ2

llamando y1 a la media de rendimientos a temperatura 300K e y2 a temperatura 400K , se tiene que

t =y1 − y2

sR

√26

∼ t10

siendo

s2R =

2∑i=1

6∑j=1(yij − yi)

2

10= 9,214

sustituyendo se tiene que t = 2,209 que es inferior a t10,0,025 = 2,23 por lo tanto no existen diferenciassignificativas para α = 0,05.

3. Modelo de dos factores con interacción, la tabla de analisis de la varianza es

Fuente SS Df Mean Square F-RatioEfectos PrincipalesTemperatura 44.93 1 44.93 45.03**Presion 3.04 1 3.04 3.05InteracciónTxP 81.12 1 81.12 81.30**

Residual 7.98 8 0.997Total 137.07 11

Page 24: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Los valores de la F obtenidos en la tabla se comparan con F1,8,α=0,05 = 5,32. El efecto principal de laTemperatura es muy significativo, el efecto principal de la Presión no es significativo y la interacciónes muy significativa.

4.

La interacción es clarísima. Los intevalos de confianza muestra que a la presión de 2 Atm no existendiferencias significativas entre las dos temperaturas. Sin embargo, a la presión de 1 Atm, el rendimientomedio a 300K es muy superior que a 400K. Las condiciones óptimas son 1Atm y 300K. La amplitudde los intervalos de confianza es

t8,α=0,025 × sR ×√1

3= 2,31× 0,998× 2

√1

3= 1,31

Page 25: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Cuestiones (30 minutos, 4 puntos)

1. Obtenga la varianza del estimador del coeficiente de regresión simple β1 e interprétela en función decada uno de los términos de los que depende.

SOLUCIÓN: (ver libro de la asignatura)

var(β1) =σ2

ns2X

La varianza del estimador depende de la varianza condicionada de la variable dependiente, del númerode observaciones y de la varianza muestral de la variable independiente. Cuanto mayor el número demuestras y mayor dispersión del regresor más precisa será la estimación.

2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tresmodelos diferentes de regresión que se representan en las Tablas 1 a 3.

Tabla 1: Modelo 1

Tabla 2: Modelo 2

Tabla 3: Modelo 3

Page 26: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Sabiendo que el coeficiente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justificandola respuesta ¿Se puede afirmar con un 95% de confianza que los regresores x1 y x2 influyen en la variablerespuesta?SOLUCIÓN: R2 el coeficiente de determinación no nos sirve para comparar estos tres modelos, porque

el modelo con más regresores siempre tiene un coeficiente mayor. Para hacer una comparación global delos modelos en este caso se utiliza R2, el coeficiente de determinación corregido o ajustado, según éste elmejor modelo es el 3.

En este caso es útil realizar los tres modelos de regresión. Las dos variables muestran una relación linealsignificativa con la variable respuesta, esto se observa en los modelos de regresión simple. En el modelo deregresión múltiple los contrastes individuales indican que los coeficientes no son significativamente distintosde cero, pero el contraste conjunto nos dice que al menos uno es dsitinto de cero. Dicho de otra forma: losdos a la vez no son necesarios, basta con tener un regresor. Eso es debido a la alta correlación entre los dosregresores.

Si el modelo se quiere para hacer predicciones, el modelo 1 es válido y el preferido en general.Decidir si influyen o no los regresores y cómo influyen, depende de como se hayan tomado los datos y

del problema concreto. En este caso podemos afirmar que los dos regresores muestran una relación linealsignificativa con la variable respuesta al 95% de confianza.

Page 27: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

Problema (45 minutos, 6 puntos)

Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variablescuantitativas X1,X2,X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modelaa través de dos variables z1 y z2 que identifican a No Máster y Máster respectivamente. A partir de losdatos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresiónmúltiple:

yi = 4.688+ 3.732x1i − 0.229x2i + 3.751x3i + 5.562z2i ,

siendo (X ′X)−1 =

2.31 -0.75 -0.75 -0.375 0.75-0.75 0.5 0.25 0 -0.5-0.75 0.25 0.5 0 -0.5

-0.375 0 0 0.25 00.75 -0.5 -0.5 0 1

; y sR =1.9.

1. Realice los contrastes individuales indicando las variables que influyen significativamente en la pro-ductividad. Interprete el resultado explicando el significado de cada parámetro. (α=0.05).

2. Sabiendo que el coeficiente de determinación es igual a 0.877, realice el contraste conjunto. (α=0.05).

3. Si se escribe el modelo en la siguiente forma alternativa,

yi = β01z1i + β02z2i + β1x1i + β2x2i + β3x3i + ui ,

donde β01 y β02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuálserá el valor estimado de β01 y β02?

Realice el contraste:{

H0 : β02 = 0H1 : β02 �= 0

.

SOLUCIÓN:1. Los contrastes individuales son:{

H0 : βi = 0H1 : βi �= 0

=⇒Si H0 es cierta, ti =βi

sR√qii−→ tn−k−1. En este caso t16−4−1

t1 =3, 73

1, 9√0, 5

= 2, 77 > t11;0,025 = 2,2

t2 = −0, 229

1, 9√0, 5

= −0, 17

t3 =3, 75

1, 9√0, 25

= 3, 94 > t11;0,025 = 2,2

t4 =5, 56

1, 9√1= 2, 92 > t11;0,025 = 2,2

Todos los regresores resultan significativos a excepción de x2.

Interpretación de los parámetros :

β0 = 4,688 es la ordenada en el origen de los trabajadores que no poseen máster. Tal como está parame-trizado el modelo la referencia son los trabajadores que no poseen máster.

β1 = 3,732;a igualdad del resto de regresores, por cada unidad que aumenta x1,la productividad aumentaen 3.732 unidades.

Page 28: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012

β2 = −0,17;a igualdad del resto de regresores, por cada unidad que aumenta x2,la productividad disminuyeen 0.17 unidades, aunque este regresor no ha resultado ser significativo.

β3 = 3,94;a igualdad del resto de regresores, por cada unidad que aumenta x3,la productividad aumentaen 3.94 unidades.

α2 = 5,562;existe diferencia significativa entre la productividad de los trabajadores que poseen master y lade los que no poseen master, manteniendo constante el resto de regresores. La productividad es 5.562unidades superior en los trabajadores que poseen máster.

2. El coeficiente de determinación R2 = 0,877. El contraste general de regresión es:{

H0 : β1 = β2 = β3 = α2 = 0H1 : alguno distinto de 0

Si H0 es cierta,

V E

kV NE

n− k − 1

−→ Fk,n−k−1. En términos de R2,esta expresión es

F =R2

1−R211

4= 19, 60 > F4,11;0,05 = 3, 36. =⇒Se rechaza H0. Alguno o todos los regresores son

significativos.3. Comparando la parametrización del enunciado con la planteada en el apartado 3 se concluye que:

β01 = 4, 688, es la estimación de la ordenada en el origen de los trabajadores que no poseen máster

β02 = 4, 688 + 5, 562 = 10, 25, la ordenada en el origen de los trabajadores que poseen máster.

El contraste que piden es{

H0 : β02 = 0H1 : β02 �= 0

Como β02 = β01 + α2, se verifica que

var(β02) = var(β01 + α2) = var(β01) + var(α2) + 2cov(β01, α2) = σ2(2, 31 + 1 + 2× 0, 75) = 4, 81σ2.

Por lo tanto, si H0 es cierta,

t =β02√

var(β02)−→ t11 =⇒ t =

β02sR√4, 81

=10, 24

1, 9√4, 81

= 2, 45 > t11;0,025 = 2,2, se rechaza H0

Page 29: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Cuestiones (45 minutos, 5 puntos)

1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Uningeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiemposde CPU resultantes han sido:

1 2 3 4 5 MediasA 122.9 147.4 189.6 200.9 307.3 193.6B 113.8 135.1 173.8 199.3 296.6 183.7C 131.2 152.8 192.7 219.8 318.9 203.1

Medias 122.7 145.1 185.3 206.7 307.6

La variabilidad total es 62899.2 y su descomposición es 937.2 (Variabilidad Explicada por Compilador),61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).

Indica qué compilador es el más rápido, justificando la respuesta. Da un intervalo de confianza (95%)para la diferencia de las medias entre los dos compiladores más rápidos.

2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianzaentre dos estimadores βi y βj para i �= j. Indica en cada paso qué hipótesis básica del modelo estásutilizando.

3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valormedio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor mediose corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se consideraexcesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptandonormalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.

Page 30: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Problema (45 minutos, 5 puntos)

Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria espreciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocoloactual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del1%. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimientode la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluyela temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,1.2 y 1.4 (% en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas encada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)

Concentración0.6 0.8 1.0 1.2 1.4

27o 33 72 32 131 28 179 59 221 43 195Temp 35o 62 113 54 151 98 147 176 211 119 162

43o 77 76 81 125 117 127 146 201 101 184

Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguientetabla de análisis de varianza

1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisisde la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con elnuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explicaa qué se debe la diferencia de los resultados obtenidos.

2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simpleentre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existerelación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la mediaaritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)

3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-dientes al modelo de regresión múltiple

RECUENTOi = β0 + β1TEMPi + β2CONCi + ui

Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas demulticolinealidad.

Page 31: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Cuestiones (45 minutos, 5 puntos)

1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Uningeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiemposde CPU resultantes han sido:

1 2 3 4 5 MediasA 122.9 147.4 189.6 200.9 307.3 193.6B 113.8 135.1 173.8 199.3 296.6 183.7C 131.2 152.8 192.7 219.8 318.9 203.1

Medias 122.7 145.1 185.3 206.7 307.6

La variabilidad total es 62899.2 y su descomposición es 937.2 (Variabilidad Explicada por Compilador),61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).

Indica qué compilador es el más rápido, justificando la respuesta. Da un intervalo de confianza (95%)para la diferencia de las medias entre los dos compiladores más rápidos.

SOLUCIÓN:

La tabla de Análisis de la Varianza es:F. V. G.L. Var. o CM Contraste F

VE(compilador) 937.2 2 468.6 40.22 Significativo >F2,8,α=0,05VE(programa) 61868.9 4 15467.23 1327.66 Significativo >F4,8,α=0,05VNE 93.2 8 11.65

VT 62899.2 14

Existen diferenciassignificativas entre los Compiladores. Para saber cuáles son los mas rápidos esnecesario realizar los contrastes dos a dos:{H0:µi = µjH0:µi �= µj

.Se rechaza H0 si |yi. − yj.| > t8;0,025 × sR ×√

15 +

15 = 2,306×

√11,65×

√15 +

15 = 4,98.

Todos los compiladores son significativamente distintos entre si. Los dos mas rápidos son el compiladorA y el B

El intervalo de confianza es:

µA − µB ∈ 9,5± 4,98 = [4,52; 14,48] con una confianza del 95%.

2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianzaentre dos estimadores βi y βj para i �= j. Indica en cada paso qué hipótesis básica del modelo estásutilizando.

SOLUCIÓN:

Ver transparencia 36 del capítulo no 3: Regresión Lineal. de la colección de transparencias de laasignatura.

3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valormedio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor mediose corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se consideraexcesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptandonormalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.

Page 32: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

SOLUCIÓN:

Los datos indican: n1 = 8, x1 = 3,567, s1 = 0,2886 y n2 = 10, x2 = 3,44, s2 = 0,1888.

Se verifica

(n1 − 1)s12(n1 − 1)σ21(n2 − 1)s22(n2 − 1)σ22

⇀ F(n1−1),(n2−1) =⇒

s12

σ21s22

σ22

−→ F7,9 =⇒ Fa ×s22

s12 ≤

σ22σ21≤ Fb ×

s22

s12

Siendo Fa = F7,9;0,975 y Fb = F7,9;0,025.El valor Fb = F7,9;0,025 = 4,20 se obtiene directamente de las tablas

El valor Fa = F7,9;0,975 =1

F9,7;0,025=

1

4,82= 0,2075.

Sustituyendo en la expresión del intervalo:

0,2075× 0,18882

0,28862≤ σ22σ21≤ 4,20× 0,1888

2

0,28862=⇒ [0,09 ≤ σ22

σ21≤ 1,8228] con confianza 95%.

Page 33: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

Problema (45 minutos, 5 puntos)

Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria espreciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocoloactual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del1%. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimientode la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluyela temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,1.2 y 1.4 (% en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas encada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)

Concentración0.6 0.8 1.0 1.2 1.4

27o 33 72 32 131 28 179 59 221 43 195Temp 35o 62 113 54 151 98 147 176 211 119 162

43o 77 76 81 125 117 127 146 201 101 184

Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguientetabla de análisis de varianza

1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisisde la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con elnuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explicaa qué se debe la diferencia de los resultados obtenidos.

SOLUCIÓN: La nueva tabla de la varianza se obtiene sumando los variabilidades correspondientesa la interacción y reisiduos del modelo del enunciado, de manera que la VNE y sus grados de libertadse obtienen como

V NE = 883 + 56553 = 57436

gl = 8+ 15 = 23

Los demás términos de la tabla no se modifican, de manera que la tabla final es:

FUENTE VARIAB GL VARIANZAS FTEMP 5100 2 2550.2 1.021CONC 32794 4 8198.6 3.283RESIDUAL 57436 23 2497.2

Sólo es significativo el efecto de la CONCENTRACIÓN, pues el límite para α = 0,05 es F4,23 = 2,8 <3,283

Page 34: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

La diferencia se debe a que la varianza residual se reduce considerablemente al aumentar los gradosde libertad de los residuos, lo que aumenta los estadísticos F y disminuyen los límites de aceptaciónque se obtienen de las tablas.

2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simpleentre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existerelación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la mediaaritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)

SOLUCIÓN:

Teniendo en cuenta que la variabilidad total es V T = 5100 + 32794 + 57436 = 95330, la varianza dela variable respuesta s2y se obtiene de la siguiente forma

s2y =95330

30= 3177,6

y la varianza del regresor s2x

s2x =6× (0,6− 1)2 + 6× (0,8− 1)2 + 6× (1− 1)2 + 6× (1,2− 1)2 + 6× (1,4− 1)2

30= 0,08

Utilizando lo anterior y el coeficiente de correlación, se puede obtener el estimador de la pendiente

β1 =sxys2x

= rsysx= 0,495

√3177,6

0,08= 98,65

y la ordenada en el origen

β0 = y − β1x = 117,33− 98,65× 1 = 18,67

La variabilidad no explicada, VNE, de regresión simple se obtiene como

V E = 0,4952 × 95330 = 23358V NE = V T − V E = 95330− 23358 = 71972

y la varianza residual

s2R =71972

28= 2570

El contraste de la t es por tanto

t =β1

sR/(√nsx)

= 3,014

que es significativo para α = 0,05, pues t0,25;28 = 2,05.

3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-dientes al modelo de regresión múltiple

RECUENTOi = β0 + β1TEMPi + β2CONCi + ui

Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas demulticolinealidad.

SOLUCIÓN: Y = Xβ +U, siendo cada término

Page 35: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012

337232131281795922143195621135415198147176211119162777681125117127146201101184

=

1 27 0,61 27 0,61 27 0,81 27 0,81 27 1,01 27 1,01 27 1,21 27 1,21 27 1,41 27 1,41 35 0,61 35 0,61 35 0,81 35 0,81 35 1,01 35 1,01 35 1,21 35 1,21 35 1,41 35 1,41 43 0,61 43 0,61 43 0,81 43 0,81 43 1,01 43 1,01 43 1,21 43 1,21 43 1,41 43 1,4

β0β1β2

+

u1u2u3u4u5u6u7u8u9u10u11u12u13u14u15u16u17u18u19u20u21u22u23u24u25u26u27u28u29u30

Page 36: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 37: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 38: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 39: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Cuestiones (30 minutos, 4 puntos)

1.) El estudio de la observabilidad de un sistema eléctrico es un paso previo a la estimación de suestado, y resulta crucial para cualquier Centro de Control de un sistema eléctrico, con el fin de garantizarla seguridad del sistema.

Unos investigadores del Laboratorio de Estadística de la ETSII-UPM han desarrollado un nuevo método(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.

Han realizado pruebas para determinar si el nuevo método es computacionalmente más rápido que eltradicional. Para ello han usado un sistema eléctrico tipo, que se suele utilizar para probar este tipo demetodologías. En este sistema tipo han aplicado ambos Métodos (Tradicional y Nuevo) en 100 situacionesdistintas para el sistema eléctrico (denominadas Escenarios), obteniendo un valor para la variable dependi-ente CPU-Time (en segundos) para cada combinación de Método y Escenario.

Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así comola ecuación de dicho modelo y las hipótesis que se asumen.

Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativasentre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?

F.V Sum. cuadrados G.l. Var FMétodo 7,79426·108

Escenario 99 163761,0ResidualTotal 8,119·108

Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)son respectivamente yN · = 817, 58 e yT · = 4765, 51, construya los intervalos de confianza para la mediade cada método e indique cuál es el mejor.

2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutospor dólar) de esas pilas.

Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mideel tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominanrespectivamente tipos 1, 2, 3 y 4.

A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-dientes a la estimación del modelo con un factor.

a) Interprete los resultados (α = 0,01).

Figura 1. Tabla ADEVA

Page 40: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Figura 2. Comparaciones dos a dos

b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicandoclaramente si se cumplen las hipótesis del modelo. Si se diera este último caso, proponga una solución posiblepara ello.

Figura 3. Diagnosis del modelo.

Page 41: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Problema (45 minutos, 6 puntos)

Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistenciaa la tracción (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de áridos: basálticos o silíceos.

En un primer momento ha utilizado un asfalto con árido basáltico y ha considerado cuatro métodos decompactación (estático, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos harepetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tresdatos de cada tratamiento:

Compactación

Estática V. reg V. baja V. muy bajayi· 65,3 129,0 97,3 57,3s2i 6,33 13,0 16,33 2,33

Tabla 1: Medias y varianzas corregidas de los tratamientos con asfalto basáltico

1. Contraste si el tipo de compactación influye significativamente en la resistencia a la tracción e indique,en caso afirmativo, el método de compactación que proporciona una mayor resistencia a la tracción(α = 0, 05).

2. Se ha realizado un experimento similar al anterior (cuatro métodos de compactación, tres replicaciones)pero utilizando asfalto silíceo. En el análisis se han obtenido los siguientes resultados:

Compactación

Estática V. reg V. baja V. muy bajayi· 67,7 111,0 60,7 41,7s2i 8,33 21,0 4,33 4,33

Tabla 2: Medias y varianzas de los tratamientos con asfalto silíceo

La tabla ADEVA para los datos correspondientes al asfalto silíceo es:

Tabla 3: Análisis de la varianza con asfalto silíceo

a) Indique qué metodos de compactación producen resistencias a la tracción significativamente distintasen el asfalto silíceo.

b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos basálticos(apartado 1) y silíceos (apartado 2) son iguales (α = 0, 05).

3. Se decide combinar la información recogida en los dos e•xperimentos, los detallados en los apartados 1y 2 respectivamente. Con esta información contraste si existe interacción significativa entre los factorestipo de árido y compactación, dibuje el gráfico de la interacción e interprétela. Indique qué combinaciónde factores es la más adecuada para conseguir la máxima resistencia a la tracción (α = 0, 05).

Page 42: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Cuestiones (30 minutos, 4 puntos)

1.) El estudio de la observabilidad de un sistema eléctrico es un paso previo a la estimación de suestado, y resulta crucial para cualquier Centro de Control de un sistema eléctrico, con el fin de garantizarla seguridad del sistema.

Unos investigadores del Laboratorio de Estadística de la ETSII-UPM han desarrollado un nuevo método(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.

Han realizado pruebas para determinar si el nuevo método es computacionalmente más rápido que eltradicional. Para ello han usado un sistema eléctrico tipo, que se suele utilizar para probar este tipo demetodologías. En este sistema tipo han aplicado ambos Métodos (Tradicional y Nuevo) en 100 situacionesdistintas para el sistema eléctrico (denominadas Escenarios), obteniendo un valor para la variable dependi-ente CPU-Time para cada combinación de Método y Escenario.

Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así comola ecuación de dicho modelo y las hipótesis que se asumen.

Modelo en Bloques Aleatorizados: yij = µ + αi + βj + uij. No hay réplicas de cada "tratamiento".Sólo se quiere determinar qué Método es mejor, el bloque Escenario se incluye sólo por si explica unaporción importante de la Variabilidad Total del CPU-Time.

Se asume: Normalidad, homocedasticidad e independencia.

Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativasentre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?

F.V Sum. cuadrados G.l. Var F

Método 7.79426·108 2-1=1 7.79426·10 8 7.79426·10 8

1.6426·10 5= 4745.1

Escenario 16212339 99 163761.0 1637611.6426·10 5

= 0.997

Residual 16261661 (I-1)(J-1)=1·99 1.6426·10 5

Total 8.119·108 199

Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)son respectivamente yN · = 817,58 e yT · = 4765,51, construya los intervalos de confianza para la mediade cada método e indique cuál es el mejor.

µ+ αN ∈ yN · ± sR·t(I−1)(J−1);α2

1√J→ µ+ αN ∈ 817,58±

√1.6426·10 5t99;α

2

1√100

→ µ+ αN ∈ 817,58±405,29·1,96√

100;

µ+ αN ∈ (738,1432; 897.0168)

µ+ αT ∈ yT · ± sR·t(I−1)(J−1);α2

1√J→ µ+ βN ∈ (4686,1; 4844,9)

2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutospor dólar) de esas pilas.

Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mideel tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominanrespectivamente tipos 1, 2, 3 y 4.

A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-dientes a la estimación del modelo con un factor.

a) Interprete los resultados. (α = 0,01).

Page 43: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Figura 1. Tabla ADEVA

De la Tabla ANOVA se tiene que hay diferencias significativas entre los 4 tipos de pilas.

Figura 2. Comparaciones dos a dos

Con α = 0,01 existen diferencias significativas entre A y B, entre A y C pero no existen diferenciassignificativas entre A y D (sí las habría para α = 0,1).

También existen diferencias significativas entre By C y B y D, pero no entre C y D (sí las habría paraα = 0,1).

b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicandoclaramente si se cumplen las hipótesis del modelo y si se cumplen o no. Si se diera este último caso, propónuna solución posible para ello.

Page 44: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Figura 3. Diagnosis del modelo.

HOMOCEDASTICIDAD: Gráfico de residuos frente a valores previstos: no se observa forma de "trompe-ta", no hay heterocedasticidad. Además, en el gráfico de residuos frente a nivel del factor se ha de comprobarque el cociente entre el rango de los residuos para el nivel de factor en que éste sea máximo (pilas tipo A eneste caso) y el caso en que este sea mínimo (pilas tipo D en este caso) no sea superior a 3 (aprox).

NORMALIDAD: Q-Q plot, o contraste de la Chi-cuadrado o el de Kolmogorov. Aunque el tamaño demuestra no es grande en este caso podemos considerar aceptable lo que observamos, aunque para mayorseguridad al respecto habría que pasar uno de los contrastes mencionados.

INDEPENDENCIA: Se ha de suponer que el experimento se ha llevado a cabo en las condiciones dealeatorización adecuadas.

Page 45: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

Problema (45 minutos, 6 puntos)

Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistenciaa la tracción (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de áridos: basálticos o silíceos.

En un primer momento ha utilizado un asfalto con árido basáltico y ha considerado cuatro métodos decompactación (estático, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos harepetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tresdatos de cada tratamiento:

Compactación

Estática V. reg V. baja V. muy baja

yi· 65,3 129,0 97,3 57,3

s2i 6,33 13,0 16,33 2,33

Tabla 1: Medias y varianzas corregidas de los tratamientos con árido basáltico

1. Contraste si el tipo de compactación influye significativamente en la resistencia a la tracción e indique,en caso afirmativo, el método de compactación que proporciona una mayor resistencia a la tracción(α = 0, 05).

2. Se ha realizado un experimento similar al anterior (cuatro métodos de compactación, tres replicaciones)pero utilizando asfalto silíceo. En el análisis se han obtenido los siguientes resultados:

Compactación

Estática V. reg V. baja V. muy baja

yi· 67,7 111,0 60,7 41,7

s2i 8,33 21,0 4,33 4,33

Tabla 2: Medias de los tratamientos con asfalto silíceo

La tabla ADEVA para los datos correspondientes al asfalto silíceo es:

Tabla 3: Análisis de la varianza con asfalto silíceo

a) Indique qué metodos de compactación producen resistencias a la tracción significativamente distintasen el asfalto silíceo.

b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos basálticos(apartado 1) y silíceos (apartado 2) son iguales (α = 0, 05).

3. Se decide combinar la información recogida en los dos experimentos, los detallados en los apartados 1y 2 respectivamente. Con esta información contraste si existe interacción significativa entre los factorestipo de árido y compactación, dibuje el gráfico de la interacción e interprétela. Indique qué combinaciónde factores es la más adecuada para conseguir la máxima resistencia a la tracción (α = 0, 05).

Page 46: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

SOLUCIÓN PROBLEMA

1.- Se obtiene la siguiente tabla ADEVA:

S.C. G.L. Var. Contraste

VE 9668.67 3 3222,89 339,25VNE 76 8 9,5VT 9744,67 11

donde se han calculado

V E =4∑

i=1

3∑

j=1

(yi• − y••)2 = 9668, 67 y s2R =

4∑

i=1

(ni − 1)s2i

n− 4= 9, 5.

Como F0 = 339, 25 > F3,8;0,05 = 4, 07 =⇒Se rechaza H0 =⇒El método de compactación influye signi-ficativamente en la resistencia la tracción.

Para determinar qué método proporciona una mayor resistencia se realizan los contrastes múltiples:{H0 : µi = µjH1 : µi �= µj

.

Se rechaza H0 si∣∣yi• − yj•

∣∣ > t8;α/2 × sR ×√

13+ 1

3= 2, 30× 3, 08

√23= 5, 78.

De los contrastes realizados se conclyuye que todas las diferencias son estadísticamente significativas, lasmedias son distintas. Por tanto la mayor resistencia a la tracción se produce con velocidad.

2. De la tabla ADEVA se obtiene s2R = 9, 5 con 8 grados de libertad

a) Se realizan los contrastes{H0 : µi = µjH1 : µi �= µj

.

Se rechaza H0 si∣∣yi• − yj•

∣∣ > t8;α/2 × sR ×√

13+ 1

3= 2, 30× 3, 08

√23= 5, 78.

Todos los métodos de compactación son distirntos.

b) Se realiza el contraste

{H0 : σ2B = σ

2S

H1 : σ2B �= σ2S

.

Del primer apartado se obtiene la varianza residual del experimento con árido basáltico: s2RB = 9, 5De la tabla ADEVA del segundo apartado se obtiene la varianza residual del expeirmento con árido

silíceo: s2RS = 9, 5

Si H0 es cierta8× s2RB8× s2RS

� F8,8.

Es un contraste bilateral. Como8× s2RB8× s2RS

= 1 ∈ [F8,8;0,975;F8,8;0,025] = [0, 22; 4, 43] =⇒ No se puede

rechazar H0.

Page 47: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013

3. Combinando ambos experimentos se obtiene un experimento con dos factores e interacción: FactorA: tipo de árido ( 2 niveles); Factor B: tipo de compactación ( 4 niveles) y 3 replicaciones.

La tabla de medias resultante es

Compactación

Estática V. reg V. baja V. muy baja yi••Basltico 65,3 129,0 97,3 57,3 87,3Silíceo 67,7 111,0 60,7 41,7 70,3

y•j• 66,5 120 79 49,5 y

•••= 78, 8

Con los datos de la tabla se calcula V E(A×B) =2∑

i=1

4∑

j=1

3∑

k=1

(yij• − yi•• − y•j• + y•••)2 = 1145.

Con grados de libertad (I − 1)× (J − 1) = 3La varianza residual del experimento con dos factores y replicación es:

s2R =8× s2RB + 8× s

2RS

16= 9, 5. Siendo los grados de libertad I × J × (m− 1) = 2× 4× (3− 1) = 16

El contraste para determinar la existencia de interacción es:V E(AB)/3

s2R= 40, 175 > F3,16;0,05 = 3, 24. =⇒ Se rechaza H0 =⇒ La interacción es significativa.

El gráfico es

Gráfico de Interacción

compactacion

Resis

tencia

ÁridoBasálticoSilíceo

41

61

81

101

121

141

1 2 3 4

La mayor resistencia se produce con Árido Basáltico-Compactación 2 ( v. regular), que es significastiva-mente distinta de Árido Silíceo-Compactación 2 ( v. regular) como se comprueba al hacer el contraste:.

|yBR − ySR| > t16;α/2 × sR ×√

13+ 1

3= 2, 12× 3, 08

√23= 5, 33. =⇒ 129− 111 > 5, 33.

Page 48: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

> mod_simple <- lm( Precio ~ RAM)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 92.51 46.67 1.982 0.0674

RAM 98.11 41.23 2.379 0.0321

---

Residual standard error: 87.47 on 14 degrees of freedom

Multiple R-squared: 0.2879, Adjusted R-squared: 0.2371

F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 53.664 47.676 1.126 0.284

RAM 72.184 10.582 6.822 2.87e-05

DiscoDuro 10.496 1.151 9.120 1.84e-06

Pantalla -3.264 5.953 -0.548 0.594

Z3G 117.888 13.609 8.663 3.04e-06 ––-

Residual standard error: 22.12 on 11 degrees of freedom

Multiple R-squared: 0.9642, Adjusted R-squared: 0.951

F-statistic: 74.12 on 4 and 11 DF, p-value: 6.986e-08

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)

(Resto de salida de R eliminada intencionadamente)

Residual standard error: 22.01 on 8 degrees of freedom

Multiple R-squared: 0.9742, Adjusted R-squared: 0.951

F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06

( ) ( )

Page 49: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

> mod_simple <- lm( Precio ~ RAM)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 92.51 46.67 1.982 0.0674

RAM 98.11 41.23 2.379 0.0321

---

Residual standard error: 87.47 on 14 degrees of freedom

Multiple R-squared: 0.2879, Adjusted R-squared: 0.2371

F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 53.664 47.676 1.126 0.284

RAM 72.184 10.582 6.822 2.87e-05

DiscoDuro 10.496 1.151 9.120 1.84e-06

Pantalla -3.264 5.953 -0.548 0.594

Z3G 117.888 13.609 8.663 3.04e-06 ––-

Residual standard error: 22.12 on 11 degrees of freedom

Multiple R-squared: 0.9642, Adjusted R-squared: 0.951

F-statistic: 74.12 on 4 and 11 DF, p-value: 6.986e-08

( )

( )

Page 50: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)

(Resto de salida de R eliminada intencionadamente)

Residual standard error: 22.01 on 8 degrees of freedom

Multiple R-squared: 0.9742, Adjusted R-squared: 0.951

F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06

( ) ( )

( )

( ( )

)

(

( )

)

( )

( ( )

)

(

( )

)

Page 51: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial - Diseno y Regresion 20 de mayo 2013

Problema(45 minutos, 6 puntos)

En el departamento de I + D + i de una empresa se esta investigando la influencia de dos variablescuantitativas (X1, X2) sobre la resistencia de un material (Y ). Se han realizado 30 ensayos en un laboratorio.Los resultados se resumen como sigue:

S−1xx =

[0,8664 −0,0146

−0,0146 1,1160

]; Sxy = [3,48 9,5973]T ; sR = 2,32 ; sy = 10,83

1. Estimar el modelo (en desviaciones a la media) y realizar los contrastes individuales (excluyendo eldel termino independiente) y el contraste conjunto. Interpretar los resultados.

2. Con las mismas variables cuantitativas del apartado anterior, se han anadido 60 ensayos de otros doslaboratorios (30 de cada laboratorio), de forma que resultan en total 90 datos. Se anade al modelo lavariable cualitativa correspondiente. Los resultados son los siguientes:

yi = 1, 18 + 2, 49x1i + 10, 83x2i + 2, 11z2i − 1, 01z3i

(X ′X)−1 =

0,0340 −0,0012 −0,0026 −0,0345 −0,0339

−0,0012 0,0103 0,0002 0,0029 0,0010−0,0026 0,0002 0,0129 0,0042 0,0024−0,0345 0,0029 0,0042 0,0688 0,0344−0,0339 0,0010 0,0024 0,0344 0,0672

; sR = 2, 46 ; sy = 10, 77;

Interpretar los coeficientes de regresion. Realizar los contrastes individuales y el contraste conjunto einterpretar los resultados, comparandolos con los del apartado 1.

3. ¿Es significativa la diferencia entre el promedio de la respuesta para los laboratorios 2 y 3?

Nota: Utilizar α = 0, 05 en todos los contrastes.

Page 52: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial - Diseno y Regresion 20 de mayo 2013

SOLUCION

Nota: Cada uno de los tres apartados puntua lo mismo, es decir 2 puntos sobre los 6 puntos del Problema.

Apartado 1)β = S−1

xx Sxy = [2,8801 10,6597]

β1 = 2, 88 = estimacion del incremento promedio de la resistencia cuando X1 se incrementa en unaunidad, y X2 no varıa.

β2 = 10, 65 = estimacion del incremento promedio de la resistencia cuando X2 se incrementa en unaunidad, y X1 no varıa.

Contraste conjunto:

V NE = (30− 2− 1)× 2,322 = 145, 32

V E = 29× 10, 832 − 145, 32 = 3256, 1

F = (3256, 1/2)/2,322 = 302, 47 > F2,27(0, 95) = 3, 35

La informacion conjunta (sin desagregar en la contribucion de cada uno) proporcionada por (X1, X2)es relevante para explicar/predecir la resistencia Y

Contrastes individuales:

t1 = 3,486/(2, 32√

0, 8664/30) = 7, 3 > t27(0, 975) = 2, 05

La informacion que proporciona X1 adicional a la proporcionada por X2 es relevante para expli-car/predecir la resistencia Y

t2 = 9, 59/(2, 32√1, 11/30) = 23,82 > t27(0, 975) = 2, 05

La informacion que proporciona X2 adicional a la proporcionada por X1 es relevante para expli-car/predecir la resistencia Y

Apartado 2)

β1 = 2, 49 = estimacion del incremento promedio de la resistencia cuando X1 se incrementa en unaunidad, y el resto de los factores no varıa.

β2 = 10, 83 = estimacion del incremento promedio de la resistencia cuando X2 se incrementa en unaunidad, y el resto de los factores no varıa.

α1 = 2, 11 = estimacion de la diferencia entre la ordenada en el origen del segundo laboratorio y la delprimero.

α2 = −1, 01 = estimacion de la diferencia entre la ordenada en el origen del tercer laboratorio y la delprimero.

Contraste conjunto:V NE = (90− 4− 1)× 2,462 = 514, 38

V E = 89× 10, 772 − 514, 38 = 9809

F = (9809/4)/2,462 = 405, 22F4,85(0, 95) = 2, 48

Contrastes individuales:

t1 = 2,49/(2, 46√0, 0103 = 9, 99 > t85(0, 975) = 1, 99

La informacion que proporciona X1 adicional a la proporcionada por X2, Z2, Z3 es relevante paraexplicar/predecir la resistencia Y

Page 53: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial - Diseno y Regresion 20 de mayo 2013

t2 = 10, 83/(2, 46√0, 0129 = 38, 78 > t85(0, 975) = 1, 99

La informacion que proporciona X2 adicional a la proporcionada por X1, Z2, Z3 es relevante paraexplicar/predecir la resistencia Y

t3 = 2,11/(2, 46√0, 0688 = 3, 28 > t85(0, 975) = 1, 99

La ordenada en el origen para el laboratorio dos es significativamente distinta de la del laboratorio uno

t4 = −1, 01/(2, 46√0, 0672 = −1, 58 < t85(0, 975) = 1, 99

La ordenada en el origen para el laboratorio tres no es significativamente distinta de la del laboratoriouno.

Comparando con los resultados del apartado uno, se observa que los coeficientes de X1, X2 son similaresası como los valores de la varianza residual s2R, lo cual indica que tanto los efectos de los factores X1, X2

sobre la respuesta Y como la varianza del error experimental u (medida de la incertidumbre de la Y dadasX1, X2) son similares en los tres laboratorios.

Apartado 3)

H0 : α2 = α3

H1 : α2 = α3

var(α2 − α3) = α2(0, 0688 + 0, 0672− 2× 0, 0344)

t = α2−α3

sR√0,0688+0,0672−2×0,0344

= (2, 11−)−1, 01))/2, 46√0, 0688 + 0, 0672− 2× 0, 0344 = ,4, 9 > t85(0, 975) =

1, 99; se rechaza H0; por tanto, la diferencia entre las estimaciones de las ordenadas en el origen de los la-boratorios dos y tres es estadısticamente significativa.

Page 54: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final - Diseno y Regresion 31 de mayo 2013

REGRESION - Cuestiones (30 minutos, 4 puntos)

1. En 1980 se realizo un estudio en EEUU para determinar si fumar reduce la capacidadpulmonar de los jovenes. Los participantes (654 en total) fueron chicos y chicas entre9 y 19 anos, la mayorıa de los cuales (589) eran no fumadores. La capacidad pulmonarutilizada es el volumen en litros expulsado por un individuo durante el primer segundoen una expiracion forzada y se denomina FVE (forced expiratory volume). Se incluyeel modelo de regresion entre la variable FVE (en logaritmos) y los regresores edad,estatura, sexo (0 mujer, 1 hombre) y fuma (0 No, 1 Sı).

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.943998 0.078639 -24.721 < 2e-16

edad 0.023387 0.003348 6.984 7.1e-12

altura 0.042796 0.001679 25.489 < 2e-16

sexo 0.029319 0.011719 2.502 0.0126

fuma -0.046068 0.020910 -2.203 0.0279

---

Residual standard error: 0.1455 on 649 degrees of freedom

Multiple R-squared: 0.8106, Adjusted R-squared: 0.8095

F-statistic: 694.6 on 4 and 649 DF, p-value: < 2.2e-16

La matriz de varianzas de los estimadores es la siguiente

[,1] [,2] [,3] [,4] [,5]

[1,] 6.18e-03 1.55e-04 -1.27e-04 1.39e-04 4.22e-05

[2,] 1.55e-04 1.12e-05 -4.36e-06 5.04e-06 -2.08e-05

[3,] -1.27e-04 -4.36e-06 2.82e-06 -4.28e-06 1.81e-06

[4,] 1.39e-04 5.04e-06 -4.28e-06 1.37e-04 2.01e-05

[5,] 4.22e-05 -2.08e-05 1.81e-06 2.01e-05 4.37e-04

¿Como influye el habito de fumar en la capacidad pulmonar? ¿Como influye la estatura?¿Quien tiene mayor capacidad pulmonar, los hombres o las mujeres?

Sabiendo que la estimacion de la media es mh = xTh β, calcule var(mh) y, a partir deeste resultado, obtenga un intervalo de confianza (95%) para la capacidad pulmonar(en logaritmos) de una mujer de 18 anos que no fuma y mide 170 cm.

2 Se ha estimado con n = 20 observaciones la ecuacion de regresion

yi = 1,4205 + 0,1422x1 + 0,2908x2

siendo la matriz de varianzas de los regresores SXX , las covarianzas entre cada regresory la variable dependiente SXY , y la varianza de la variable dependiente s2Y los siguientes:

SXX =

(9,57 −0,423

−0,423 0,293

), SXY =

1

nXT Y =

(1,2390,0251

), s2Y = 0,2667

Realiza el contraste general de regresion con α = 0,05 y calcula el coeficiente de deter-minacion.

Page 55: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final - Diseno y Regresion 31 de mayo 2013

REGRESION - Problema(45 minutos, 6 puntos)

El examen de ingreso en un colegio consistio en tres pruebas: matematicas, ingles ycultura general. Para ensayar la capacidad del examen para predecir el papel de los alumnosen un curso de estadıstica, los datos de una muestra de 200 estudiantes fueron reunidos yanalizados. Se definen las variables, siendo:

Y : Puntuacion en el curso de estadısticaX1 : Puntuacion en la prueba de matematicasX2 : Puntuacion en la prueba de inglesX3 : Puntuacion en la prueba de cultura generalse obtuvieron los siguientes resultados:y = 75; sy = 10; x1 = 24; sx1 = 5; x2 = 15; sx2 = 3; x3 = 36; sx3 = 4;ry,x1 = 0,9; ry,x2 = 0,75; ry,x3 = 0,8; rx1,x2 = 0,7; rx1,x3 = 0,7; rx2,x3 = 0,85;

1. Estime el modelo de regresion simple entre el conocimiento de estadıstica y el de ingles.¿Es significativo dicho conocimiento?

2. Obtenga el modelo de regresion entre la puntacion en el curso de estadıstica y las demaspuntuaciones. Interprete la relacion entre el conocimiento de matematicas, ingles ycultura general y el conocimiento de estadıstica a partir del modelo estimado. Justifiquela respuesta.

Nota: utilice la matriz

S−1xx =

0,0851 −0,0536 −0,0402−0,0536 0,4342 −0,2299−0,0402 −0,2299 0,2443

3. ¿Son significativos el conocimiento de matematicas, ingles y cultura general en el de

estadıstica?

Explique las similitudes o discrepancias entre el modelo de regresion multiple (apartado2) y el modelo de regresion simple (apartado 1).

Nota: utilice α = 0,05.

Page 56: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final - Diseno y Regresion 31 de mayo 2013

DISENO DE EXPERIMENTOS - Cuestiones(30 minutos, 4 puntos)

1) La Fundacion Jose Antonio Artigas y Sanz va a conceder una beca de estudios enla Universidad de Columbia para realizar un Master. A ella optan en su fase final 10alumnos. Para ello se les evalua en cinco materias diferentes, por lo que la nota maximaque pueden obtener es de 50 puntos. Para que el proceso sea lo mas transparente yjusto posible, dos profesores evaluan dichos examenes. A continuacion se muestran losresultados de las correcciones de los dos profesores para cada alumno.

A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 Medias

Profesor 1 44 47 33 38 50 41 39 42 45 22 42.3Profesor 2 43 46 33 37 50 42 39 42 44 44 42

Medias 43.5 46.5 33 37.5 50 41.5 39 42 44.5 44

El tribunal organizador ha dispuesto de un tercer profesor para el caso en que existandiscrepancias significativas. ¿Tiene que actuar el tercer profesor? Justifique la respuesta.

2) Para un modelo de analisis de la varianza con un factor en el que se tienen dostratamientos (I = 2), demuestre que el contraste de la F para la hipotesis nulaH0 : µ1 = µ2 = µ frente a la alternativa (alguna es distinta), es equivalente a rea-lizar el contraste de la t.

Page 57: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final - Diseno y Regresion 31 de mayo 2013

DISENO DE EXPERIMENTOS - Problema(45 minutos, 6 puntos)

En un experimento con cobayas se ha estudiado el efecto en el crecimiento de los dientesde anadir un suplemento de vitamina C en la alimentacion de los animales. Se emplearon dostipos de suplementos: Zumo de Naranja (ZN) y Acido Ascorbico (AA) y tres dosis diferentes(0.5, 1.0 y 2.0 miligramos). A cada combinacion de los dos factores se asignaron 10 cobayas.La variable respuesta es la longitud media de los dientes de la cobaya. Los resultados delexperimento se analizaron como un modelo de dos factores con interaccion. La tabla deanalisis de la varianza es:

Response: LONG

Df Sum Sq Mean Sq F value Pr(>F)

VITAMIN 1 205.35 205.35 15.572 0.0002312 ***

DOSIS 2 2426.43 1213.22 92.000 < 2.2e-16 ***

VITAMIN:DOSIS 2 108.32 54.16 4.107 0.0218603 *

Residuals 54 712.11 13.19

la tabla de medias

0.5 1.0 2.0

OJ 13.23 22.70 26.06

VC 7.98 16.77 26.14

y la de desviaciones tıpicas

0.5 1.0 2.0

ZN 4.46 3.91 2.66

AA 2.75 2.52 4.80

1. El modelo de diseno de dos factores con interaccion es

yijk = µ+ αi + βj + (αβ)ij + uijk

con uijk variables aleatorias con distribucion normal de media cero y varianza σ2, αi

mide el efecto del tipo de suplemento, βj el efecto de la dosis y (αβ)ij la interaccion.Con la informacion disponible estima cada uno de los parametros del modelo. Interpretalos resultados del analisis estadıstico.

2. ¿Existen diferencias significativas entre las longitudes medias de los dientes de las co-bayas que han sido alimentadas con un suplemento de 2 mg de ZN y las que hansido alimentadas con 2 mg de AA? Justifica la respuesta utilizando un contraste dehipotesis. Repite el contraste y contesta a las siguientes preguntas: ¿Existen diferenciassignificativas entre las longitudes medias de los dientes de las cobayas que han sidoalimentadas con un suplemento de 1 mg de ZN y las que han sido alimentadas con 1mg de AA? ¿Existen diferencias significativas entre las longitudes medias de los dientesde las cobayas que han sido alimentadas con un suplemento de 0.5 mg de ZN y las quehan sido alimentadas con 0.5 mg de AA?

Haz la representacion grafica que consideres adecuada para explicar este efecto.

3. Contrasta si la varianza del error experimental de los datos correspondientes a nivelZN es distinta que los AA con α = 0,05.

Page 58: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

DISEÑO DE EXPERIMENTOS: 31 de mayo de 2013

SOLUCIÓN CUESTIONES:

Cuestión 1:

Es un modelo en bloques aleatorizados donde el factor es el profesor y lavaraible bloque los alumnos.

La descomposición de la variabilidad es:V T = V E(Prof.) + V E(Al.) + V NE

Donde:

V E(Prof.) =2∑

i=1

10∑

j=1

(yi• − y••)2 = 0.45. =⇒ g.l. = I − 1 = 1.

V NE =2∑

i=1

10∑

j=1

e2ij =2∑

i=1

10∑

j=1

(yij − yi• − y•j + y••)2 = 2, 05. =⇒

g.l. = (I − 1)(J − 1) = 9.

El contraste es:{H0 : α1 = α2H1 : α1 �= α2

.

Si H0 es cierta =⇒ F0 =V E(Prof.)/1

V NE/9= 1, 98 < F1,9;0,05 = 5, 12 =⇒ No se

rechaza H0 =⇒No hay diferencias significativas entre los profesores.

Cuestión 2:

En el caso de un factor con dos tratamientos siendo n1 = n2 = m,

el contraste de la F es: F =

V E

1s2R

, donde

V E =2∑

i=1

m∑

j=1

(yi• − y••)2 = m[(y1• − y••)

2 + (y2• − y••)2] =

=m

[(y1• − (

y1• + y2•2

)

)2+

(y2• − (

y1• + y2•2

)

)2],

siendo

y••=y1• + y2•

2.

Operando:

V E = m

[(2y1• − y1• − y2•

2

)2+

(2y2• − y1• − y2•

2

)2]=

1

Page 59: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

=m

[(y1• − y2•

2

)2+

(y2• − y1•

2

)2]=m

2(y1• − y2•)

2 .

Por lo que el constraste de F quedaría

F0 =

m

2(y1• − y2•)

2.

s2R=

y1• − y2•sR

√2m

2

→ F1,2m−2.

El contraste de la t es:

t0 =y1• − y2•

sR

√2m

→ t2m−2

Por lo que (t0)2 = F0Considerando las variables, se verifica siempre que (tg)

2 = F1,g.Por lo tanto ambos contrastes son equivalentes.

2

Page 60: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

SOLUCIÓN AL PROBLEMA1. Llamando yi••, y•j•, yij• y y•••, a las medias de filas, columnas, tratamien-

tos y media general se tiene que

µ = y•••,

αi = yi•• − y•••,

βj = y•j• − y•••,(

αβ)ij

= yij• − yi•• − y•j• + y•••

la media general es 18.81 y el valor de las estimaciones de los parámetrosrestantes se muestran la figura siguiente:

Como los tres efectos son significativos ( para nivel de significación 0.05),el efecto del suplemento en la longitud de los dientes, depende de la dosis. Alaumentar la dosis aumenta la longitud. A dosis bajas (0.5 y 1.0), se consiguemayor longitud con ZN. A dosis altas (2.0) las medias de los dos suplementosson similares.

2. Llamando µ13 y µ23 a los parámetros que nos dan la longitud media delos dientes de la cobaya alimentada con ZN con 2 mg y la alimentada con AAcon 2 mg, se pide hacer el contraste

H0 : µ13 = µ23

H1 : µ13 �= µ23

Llamando LSD = tα/2,54 × sR ×√

210= 3.25,

|y13• − y23•| = |26.06− 26.14| < LSD

no existen diferencias significativas en las longitudes medias de los dientes delas cobayas con 2 mg de ZN y las alimentadas con 2 mg de AA.

3

Page 61: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

0,00

5,00

10,00

15,00

20,00

25,00

30,00

0,5 1 2

ZN

AA

Figure 1:

Se repite el contaste para los otros valores de la dosis

H0 : µ12 = µ22H1 : µ12 �= µ22

|y12• − y22•| = |22.70− 16.77| > LSD

sí existen diferencias significativas en las longitudes medias de los dientes de lascobayas con 1 mg de ZN y las alimentadas con 1 mg de AA.

H0 : µ11 = µ21H1 : µ11 �= µ21

|y11• − y21•| = |13.23− 7.98| > LSD

sí existen diferencias significativas en las longitudes medias de los dientes de lascobayas con 0.5 mg de ZN y las alimentadas con 0.5 mg de AA.

La representación gráfica es el gráfico de interacción que se ha obtenido enel apartado 1.

3. Llamando s2R,ZN y s2R,AA a las varianzas residuales correspondientes a lostratamientos ZN y AA, se tiene que

s2R,ZN =4.462 + 3.912 + 2.662

3= 14.085

s2R,AA =2.752 + 2.522 + 4.802

3= 12.318

y su cocientes

F =14.085

12.318= 1.14

4

Page 62: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

está dentro de la región de aceptación obtenida con una F27,27 para nivel designificación 0.05, por lo que se acepta que las dos varianzas experimentalespueden ser iguales.

5

Page 63: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Solucion cuestiones

1) Todos los contrastes individuales resultan significativos con α = 0, 05.

El promedio de capacidad pulmonar de los fumadores es, a igualdad delresto de los factores, 0,046 unidades menor (porcentualmente) que el de los nofumadores.

Si la estatura se incrementa en una unidad, el promedio de la capacidadpulmonar se incrementa (porcentualmente) 0,042 unidades. Este incremento esel mismo para hombres, mujeres, fumadores y no fumadores.

El promedio de capacidad pulmonar de los hombres es, a igualdad del restode los factores, 0,0293 unidades mayor (porcentualmente) que el de las mujeres.

var(mh) = xTh var(β)xh = s2Rνhh

xTh =

[1 18 170 0 0

]

Prediccion puntual mh = xTh β =

[1 18 170 0 0

]

−1, 940, 0230, 0420, 029−0, 046

=

5, 65;

Intervalo para nueva observacion:

mh±t649sR√1 + νhh = mh±t649

√s2R + s2Rνhh = 5, 65±1, 96

√0, 0212 + 0, 027 =

(5, 30; 6, 16)

2) V E = nβSxy = 20[0, 1422 0, 2908

] [ 1, 2390, 0251

]= 3, 67

V NE = V T − V E = 20s2y − V E = 1, 664;

s2R = V NE/(20− 1− 2) = 0, 098

F = (V E/2)/s2R = 18, 74 > F2,17 = 3, 59; se rechaza H0

R2 = V E/V T = 0, 688

1

Page 64: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

REGRESION - Problema 31 de mayo de 2013SOLUCION

(45 minutos, 6 puntos)

1. Estime el modelo de regresion simple entre el conocimiento de estadısticay el de ingles. A¿Es significativo dicho conocimiento?

El modelo que se pide es un modelo de regresion simple de la forma:

CE = β0+βICI

donde:

βI =Cov(CE,CI)

s2CI

=rY X2

sY sX2

s2X2

= 0.75 103 = 2.5

y

β0 = y − βI x2 = 75− 2.5x15 = 37.5.

Para concluir si el conocimiento de ingles es significativo en el conocimientode estadıstica, contrastamos las hipotesis siguientes:

H0 : βI = 0

H1 : βI = 0

Ası:

tI =βI − 0

sRsX2

√n

,

en donde la desviacion tıpica residual para el modelo de regresion simplees desconocida, y se obtiene a partir de la Variabilidad no explicada como:

V NE = V T − V E = ns2y − β2

Ins2x2

= 200x100− 2.52x200x9 = 8750

s2R =V NE

n− 2=

8750

198= 44.19; sR = 6.648.

Por lo tanto:

tI =2.56.648

3√200

= 15.95,

Se compara el valor obtenido con el valor de las tablas (t198;α/2 = 1.96),como 15.95>1.96, se rechaza la H0 y se concluye que el conocimiento deingles es significativo.

1

Page 65: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

2. Obtenga el modelo de regresion entre la puntacion en el curso de es-tadıstica y las demas puntuaciones. Interprete la relacion entre el conocimientode matematicas, ingles y cultura general y el conocimiento de estadısticaa partir del modelo estimado.

Solucion

El modelo que se pide es un modelo de regresion multiple de la forma:

y = β1x1 + β2x2 + β3x3

b =

β1

β2

β3

= S−1XXSXY =

1.3400.84

donde:

SXY =

Cov(y, x1)Cov(y, x2)Cov(y, x3)

=

rY X1sY sX1

rY X2sY sX2

rY X3sY sX3

=

0.8x5x100.75x3x100.8x4x10

=

4522.532

.

Interpretacion:

β1 = 1.34, Si la puntuacion de matematicas aumenta un punto, la pun-tuacicon de estadıstica aumenta por termino 1.34 puntos manteniendo elresto constante.

β2 = 0, Si la puntuacion de ingles aumenta un punto, la puntuacicon deestadıstica no aumenta ningun puntopor termino medio manteniendo elresto constante.

β3 = 0.84, Si la puntuacion de cultura general aumenta un punto, lapuntuacicon de estadıstica aumenta por termino 0.84 puntos manteniendoel resto constante.

3. ¿Son significativos el conocimiento de matematicas, ingles y cultura gen-eral en el de estadıstica? Explique las similitudes o discrepancias entreeste modelo y el modelo de regresion multiple.

H0 : βi = 0

H1 : βi = 0

sı:

ti =βi − 0

sR√qii

,

en donde qii son los elementos de la diagonal principal de la matriz S−1xx ,

y sR la desviacion tıpica residual para el modelo de regresion multiple,que es desconocida, y se obtiene a partir de la Variabilidad no explicadacomo:

2

Page 66: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

V NE = V T−V E = ns2y−nbT sXY = 200x100−200x(1.34 0 0.84)

4522.532

=

2613.5

s2R =V NE

n− k − 1=

2613.5

196= 13.33; sR = 3.65.Ası:

t1 = 17.8; t2 = 0 y t3 = 6.6. Estos valores se comparan (en valor absoluto)con t196,α/2 = 1.96.

Resultan significativos el conocimiento de matematicas y el conocimientode cultura general

3

Page 67: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

*(

)+

Page 68: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Df Sum Sq Mean Sq F value Pr(>F)

pres 1 4 4 2.028e+31 <2e-16 ***

temp 1 4 4 2.028e+31 <2e-16 ***

Residuals 1 0 0

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

( ( )

)

(

( )

)

Page 69: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013

Problema (45 minutos, 5 puntos)

El grupo FIAT ha decidido promocionar el relanzamiento de uno de sus modelos de coche más emblemáti-cos organizando un evento en el que sus dos pilotos del equipo Ferrari de Fórmula 1, Fernando Alonso yFelipe Massa, van a hacer pruebas en las que el objetivo es analizar la variable ’consumo (en litros/100 km)’,para 3 estilos de conducción diferentes: Suave, Normal y Agresiva. Cada piloto ha realizado la prueba concada estilo de conducción 2 veces, con lo que el número total de datos es 12. Los datos obtenidos se muestrana continuación:

Consumo Estilo Conducción Piloto8.561 Agresiva Alonso

12.751 Agresiva Alonso14.057 Agresiva Massa13.159 Agresiva Massa9.731 Normal Alonso

10.343 Normal Alonso7.997 Normal Massa7.385 Normal Massa8.347 Suave Alonso8.562 Suave Alonso9.857 Suave Massa8.140 Suave Massa

Figura 1:

1. Indica qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así comola ecuación de dicho modelo y las hipótesis que se asumen. Realiza la tabla ADEVA y extrae lasconclusiones que consideres relevantes (Nivel de significación: 0.1).

2. Construye el gráfico de interacción (incluyendo intervalos, con nivel de significación: 0.1) e indicacuándo se produce el menor y mayor consumo, así como si es significativamente mayor o menor,respectivamente que los demás.

3. A la vista de los gráfico de residuos de la Figura 2 indica si la diagnosis del modelo es correcta. Encaso negativo propón posibles soluciones. Construye además un intervalo para la varianza del error.

4. Por último, y para promocionar las buenas características medioambientales del coche que relanzaFIAT, se han realizado mediciones también de las emisiones de CO2. Propón un modelo de regresiónque pudiera tener en cuenta para explicar las emisiones de CO2, tanto el consumo como la influenciadel piloto y de su estilo de conducción.

Page 70: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013

8 9 10 11 12 13

−2−1

01

2

Fitted values

Resid

uals

Residuals vs Fitted

2

1

12

−1.5 −0.5 0.0 0.5 1.0 1.5

−2−1

01

2

Theoretical Quantiles

Stan

dardi

zed r

esidu

als

Normal Q−Q

2

1

12

8 9 10 11 12 13

0.00.5

1.01.5

Fitted values

Stan

dardi

zed r

esidu

als

Scale−Location21

12

−2−1

01

2

Factor Level Combinations

Stan

dardi

zed r

esidu

als

Suave Normal AgresivaEstilo :

Constant Leverage: Residuals vs Factor Levels

1

2

12

Figura 2: Diagnosis del modelo

Page 71: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 72: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 73: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Cuestiones (30 minutos, 4 puntos)

1.) Se ha realizado un experimento para estudiar la dificultad de dos tests de nivel de

inglés. Diez estudiantes han realizado las dos pruebas. Los resultados se presentan en la

tabla adjunta.

Se pide:

● Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis que se

asumen.

Es un modelo en bloques: Bloque: "Estudiante", Factor: "TEST". La ecuación del modelo

es:

y ij = μ + αi + βj + uij, uij → NIID0,σ2. Se asumen las hipótesis de homocedasticidad,

normalidad e independencia.

● Interpretar el resultado.

Tanto el factor "TEST" (que tiene I = 2 niveles) como el bloque "Estudiante" (con J = 10

niveles) resultan significativos (tanto para nivel de significación 0. 05 como para 0. 1), pues

los p-valores que se aparecen en la tabla ADEVA son respectivamente 0.02746 y 8.267·10−8,

ambos menores que 0.05 y también que 0.1.

● Construir la tabla ADEVA si sólo se hubiera tenido en cuenta el factor "TEST" e

indica las consecuencias que esto habría tenido.

Fuente Var. Sum. sq. G.l. Var F-stat

TEST 1.404 1s TEST

2= 1.404 1.404/9.6152 = 0.1460

Residual 171.243+1.83 = 173.073 18s R

2= 173.073/18 = 9.6152

Total 1.404+171.243+1.83 = 174.477 20-1=19

Al comparar 0.1460 con la F1,18;0.05 = 4. 41, al ser 0.1460<4.41 no se rechaza la hipótesis

nula, con lo que se obtendría (erróneamente al no incorporar el bloque) que no hay diferencias

significativas entre los dos tests de inglés. Eso es debido a que se incrementa la residual al haber

incorporado en ésta la variabilidad que en realidad es debida al bloque.

2.) Para un modelo de bloques aleatorizados con 2 niveles para el factor y 2 para el

bloque se tiene que:

y · · = 4.55; y1· = 2.75; y ·2 = 3.75.

Un alumno ha obtenido queα2 = 2 y

β1 = 0.8. ¿Son válidos estos valores para ese

modelo? Justifica tu respuesta.

Nota: y ij es la observación para factor a nivel i-ésimo y bloque a nivel j-ésimo. αi es el

efecto principal asociado al factor, y βj el del bloque.

Modelo en bloques: y ij = μ + αi + βj + uij, uij → NIID0,σ2La estimación de los αi →

α1 = y1· − y · · = 2. 75 − 4. 55 = −1. 8. Entonces,α2 no puede valer

2 como se indica en el enunciado, sino que debería ser 1.8.

La estimación de los βj →α2 = y ·2 − y · · = 3. 75 − 4. 55 = −0. 8. Entonces,

β1 sí es correcto

el valor del enunciado.

Page 74: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 19 de mayo de 2014

Cuestiones (30 minutos, 4 puntos)

1. En un analisis de regresion simple utilizando el modelo yi = β0 + β1xi + ui,

ui N(0, σ2), se ha obtenido la siguiente salida con R:

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-293.717 -40.719 -0.008 51.541 204.689

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 39.792 48.768 ______ 0.425

x 63.362 9.214 ______ 1.97e-06 ***

---

Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 127.2 on 18 degrees of freedom

Multiple R-squared: 0.7243,Adjusted R-squared: 0.709

F-statistic: _______ on 1 and 18 DF, p-value: 1.969e-06

Complete los huecos de la salida de R (donde pone “t value” y “F-statistic”). Obtenga el intervalo de

confianza al 95% para β0 y β1. Indique si son significativos teniendo en cuenta los intervalos obtenidos

y teniendo en cuenta la salida de R.

2. La ley de Hooke, que gobierna el comportamiento elastico de un material por debajo del lımite elastico

afirma que la relacion entre los esfuerzos aplicados (ϑ) y las deformaciones unitarias (ε), es lineal y

se puede aproximar por el modelo:

ϑi = Ψεi + ui, ui N(0, σ),

donde Ψ, la constante de proporcionalidad, se denomina modulo de Young (Pa), y es caracterıstico

de cada material. En la practica, el modulo de Young se determina mediante un ensayo de traccion,

sometiendo al material a diferentes deformaciones, midiendo esfuerzos y ajustando una recta por

mınimos cuadrados que pasa por el origen. La pendiente de la recta es una estimacion del modulo de

Young.

Se han realizado 10 experimentos sobre una barra de bronce y se ha estimado la ecuacion:

ϑi = Ψεi = 9, 6 · 1010εi.

Obtenga la expresion teorica para Ψ mediante el metodo de mınimos cuadrados. Calcule un intervalo

de confianza al 99% para el modulo de Young sabiendo que la desviacion tıpica estimada de dicho

estimador es 0, 2 · 1010Pa. El valor que aparece reflejado en la literatura para el modulo de Young es

del bronce es 10, 8 · 1010Pa, ¿es compatible este valor con el obtenido en el experimento?

Page 75: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 19 de mayo de 2014

Problema (45 minutos, 6 puntos)

Un grupo de estudiantes ha recogido datos correspondientes a 60 empresas para determinar si existe

relacion lineal entre los beneficios de una empresa (y) y el numero de empleados (x1) de dicha empresa,

ambas variables en unidades codificadas. El primer modelo estimado ha sido:

yi = 4, 7 + 3,393x1i, con R2 = 0,1021.

1. Contraste si el numero de empleados tiene efecto significativo en los beneficios de una empresa (α =

0, 01).

2. Se estima un segundo modelo que incluye adicionalmente el regresor ventas (x2) y tiene en cuenta que

la mitad de las empresas pertenecen al sector energetico y la otra mitad al sector de las telecomunica-

ciones. Para ello se introduce una variable cualitativa Z que toma el valor 1 si la empresa es del sector

energetico y 0 si no lo es. El modelo estimado es:

yi = 1,266 + 2,094x1i + 9,923x2i + 6,833Zi, con s2R = 1, 1 y V T = 7133, 33.

Realice los contrastes individuales y general de regresion sabiendo que:

(XTX)−1 =

0,0335 0,0018 −0,0008 −0,0332

0,0018 0,0161 −0,0025 0,0013

−0,0008 −0,0025 0,0169 0,0014

−0,0332 0,0013 0,0014 0,0669

.

Interprete los resultados explicando el significado de cada parametro y compare con los resultados del

apartado anterior. (Nota: En todos los contrastes utilice α = 0, 01).

3. Calcule un intervalo de confianza (95%) para el valor medio de los beneficios de una empresa del

sector de las telecomunicaciones con x1 = 0, 6 y x2 = 1,8 y para una empresa del sector energetico con

las mismas caracterısticas ¿Cual es la diferencia entre los beneficios medios de ambas empresas? ¿Es

significativa esta diferencia?.

Page 76: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 19 de mayo de 2014

Solucion cuestiones

Cuestion 1

t value (Intercept): t0 =β0

S(β0)=

39,79248,768 = 0,8159

t value x: t1 =β1

S(β1)=

63,3629,214 = 6,8767

F-statistic: F0 =(n−2)R2

1−R2 =18∗0,72431−0,7243 = 47,2884

β0 ∈ β0 ± tn−2;α/2 ∗ S(β0) = 39,792± 2,1009 ∗ 48,768 = (−62,6647, 142,2487)

β1 ∈ β1 ± tn−2;α/2 ∗ S(β1) = 63,362± 2,1009 ∗ 9,214 = (44,0043, 82,7197)

β0 no es significativo porque el intervalo de confianza contiene al cero; segun la salida de R, p-valor =

0,425 > α/2 ⇒ no significativo.

β1 es significativo porque el intervalo de confianza no contiene al cero; segun la salida de R, p-valor =

1,97e− 06 < α/2 ⇒ significativo.

Cuestion 2

ϑi = Ψεi + ui, ui N(0, σ2)

Definimos

M(Ψ) =

n∑

i=0

(ϑi −Ψεi)2

Por tanto

∂M(Ψ)

∂Ψ= 2

n∑

i=0

(ϑi −Ψεi)(−εi) = 0 ⇒ Ψ =

n∑

i=0ϑiεi

n∑

i=0ε2i

Es importante notar que la ecuacion anterior se puede escribir

n∑

i=0

(ϑi − Ψεi)(−εi) = 0 ⇒

n∑

i=0

uiεi = 0

Luego solo hay una ecuacion que relaciona los residuos entre sı, luego hay n-1 residuos independientes

β1 ∈ β1 ± tn−1;α/2 ∗ S(β1) = 9,6 · 1010 ± 3,2498 ∗ 0,2 · 1010 = (8,95 · 1010, 10,25 · 1010) Pa

El valor de la literatura esta fuera del intervalo, luego no es compatible con los resultados del experi-

mento (con un 99% de confianza).

Page 77: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 19 de mayo de 2014

Solucion problema

1. Modelo de regresion simple

{

H0 : β1 = 0

H1 : β1 6= 0

Si H0 cierta F0 =V E/1

V NE/58=

58R2

1−R2= 6, 5952 < F1,58;α=0,01 = 7, 08 (se ha tomado de las tablas

el valor correspondiente a la F1,60;α=0,01). El numero de empleados no tiene un efecto significativo en los

beneficios de una empresa al 99%.

2. Modelo de regresion multiple

Los contrastes individuales:

βi 1, 266 2, 094 9, 923 6, 833

sβi

1, 05 ×√0, 0335 1, 05 ×

√0, 0161 1, 05 ×

√0, 0169 1, 05 ×

√0, 0669

ti 6, 59 15,72 72, 69 25, 16

.

1. Los valores ti se comparan con t56;0,005 = 2, 66 (con 60 grados de libertad).

Todos salen significativos incluido el regresor numero de empleados que no salıa en la regresion simple.

El contraste general de regresion:{

H0 : βi = 0 ∀ i

H1 : alguno distinto.

Si H0 cierta F0 =V E/3

V NE/56=

7071, 73/3

s2R

= 2142, 75

puesto que V E = V T − V NE = 7133, 33 − (60− 3− 1)× 1,1 = 7071, 73.

F0 > F3,56;0,01 = 4, 13 (se ha tomado de las tablas el valor correspondiente a la F3,60;α=0,01). Se rechaza

H0.

Interpretacion:

El contraste general de regresion indica que alguno de los regresores o todos son significativos. Los

contrastes individuales indican que son todos significativos.

Regresor numero de empleados: En el modelo de regresion multiple ha salido significativo. Al aumentar

el numero de empledados en una unidad, a igualdad de ventas y sector, los beneficios medios aumentan

1,094 unidades.

Regresor ventas: Al aumentar las ventas en una unidad, a igualdad de numero de empleados y sector,

los beneficios medios aumentan 9,923 unidades

Regresor sector: A igualdad de numero de empleados y de ventas, las empresas del sector energetico en

promedio tienen mas beneficios (6,833 unidades) que las empreas del sector de las telecomunicaciones.

Todos los regresores en este modelo explican el 99,14% de la varıabilidad. (R2 = 0, 9914).

3. Intervalo de confianza/prediccion

xTh = [1 0, 6 1, 8 0];

yh = xThβ = 20, 3838

vhh = xTh (X

TX)−1

xh = 0, 0879

yh ∈ yh ± t56;α=0,025 × sR ×√1 + vhh = 20, 3838 ± 2×

√1, 1 ×

√1 + 0,0879

Para el sector energetico

xTh = [1 0, 6 1, 8 1];

yh = xThβ = 27, 2168

vhh = xTh (X

TX)−1

xh = 0, 0950

Page 78: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 19 de mayo de 2014

yh ∈ yh ± t56;α=0,025 × sR ×√1 + vhh = 27, 2168 ± 2×

√1, 1 ×

√1 + 0,0950

La diferencia entre los beneficios medios de ambas empresas es:

27, 2168 − 20, 3838 = 6, 833, que coincide con el parametro de la varaible cualitativa.

Esta diferencia es significativa, se ha visto en el contraste del apartado 2 ( al 99%), y se ve en este tercer

apartado porque los intervalos de confianza construidos no se solapan.(al 95%).

Page 79: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para estudiar la dependencia de la resistencia de un material

respecto de la temperatura del horno (100, 150 y 200 °C) y tipo de horno (A y B). Se han tomado

tres temperaturas y dos hornos.

Para cada combinación de temperatura y tipo de horno se han tomado tres observaciones. Los

datos se presentan en la tabla adjunta. Entre paréntesis se presentan las medias para las

observaciones de cada cruce o tratamiento.

100 150 200

A 21.16 22.23 21,44 15.25 15.42 15.68 12.64 13.01 13.78

(21.61) (15.45) (13.14)

B 6.39 6.01 6.09 11.26 11.53 11.68 9.36 9.02 10.00

(6.16) (11.49) (9.46)

1. Estudiar la dependencia de la resistencia respecto de exclusivamente el factor temperatura.

Tener en cuenta que la variabiliad total es 426.93.

2. Añadir al análisis el factor tipo de horno y obtener el tratamiento (combinación de

temperatura y tipo de horno) que proporcione las resistencia promedio máxima y mínima

apoyándose en el gráfico de interacción y los intervalos de confianza para las medias de los

tratamientos. Para los cálculos, tener en cuenta que las variabilidades explicadas por el tipo

de horno y los residuos son 266.57 y 2.05.

3. Realizar el contraste de igualdad de varianzas para los dos tratamientos que hayan resultado

del análsisis anterior.

3bis) Obtener un intervalo de confianza para la varianza del error experimental.

Page 80: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Solucion de problema

1) Se trata de un modelo con un factor.

Para obtener la variabilidad explicada hay que calcular las medias para las tres temperaturasy la media general

y1. = 13, 88; y2. = 13, 47; y3. = 11, 30; y.. = 12, 88

V E = 3× 2× [(13, 88− 12, 88)2 + (13, 47− 12, 88)2 + (11, 30− 12, 88)2] = 23, 11

V NE = V T − V E = 403, 8

La tabla ADEVA es

F de var Suma de C. G. de lib. C.M- FTemperatura 23,11 2 11,55 0,43Residual 403,82 15 26,92Total 426,93 17

Como 0, 43 < F2,15 = 3, 68, no resulta significativo el efecto del factor temperatura.

2) Se trata ahora de un modelo con dos factores e interaccion.

V E(interaccion) = V T − V E(Temp)− V E(tipodehorno)− V NE = 135, 2

La tabla ADEVA es

F de var Suma de C. G. de lib. C.M- FTemperatura 23,11 2 11,55 67,58Tipo de horno 266,57 1 266,57 1558,81Interaccion 135,2 2 67,59 395,29Residual 2,05 12 0,17Total 426,93 17

Comparando los valores de los cocientes (F) con los percentiles F2,12 = 3, 88, F1,12 = 4, 74,tantolos dos efectos principales como las interacciones resultan significatvos.

Los intervalosde confianza son yij. ± t12sR/√3,los extremos inferior y superior para los seis

intervalos se resentan en la tabla siguiente.

Tratamiento Ext. inferior Ext. superior11 20,87 22,3412 5,42 6,8921 14,71 16,1822 10,75 12,2231 12,40 13,8732 8,72 10,19

Se observa que al no haber solapamiento entre los intervalos, las condiciones de menor y mayorrespuesta promedio se identifican claramente, 12 y 11 respectivamente.

3) V NE/σ2 ∼ χ23×2×(3−1)

P [χ212,0.025 < V NE/σ2 < χ2

12,0.975] = 0, 95

P [4, 04 < V NE/σ2 < 23, 34] = 0, 95

El intervalo es (0, 087; 0, 507)

1

Page 81: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

𝛼

𝛼

𝛼

𝛼

𝛼

Page 82: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

mod = aov(y ~ facA * facB)

anova(mod)

var(y)

>> anova(mod)

Df Sum Sq Mean Sq F value Pr(>F)

facA ??? 0.921 ??? ??? ???

facB ??? ??? 0.516 ??? ???

facA:facB ??? 0.250 ??? ??? ???

Residuals ??? ??? ???

>> var(y)

0.0639383

𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝑢𝑖𝑗𝑘 𝑢𝑖𝑗𝑘 𝑖𝑖𝑑→ 𝑁(0, 𝜎)

��𝑖·· 𝜇 + 𝛼𝑖

Page 83: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Response: calidad

Df Sum Sq Mean Sq F value Pr(>F)

modo 1 40.5 40.500 1.7482 0.2343

Residuals 6 139.0 23.167

𝛼

Response: calidad

Df Sum Sq Mean Sq F value Pr(>F)

modo 1 40.5 40.50 9.5294 0.03668 *

entorno 1 72.0 72.00 16.9412 0.01466 *

modo:entorno 1 50.0 50.00 11.7647 0.02654 *

Residuals 4 17.0 4.25

Page 84: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Df Sum Sq Mean Sq F value Pr(>F)

A 3 0.92121 0.30707 13.8056 3.777e-06 ***

B 2 1.03301 0.51651 23.2217 3.331e-07 ***

A:B 6 0.25014 0.04169 1.8743 0.1123

Residuals 36 0.80073 0.02224

��𝑖··

��𝑖·· ~ 𝑁(𝜇 + 𝛼𝑖 ,𝜎

√𝑘)

𝜇 + 𝛼𝑖

𝜇 + 𝛼𝑖 ∈ ��𝑖·· ± 𝑡𝛼2,𝐼𝐽(𝐾−1)

·��𝑅

√𝑘

Page 85: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseno de Experimentos y Modelos de Regresion 6/junio/2014

Cuestiones 1. (30 minutos, 4 puntos)

1. En un modelo de regresion multiple el vector de residuos se obtiene

e = Y −Xβ

siendo Y el vector de dimension n que contiene la variable dependiente, X la matriz dedimesion n× (k+1) que contiene los regresores y β el vector de parametros estimados.Demuestra, que la matriz de varianzas del vector de residuos var(e) es

var(e) = (I − V )σ2

siendo V = X(XTX)−1XT .

2. Se ha estimado un modelo de regresion con dos variables independientes y 150 obser-vaciones obteniendose la siguiente ecuacion:

yi = −1,17 + 0,025 log x1 + 0,59 log x2, s2R = 2,48

La matriz de varianzas estimada de b = [β1, β2]T es(

XT X)−1

s2R =

(,253 ,201,201 ,288

).

Realiza los contrastes individuales de los dos regresores. ¿Cuanto vale la correlacionentre β1 y β2?. ¿Cuanto vale la correlacion entre log x1 y log x2? ¿Si eliminamos elregresor x2, afectara el resultado al valor de β1?¿Como?

Ten en cuenta que la matriz de varianza teorica de los estimadores b = [β1, β2]T es σ2

n s21(1−r2)− r σ2

n s1s2(1−r2)

− r σ2

n s1s2(1−r2)σ2

n s22(1−r2)

,

donde n es el numero de observaciones, r el coeficiente de correlacion entre los regre-sores, s21 y s22 las varianzas muestrales de los regresores y σ2 la varianza del modelo deregresion.

Page 86: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Diseno de Experimentos y Modelos de Regresion 6/junio/2014

Problema(45 minutos, 6 puntos)

Se ha ajustado un modelo de regresion multiple del consumo diario de energıa electricade un pais en funcion de la temperatura. Ademas se ha tenido en cuenta si el dıa es laborable,sabado o domingo. Llamando ZLi la variable que toma valor 1 si el dıa i es laborable y ceroen otro caso, ZSi la variable que toma valor 1 si el dıa i es sabado y cero en otro caso yfinalmente ZDi la variable que toma valor 1 si el dıa i es domingo y cero en otro caso, elmodelo resultante es:

log(yi) = 3,62−0,0274Ti+0,000579T 2i −0,136ZSi−0,2436ZDi+ei, sR = 0,073, R2 = 0,6568

y la matriz(XTX

)−1es

10−3 ×

60,595 −5,7689 0,11924 −2,3070 −2,9636−5,7689 0,5987 −0,012878 0,012241 0,074840,11924 −0,012878 0,00028577 −0,00052891 −0,001779−2,3070 0,012241 −0,00052891 13,9727 2,3431−2,9636 0,07484 −0,001779 2,3431 13,9770

La variable yi es el numero de GWh consumidos en el dıa i. (Nota: log es logaritmo neperiano).

1. El modelo se ha estimado con 600 dıas, obten la descomposicion de la variabilidad delmodelo (o analisis de la varianza), e indica los grados de libertad de cada termino.Realiza el contraste general de regresion.

2. Responde con el contrate que consideres oportuno a las siguientes preguntas:

a) ¿Existe diferencia significativa entre el consumo de un dıa laborable y un sabado?

b) ¿Existe diferencia significativa entre el consumo de un dıa laborable y un domingo?

c) ¿Existe diferencia significativa entre el consumo de un sabado y un domingo?

3. El consumo de un lunes laborable concreto fue 37.5 GWh y la temperatura media deldıa igual a 7.4 oC. Obten el residuo correspondiente y explica si el valor 37.5 GWh esun dato coherente con las hipotesis del modelo.

Da un intervalo de confianza para el consumo medio previsto para un lunes con tem-peratura igual a 7.4oC.

Page 87: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Cuestiones (30 minutos, 4 puntos) Cuestión 1: Jesús López es un veterano ingeniero que se dedica profesionalmente a la calibración de motores

diésel para una multinacional automovilística. Actualmente está analizando el rendimiento del novedoso prototipo Calohuesa-TDI-1800cc, sometiéndolo a diversas condiciones externas, variando la temperatura de operación y el carburante empleado. El rendimiento de estos motores se mide mediante un aparato denominado “banco de rodillos”.

En la tabla siguiente se muestran las diversas pruebas realizadas:

Temperatura Temperatura 1 Temperatura 2 Temperatura 3

Carburante Carburante 1 90.5 , 91.5 95.5 , 94.5 94.8 , 95.2 (93.67) Carburante 2 91.5 , 90.5 94.8 , 95.2 90.8 , 91.2 (92.33)

(91.0) (95.0) (93.0) (93.0)

Observación: para facilitar los cálculos, en negrita se indica la media de cada fila, columna y media global. También se sabe que ��𝑠𝑦𝑦 = 4.52.

• Escribir el modelo empleado, indicando las hipótesis asumidas. • Calcular la tabla ADEVA, e indicar qué efecto(s) influye(n) significativamente en el

rendimiento (𝛼𝛼 = 0.05). • ¿Qué combinación (o combinaciones) de factor (o factores) son las que proporcionan el mejor

rendimiento? (𝛼𝛼 = 0.05) Justificar la respuesta con el gráfico correspondiente, indicando el valor de la cota superior e inferior de los intervalos de confianza.

Cuestión 2: Los denominados “software OCR” (Optimal Character Recognition) se emplean para la digitalización

de textos a partir de un archivo de imagen de entrada. Un estudiante de la ETSII pretende estudiar el tiempo de procesamiento que requiere un determinado

software OCR (medido en milisegundos), en función del tamaño de la imagen empleada (medido en Mb). Para ello, procesa mediante el programa diversas imágenes, midiendo el tiempo de procesamiento para cada una de ellas. El tamaño (en Mb) de las imágenes procesadas son los siguientes:

5.2 6.3 7.5 8.6 10.0 11.1 12.5 13.0 13.2 14.0

Tras ajustar el modelo de regresión lineal simple, obtiene los siguientes resultados: 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 � = 0.02 + 12.05 · 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡ñ𝑡𝑡 ; 𝑉𝑉𝑉𝑉 = 13500

• El fabricante nos indica que, al incrementar en 1 Mb la imagen, se incrementará el tiempo de procesamiento en 10 unidades. Sospechamos que el incremento real es mayor que el valor que nos indica el fabricante. En base al experimento realizado, ¿podemos afirmar que la afirmación del fabricante es falsa? (𝛼𝛼 = 0.05)

• Calcular un intervalo para el tiempo medio que se tarda en procesar imágenes de 10 Mb, considerando 𝛼𝛼 = 0.05.

Page 88: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014 Solución Cuestión 1: Apartado 1 El modelo empleado es el siguiente:

𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖 = 𝛼𝛼𝑖𝑖 + 𝛽𝛽𝑖𝑖 + (𝛼𝛼𝛽𝛽)𝑖𝑖𝑖𝑖 + 𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 Donde se asumen las siguientes tres hipótesis:

- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖) siguen una distribución normal. - Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖) son independientes entre sí. - La varianza de los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖) es constante (homocedasticidad).

Apartado 2 La tabla ADEVA es la siguiente:

Analysis of Variance Table Response: rend Df Sum Sq Mean Sq F value Pr(>F) temp 2 32.000 16.0000 55.172 0.0001372 *** carb 1 5.333 5.3333 18.391 0.0051576 ** temp:carb 2 10.667 5.3333 18.391 0.0027586 ** Residuals 6 1.740 0.2900 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

De la anterior tabla ADEVA se observa que, con un nivel de confianza del 95%, afecta el factor Temperatura, el factor Carburante, y la interacción Temperatura*Carburante. Apartado 3 Para determinar cuál es la mejor combinación de temperatura y carburante, realizamos el gráfico de interacción (Verde: carburante 1. Rojo: carburante 2).

Del gráfico anterior se deduce que las combinaciones que proporcionan un mayor rendimiento son:

Temperatura 2, con cualquier carburante. Temperatura 3, con el carburante 1.

Page 89: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Solución Cuestión 1:

Calculamos 𝑠𝑠𝑥𝑥 = 2.96, ��𝑠𝑥𝑥 = 3.12

Contraste: 𝐻𝐻0: 𝛽𝛽1 = 10 𝐻𝐻1: 𝛽𝛽1 > 10

��𝛽1 − 𝛽𝛽1��𝑠𝑅𝑅/√𝑛𝑛 · 𝑆𝑆𝑥𝑥

~𝑡𝑡𝑛𝑛−2

𝑉𝑉𝑉𝑉 = ��𝛽1 · 𝑛𝑛 · 𝑠𝑠𝑥𝑥2 = (12.05)2 · 10 · (2.96)2 = 12720

𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑉𝑉𝑉𝑉 − 𝑉𝑉𝑉𝑉 = 777.9

��𝑠𝑅𝑅 = �777.98

= 9.86

𝑡𝑡0 = ��𝛽1 − 𝛽𝛽1

��𝑠𝑅𝑅/√𝑛𝑛 · 𝑆𝑆𝑥𝑥=

12.05− 109.86/√10 · 2.96

= 1.94

𝑃𝑃(𝑡𝑡8 < 1.85) = 0.95

Como 1.94 > 1.85, rechazamos H0

Solución Cuestión 2:

𝑦𝑦�ℎ = 120.52

𝜈𝜈ℎℎ = �1 +(𝑥𝑥ℎ − ��𝑥)2

𝑆𝑆𝑥𝑥2� ·

1𝑛𝑛

= �1 +(10 − 10.14)2

2.962� ·

110

= 0.1002

𝑡𝑡ℎ ∈ 𝑦𝑦�ℎ ± 𝑡𝑡𝛼𝛼2 ,8 · ��𝑠𝑅𝑅 · �𝜈𝜈ℎℎ

𝑡𝑡ℎ ∈ 120.52 ± 2.306 · 9.86 · √0.1002

𝑡𝑡ℎ ∈ [113.32 127.71]

Page 90: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Extraordinario Diseno de Experimentos y Regresion 4/julio/2014

Problema. (45 minutos, 6 puntos)

En el proceso de reciclaje de residuos metalicos es necesario aplicar un campo magnetico quepermita realizar la separacion selectiva con garantıas.

Para disenar adecuadamente un proceso de separacion se han analizado seis factores que puedeninfluir en el campo magnetico requerido y se han tomado 19 medidas. Se ha estimado un modelo deregresion multiple, obteniendose:

yi = −0, 622 + 0, 170x1i − 0, 015x2i − 0, 008x3i + 0, 460x4i + 0, 520x5i − 0, 127x6i,

con V T = 10,32 y s2R = 0,40, siendo la matriz:

XT X =

38 0 0 0 0 00 1525, 18 0 0 0 00 0 2381, 65 0 0 00 0 0 16, 89 0 00 0 0 0 1, 06 00 0 0 0 0 9, 5

.

1. Realice los contrastes individuales e indique cual (o cuales) de los seis regresores tiene(n) unefecto significativo sobre el campo requerido. Realice el contaste general de regresion y calcule

R2 y R2. (Utilizar α = 0,05)

2. Los expertos indican que conviene incluir en el modelo de regresion una variable cualitativa quecontemple la heterogeneidad de los residuos metalicos, que puede tomar tres valores: baja, mediay alta. Esta caracterıstica se puede incorporar en el modelo a traves de las variables ficticias z1(que toma el valor 1 si la heterogeneidad es baja, 0 en otro caso), z2 (que toma el valor 1 si laheterogeneidad es media, 0 en otro caso) y z3 (que toma el valor 1 si la heterogeneidad es alta,0 en otro caso).

El modelo estimado tras la incorporacion de esta caracterıstica ha sido:

yi = −1, 048+0, 820z1i+0, 517z2i+0, 170x1i−0, 015x2i−0, 008x3i+0, 460x4i+0, 520x5i−0, 127x6i

con s2R = 0, 23, siendo la matriz de varianzas y covarianzas de los estimadores de los parametros

Mβ=

0,0555 0,0278 0 0 0 0 0 00,0278 0,1001 0 0 0 0 0 0

0 0 0,0061 0 0 0 0 00 0 0 0,0002 0 0 0 00 0 0 0 0,0001 0 0 00 0 0 0 0 0,0136 0 00 0 0 0 0 0 0,2177 00 0 0 0 0 0 0 0,0242

.

Realice los contrastes individuales y el contraste general de regresion para el nuevo modelo.Interprete los resultados. (α = 0,05)

Los residuos metalicos con heterogenidad baja y media, ¿requieren un campo magnetico distinto?Justifıquelo realizando el contraste oportuno.

3. Se ha realizado un tercer modelo que incluye la heterogeneidad de los residuos metalicos y algunosregresores, resultando:

yi = −1, 255 + 0, 820z1i + 0, 517z2i + 0, 170x1i + 0, 460x4i

con s2R = 0, 23, R2 = 69, 22% y R2= 60, 42%.

Razone que modelo de los tres propuestos es el mas adecuado.

Page 91: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Extraordinario Diseno de Experimentos y Regresion 4/julio/2014

Solucion del Problema. (45 minutos, 6 puntos)

Modelo de regresion multiple{H0 : βi = 0H1 : βi = 0

sR =√0,40 = 0,6325

Los valores qii son los terminos de la diagonal de la matriz Q = (XT X)−1. Como en el enunciadodan XT X, es necesario calcular la inversa, que -por tratarse de una matriz diagonal- es la matriz conlos terminos de la diagonal invertidos.

q11 = 1/38; q22 = 1/1525,18; q33 = 1/2381,65; q44 = 1/16,89; q55 = 1/1,06; q66 = 1/9,5.Los contrastes individuales son:

βi 0,170 −0,015 −0,008 0,460 0,52 −0,127

sβi

sR ×√q11 sR ×√

q22 sR ×√q33 sR ×√

q44 sR ×√q55 sR ×√

q66

ti 1,66 −0,93 −0,62 2,99 0,85 −0,62

.

Los valores ti se comparan con t12;0,025 = 2, 179. El unico regresor significativo es x4.Todos salen significativos incluido el regresor numero de empleados que no salıa en la regresion

simple.

El contraste general de regresion:{H0 : βi = 0 ∀ iH1 : alguno distinto

Si H0 cierta F0 =V E/6

s2R=

5,52/6

0,40= 2,3 puesto que:

V E = V T − V NE = 10,32− (19− 6− 1)× 0,40 = 5,52.

F0 < F6,12;0,05 = 3,00. Por tanto, no se rechaza H0.

El coeficiente de determinacion:

R2 =V E

V T=

5,52

10,32= 0,5349; R

2= 1−

s2Rs2y

= 1− 0,40

0,5733= 0,3023

s2y =V T

n− 1=

10,32

18= 0,5733

Modelo de regresion multiple con variables cualitativasEn el enunciado se proporciona la matriz de varianzas y covarianzas de los regresores.

Los contrastes individuales son:

βi 0,82 0,517 0,170 −0,15 −0,008 0,46 0,52 −0,127

sβi

√0,0555

√0,1001

√0,0061

√0,0002

√0,0001

√0,0136

√0,2177

√0,0242

ti 3,48(∗) 1,63 2,18 −1,06 −0,80 3,95(∗) 1,11 −0,8164

Los valores ti se comparan con t10;0,025 = 2, 228 .Los regresores significativos son los marcados con (*)

El contraste general de regresion:

Page 92: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Extraordinario Diseno de Experimentos y Regresion 4/julio/2014

{H0 : βi = 0 ∀ iH1 : alguno distinto

Si H0 cierta F0 =V E/8

s2R=

8,02/8

0,23= 4,36

puesto que V E = V T − V NE = 10,32− (19− 8− 1)× 0,23 = 8,02F0 > F8,10;0,05 = 3,07 Se rechaza H0.

Interpretacion:El contraste general de regresion indica que alguno de los regresores o todos son significativos.

Los contrastes individuales indican que el variable correspondiente a la heterogenidad de los residuosmetalicos baja y el regresor x4 son significativos.

Regresor Heterogeneidad de residuos metalicos baja: A igualdad del resto de regresores, existediferencia significativa en el campo magnetico requerido por los residuos metalicos de hetogeneidadbaja y heteogeneidad alta (que es la referencia). En promedio, los residuos metalicos de heterogeneidadbaja requieren un campo magnetico superior ( 0.82 unidades).

Regresor x4 : Al aumentar en una unidad, manteniendo el resto constante, el campo magneticorequerido en promedio aumenta en 0.46 unidades.

Todos los regresores en este modelo explican el 77, 71% de la varıabilidad. (R2 = 0, 7771).

Comparacion residuos de heterogeneidad baja-media:{H0 : αB = αM

H1 : αB = αM.

Si H0 es cierta,αB − αM

s (αB − αM ) t10

s2 (αB − αM ) = s2(αB) + s2 (αM )− 2cov(αB, αM ) = 0,0555 + 0,1001− 2× 0,0278 = 0,1

αB − αM

s (αB − αM )=

0,82− 0,517√0,1

= 0,9582 < t10;0,025 = 2,228

Por tanto, no se rechaza H0. No existe diferencia significativa.

Tercer modelo. Comparacion de modelos

Modelo: s2R R2 R2

No regresores

1 0,40 0,5349 0,3023 6

2 0,23 0, 7771 0,5988 8

3 0,23 0,6922 0,6042 4

A la vista de los resultados, el tercer modelo es el mejor seguido muy de cerca por el modelo 2. Las2R es, junto con la del modelo 2, la mas pequena, y aunque la R2 es mayor la del modelo 2, es logico

porque tiene mas regresores, muchos de ellos no significativos, pero la R2del modelo 3 es la mayor, y

contiene un menor numero de regresores.En el primer modelo hay discrepancias entre el contaste general de regresion (no se rechaza H0) y

los contrastes individuales (regresor x4 es significativo).

Page 93: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

EXÁMENES Curso 2014/15

Page 94: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 95: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Cuestiones (30 minutos, 4 puntos)

1. En un laboratorio disponen de tres medidores de pH con los que se han tomadodiferentes medidas del pH de un líquido, resultando los valores que se indican en latabla siguiente

Medidor 1 Medidor 2 Medidor 3n 8 10 8y 5.7 6.6 5.0s 1.3 1.8 2.2

a) Contrastar si existen diferencias significativas entre los tres medidores.

b) Calcular un intervalo de confianza para el pH del líquido.

2. El número de maletas extraviadas por las compañías A y B en tres rutas diferentes(R1, R2 y R3) se muestran en la tabla siguiente (se disponen de tres datos diferentespor cada ruta y compañía)

R1 R2 R3A 19, 14, 19 2, 4, 5 7, 9, 9B 9, 6, 0 17, 12, 8 14, 16, 12

La tabla de análisis de la varianza generada con el programa R a partir de estosdatos es la siguiente:

Analysis of Variance Table

Response: y

Df Sum Sq Mean Sq F value Pr(>F)

ruta 2 40.11 20.056 2.0988 0.1653375

compañia 1 2.00 2.000 0.2093 0.6554873

ruta:compañia 2 387.00 193.500 20.2500 0.0001426 ***

Residuals 12 114.67 9.556

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

a) Escribir la ecuación del modelo que se ha utilizado y explicar qué representacada término de la ecuación. Indicar qué factores son significativos y por qué.

b) Dibujar el diagrama de interacción y explicar cómo se interpretan en este dia-grama las conclusiones obtenidas en la tabla de análisis de la varianza.

NOTA: Para las dos cuestiones α = 0,05

Page 96: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Problema (45 minutos, 6 puntos)

Una cadena de restaurantes de comida rápida desea elegir entre 3 nuevos menús(A,B,C). Eligen al azar 6 restaurantes de la cadena para participar en el estudio. Deacuerdo con el diseño de bloques al azar, cada restaurante hace la prueba de los 3 nuevosmenús. Cada semana cada restaurante probará uno de los menús, de manera que el tiemponecesario para realizar el estudio es de tres semanas. El orden en el que cada restauranteprueba los menus es elegido al azar. En la tabla se proporciona el volumen de ventas paracada semana.

A B CR1 31 27 24R2 31 28 31R3 45 29 46R4 21 18 48R5 42 36 46R6 32 17 40

La variabilidad explicada por los tres tratamientos es 539, la explicada por los bloques560 y la residual 543.

1. Obtén la tabla de análisis de la varianza del experimento teniendo en cuenta el factor(menú) y el bloque (restaurante), realizando los contrastes correspondientes. Com-pleta el análisis realizando las comparaciones dos a dos que consideres pertinente(α = 0,05).

2. En el modelo de bloques aleatorizados

yij = µ+ αi + βj + uij, uij N(0, σ)

con i = 1, 2, ..., I (niveles del factor) y j = 1, 2, ..., J (bloques) calcular la esperanza(media) y varianza de

yi• =

∑J

j=1yij

Jy•j =

∑I

i=1yij

I

en función de los parámetros del modelo µ, αi, βj y σ2.

3. Los restaurantes 1, 3 y 5 son especiales. Llamando µ•j = E[y•j ] a la media de las

ventas del restaurante j, contrastar con α = 0,05 que

H0 : µ•1 + µ•3 + µ•5 = µ•2 + µ•4 + µ•6

H1 : µ•1 + µ•3 + µ•5 < µ•2 + µ•4 + µ•6

Page 97: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Solución de las Cuestiones

Cuestion 1

• Apartado (a)

Se utiliza el siguiente modelo para los datos

yij = µi + uij, uij N(0, σ2), i = 1, · · · , K, j = 1, · · · , ni

Planteamos el siguiente contraste

H0 : µ1 = µ2 = µ3

H1 : Algn µi distinto

Para resolverlo utilizamos análisis de la varianza

V NE =K∑

i=1

ni∑

j=1

(yij − yi•)2 =

K∑

i=1

(ni− 1)s2i = 7 · 1,32+9 · 1,82+7 · 2,22 = 74,87

V E =K∑

i=1

ni(yi•−y••)2 = 8·(5,7−5,8)2+10·(6,6−5,8)2+8·(5,0−5,8)2 = 11,58

ya que

y•• =

K∑

i=1

niyi•

K∑

i=1

ni

=8 · 5,7 + 10 · 6,6 + 8 · 5,0

8 + 10 + 8= 5,83

Tabla anovaFV SC GL VAR FFactor 11.58 2 5.79 1.78Residuos 74.87 23 3.26Total 86.45 25

Como F2,23;0,05 = 3,42, se acepta la hipótesis nula, luego no hay diferenciasentre las medias de los medidores.

• Apartado (b)

Según el apartado anterior µ1 = µ2 = µ3 = µ. Por tanto el intervalo deconfianza lo calculamos a partir de la media de todos los datos

y•• =

K∑

i=1

niyi•

n⇒ y•• N(µ, σ2/n)

Page 98: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

donde n =K∑

i=1

ni. Efectivamente, como yi• N(µ, σ2/ni)

E(y••) =1

n

K∑

i=1

niE(yi•) =1

n

K∑

i=1

niµ = µ

V ar(y••) =1

n2

K∑

i=1

n2

iV ar(yi•) =1

n

K∑

i=1

niσ2 =

σ2

n

Finalmente

µ ∈ y•• ± t(n−k);α/2

s2Rn

= 5,8± 2,069

3,26

26= 5,8± 0,73 = (5,07, 6,53)

Cuestion 2

• Modeloyijk = µ+ αi + βj + αβij + uijk, uijk N(0, σ2)

I∑

i=1

αi = 0,

J∑

j=1

βj = 0,

I∑

i=1

αβij = 0,

J∑

j=1

αβij = 0,

◦ El factor “compañía” no es significativo ya que p-valor=0.655 >α (Fα =0,2093 < F1,12;0,05 = 4,747).

◦ El factor “ruta” no es significativo ya que p-valor=0.165 >α (Fβ = 2,0988 <F2,12;0,05 = 3,885).

◦ La interacción entre “compañía” y “ruta” es significativa ya que p-valor=0.0001<α (Fαβ = 20,25 > F2,12;0,05 = 3,885).

• Diagrama interacción

05

1015

20

Factor: ruta

med

ias

Nivel: R1 Nivel: R2 Nivel: R3

Factor: compañiaNivel: A Nivel: B

Page 99: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Los intervalos de confianza del gráfico se calculan mediante la expresión

yij• ± tIJ(m−1);α/2

s2Rm

Las medias yij• son:

R1 R2 R3A 17.333 3.667 8.333B 5.000 12.333 14.000

Por otro lado

tIJ(m−1);α/2

s2Rm

= 2,179

9,556

3= 3,889

Sustituyendo se obtienen los intervalos de confianza

R1 R2 R3A (13.445, 21.222) (-0.222, 7.555) (4.445, 12.222)B (1.111, 8.888) (8.445, 16.222) (10.111, 17.889)

Page 100: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

Solución del Problema

1.Fuentes Variabilidades GL Varianzas F

Menús 539 2 269.5 4.96*Restaurantes 560 5 112.0 2.06

Residuos 543 10 54.3Total 1642 17

Como F0,05;2,10 = 4,03 existen diferencias significativas entre los tres menús.Como F0,05;5,10 = 3,33 no existen diferencias significativas entre los seis restaurantes.Hacemos las comparaciones dos a dos de los tres menús:.

LSD = t0,025,10sR

2

J= 2,23× 7,4×

2

6= 9,5

|y1• − y2•| = 7,9 < LSD

|y1• − y3•| = 5,5 < LSD

|y2• − y3•| = 13,4 > LSD ∗ ∗

Sólo existen diferencias significativas entre B y C. Teniendo en cuentas las tres medias33.7 (A), 25.8 (B) y 39.2 (C), el menú C tiene más ventas que el B. No existen diferenciassignificativas en las otras comparaciones.

2.

E[yi•] =E[yi1 + yi2 + · · ·+ yiJ ]

J

=(µ+ αi + β1) + (µ+ αi + β2) + · · ·+ (µ+ αi + βJ)

J= µ+ αi

pues β1 + β2 + · · ·+ βJ = 0

var[yi•] =var[yi1 + yi2 + · · ·+ yiJ ]

J2

=σ2 + σ2 + ...+ σ2

J2

=σ2

J

Con el mismo razonamiento E[y•j ] = µ+ βj y var[y•j] =σ2

I.

3.w = (y•1 + y•3 + y•5)− (y•2 + y•4 + y•6)

Page 101: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015

es fácil ver que

E[w] = (µ•1 + µ•3 + µ•5)− (µ•2 + µ•4 + µ•6)

var(w) = 6×σ2

3= 2σ2

el contraste que piden es

H0 : µw = 0

H1 : µw < 0

Como

w → N(µw, 2σ2)

t =w − µw√2sR

→ t10

t =(y•1 + y•3 + y•5)− (y•2 + y•4 + y•6)

√2sR

=19,9

√2× 7,4

= 1,9

El contraste es unilateral, la región de rechazo es

t < −t0,05;10 = −1,81

y claramente 1.9 no está en la región de rechazo. Aceptamos H0.

Page 102: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

> mod = lm(ventas ~ TV + web)

> summary(mod)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 124.093 35.941 3.453 0.00304

TV 24.233 13.627 1.778 0.09325

web 10.446 3.713 2.813 0.01197

Residual standard error: 77.9 on 17 degrees of freedom

Multiple R-squared: 0.3679, Adjusted R-squared: 0.2935

F-statistic: 4.947 on 2 and 17 DF, p-value: 0.02026

(𝑋𝑇 · 𝑋)−1 = ( 0.213 −0.055 −0.014

−0.055 0.031 0.001−0.014 0.001 0.002

)

𝛼 = 0.05

𝛼 = 0.05

𝑦𝑖 = 𝛽0 + 𝛽1 · 𝑥𝑖 + 𝑢𝑖

𝑥𝑖

𝑦𝑖

��𝑖

𝑒𝑖

𝑒𝑖 ��𝑖)

𝑒𝑖 ��𝑖

Page 103: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento para explicar y predecir una variable física Y en función de una seriede factores. El número de datos es 60. En primer lugar se analiza la dependencia de Y respecto de latemperatura. Los resultados de la estimación son los siguientes:

yi = 1,81 + 2,8Ti

con R2 = 0,769 y sR = 1,864

1. Contrastar que la pendiente del modelo β1 es nula y calcular un intervalo de confianza para β1.Interpretar el resultado. (α = 0,05)

2. El experimento se realizó con tres catalizadores A, B y C y con distintos valores de la presión P. Se haestimado un nuevo modelo añadiendo las variables explicativas P y la variable cualitativa “catalizador”.Los resultados de la nueva estimación son:

y = 1,104− 2,11T + 5,07P + 0,96ZB + 2,38ZC

con R2 = 0,936; sR = 1,005

(X ′X)−1 =

0,053 −0,0193 0,0237 −0,05 −0,05−0,0193 0,285 −0,282 0 00,0237 −0,282 0,292 0 0−0,05 0 0 0,1 0,05−0,05 0 0 ,05 0,1

Realizar los contrastes individuales y el contraste conjunto de regresión, interpretando los resultados.¿Existen diferencias significativas entre los efectos de los catalizadores B y C? (α = 0,05)

3. Estudiar el sesgo que introduce en la estimación del efecto de la temparatura el utilizar el modelo delapartado 1 cuando el modelo verdadero es el del apartado.2. ¿En qué condiciones es nulo el sesgo?

Page 104: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

𝐻0: 𝛽1 = 𝛽2 = 0 ; 𝐻1: 𝑎𝑙𝑔𝑢𝑛𝑎 𝛽𝑗 ≠ 0

𝐹0 = 4.947 ~𝐹2,17 𝛼

��0

��1

��2

𝑥ℎ = [1 3 20]𝑇

��ℎ = ��𝑇𝑥ℎ = [124.1 24.2 10.4] · [1 3 20]𝑇 = 404.7

𝐼𝐶(𝑚ℎ) = ��ℎ ± 𝑡17,

𝛼2

· ��𝑅 · √1 + 𝜈ℎℎ = ��ℎ ± 𝑡17,

𝛼2

· ��𝑅 · √1 + 𝑥ℎ𝑇 · (𝑋𝑇 · 𝑋)−1 · 𝑥ℎ

= 404.7 ± 77.9 · 2.11 · √1 + 0.644 = (195.2 , 614.2)

𝑅2 =𝑉𝐸

𝑉𝑇= 1 −

𝑉𝑁𝐸

𝑉𝑇= 1 −

∑(𝑒𝑖)2

∑(𝑦𝑖

− ��)2

= 1 −∑(𝑒𝑖)

2

∑ (𝑒𝑖 + ��𝑖

−∑(𝑒𝑖 + ��

𝑖)

𝑛)

2

Page 105: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015

Solución del problema

1. t = β1/sR/sx√n

β1 = rSySx;

S2y = (160)(58s

2R/(1− r2)) = 14, 53

Sx = rSy/β1 = 1, 19

t = β1/sR/sx√n = 13, 9 > t0,975 con 58 grados de libertad = 2, 00

Intervalo ≡ β1 ± t58sR/sx√n ≡ (2, 4− 3, 2)

El contraste indica que se rechaza la hipótesis nula de que la temperatura no influye sobre la vari-ablerespuesta, lo cual concuerda con que el intervalo de confianza para la pendiente no contenga alcero

2. Contrastes individuales

t1 = β1/sR√q11 = −2,11/(1,005

√0,285) = −3, 93; mayor en módulo que t0,975 con 55 grados de

libertad = 2, 005

t2 = β2/sR√q11 = 5,07/(1,005

√0,292) = 9, 33 > 2, 005

t3 = β3/sR√q11 = 0,96/(1,005

√0,1) = 3, 02 > 2, 005

t4 = β4/sR√q11 = 2,38/(1,005

√0,1) = 7, 48 > 2, 005

Contraste conjunto:

F = (V E/4)/s2R

V E = V T ×R2 = 0, 936 = 816, 5

F = 202, 1 > F0,95 con 4 y 55 grados de libertad = 2, 54

Tanto los contrastes individuales como el conjunto resultan significativos. Los resultados del tercer ycuarto contraste individual indican que hay diferencias significativas entre las ordenadas en el origende A-B, y A-C, respectivamente.

Para B frente a C

t = (2,38− 0,96)/((1,005√(0,1 + 0,1− 2 ∗ 0,05))) = 4, 47 > 2, 005

De este último contraste se deduce que son signiificativamente distintas las ordenada en el origen paraB y C.

3. Si las regresiones simples entre T y las demás variables son

P = β10 + β11T + u

1

Z2 = β20 + β21T + u

2

Z3 = β30 + β31T + u

3

e introducimos estas expresiones en la regresión múltiple entre Y y T, P, Z2, Z3

Page 106: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015

Y = β0 + β1T + β2P + α2Z2 + α3Z3 + u,

obtenemos

Y = β0 + β1T + β2(β10 + β

11T + u

1) + α2(β20 + β

21T + u

2) + α3(β30 + β

31T + u

3) + u,

el coeficiente de T en la regresión simple que resulta es β1 + β2β11 + α2β

21 + α3β

31, y el sesgo sería

β2β11 + α2β

21 + α3β

31

que sólo sería nulo en general cuando β11 = β21 = β31 = 0, es decir cuando las correlaciónes entre T ycada una de las demás variables explicativas sean todas nulas.

Page 107: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Cuestiones (30 minutos, 4 puntos)

1. Se considera la cantidad de sodio en hamburguesas de varias marcas de cada uno de lostipos siguientes:

Carne de ternera,

Carne de buey,

Carne de pollo y

Mezcla (hasta 15% de carne de pollo).

Se desea determinar si el tipo de carne in�uye en la cantidad de sodio. Para ello se disponede 4 observaciones para cada tipo de de carne, y de la siguiente tabla de Análisis de la Varianzaincompleta:

Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F

Tipo de carne 5.91

Residual 54

TotalSe pide:a) Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis de dicho

modelo,b) Completar la tabla ADEVA,c) A la vista de lo anterior enunciar e interpretar las conclusiones que puedan obtenerse

de esta tabla.NOTA: Tomar � = 0;05:

a) Modelo de análisis de la varianza con un factor: yij = �i + uij ; con uij ! N(0; �2): Y se asumen lashipótesis de normalidad, homocedasticidad e independencia.

b)

Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F

Tipo de carne 26;595�3 = 79;785 K � 1 = 3 4;5�5;91 = 26;595 5.91

Residual 54 n�K = 12 bs2R= V NE=12 = 54=12 = 4;5

Total 79;785 + 54 = 133;785 n� 1 = 15El valor del estadístico F (de la tabla, 5.91) se compara con el valor en tablas para una FK�1;n�K;0;05 �

F3;12;0;05 = 3;49: Y como 5;91 > 3;49 entonces se rechaza la H0: �1 = �2 = �3 = �4, frente a la H1: Alguna esdistinta. Por tanto el factor "tipo de carneresulta signi�cativo. El "tipo de carne"in�uye signi�cativamenteen la cantidad de sodio presente.

2. Una empresa que se dedica a la construcción de campos de golf está estudiando la calidadde varios tipos de césped. Para ello, se mide la distancia recorrida por una pelota de golfen el campo después de bajar por una rampa (esto se hace para proporcionar a la pelotauna velocidad inicial constante).

El terreno en el que se realizan pruebas dispone tiene mayor pendiente en la direcciónNorte-Sur, por lo que es razonable dividir el terreno en cinco bloques de manera que laspendientes de las parcelas individuales dentro de cada bloque sean las mismas. En todosellos se utilizó el mismo método para la siembra y las mismas cantidades de semilla.

Los datos que se proporcionan en la tabla corresponden a mediciones de las distanciasdesde la base de la rampa al punto donde se pararon las pelotas.

En el estudio se incluyeron las variedades de césped siguientes:

Agrostis T. (Césped muy �no y denso, de hojas cortas y larga duración), (A)

Page 108: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Agrostis C. (Hoja muy �na, estolonífera. Forma una cubierta muy tupida), (B)

Paspalum N. (Hojas gruesas, bastas y con rizomas. Forma una cubierta poco densa)(C) y

Paspalum V. (Césped �no, perenne, con rizomas y estolones) (D).

Bloque/Variedad de césped (A) (B) (C) (D)

Bloque 1 1.3 2.2 1.8 3.9

Bloque 2 1.6 2.4 1.7 4.4

Bloque 3 0.5 0.4 0.6 2

Bloque 4 1.2 2 1.5 4.1

Bloque 5 1.1 1.8 1.3 3.4

Indicar si alguna de las variedades de césped resulta ser signi�cativamente mejor que lasdemás (en términos de la distancia recorrida por la pelota de golf en el campo despuésde bajar por una rampa). NOTA: Se pide ilustrar y explicar las conclusiones sobre elgrá�co de medias.

Modelo en bloques aleatorizados: yij = �+�i+�j+uij ; con uij ! N(0; �2): Y se asumen las hipótesisde normalidad, homocedasticidad e independencia. El subíndice i hace referencia al tipo de césped yel j al bloque.

Se calculan las medias:

yA: = 1;14

yB: = 1;76

yC: = 1;38

yD: = 3;56

y;1 = 2;3

y;2 = 2;525

y;3 = 0;875

y;4 = 2;2

y;5 = 1;9

y:: = 1;96

Y la tabla ADEVA que se obtiene:

Tanto el factor çéspedçomo el bloque son signi�cativos.

A continuación se muestra el grá�co de medias (efectos principales factor çésped"):

Cada intervalo se calcula como: yi: � t(5�1)�(4�1); 0;052

bsR1p5, con i = A;B;C;D:

yi: � 2;179�p0;0793 1p

5= yi: � 2;179�0;1259365 = yi: � 0;2744156

Page 109: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

1.0

1.5

2.0

2.5

3.0

3.5

CESPED

medias

A B C D

El cesped tipo "D"es el que da lugar la mayor distancia, y ésta es signi�cativamente mayor que elresto.

Los intervalos del grá�co vienen dados por:

1;14� 0;27441561;76� 0;27441561;38� 0;27441563;56� 0;2744156

Page 110: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Problema (45 minutos, 6 puntos)

Se está estudiando la dureza ( kg fuerza) de unas probetas de acero. Se piensa que la dureza depende delmétodo de medición empleado (M1, M2, M3) y del contenido en carbón activo (1%, 2%) de la probeta.Para ello se ha realizado el experimento (replicado dos veces) que se presenta en la siguiente tabla:

Contenido en carbón activo

1% 2%

M1218205

187201

Método M2202220

204233

M3165169

227311

1. Indique el tipo de experimento que se ha realizado y formule el modelo matemático correspondiente.Obtenga la tabla de Ánálisis de la Varianza del experimento, y realice los contrastes correspondientes(α = 0, 05) sabiendo que la Variabilidad Total de los datos es 15583,7 y la estimación de algunasinteracciones es (αβ)M1,1% = 24, 08; (αβ)M2,1% = 11, 58 y (αβ)M3,1% = −35, 66.

2. Complete el análisis realizando los contrastes y los gráficos que considere convenientes para interpretarlos resultados. Indique los tratamientos (condiciones experimentales) en los que se han obtenido durezasmedias distintas (α = 0, 05).

3. En el informe final del experimento se han escrito una serie de afirmaciones; indique si son verdaderaso falsas justificando la respuesta a la vista de los resultados anteriores o realizando nuevos cálculos ográficos si los considera necesarios.

a) Los tres métodos de medición son equivalentes si se considera un nivel de significación de 0,05.

b) Las probetas con el 2% de carbón activo presentan por término medio mayor dureza que las quetienen un 1% de carbón activo.

c) Al hacer la diagnosis se incumple la hipótesis de homocedasticidad.

d) La varianza del Método 3 de medición es el doble que la correspondiente al Método 1 (α = 0, 05).

Page 111: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Solución Problema

1. Es un diseño factorial con dos factores replicado 2 veces. Un factor es el método de medición (3 niveles)y el otro factor es el contenido en carbón activo (2 niveles). La ecuación del modelo es

yijk = µ+ αi + βj + (αβ)ij + uijk i = 1, 2, 3; j = 1, 2; k = 1, 2y cumple las hipótesis uijk � N(0, σ2) e independientes.Se verifican también las ecuaciones de restricción:3∑

i=1

αi = 0;2∑

j=1

βj = 0;3∑

i=1

(αβ)ij = 0 ∀j2∑

j=1

(αβ)ij = 0 ∀i.

La tabla de análisis de la varianza es:

Fuente de variabilidad Suma de cuadrados Grados de libertad Cuadrados medios ContrasteVE(Método) 516,2 2 258,1 0,361

VE(%Carbón activo) 2821,3 1 2821,3 3.94VE(Interacción) 7942,2 2 3971,1 5.54

VNE 4301,0 6 716,83VT 15583,7 11

Para α = 0, 05, el valor de las tablas es F2,6;α=0,05 = 5,14 y F1,6;α=0,05 = 5,99

Por lo tanto únicamente resulta estadísticamente significativa la interacción

2. Los resultados del experimento se debe interpretar a partir del gráfico de la interacción.

150

200

250

300

Factor: MET

med

ias

Nivel: I Nivel: II Nivel: III

Factor: CAR

Nivel: 1%Nivel: 2%

La expresión para los intervalos de confianza que se han incluido en el gráfico de la interacción es:

µ+ αi + βj + (αβ)ij ∈ yij ± tα/2 ×sR√2

con (1− α)% de confianza.

En particular:Tratamiento I: M3-1% sería µ+ αi + βj + (αβ)ij ∈ [120,68; 213,32] con 95% de confianza.Tratamiento II: M3-2% sería µ+ αi + βj + (αβ)ij ∈ [222,68; 315,33] con 95% de confianza.

Ambos intervalos no se solapan, podemos decir que su diferencia es estadísticamente significativa.

El contraste:{H0 : µTI = µTIIH1 : µTI �= µTII

Si H0 es cierta,yTI−yTII

sR

√1

nTI+

1

nTII

� t6 =⇒ |t0| =

∣∣∣∣∣∣∣∣

167− 269√716,83

√1

2+1

2

∣∣∣∣∣∣∣∣= 3,81 > t6;0,025 = 2,45 =⇒Se

rechaza H0.

Page 112: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

Los tratamientos I( Método3-1%) y II (Método 3-2%) son distintos como se puede apreciar en el gráfico,viendo que los intervalos de confianza no se solapan.

Entre el resto de los tratamientos no existen diferencias estadísticamente significativas.

3. a) Falsa: Al haber interacción, la influencia del método depende del% de carbon. En concreto el M3proporciona mediciones distintas dependiendo de si las probetas tienen el 1% o el 2% de carbón. Esdecir el M3 es capaz de diferencias entre 1% y 2% y los otros métodos no.

b) Falsa: Por término media ambas probetas presentan la misma dureza, sólo con el Método 3 seconcluye que las probretas con el 2% de carbón tienen mayor dureza por término medio que lasprobetas con el 1%.

c) Verdadera: Se calculan los residuos, y al hacer los gráficos de la diagnosis se observan que nocumple la hipótesis de homocedasticidad.

Los residuos son:

Contenido en carbón activo

1% 2%

M16,5−6,5

−77

Método M2−99

−14,514,5

M3−22

−4242

180 200 220 240 260

−4

0−

20

02

04

0

Fitted values

Re

sid

ua

ls

Residuals vs Fitted

11

12

7

−1.5 −0.5 0.0 0.5 1.0 1.5

−2

−1

01

2

Theoretical Quantiles

Sta

nd

ard

ize

d r

esid

ua

ls

Normal Q−Q

11

12

7

180 200 220 240 260

0.0

0.5

1.0

1.5

Fitted values

Sta

nd

ard

ize

d r

esid

ua

ls

Scale−Location1112

7

−2

−1

01

2

Factor Level Combinations

Sta

nd

ard

ize

d r

esid

ua

ls

1% 2%CAR :

Constant Leverage:

Residuals vs Factor Levels

11

12

7

Page 113: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015

d) Verdadera:

Si se realiza el contraste{H0 : σ

2M3 = 2σ

2M1

H1 : σ2M3 �= 2σ2M1

Se verifica(nM3 − 1)s2M3(nM3 − 1)σ2M3(nM1 − 1)s2M1(nM1 − 1)σ2M1

� F(nM3−1);(nM1−1) = F3,3

Si H0 cierta=⇒ σ2M3 = 2σ2M1 =⇒

1

2

s2M3s2M1

� F(nM3−1);(nM1−1).

Se calcula

s2M1 =

2∑

j=1

2∑

k=1

(eM1,jk)2

nM1 − 1= 60,83; s2M3 =

2∑

j=1

2∑

k=1

(eM3,jk)2

nM3 − 1= 1178, 7

F0 =1

2

s2M3s2M1

= 9,69 ∈ [F3,3;0,975;F3,3;0,025] = [0,065; 15,44] =⇒ No se puede rechazar H0.

O tambien se puede realizar el contraste:{H0 : σ

2M3 ≥ 2σ2M1

H1 : σ2M3 < 2σ

2M1

En este caso F0 =1

2

s2M3s2M1

= 9,69, y se rechazará H0 cuando F0 < F3,3;0,95 = 1/9,28 = 0,11 =⇒ No se

puede rechazar H0.

Page 114: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

17 de junio de 2015

Cuestiones (30 minutos, 4 puntos)

1. La empresa EMUS, S.L. está estudiando el rendimiento de un proceso químico, paraello realiza 30 experimentos y estudia la relación lineal entre la Temperatura (T ) y laPresión(P ) sobre el rendimiento �:

Se denomina X a la matriz de regresores (X = [1 X1 X2]); siendo:

(XTX)�1 =

24 5;1 �0;12 �0;05�0;12 30;8 0;08�0;05 0;08 0;001

35 ; XTY =

24�0;060;05�9;45

35y sR = 0;03:Se pide:

a) Estimar el modelo de regresión multiple y realizar los contrastes individuales (� =0;05) (1 punto)

b) Se va a tomar nueva observación con 89oC y 1 bar; obtenga un intervalo de predicciónpara la nueva observación.(� = 0;05) (1 punto)

Solución:

a. El modelo estimado es:

� = �0 + �1T + �2P; donde � =

24�0�1�2

35 = (XTX)�1XTY =

24 0;16050;7914

�2;45 10�3

35 ;así, el modelo estimado es: � = 0;16 + 0;79T � 0;002P:

Para realizar los contrastes individuales se contrasta H0 = �i = 0 vs H1 6= 0, donde la dV AR(�i) =

s2Rqii, siendo qii los elementos diagonales de la matriz (XTX)�1:

t1 =�1 � 0sRpq11

=0;79

0;03p30;8

= 4;75;

t2 =�2 � 0sRpq22

=�0;002

0;03p0;001

= �2;58:

Comparamos los valores de la t con tn�k�1 = t27;0;025 = 2;052: Por lo que la P y T in�uyen signi�ca-tivamente en el �:

b. El intervalo solicitado es para una nueva observación no utilizada en la estimación del modelo.El intervalo es:� 2 �h � tn�k�1sR

p1 + vhh

siendo �h el valor previsto para 89oC y 1 bar (0;1605 + 0;7912x89 � 0;00245x1 = 70;57) y

vhh = xTh (X

TX)�1xh =�1 89 1

� 24 5;1 �0;12 �0;05�0;12 30;8 0;08�0;05 0;08 0;001

3524 1891

35 = 243957; 56:� 2 70;57� 2;052 0;03

p1 + 243957; 56 = 70; 57� 30;41 �! � 2 (40; 16; 100)

Page 115: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

17 de junio de 2015

2. Se realizan los tres modelos de regresión simple entre la variable Y, costes de producciónde la primera edición de un best-seller, y las variables explicativas X1, tinta; X2, coste delpapel y X3, coste de las tapas, obteniendo para los contrastes individuales los siguientesp� valores : 0; 002; 0;012 y 0; 04 respectivamente.A continuación se estima el modelo de regresión múltiple con las tres variables explicativasmencionadas anteriormente Y = �0 + �1X1+ �2X2+ �3X3siendo los p-valores de los trescontrastes individuales 0; 001; 0; 01 y 0; 035 y el contraste conjunto de regresión múltipleH0 : �1 = �2 = �3 = 0 vs H1 : algún �i 6= 0 con p� valor = 0; 001.Interprete los resultados presentados anteriormente, utilice � = 0;05. (1 punto)

Posteriormente se realiza la diagnosis del modelo. El grá�co de los residuos frente a losvalores observados Y muestra relación entre ellos. Justi�que este comportamiento. (1punto).

Solución:

Todos los contrastes individuales de los modelos de regresión simple y los contrastes individuales delmodelo de regresión múltiple son signi�cativos, ya que los p� valores < � = 0;05:El contraste generalde regresión también es signi�cativo p�valor < � = 0;05:Por lo que no se detecta ninguna incoherencia. El modelo de regresión múltiple es correcto a falta de la diagnosis.

No tenemos información para estudiar la homocedasticidad y la normalidad de los residuos. Nos dicenen el enunciado que el grá�co de los residuos frente a los valores observados Y muestra relación entreellos, los residuos y el vector Y son ortogonales, esa es la razón de que el grá�co que usamos para ladiagnosis sea e vs Y (valores previstos), y no e vs Y (valores observados). Por lo que concluimos quees lógico que aparezca relación entre ellos, como puede observarse a continuación:

e = Y � Y = Y �X� = Y �X(XTX)�1XTY = (I � V )Y

Page 116: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015

Problema (45 minutos, 6 puntos)

Se ha realizado un experimento en una fábrica de papel con el objetivo de explicar lavariable CALIDAD del mismo (Y ) en función de tres variables cuantitativas X1; X2 y X3 yuna cualitativa, Z: MEJORA, que toma el valor 0 si no se aplican ciertas técnicas de mejoraen el proceso productivo y 1 si se aplican.

Resulta necesario (para que la diagnosis sea correcta) trabajar con todas las variablescuantitativas: Y; X1; X2 y X3 en logaritmos en todo momento. El número total de datos de losque se dispone es n = 153:

1. En primer lugar se realizan las tres regresiones simples: de log(y) frente a log(x1); de log(y)frente a log(x2) y de log(y) frente a log(x3): En la tabla se proporcionan la media y lavarianza de todas las variables cuantitativas transformadas, y además cov(log(y); log(x1)) =0;639; cov(log(y); log(x2)) = 0;382; cov(log(y); log(x3)) = 0;505:

Variable log (y) log (x1) log (x2) log (x3)

Media 3.108 3.011 2.952 3.332Varianza 0.634 0.696 0.464 0.529

1. Se pide calcular para los tres modelos de regresión simple mencionados los estimadores delos coe�cientes de los modelos de regresión simple así como el coe�ciente de determinaciónpara cada uno de ellos (R21; R

22 y R

23):

log (y) = �01+�11 log (x1) + u1;

log (y) = �02+�12 log (x2) + u2;

log (y) = �03+�13 log (x3) + u3:

¿Qué modelo elegiría basándose en el porcentaje de variabilidad explicada por el modeloconsiderando que la diagnosis de los 3 modelos es correcta?

b�11 = cov(log(y);log(x1))var(log(x1))

= 0;6390;696 = 0;9181b�01 = log(y)� b�11log(x1) = 3;108� 0;9181�3;011 = 0;3436b�12 = cov(log(y);log(x2))

var(log(x2))= 0;382

0;464 = 0;8233b�02 = log(y)� b�12log(x2) = 3;108� 0;8233�2;952 = 0;6776b�13 = cov(log(y);log(x3))var(log(x3))

= 0;5050;529 = 0;9546b�03 = log(y)� b�13log(x3) = 3;108� 0;9546�3;332 = �0;0727

R21 = (corr(log(y); log(x1)))2 =

�cov(log(y);log(x1))

std(log(x1))�std(log(y))

�2=�

0;639p0;696

p0;634

�2= 0;9253

R22 = (corr(log(y); log(x2)))2 =

�cov(log(y);log(x2))

std(log(x2))�std(log(y))

�2=�

0;382p0;464

p0;634

�2= 0;4960

R23 = (corr(log(y); log(x3)))2 =

�cov(log(y);log(x3))

std(log(x3))�std(log(y))

�2=�

0;505p0;529

p0;634

�2= 0;7604

2. A continuación se construye un modelo de regresión múltiple para explicar el log(y) através de log(x1); log(x2) y log(x3), mediante un modelo de regresión múltiple, obteniéndoselos resultados que se muestran a continuación:

Se pide interpretar los resultados de los contrastes individuales, así como del contrastegeneral de regresión, y a la vista de lo anterior proponer si dicho modelo puede ser

Page 117: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015

simpli�cado, indicando cómo. (Tomar � = 0;05). Discutir las diferencias con los resultadosdel apartado 1) y comentar a qué pueden deberse.

Si el modelo es: log(y) = �0 + �1 log(x1) + �2 log(x2) + �3 log(x3) + u; con u! N(0; �2):

Con esta notación:b�0 = �0;04826b�1 = 0;69084b�2 = 0;04973b�3 = 0;27071CONTRASTES INDIVIDUALES:

Con los p-valores de la �gura (salida de R) se tiene que �0 y �2 no resultan estadísticamente signi-�cativos (p-valores iguales a 0.531 y 0.106, respectivamente). Aunque el segundo de ellos está cerca deserlo para un nivel de signi�cación que fuera � = 0;1.

El valor de los estimadores de �1; �2 y �3; es decir, b�1 = 0;69084, b�2 = 0;04973 y b�3 = 0;27071se ha modi�cado bastante respecto a los b�11, b�12 y b�13. Esto podría ser debido a un problema demulticolinealidad, para corroborarlo se debería disponer de la matriz de correlaciones de los regresores(log(x1), log(x2) y log(x3)).

CONTRASTE GENERAL DE REGRESIÓN:

H0: �1 = �2 = �3 = 0

H1: Alguna distinta de cero

Como el p-valor del contraste general de regresión es 2;2�10�16 se rechaza la hipótesis nula en favor dela alternativa.

3. Se introduce la variable z : MEJORA (cualitativa) en el modelo óptimo obtenido delapartado anterior y se tiene que el estimador del coe�ciente de regresión b�MEJORA =�0;355115 y el valor de su error estándar de estimación vale 0;03221758: Indicar justi�-cadamente si dicha variable cualitativa resulta signi�cativa así como la interpretación dedicho coe�ciente de regresión.

El estadístico t para el correspondiente contraste individual se calcula así: t�stat = b�MEJORAerror est�andar estimaci�on (b�MEJORA)

=�0;3551150;03221758 = �11;0224

Page 118: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015

Y como j � 11;0224j >> tn�k�1 � t153�4�1; 0;052' 2 resulta estadísticamente signi�cativa pues se

rechaza la H0: �MEJORA = 0:

Ordenada en el origen con MEJORA=0 vale b�0 y con MEJORA=1 sería: b�0 + b�MEJORA = b�0 �0;355115:

Al pasar de MEJORA=0 a MEJORA=1, el log(Calidad) disminuye 0;355115:

Page 119: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen Extraordinario - Diseno y Regresion 26 de junio de 2015

Cuestiones (30 minutos, 4 puntos)

1. Unos estudiantes de Biologıa estan analizando la reduccion de una enzima en un reaccion quımica,para ello trabajan con tres reacciones diferentes y cinco mezclas.

Reaccion

1 2 3 Medias

1 199 124 80 134, 3

2 200 120 78 132, 7

3 198 120 78 132, 7

4 197 122 82 133, 3

5 200 121 80 133, 3

Medias 198, 8 121, 4 79, 6 y.. = 133, 3

Obtenga la tabla ADEVA y concluya que variables son significativas. Justifique y escriba el modelocorrecto para el experimento realizado.

2 Se estudia la produccion de un farmaco, para ello se utilizan dos componentes que se denominanComponente 1 y Componente 2, cada componente tiene dos niveles, y cada tratamiento tiene dosreplicas. Los p-valores del efecto principal del Componente 1 (A), del efecto principal de la Componente2 (B) y la interaccion de segundo orden AB son respectivamente p-valor= 0, 999, p-valor= 0, 2378 yp-valor= 0, 000.

A continuacion se presenta la tabla con las medias de los cuatro tratamientos y el grafico de lainteraccion AB.

C1− 1 C1− 2

C2− 1 35 21

C2− 2 20 34

Tabla de medias de los tratamientos

Se pide:

a) ¿Que condiciones experimentales son las mas favorables para obtener la maxima produccion? Lavarianza residual del modelo de dos factores es s2R = 1, 04. Utilice α = 0, 05.

b) Estime la V E(A:Componente 1) y la V E(B:Componente 2) considerando únicamente los datos del gráfico.

ECaro
Línea
ECaro
Línea
ECaro
Rectángulo
ECaro
Rectángulo
ECaro
Rectángulo
ECaro
Óvalo
ECaro
Óvalo
ECaro
Óvalo
Page 120: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

��𝑦2 = 1473.4 ; ��𝑥

2 = 26.25 ; 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑠𝑥𝑦 = 142.96 �� = 86.31 ; �� = 16.5

��𝑅 = 26.76

𝛽1 𝛼 = 0.05

{𝑧𝑎𝑙𝑡𝑎 , 𝑧𝑚𝑒𝑑𝑖𝑎 , 𝑧𝑏𝑎𝑗𝑎}

𝑏𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜𝑠 = 𝛽0 + 𝛽1 · 𝑣𝑖𝑠𝑖𝑡𝑎𝑠 + 𝛼𝑏𝑎𝑗𝑎 · 𝑧𝑏𝑎𝑗𝑎 + 𝛼𝑎𝑙𝑡𝑎 · 𝑧𝑎𝑙𝑡𝑎 + 𝑢

(𝑋𝑇 · 𝑋)−1 =

0.3982 -0.0188 -0.0927 -0.0880

-0.0188 0.0011 0.0006 0.0003

-0.0927 0.0006 0.1669 0.0835

-0.0880 0.0003 0.0835 0.1743

𝑋𝑇 · 𝑌 = [3021 54707 965 1050]T

��𝑅 = 26.81

𝛼 = 0.05

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -68.7562 83.9978 -0.819 0.419

visitas 15.7032 13.7715 1.140 0.263

Zbaja -0.9008 11.0369 -0.082 0.935

Zalta 14.0552 11.3655 1.237 0.226

ninos -12.0809 16.1811 -0.747 0.461

Residual standard error: 27 on 30 degrees of freedom

Multiple R-squared: 0.5633, Adjusted R-squared: 0.5051

F-statistic: 9.675 on 4 and 30 DF, p-value: 3.784e-05

𝛼 = 0.05

Page 121: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

EXÁMENES Curso 2015/16

Page 122: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 123: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI 14 de marzo de 2016

Cuestiones (30 minutos, 4 puntos)

1.) Los propietarios de un hotel rural quieren reducir el gasto en lavandería ya que se handado cuenta que con el detergente que utilizan en la actualidad tienen que devolver la ropa"supuestamente limpia.a la lavandería en demasiadas ocasiones.

Han realizado un experimento para comparar cuatro detergentes de distintas marcas entres tipos de manchas distintas y han medido la "blancura"de la ropa después del lavado.

Se pide plantear el modelo más adecuado, indicar su nombre y justi�car la respuesta de laelección. Indicar el detergente que obtiene mejores resultados, así como el peor. NOTA: Laobtención de un valor mayor signi�ca mayor blancura. Utilizar � = 0;05:

El modelo adecuado es un modelo en bloques aleatorizados: se quiere detectar cuál es el detergente máse�caz, pero el tipo de mancha puede in�uir en la "blancura"que se obtiene.

yij = �+ �i + �j + uij ; con uij � N(0; �2);

donde � es la media global, �i y �j los efectos principañes asociados al "factor detergente

2"bloque mancha-espectivamente. uij es el término de error. Cada yij es la blancura obtenida con detergente i-ésimo para lamancha j-éisma.

A la vista de la tabla de medias, el mejor detergente en media es el Detergente 3, y el peor el Detergente4. Ahora vamos a ver si existe diferencia estadísticamente signi�cativa con los demás detergentes.

Figura 1: Tabla de medias. Cuestión 1.

Los residuos se calculan: eij = yij � yi: � y:j + y:: y quedarían:

V NE =IPi=1

JPj=1

e2ij , donde I = 4 y J = 3 en este caso. Y bs2R = V NE(I�1)(J�1) =

IPi=1

JPj=1

e2ij

(4�1)(3�1) =18;8336 = 3;138:

Para el cálculo de los intervalos utilizamos la expresión:�+ �i 2 yi: � t(4�1)(3�1);�2 �bsR� 1pJ ; con lo que quedaría que:

Page 124: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI 14 de marzo de 2016

Figura 2: Residuos del modelo en bloques

�+ �1 2 y1: � t6;�2 �p3;138� 1p

3! �+ �1 2 46;333� 2;447�1;7714� 1p3 , entonces �+ �1 2 46;333� 2;5026,

entonces �+ �1 2 [43;8304; 48;8356]:�+ �2 2 y2: � t6;�2 �

p3;138� 1p

3! �+ �2 2 48;333� 2;5026, entonces �+ �2 2 [45;8304; 50;8356]:

�+ �3 2 y3: � t6;�2 �p3;138� 1p

3! �+ �3 2 51� 2;5026, entonces �+ �3 2 [48;4974; 53;5026]:

�+ �4 2 y4: � t6;�2 �p3;138� 1p

3! �+ �4 2 42;667� 2;5026, entonces �+ �4 2 [40;1644; 45;1696]:

2.) Un grupo de profesores de Primaria sospecha que sus alumnos aprenden de manera másefectiva con música clásica de fondo a un volumen constante y moderado, y menos efectiva ensilencio o con música cuyo volumen y tipología sea variable.

Por ello eligen 24 alumnos al azar y los dividen de manera aleatoria en tres grupos de ochoalumnos. Todos ellos estudian en las condiciones descritas un texto durante 30 minutos:

Sonido Constante de fondo, música clásica a volumen constante (SC),

Sonido que varía periódicamente (SV),

Sin sonido ni música de fondo (SS).

Después se les hace a los alumnos un test sobre el texto con 10 preguntas, y se recogen suspuntuaciones.

Page 125: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Examen de Diseño y Regresión, GITI 14 de marzo de 2016

a) Indicar de qué modelo se trata y plantear la ecuación del mismo de�niendo qué es cadatérmino y subíndice, así como las hipótesis que se asumen.

Modelo de análisis de la varianza con un factor.

yij = �i + uij con uij � N(0; �2):

Llamaremos a nivel del factor SC: 1, SV: 2, SS: 3. El factor "sonido de fondo"tiene K = 3 niveles.i = 1; 2; 3. yij son las puntuaciones del alumno j-ésimo que ha estudiado el texto en la condición i (según lade�nición anterior). �i parte predecible, explicada por el modelo. uij término de error.

Se asumen las hipótesis de homocedasticidad, normalidad e independencia.b) Indicar el número de parámetros a estimar.Se estiman �1, �2, �3 y �

2, que es la varianza del error. Por tanto, se estiman 4 parámetros.c) Respecto a la diagnosis del modelo se proporcionan los dos grá�cos siguientes y se

realiza un contraste de bondad de ajuste obteniéndose un p-valor de 0.2614. Se pide indicar sicon toda esta información las hipótesis indicadas en a) pueden comprobarse y si se cumplen.NOTAS: Tomar � = 0;05. En el contraste de bondad de ajuste la H0 es que los residuos sonnormales, y la H1 que no lo son.

Para comprobar homocedasticidad se utiliza el grá�co proporcionado en el enunciado: residuos frente avalores previstos, y al no observarse que la dispersión crezca al hacerlo los valores previstos, o decrezca conellos (residuos en forma de "trompeta") esto nos permite dar por válida la hipótesis de homocedasticidad.

En cuanto a la hipótesis de normalidad, a la vista del Q-Q plot (puntos bastante alineados al representarpercentiles de los valores muestrales frente a los teóricos (distribución normal correspondiente) y sobretodo dado que el p-valor proporcionado para el contraste de bondad de ajuste es 0.2614, que es mayor quecualquiera de los niveles de signi�cación habituales (.01, 0.05 y 0.1) no se rechaza la hipótesis de normalidad.

Independencia: Es la hipótesis fundamental y con diferencia la más importante de las tres, además es lamás difícil de comprobar. Ninguno de los grá�cos mostrados permite comprobar esta hipótesis. Pero en estesentido la clave está en la aleatorización.

d) Indicar si se necesita algún grá�co o comprobación adicional. En caso a�rmativo indicarcuáles.

Como se indicaba en c) Respecto a la hipótesis de independencia: Ninguno de los grá�cos mostradospermite comprobar esta hipótesis. Pero en este sentido la clave está en la aleatorización.

La aleatorización evita que se produzcan errores que sistemáticamente aumenten o disminuyan un con-junto de medidas por causas no reconocibles: al aleatorizar se reparten estos errores por igual entre losdiferentes tratamientos y se convierten en errores aleatorios, previstos en el modelo.

Page 126: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

Problema (45 minutos, 6 puntos)

Se estudia la variable aleatoria , resistencia a la compresión (psi) en probetas de hormigón asfálti-

co en función del "método de compresión"(Estático, Regular, Bajo y Muy Bajo) y el "tipo de sustancia

agregada"(Basalto y Silicio). Se ha experimentado en las ocho posibles combinaciones (ocho tratamientos)

de ambos factores replicando cada experimento tres veces. A continuación se muestran los resultados del

experimento (Tabla 1) y la tabla ADEVA (Tabla 2) para el diseño experimental:

Método de compresión

Tipo Sustancia 68,63,65 126,128,133 93,101,98 56,59,57

71,66,66 107,110,116 63,60,59 40,41,44

1 : Resultados del experimento

2 : Tabla ADEVA

1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete

los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.

¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia

a la compresión?.¿Cuáles y por qué? (3.5 puntos)

2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.

(1.5 puntos)

3. Indique qué distribución sigue y estime por máxima verosimilitud los parámetros y del

modelo propuesto en el primer apartado. (1 punto)

Nota: Utilice para todos los apartados = 005

Page 127: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

Solución:

1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete

los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.

¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia

a la compresión?.¿Cuáles y por qué? (3.5 puntos)

Se plantea um modelo con dos factores e interacción. La variable respuesta es la resistencia a la

compresión (psi), los dos factores son: Factor 1-Tipo de Sustancia y Factor 2-Método de compresión.

El modelo matemático es:

= + + + + ()→ (0 2)

X=1

=

X=1

=

X=1

=

X=1

= 0; con = 2 = 4 = 1 2 3(número de réplicas)

Observando la tabla ADEVA concluimos que el efecto principal "Tipo de Sustancia", el efecto principal

"Método de compresión 2la interacción entre "Tipo-Método"son significativas, ya que los p-valores son

− 005

Como la interacción es significativa, el efecto del primer factor depende del nivel al que esté el segundo

factor (y viceversa). Para poder saber que tratamiento es el que tiene mayor resistencia, menor

resistencia y cúales son distintos calclamos el gráfico de la interacción incluyendo los intervalos de

confianza para las medias de los ocho tratamientos. A continuación se presenta una tabla con las

medias de cada tratamiento.

Método de compresión

Tipo Sustancia 65,33 129 97,33 57,33

67,66 111 60,66 41,66

Medias de los tratamientos

Calculamos el intervalo de confianza para las medias de cada tratamiento, como se describe a contin-

uación:

± (−1);2

r1

siendo (−1);2 = 16;0025 = 212; =√95 y

r1

=

r1

3Por lo tanto, (−1);2

r1

= 372

A continuación se presenta el gráfico de la interacción con las medias de cada uno de los ocho tratamientos

y los respectivos intervalos de confianza.

Page 128: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

Interactions and 95.0 Percent LSD Intervals

Tipo

Res

iste

ncia

Metodo1234

38

58

78

98

118

138

1 2

El tratamiento con mayor resistencia a la compresión es Método regular y Tipo B, el tratamiento con

menor resistencia a la compresión es Método muy bajo y Tipo S. Ya que corresponden al más alto y más

bajo respectivamente y sus intervalos no se solapan con los intervalos de los demás tratamientos. Los unicos

tratamientos que no se pueden considerar distintos son:M1-TB con ME-TS, M3-TS con M1-TB, M3-TS con

MMB-TB.

2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.

(1.5 puntos)

Nos piden un intervalo de confianza para 2así:

2→ 2(−1);

PPP2

2=((− 1))2

2→ 2(−1);

(2 ≤ 2(−1) ≤ 2) = 1− ;

2 ≤((− 1))2

2≤ 2

Y el intervalo para 2 es:

((− 1))22

≤ 2 ≤ ((− 1))2

2

siendo (− 1) = 16 2 = 95 2 = 69 y 2 = 2885. Por lo tanto el intervalo pedido es:

2 ∈ (53; 22)

Page 129: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016

3. Indique qué distribución sigue y estime por máxima verosimilitud los parámetros y del

modelo propuesto en el primer apartado. (1 punto)

La distribución de sigue una distribución normal, ya que es una combinación de variables normales,

con esperanza y varianza las siguientes:

[ ] = [+ + + + ] = + + + + 0 = + + +

[ ] = [+ + + + ] = 0 + 2 = 2

Por lo tanto la distribución de es:

→ (+ + + ;2)

Estimación máximo verosimil de los parámetros y del modelo.

() =1

√2

−1

2((−−−−))2

Función de verosimilitud:

(111 243; 1 1 24 2) =

1

(2)2−1

2

[(−−−−)]2

Función soporte:

( 1 1 24 2) = −

2log 2 −

X

X

X

[ − − − −

]2

= 0⇒ 2

XXX( − − − − c) = 0⇒ =

PPP

=

= 0; = 1 2⇒

X

X

( − − − − c) = 0⇒ =

X

X

( − − − − c) = 0⇒ =

P

P

− = −

= 0 = 1 2 3 4⇒

XXX(−−−−c) = 0⇒ ⇒ =

P

P

− = −

Page 130: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

Cuestiones (30 minutos, 4 puntos)

1. Dado el siguiente modelo de regresion:

yi = −19,62 + 0,59x1i + 3,72x2i, n = 12, R2 = 0,96,

Ademas se tiene la siguiente informacion sobre los datos analizados:

y = 124,50, s2y = 4104,27, x1 = 105,75, s2x1= 3201,84, x2 = 22,08, s2x2

= 68,63.

Se pide:

a) Realizar el contraste general de regresion.

b) Analizar si hay multicolinealidad.

2. Se desea comparar dos tratamientos para reducir el nivel de colesterol en la sangre.Se seleccionan 20 individuos y se asignan al azar a dos tipos de dieta, A y B. Latabla muestra la reduccion conseguida despues de dos meses:

Reduccion nivel

colesterol Dieta

51.3 A39.4 A26.3 A39.0 A48.1 A34.2 A69.8 A31.3 A45.2 A46.4 A29.6 B47.0 B25.9 B13.0 B33.1 B22.1 B34.1 B19.5 B43.8 B24.9 B

a) Proponer un modelo de regresion que permita analizar si hay diferencias entrelas dietas y estimar los parametros de dicho modelo.

b) Contrastar si hay diferencias en la reduccion de nivel colesterol segun la dietaseguida.

Nota.- Utilizar α=0,05

Page 131: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

Problema (45 minutos, 6 puntos)

En una zona del mar Mediterraneo se han tomado 12 medidas de las concentracionesde metales pesados en el sedimento (ng/g). Los metales medidos han sido Cd, Pb, Cr, Asy Hg. Para analizar si la concentracion de Pb esta relacionada con las concentraciones delresto de metales pesados, se han ajustado diferentes modelos de regresion. Se presentanlos resultados de 4 de ellos, ası como las medias y la matriz de varianzas de las variables.

Modelo 1:

lm(formula = Pb ~ Cd)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 8.75081 10.87684 0.805 0.44

Cd 1.09455 0.09154 11.957 3.02e-07 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.18 on 10 degrees of freedom

Multiple R-squared: 0.9346,Adjusted R-squared: 0.9281

F-statistic: 143 on 1 and 10 DF, p-value: 3.022e-07

Modelo 2:

lm(formula = Pb ~ Cr)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -40.2072 15.1626 -2.652 0.0242 *

Cr 7.4584 0.6462 11.542 4.21e-07 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.75 on 10 degrees of freedom

Multiple R-squared: 0.9302,Adjusted R-squared: 0.9232

F-statistic: 133.2 on 1 and 10 DF, p-value: 4.208e-07

Modelo 3:

lm(formula = Pb ~ Cd + Cr)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -19.6155 13.4732 -1.456 0.1794

Cd 0.5850 0.2009 2.912 0.0173 *

Cr 3.7244 1.3723 2.714 0.0238 *

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.43 on 9 degrees of freedom

Multiple R-squared: 0.9641,Adjusted R-squared: 0.9561

F-statistic: 120.7 on 2 and 9 DF, p-value: 3.167e-07

Page 132: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

Modelo 4:

lm(formula = Pb ~ Cd + Cr + As + Hg)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -5.5137 59.1801 -0.093 0.9284

Cd 0.5967 0.2204 2.708 0.0303 *

Cr 2.2402 1.8726 1.196 0.2705

As 0.6466 0.5310 1.218 0.2628

Hg -0.2422 0.5683 -0.426 0.6828

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.8 on 7 degrees of freedom

Multiple R-squared: 0.9705,Adjusted R-squared: 0.9536

F-statistic: 57.54 on 4 and 7 DF, p-value: 1.942e-05

Tabla de medias:

Pb Cd Cr As Hg

124.50 105.75 22.08 64.00 98.83

Matriz de varianzas:

Pb Cd Cr As Hg

Pb 4104.27 3504.59 511.86 1169.27 44.09

Cd 3504.59 3201.84 438.02 974.55 71.23

Cr 511.86 438.02 68.63 150.55 2.38

As 1169.27 974.55 150.55 394.18 17.91

Hg 44.09 71.23 2.38 17.91 63.24

1. A partir de la informacion presentada en los Modelos 1 y 2, conteste a las siguientespreguntas:

a) ¿Hay evidencia de relacion entre las concentraciones de Pb y Cd? Proporcioneel p-valor del contraste y calcule el intervalo de confianza para el parametro dela pendiente.

b) Contraste si hay evidencia estadıstica para asegurar que la pendiente del mo-delo de regresion, que relaciona el Pb con el Cr, es mayor que 6.

2. Se ha estimado un modelo de regresion multiple que incluye los regresores Cd y Cr(Modelo 3).

a) Interprete los resultados del Modelo 3 explicando el significado de cada parame-tro. Compare el Modelo 3 con los Modelos 1 y 2 y explique las diferencias.

b) Calcule la matriz de varianzas de los estimadores β1 y β2 . Compruebe querβ1β2

= −rx1x2.

3. Proporcione los intervalos de prediccion obtenidos con los cuatro modelos para laconcentracion de Pb de una nueva prospeccion de sedimiento, cuando las concentra-ciones de Cd, Cr, As y Hg coinciden con la media. Justifique que modelo elegirıa delos cuatro presentados si se quiere obtener la mejor prediccion de la concentracionde Pb.

Nota.- Utilice α=0,05

Page 133: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

Solucion de las Cuestiones

1. Cuestion 1

a) El contraste que hay que resolver es:

H0 : β1 = β2 = 0

H1 : Algun βi 6= 0

Lo resolvemos mediante analisis de la varianza:

V T = (n− 1)s2y = 45146,97

R2 = 1−s2Rs2y

⇒ s2R = (1− R2)s2y = 164,17

V NE = (n−K − 1)s2R = 1477,54

V E = V T − V NE = 43669,43

Por tanto

F =V E/K

V NE/(n−K − 1)=

V E

Ks2R⇒ F0 = 133

Como F2,9;0,05=4.26, se rechaza la hipotesis nula.

b) Hay multicolinealidad cuando los regresores estan muy correlacionados:

V E = nbTSxxb = n[

β1 β2

]

[

s21

s12s12 s2

2

] [

β1

β2

]

= n(β2

1s21+ β2

2s22+ 2β1β2s12)

Despejando

s12 =V E − nβ2

1s21− nβ2

2s22

2nβ1β2

⇒ s12 =43669,43− 0,592(12− 1)3201,84− 3,722(12− 1)68,63

24 · 0,59 · 3,72= 397,95

Y el coeficiente de correlacion

ρ12 =s12s1s2

= 0,93

Por tanto, si hay multicolinealidad.

2. Cuestion 2

a) El modelo esyi = β0 + β1zD + ui, ui → N(0, σ2)

donde zD=1 si el individuo sigue la dieta A, y zD=0 si el individuo sigue ladieta B. De los datos se tiene que:

y = 36,2 s2y = 174,18

Page 134: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

zD = 0,5 s2zD = 0,2631 s2zD = 0,25

sy,zD = 3,63

Por tanto

β1 =sy,zDs2zD

= 13,8 β0 = y − β1zD = 29,3

V T = (n− 1)s2y = 3309,42

V E = nβ1s2

zD= 952,2

V NE = V T − V E = 2357,22

σ2 = s2R =V NE

n− 2= 130,96

b) El contraste que hay que resolver es:

H0 : β1 = 0

H1 : β1 6= 0

Para resolver el contraste:

t0 =β1

s2R/ns2zD

= 2,696

Como t18;0,025=2.101, se rechaza la hipotesis nula: hay diferencias en la reduc-cion del nivel de colesterol segun la dieta seguida.

Page 135: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

Solucion del problema

1. a) Con el modelo 1: Si hay evidencia de relacion. Del contraste individual: p-valordel contrate=3,02 ∗ 10−7 <<< α = 0,05.

El intervalo: β1 ∈ β1 ± tn−2;

α

2

× s(

β1

)

con confianza 1− α.

De la salida del program R se obtiene: β1 = 1,09455; s(

β1

)

= 0,09154.

De las tablas: t10;0,025 = 2,228.

El intervalo es β1 ∈ 1,09455± 2,228× 0,09154 =⇒

β1 ∈ [0,89; 1,29] con confianza 95% .

b) Con el modelo 2: El contraste es:{

H0 : β1 ≤ 6H1 : β1 > 6

=⇒Si H0 cierta=⇒β1 − 6

s(

β1

)˜tn−2

Es un contraste unilateral por la derecha. Con lo datos de la salida de R seobtiene:

t0 =7,46− 6

0,6462= 2,2568 > t10;0,05 = 1,815 =⇒Se rechaza H0, hay evidencia

estadıstica para asegurar que la pendiente del modelo es mayor que 6.

2. a) Los resultados del modelo 3 indican los siguiente:

- El contraste general es significativa, alguno o todso los regresores son sig-nificativos (α = 0,05)

- Los contrastes individuales son significativos. Ambos regresores tienen unefecto positivo sobre la concentracion de Pb. En concreto, al aumentar laconcentracion de Cd en una unidad, manteniendo la de Cr constante laconcentracion de Pb aumenta por termino medio en 0.5850 unidades. Alaumentar la concentracion de Cr en una unidad, manteniendo la de Cdconstante, la concentracion de Pb aumenta por termino medio en 3.7244unidades.

- Es un buen modelo, el coeficiente de determinacion corregido es R2

=0,9561 y la desviacion tıpica residual sR = 13,43.

Las diferencias de los resultados del modelo 3 respecto a los de los modelos 1y 2 se pueden resumir como sigue:

- Ha disminuido el p-valor de los contrastes individuales, aunque los regre-sores siguen siendo significativos. (α = 0,05)

- Ha cambiado el valor de los estimadores de los coeficientes de los regresores.En ambos casos ha disminuido.

- Ha aumentado la varianza de los estimadores de los coeficientes de losregresores.

Estas tres diferencias pueden indicar la existencia de multicolinealidad.

Adicionalmente se observa que R2

= 0,9561 es superior al correspondiente alos modelos 1y 2, y la sR = 13,43, es inferior. Esto indica que la capacidadpredictiva de este modelo es superior a la de los modelos 1 y 2.

Page 136: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Evaluacion Continua 2 Diseno de Experimentos y Regresion 23 de mayo de 2016

b. La matriz de varianzas es: Mβ

=s2RnS−1

xx =13,43

12

[

3201,84 438,02438,02 68,63

]

−1

=[

0,037 −0,236−0,236 1,73

]

El coeficiente de correlacion entre los resgresores es:

rx1x2=

438,02√3201,84×

√68,63

= 0,93.

El coeficiente de correlacion entre los estimadores de los parametros es:

rβ1xβ2

=−0,236

√0,037×

√1,73

= −0,93.

Se comprueba entonces que rβ1β2

= −rx1x2.

(Nota.- se podıa haber hecho teoricamente).

3. El intervalo de prediccion para una nueva observacion tanto para los modelos deregresion simple (modelos 1 y 2) como los modelos de regresion multiple se puedenescribir:

yh ∈ yh ± tn−k−1;

α

2

× sR ×√1 + νhh.

Como se pide hacer la prediccion cuando las concentraciones de los regresores coin-ciden con la media=⇒

Para todos los modelos: yh = yh = yh = 124,5. Y ademas νhh =1

nh

=1

n=

1

12.

Lo unico que varıa en los intervalos de prediccion de un modelo a otro son los gradosde libertad de la distribucion t, y el valor de la sR.

Modelo 1:

yh ∈ 124,5± 2,23× 17,18×

1 +1

12.

Modelo 2:

yh ∈ 124,5± 2,23× 17,75×

1 +1

12.

Modelo 3:

yh ∈ 124,5± 2,26× 13,43×

1 +1

12.

Modelo 4:

yh ∈ 124,5± 2,36× 13,8×

1 +1

12.

Si se quiere conseguir la mejor prediccion, el modelo elegido debe tener mayor R2

,menor sR y menor intervalo de prediccion. Con los datos del problema, el modeloelegido para cumplir con el objetivo es el modelo 3.

Page 137: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

α

α

Page 138: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

(��𝐵∙ − ��𝐶∙) − (𝜇𝐵 − 𝜇𝐶)

��𝑅√1

𝑛𝐵+

1𝑛𝐶

~ 𝑡8,𝛼/2

IC(𝜇𝐵 − 𝜇𝐶) = (��𝐵∙ − ��𝐶∙) ± ��𝑅 · 𝑡8, 0.05 · √1

𝑛𝐵+

1

𝑛𝐶

IC(𝜇𝐵 − 𝜇𝐶) = (137.70 − 145.54) ± √20.01 · 1.86 · √2

5= (−13.10, − 2.58)

𝑒𝑖𝑗 = 𝑦𝑖𝑗 − �� − ��𝑖 − ��𝑗 = 𝑦𝑖𝑗 − ��𝑖· − ��·𝑗 + ��··

Page 139: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 140: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

��𝑅2 =

275.51

60= 4.59

𝐼𝐶(𝜎2) = (𝐼𝐽(𝑚−1)·��𝑅

2

χ𝛼/22 ,

𝐼𝐽(𝑚−1)·��𝑅2

χ1−𝛼/22 ) = (3.3 6.8)

𝐼𝐶( 𝜎) = (1.8 2.6)

𝐻0: 𝜎𝐶12 = 𝜎𝐶3

2 ; 𝐻1: 𝜎𝐶12 ≠ 𝜎𝐶3

2

𝐹0 =��𝐶3

2

��𝐶12 ~ 𝐹𝑛𝐶3−1, 𝑛𝐶1−1

𝐹0 =121,53

3,391= 35.83 ~ 𝐹15,15

𝐹𝑎 = 0.35 𝑦 𝐹𝑏 =

2.86 𝐹0

Page 141: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

α

Fuente Suma de

Cuadrados

Gl Cuadrado Medio Razón-F

temp 39118,7 2 19559,4 28,97

mate 10683,7 2 5341,86 7,91

temp * mate 9613,78 4 2403,44 3,56

RESIDUOS 18230,8 27 675,213

TOTAL 77647,0 35

Tipo de

Material

1 130 155 34 40 20 70

74 180 80 75 82 58

2 150 188 136 122 25 70

159 126 106 115 58 45

3 138 110 174 120 96 104

168 160 150 139 82 60

-10ºC 20ºC 50ºC

Temperatura ºC

Tipo de

Material Medias

1

2

3

Medias 105.53144.83 107.58 64.17

83.17

155.75 119.75 49.50 108.33

144.00 145.75 85.50 125.08

Temperatura ºC

-10ºC 20ºC 50ºC

134.75 57.25 57.50

Page 142: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

α

α

Page 143: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 144: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 145: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

𝑌 = 𝑋𝛽 + 𝑈,

𝛽

𝑌 = 𝑍𝛽′ + 𝑈′

�� 𝑦 ��′ ��′ = 𝐴−1��.

Page 146: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 147: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar
Page 148: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

Cuestiones (30 minutos, 4 puntos)

1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de�nen en relación con ésta3 variables binarias Z1; Z2 y Z3, donde Z1 toma el valor 1 cuando Z es igual a A y 0 enel resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos yZ3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de laestimación del modelo Y = �0 + �1X1 + �2X2 + �2Z2 + �3Z3 + U para n = 60 datos, y dondeU es el término de error se presentan en la tabla adjunta.

Se proporciona también la matrix (X 0X)�1:

Se pide:

a) Calcular un intervalo de con�anza para �2:

b) Realiza el contraste:

H0 : �2 = �3;

H0 : �2 6= �3:

a) Sabemos queb�2��2bsR=pq22 ! tn�k�1

En este caso b�2 = 4;03478; bsR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupala posición (3,3) de la matriz Q = (X 0X)�1).

Page 149: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

�2 2 b�2 � t60�4�1;�2 �bsR�pq22, que queda:�2 2 4;03478� 2�0;9067�

p0;0056495816, ya que de tablas la t60�4�1;�=0;05

2es aproximadamente 2.

�2 2 4;03478� 0;1393�2 2 (3;8955; 4;1741)

2. Queremos contrastar:

H0 : �2 = �3;

H0 : �2 6= �3;

equivalente a contrastar:

H0 : �2 � �3 = 0;H0 : �2 � �3 6= 0:

Sabemos que b�2 ! N(�2; �pq�2) y b�3 ! N(�3; �

pq�3):

var(b�2 � b�3) = var(b�2) + var(b�3)� 2�cov(b�2; b�3) == �2q�2 + �

2q�3 � 2��2q�2;�3 == 0;90672(0;1062 + 0;1000193� 2�0;049662) == 0;90672�0;1069 = 0;0879:Si H0 cierta entonces b�2�b�3p

0;0879� t60�4�1 y como b�2�b�3p

0;0879= �4;61366�0;57922p

0;0879= �17;5151, que en valor

absoluto es claramente mayor que 2, el valor aproximado de la t60�4�1;�2:

Page 150: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en lasque han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanzasecundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,se relacionan en forma creciente con la población estudiantil en miles de estudiantes(representada por X). Es decir, que los restaurantes cercanos a centros escolares congran población tienden a generar más ventas que los que están cerca de centros conpoblación pequeña. Aplicando el análisis de regresión podremos plantear una ecuaciónque muestre cómo se relaciona la variable dependiente Y con la variable independienteX. Los datos se muestran en la tabla adjunta. Además se proporciona la bs2R = 191;25 y lacovarianza entre X e Y , cov(X;Y ) = 315;556:

Restaurante X (población estudiantes, miles) Y (ventas trimestrales)1 2 582 6 1053 8 884 8 1185 12 1176 16 1377 20 1578 20 1699 22 14910 26 202

Totales 140 1300

Se pide dar un intervalo de predicción del 95% para el promedio de venta trimestral paralos restaurantes cercanos a centros escolares con 10000 estudiantes.

La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:

yh ! N(mh;�2

n

�1 +

(xh � x)2s2x

�:

Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:

b�0 = y � b�1x = 1300

10� 5�140

10= 130� 5�14 = 60

b�1 =cov(X;Y )

var(X)=315;556

63;111= 5:

mh 2 byh � tn�k�1;�2�bsR�pvhh, donde vhh = 1

n

�1 + (xh�x)2

s2x

�= 1

60

�1 + (10�14)2

63;111

�= 1

60 (1 + 0;2535)

Entonces vhh = 0;0209:byh = b�0 + b�1�xh = 60 + 5�10 = 110:mh 2 byh � tn�k�1;�

2�bsR�pvhh

mh 2 110� 2;306�p191;25�

p0;0209 = 110� 4;6103

El intervalo para el valor promedio cuando xh = 10 (la variable explicativa está en miles), sería:

mh 2 (105;3897, 114;6103):

Page 151: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Problema

Se ha realizado un experimento para estudiar el efecto de 3 dietas sobre elpeso de los profesores de universidad. Se han elegido 4 profesores y se les hasometido a las 3 dietas.

Los resultados de reducción de peso al �nal del mes de prueba se muestranen la tabla adjunta.

Dieta 1 Dieta 2 Dieta 3 MediasProfesor 1 5,89 3,99 3,11 4,33Profesor 2 6,43 4,04 3,39 4,63Profesor 3 1,59 1,84 0,31 1,25Profesor 4 3,29 1,58 1,88 2,25Medias 4,30 2,86 2,17 3,11

1) Sabiendo que s2y = 3; 01, estudiar la dependencia de la reducción de pesorespecto de solamente la dieta, sin tener en cuenta el factor profesor. Indicarlas dietas más e�caz y menos e�caz, en caso de que sea posible.

2) Incorporar al análisis el factor profesor; comparar los resultados con losdel análisis anterior, incluyendo la selección de las dietas más y menos e�caces.¿De qué ha servido incluir el factor profesor? ¿Cuál de los dos análisis es más�able y porqué?

3) Calcular un intervalo de con�anza para la varianza del error experimentaldel modelo del apartado 2.

Solución

1)V T = 12s2y = 36; 11

V E(dieta) = 4x[(4:3� 3:11)2 + (2; 86� 3; 11)2 + (2; 17� 3; 11)2] = 9; 46

Fuente Suma de C Grados de lib. C.M. F p-valorDieta 9,46 2 4,73 1,59 0,25Residual 26,65 9 2,96Total 36,11 11

Por tanto, al ser el p-valor mayor que el valor estándar de referencia de 0,05,no resulta signi�cativo el efecto de la dieta.Para determinar la dieta más e�caz y la menos e�caz en principio se re-

alizarían los contrastes por parejas, pero al no ser signi�cativo el efecto de la

1

Page 152: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

dieta, no sería necesario. De todas formas, se presentan a continuación, porrazones pedagógicas.

H0 : �i = �jH1 : �i 6= �jt = (yi: � yj:)=bsRp(1=4) + (1=4) sigue una distribución t9 bajo H0El percentil 0,975 de la distribución t con 9 grados de libertad es 2,26Para dieta 1 frente a dieta 2; t = 1; 18 < 2; 26Para dieta 1 frente a dieta 3; t = 1; 75 < 2; 26Para dieta 2 frente a dieta 3; t = 0; 57 < 2; 26Por tanto, se con�rma que ninguna de las diferencias es signi�cativas.

2) V E(paciente) = 3x[(4:33 � 3:11)2 + (4; 63 � 3; 11)2 + (1; 25 � 3; 11)2 +(2; 25� 3; 11)2] = 23; 9

Fuente Suma de C. Grados de lib. C.M: F p-valorDieta 9,46 2 4,73 10,31 0,011Paciente 23,9 3 7,96 17,36 0,0023Residual 2,75 6 0,45Total 36,11 11

Por tanto, al ser los dos p-valores menores que el valor estándar de referenciade 0,05, resultan signi�cativos tanto el efecto de la dieta como el del paciente.

La inclusión del efecto del paciente reduce la varianza residual y aumenta laprecisión de los contrastes; por tanto, es más �able el segundo análisis que elprimero.

Para determinar la dieta más e�caz y la menos e�caz en principio se re-alizarían los contrastes por parejas.

H0 : �i = �j

H1 : �i 6= �jt = (yi: � yj:)=bsRp(1=4) + (1=4) sigue una distribución t6 bajo H0El percentil 0,975 de la distribución t con 6 grados de libertad es 2,45Para dieta 1 frente a dieta 2; t = 3; 00 > 2; 45Para dieta 1 frente a dieta 3; t = 4; 45 > 2; 45Para dieta 2 frente a dieta 3; t = 1; 45 > 2; 45

Por tanto, se puede concluir que la dieta más e�caz es la 1 pero no se puedeconcluir si la menos e�caz es la 2 o la 3.

3) V E=�2 � �26Los percentiles 0,025 y 0,975 de la distribución �2 con 6 grados de libertad

son 1,23 y 4,45

P (�26;0;025 < V E=�2 < �26;0;975) = 0; 95

Transformando las dos desigualdades anteriores, se obtiene que el intervalode con�anza es (0,19,2,22)

2

Page 153: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

Cuestiones (30 minutos, 4 puntos)

1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de�nen en relación con ésta3 variables binarias Z1; Z2 y Z3, donde Z1 toma el valor 1 cuando Z es igual a A y 0 enel resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos yZ3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de laestimación del modelo Y = �0 + �1X1 + �2X2 + �2Z2 + �3Z3 + U para n = 60 datos, y dondeU es el término de error se presentan en la tabla adjunta.

Se proporciona también la matrix (X 0X)�1:

Se pide:

a) Calcular un intervalo de con�anza para �2:

b) Realiza el contraste:

H0 : �2 = �3;

H0 : �2 6= �3:

a) Sabemos queb�2��2bsR=pq22 ! tn�k�1

En este caso b�2 = 4;03478; bsR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupala posición (3,3) de la matriz Q = (X 0X)�1).

Page 154: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

�2 2 b�2 � t60�4�1;�2 �bsR�pq22, que queda:�2 2 4;03478� 2�0;9067�

p0;0056495816, ya que de tablas la t60�4�1;�=0;05

2es aproximadamente 2.

�2 2 4;03478� 0;1393�2 2 (3;8955; 4;1741)

2. Queremos contrastar:

H0 : �2 = �3;

H0 : �2 6= �3;

equivalente a contrastar:

H0 : �2 � �3 = 0;H0 : �2 � �3 6= 0:

Sabemos que b�2 ! N(�2; �pq�2) y b�3 ! N(�3; �

pq�3):

var(b�2 � b�3) = var(b�2) + var(b�3)� 2�cov(b�2; b�3) == �2q�2 + �

2q�3 � 2��2q�2;�3 == 0;90672(0;1062 + 0;1000193� 2�0;049662) == 0;90672�0;1069 = 0;0879:Si H0 cierta entonces b�2�b�3p

0;0879� t60�4�1 y como b�2�b�3p

0;0879= �4;61366�0;57922p

0;0879= �17;5151, que en valor

absoluto es claramente mayor que 2, el valor aproximado de la t60�4�1;�2:

Page 155: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar

Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016

3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en lasque han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanzasecundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,se relacionan en forma creciente con la población estudiantil en miles de estudiantes(representada por X). Es decir, que los restaurantes cercanos a centros escolares congran población tienden a generar más ventas que los que están cerca de centros conpoblación pequeña. Aplicando el análisis de regresión podremos plantear una ecuaciónque muestre cómo se relaciona la variable dependiente Y con la variable independienteX. Los datos se muestran en la tabla adjunta. Además se proporciona la bs2R = 191;25 y lacovarianza entre X e Y , cov(X;Y ) = 315;556:

Restaurante X (población estudiantes, miles) Y (ventas trimestrales)1 2 582 6 1053 8 884 8 1185 12 1176 16 1377 20 1578 20 1699 22 14910 26 202

Totales 140 1300

Se pide dar un intervalo de predicción del 95% para el promedio de venta trimestral paralos restaurantes cercanos a centros escolares con 10000 estudiantes.

La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:

yh ! N(mh;�2

n

�1 +

(xh � x)2s2x

�:

Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:

b�0 = y � b�1x = 1300

10� 5�140

10= 130� 5�14 = 60

b�1 =cov(X;Y )

var(X)=315;556

63;111= 5:

mh 2 byh � tn�k�1;�2�bsR�pvhh, donde vhh = 1

n

�1 + (xh�x)2

s2x

�= 1

60

�1 + (10�14)2

63;111

�= 1

60 (1 + 0;2535)

Entonces vhh = 0;0209:byh = b�0 + b�1�xh = 60 + 5�10 = 110:mh 2 byh � tn�k�1;�

2�bsR�pvhh

mh 2 110� 2;306�p191;25�

p0;0209 = 110� 4;6103

El intervalo para el valor promedio cuando xh = 10 (la variable explicativa está en miles), sería:

mh 2 (105;3897, 114;6103):

Page 156: Disen˜o de Experimentos - UPM · Disen˜o de Experimentos 12deabrilde2012 Problema (45 minutos, 6 puntos) En un estudio realizado en la Universidad Virginia Tech, se desea comprobar