Practica 2

20

Click here to load reader

description

Practica 2

Transcript of Practica 2

Page 1: Practica 2

Práctica 2

Prácticas y problemas de diseñode experimentos de una vía.

2.1 Problemas de diseño de experimentos de una vía conordenador.

Problema 2.1.“Una fábrica de herramientas desea comprobar si la resistencia de unas piezas mecáni-

cas que le proporcionan cuatro suministradores diferentes depende del suministrador. Paraello recoge una muestra aleatoria de cada suministrador y somete a cada una de las piezasa una prueba de resistencia que consiste en observar el número de veces que soporta unapresión hasta estropearse. Los resultados del experimento son los de la tabla adjunta:

Sumin. A Sumin. B Sumin. C Sumin. DResistencia 205 242 242 212 237 242 212 233

229 225 253 224 259 234 244 224

238 209 226 247 265 235 229 245

214 204 219 242 229 250 272 215

251 220 218 220 255 240

262 240

Desarrollo del Problema 2.1.Utilizando el Statgraphics se siguen los siguientes pasos.

1. Crear un fichero con los datos del problema. El fichero tendrá seis variables: cuatrovariables con los datos de cada suministrador, una variable con todos los datos dela variable respuesta (resistencia) y la variable del factor (suministrador).

2. Hacer un estudio descriptivo analítico y gráfico de la variable resistencia según elfactor resistencia. Se utiliza el módulo

describe > numeric data > subset analysis.

11

Page 2: Practica 2

12 web www.udc.es/dep/mate/estadistica2. Juan Vilar

Observar los estadísticos básicos de cada grupo y de la tabla de medias. Observarcon atención los siguientes gráficos: gráfico de puntos de la variable respuesta frenteal factor, gráfico de medias de los grupos, gráfico de las desviaciones típicas de losgrupos y el gráfico de cajas múltiple. Obtener conclusiones.

3. El estudio de la influencia del factor y la construcción de la tabla ANOVA se haceen el módulo

compare > analysis of variance > one-way anova

Este módulo permite realizar un estudio completo del problema. Se pueden realizarlos siguientes análisis:

- Hacer un estudio descriptivo análogo al del apartado anterior.

- Construir la tabla ANOVA y contrastar la influencia del factor.

- Calcular intervalos de confianza para las medias de grupos.

- Hacer contrastes múltiples por diferentes métodos.

- Contrastar la hipótesis de homocedasticidad.

- Hacer el contraste no paramétrico de Krustal-Wallis sobre la influencia del factor.

- Dibujar gráficos descriptivos análogos a los del apartado anterior.

- Dibujar diferentes gráficos de residuos para contrastar las hipótesis básicas.

4. Se guardan los residuos en una variable (también es conveniente guardar los residuosestandarizados).

5. Con el estudio realizado ya se puede tener un conocimiento razonable acerca delcumplimiento o no de las hipótesis básicas. En todo caso un análisis más detalladosobre este particular se obtiene como sigue:

Hipótesis de normalidad: el módulo

describe > distribution > distribution fitting

proporciona diferentes contrastes de normalidad y gráficos que ayudan a estudiarla hipótesis de normalidad (gráfico de simetría, histograma, empírica y densidadteórica, gráfico Q−Q).

El gráfico de normalidad se obtiene en

plot > exploratory plot > normal probability plot.

6. Hipótesis de homocedasticidad: el módulo one-way anova proporciona di-ferentes contrastes de homocedasticidad (Cochran, Bartlett, Hartley y Levene) ydiferentes gráficos donde se puede contrastar esta hipótesis. Trabajando con lavariable de residuos se puede hacer el contraste de Romero-Zúnica (tabla ANOVAde un factor donde la variable respuesta es la de residuos al cuadrado) y el gráficode cajas múltiple de los residuos frente al factor.

Page 3: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 13

7. Detectar datos atípicos: se utiliza el módulo

describe > numeric data > outlier identification

en el que se presentan diferentes métodos numéricos y gráficos para detectar datosatípicos entre los residuos.

8. Hipótesis de independencia: considerando la variable de residuos como una seriede tiempo se puede estudiar la independencia de la misma en el módulo

special > time-series analysis > descriptive methods

que permite obtener la función de autocorrelación (f.a.s.), los contrastes de rachas yel contraste de Box-Pierce (Box-Ljung), también se presentan las gráficas de residuosfrente al índice y el correlograma.

Si se considera que los residuos tienen mucha variabilidad se puede obtener una seriesuavizada de los mismos utilizando los métodos de “medias móviles” en el módulo

special > time-series analysis > smoothing.

Problema 2.2.“El fichero problema-2-2 contiene datos de una muestra de 155 coches. En base a

esta muestra, estudiar:

1. La influencia del factor “origen de los coches” (origin) en la variable de interés“inversa del consumo” (mpg: millas por galón).

2. La influencia del “año de fabricación” (year) en la variable de interés “aceleraciónde los coches” (accel).

3. La influencia del “año de fabricación” (year) en el “precio de los coches” (price).”

2.2 Contrastes de hipótesis no paramétricas.

Problema 2.3.“Durante la segunda guerra mundial se dividió el mapa de Londres en cuadrículas de

1/4 Km2 y se contó el número de bombas caídas en cada cuadrícula durante un bombardeoalemán. Los resultados obtenidos fueron los siguientes:

xi : impactos en la cuadrícula 0 1 2 3 4 5oi : frecuencia observada 229 211 93 35 7 1

A partir de estos datos deducir si el bomardeo se hacía de forma aleatoria o se perseguíaun determinado objetivo militar”

Solución al Problema 2.3.

Del contexto de los datos parece razonable intentar ajustar una distribución de Poisson.

Page 4: Practica 2

14 web www.udc.es/dep/mate/estadistica2. Juan Vilar

Se estima el parámetro λ

λ = x =

PxioiPoi

=0 · 229 + 1 · 211 + 2 · 93 + 3 · 35 + 4 · 7 + 5 · 1

229 + 211 + 93 + 35 + 7 + 1

=535

576= 00929.

Se calculan las probabilidades teóricas

pi = P (X = xi) =e−λ λ

xi

xi!.

Se obtiene la tabla del contraste chi cuadrado de ajuste de una distribución

xi pi Ei = pi · 576 Oi(Ei −Oi)2

Ei0 00395 227052 229 0001

1 00367 211 211 0000

2 00170 98 93 0026

3 00053 30 35 0083

4 00012 7 7 0000

5 00003 107 1 0029

Q = 1039

En la Figura 2.1. se representa la distribución ajustada.

-0,5 0,5 1,5 2,5 3,5 4,5 5,50

40

80

120

160

200

240

Figura 2.1. Histograma y distribución de Poisson ajustado.

Bajo la hipótesis nula (la variable en estudio es de Poisson) el estadístico Q sigue unadistribución con 6-1-1 grados de libertad, de donde

p− valor = 1− P³χ2

4 < 1039´

= 1− 00154 = 00846.

Page 5: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 15

Se acepta la hipótesis de que la distribución de la variable en estudio es de Poisson.

Problema 2.4.“Se ha observado el tiempo de funcionamiento de diez impresoras de un determinado

modelo antes de tener la primera avería, los datos se han tomado con unidad cien horasde funcionamiento. Una vez ordenada la muestra de menor a mayor, los resultados sonlos de la tabla adjunta:

1069 2099 3003 3068 4070 7032 9072 15087 16016 18039

En base a estos datos ajustar una distribución utilizando el contraste de Kolmogorov-Smirnov”.

Solución al Problema 2.4:

Por el contexto del problema es razonable suponer que las observaciones siguen unadistribución exponencial. La función de densidad es

f (x) = λe−λx si x > 0

y, la función de distribución es

F (x) = P (X ≤ x) = 1− e−λx si x > 0.

Se estima el parámetro λ =1

E (X),

λ =1

x=

1

80355= 001197.

Se calcula la tabla del contraste K-S:

xi F (xi) Fn (xi−1) Fn (xi) D (xi)

1069 00183 0000 0010 00183

2099 00301 0010 0020 00201∗

3003 00304 0020 0030 00104

3068 00356 0030 0040 00056

4070 00430 0040 0050 00070

7032 00584 0050 0060 00084

9072 00688 0060 0070 00088

15087 00850 0070 0080 00150

16016 00855 0080 0090 00055

18039 00889 0090 1000 00111

KS = 00201

Page 6: Practica 2

16 web www.udc.es/dep/mate/estadistica2. Juan Vilar

En la tabla KS se observa que al valor KS = 00201 le corresponde un p−valor = 0081.

Se acepta la hipótesis de que las observaciones siguen una distribución exponencial.

Problema 2.5.“El ordenador DEC-20 era utilizado en las universidades americanas en la década de

los ochenta. Los datos de la tabla adjunta indican el número de averías que tenía unode estos ordenadores en 128 semanas consecutivas de funcionamiento. ¿Se puede ajustara estos datos una distribución de Poisson? En caso negativo proponer una distribuciónalternativa (los datos están en el fichero problema-2-5)”.

4 0 0 0 3 2 0 0 6 76 2 1 11 6 1 2 1 1 20 2 2 1 0 12 8 4 5 05 4 1 0 8 2 5 2 1 128 9 10 17 2 3 4 8 1 25 1 2 2 3 1 2 0 2 16 3 3 6 10 11 4 3 0 2

4 2 1 5 3 3 2 5 31 3 6 4 4 5 2 10 45 6 9 7 3 1 3 0 21 4 2 13 0 2 1 1 0

16 22 5 1 2 4 7 8 63 0 4 7 8 4 4 5 41 2 3 11

Problema 2.6.“Los datos de la tabla adjunta indican los tiempos, en segundos, que tarda en realizar

una operación un cajero automático de una entidad bancaria (los datos están en el ficheroproblema-2-6).

1703 1804 2009 1608 1807 2005 1709 2004 1803 20051900 1705 1801 1701 1808 2000 1901 1901 1709 18031802 1809 1904 1809 1904 2008 1703 1805 1803 19041900 1900 2005 1907 1805 1707 1904 1803 1906 21041900 2005 2004 1907 1806 1909 1803 1908 1906 19002004 1703 1601 1902 1906 1808 1903 1901 2100 18061803 1803 1807 2006 1805 1604 1702 1705 1800 19051909 1804 1808 2001 2000 1805 1705 1805 1709 17041807 1806 1703 1808 1708 1900 1906 1903 1801 18052009 1908 1801 1701 1908 2006 1706 1901 1905 18041707 2002 1909 1806 1606 1902 2000 1704 1701 18031901 1805 1906 1800 1904 1701 1909 1603 1809 20071907 1805 1804 1807 1903 1603 1609 1802 1805 19031801 1800 1905 2003 2001 1702 1905 1808 1902 1707

1. Hacer un estudio descriptivo de estos datos.

2. ¿Puede suponerse que estos datos siguen una distribución normal?

Page 7: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 17

3. Los datos de la muestra han sido recogidos de forma consecutiva durante un día,¿puede suponerse que son independientes? ”.

Problema 2.7.“En la tabla adjunta se presentan los datos del tiempo transcurrido, en días, entre

dos terremotes ocurridos en algún lugar. Se consideran los terremotos con una magnitudsuperior a 705 grados en la escala Richter o en el que murieron más de 1.000 personas. Losdatos se recogían entre el 16 de Diciembre de 1902 y el 4 de Marzo de 1977. En base aestos datos, ¿los terremotos ocurren de forma aleatoria?, ¿el tiempo entre dos terremotos sepuede ajustar por una distribución exponencial?, (los datos están en el fichero problema-2-7)”

840 157 145 144 33 121 150 280 434

736 584 887 263 1901 695 294 562 721

76 710 46 402 194 759 319 460 40

1336 335 1354 454 36 667 40 556 99

304 375 567 139 780 203 436 30 384

129 9 209 599 83 832 328 246 1617

638 937 735 38 365 92 82 220

2.3 Problemas resueltos de diseño de experimentos de unavía.

Problema 2.8. (Diseño de experimentos con un factor fijo)“Un campus universitario tiene cuatro facultades. Se quiere estudiar la variable tiempo

que tarda un alumno en hacer una consulta en la base de datos de la biblioteca de sufacultad. Para ello se ha recogido una muestra aleatoria cuyos resultados son los de latabla adjunta. Analizar estos datos y estudiar la influencia del factor facultad en la variablede interés”.

Arquitectura Informática Derecho Caminos48 37 24 18 37 43 19 1331 29 16 6 40 40 26 2131 24 22 24 51 35 31 2636 38 10 30 49 33 13 2439 41 25 24 36 39 12 12

11 15 24 55 16 2135 40 3026

Page 8: Practica 2

18 web www.udc.es/dep/mate/estadistica2. Juan Vilar

Solución al Problema 2.8.

La media y desviación típica de cada una de las facultades y del total es:

µ = y·· =1

n

Xijyij = 28052

s2Y =

1

n

Xijy2ij −

µ1

n

Xijyij

¶2

=

= 94604− 280522 = 1330096

⇒ sY =√

1330096 = 110537 (desviación típica muestral)

s2Y =

50

49s2Y =

50

491330096 = 1350812

⇒ sY =√

1350812 = 110654 (cuasi-desviación típica muestral)

La suma de cuadrados global es:

scG =X

ij(yij − y··)2 = 665408

En cada grupo se obtiene

Facultad Media Cuasi-Varianza Cuasi-Desviación típicaArquitectura y1· = 3504 s2

1 = 46093 s1 = 6085

Informática y2· = 18075 s22 = 52075 s2 = 7026

Derecho y· = 38087 s23 = 70098 s3 = 8042

Caminos y4· = 20031 s24 = 46006 s4 = 6079

TOTAL y·· = 28052 s2Y = 135081 sY = 11065

El contraste sobre la influencia del factor “facultad” es(H0 : µ1 = µ2 = µ3 = µ4

H1 : existen medias diferentes

)

A la vista de los resultados sobre la media del cuadro anterior se puede intuir que seva a rechazar H0 y, por tanto, el factor “facultad” influye en la variable de interés.

Se calcula la tabla ANOVA. Teniendo en cuenta que la predicción en cada facultadcoincide con la media condicionada:

Predicciones µ1 = y1· = 3504 µ2 = y2· = 18075

µ3 = y3· = 38087 µ4 = y4· = 20031

Page 9: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 19

La suma de cuadrados explicada por el factor

scT (facultad) =4Xi=1

niXj=1

(yi· − y··)2

=4Xi=1

ni (yi· − y··)2 =

= 10¡3504− 28052

¢2+ 12

¡18075− 28052

¢2+

+15¡38087− 28052

¢2+ 13

¡20031− 28052

¢2= 4.101033.

La suma de cuadrados residual

scR = scG− scT = 6.65408− 4.101033 = 2.553047

También se puede calcular scR directamente a partir de los residuos (siempre los hayque calcular para contrastar las hipótesis básicas),

scR =Xij

e2ij =

Xij

(yij − yi·)2 =

=¡48− 3504

¢2+ . . .+

¡41− 3504

¢2+¡24− 18075

¢2+ . . .+

¡15− 18075

¢2+¡

37− 38087¢2

+ . . .+¡40− 38087

¢2+¡19− 20031

¢2+ . . .+

¡13− 20031

¢2= 2.553047.

La tabla ANOVA es

Tabla ANOVASuma de cuad. Gr. lib. Varianzas F p− valor

scT 4101033 3 s2e = 1367011 24062 000000

scR 2553047 46 s2R = 55051

scG 665408 50 s2Y = 135081

Se rechaza H0 para cualquier valor de α > 000001 y se concluye que el factor “facul-tad” es significativo.

Intervalos de confianza al 90% para los diferentes parámetros del modelo:

� Intervalo de confianza para la varianza: σ2

(n− I) s2R

σ2=

46 · 55051

σ2∼ χ46 =⇒

31044 = χ46

¡0005

¢ ≤ 46 · 55051

σ2≤ χ46

¡0095

¢= 62083 =⇒

40064 =2553046

62083≤ σ2 ≤ 2553046

31044= 81022

� Intervalo de confianza para σ : 6037 ≤ σ ≤ 9001

Page 10: Practica 2

20 web www.udc.es/dep/mate/estadistica2. Juan Vilar

� Intervalo de confianza para µi

µi − yi·ss2R

ni

∼ tn−I =⇒ µ1 − 3504p55051/10

=µ1 − 3504

2036∼ t46 =⇒

−1068 = t46¡0005

¢ ≤ µ1 − 35042036

≤ t46¡0095

¢= 1068 =⇒

µ1 ∈ 3504± 2036 · 1068 = 3504± 3096 =¡31044, 39036

¢.

De forma análoga se obtienen intervalos de confianza para las otras medias,

IC (µ2) = (16020, 21030) IC (µ3) = (36059, 41015) IC (µ2) = (17086, 22076)

� Intervalo de confianza para la diferencia de medias. Se hace para µ1 − µ2

(µ1 − µ2)− (y1· − y2·)

sR

s1

n1+

1

n2

∼ tn−I =⇒

(µ1 − µ2)− (3504− 18075)

7045

r1

10+

1

12

=(µ1 − µ2)− 16065

7045 · 00428=

(µ1 − µ2)− 16065

3019∼ t46 =⇒

−1068 = t46¡0005

¢ ≤ (µ1 − µ2)− 16065

3019≤ t46

¡0095

¢= 1068

(µ1 − µ2) ∈ 16065± 3019 · 1068 = 16065± 5036 =¡11029, 22001

¢.

Puede considerarse que existe una diferencia significativa entre la media de Arqui-tectura y la media de Informática.

Haciendo todos los intervalos de confianza para la diferencias de medias se obtienendos grupos homogéneos:

Grupo 1: Informática y Caminos

Grupo 2: Arquitectura y Derecho.

En las siguientes figuras se representan tres gráficas que ayudan a entender que existeinfluencia del factor “facultad” y que los residuos verifican las hipótesis estructurales:

- Figura 2.2. Gráfico de cajas múltiple para los datos del problema según el factor.

- Figura 2.3. Gráfico de medias condicionadas con int. confianza según el factor.

Page 11: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 21

- Figura 2.4. Gráfico de residuos del modelo frente a predicciones.

facu

ltad

1

2

3

4

0 10 20 30 40 50 60

Figura 2.2. Gráfico de cajas múltiple.

Means and 90,0 Percent LSD Intervals

1 2 3 416

21

26

31

36

41

46

Figura 2.3. Gráfico de medias condicionadas.

resi

dual

predicted

-17

-7

3

13

23

18 22 26 30 34 38 42

Figura 2.4. Gráfico de residuos frente a predicciones.

Page 12: Practica 2

22 web www.udc.es/dep/mate/estadistica2. Juan Vilar

Problema 2.9. (Diseño de experimentos con un factor aleatorio).“En una empresa de montaje trabajan 135 operarios que realizan un determinado

trabajo (T). La dirección de la empresa está interesada en conocer si influye el factor“operario” en la variable “tiempo de realización del trabajo T”. Para ello se eligen cincooperarios al azar y se controla el tiempo en minutos que tardan en realizar el trabajo Ten diez ocasiones.

Los resultados del experimento son los de la tabla adjunta. ¿Qué conclusiones sededucen de este experimento?”

Oper.1 Oper.2 Oper.3 Oper.4 Oper.572 71 75 77 78 77 69 68 65 6475 75 70 72 79 80 65 67 60 6271 73 77 78 84 83 61 63 63 6469 69 73 73 72 71 75 76 68 6967 65 79 69 83 85 70 72 70 62

Solución al Problema 2.9.

Es un diseño de experimentos con un factor (el factor “operario”) que es aleatorio.Las medias y cuasi-desviaciones típicas en cada grupo (operario) son

Operador Media Cuasi-Varianza Cuasi-Desviación típicaOperador 1 y1· = 7007 s2

1 = 10068 s1 = 3027

Operador 2 y2· = 7403 s22 = 11079 s2 = 3043

Operador 3 y3· = 7902 s23 = 23051 s3 = 4085

Operador 4 y4· = 6806 s24 = 23082 s4 = 4088

Operador 5 y5· = 6407 s25 = 1009 s5 = 3030

TOTAL y·· = 7105 s2Y = 39080 sY = 6031

De donde

scG =X

ij(yij − y··)2 = 1.95005.

En este caso el modelo matemático es

yij = µ+ Ti + εij , Ti ∼ N³0,σ2

T

´, εij ∼ N

³0,σ2

´El objetivo es la realización del contraste:(

H0 : σ2T = 0 (⇒ µ1 = µ2 = µ3 = µ4)

H1 : existe variabilidad debida al factor

)

Las predicciones son

Predicciones µ1 = 7007 µ2 = 7403 µ3 = 7902 µ4 = 6806 µ5 = 6407

Page 13: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 23

Cálculo de la suma de cuadrados explicada por el factor

scT (operador) =5Xi=1

niXj=1

(yi· − y··)2

=4Xi=1

ni (yi· − y··)2 =

= 10

"(7007− 7105)2 + (7403− 7105)2 + (7902− 7105)2 +

+ (6806− 7105)2 + (6407− 7105)2

#

= 1.22402.

Finalmente se obtiene

scR = scG− scT = 1.95005− 1.22402 = 72603.

La tabla ANOVA es

Tabla ANOVASuma de cuad. Gr. lib. Varianzas F p− valor

scT 1.22402 4 s2T = 306005 18096 000000

scR 72603 45 s2R = 16014

scG 1.95005 50 s2Y = 39001

Se rechaza H0 para cualquier valor de α > 000001 y se concluye que el factor “ope-rador” es significativo, esto es, hay variabilidad entre los diferentes operadores.

Estimación de las varianzas del modelo: s2R

E (SCMR) = σ2 ⇒ σ2 = s2R = 16014.

E (SCMT ) = σ2 + cσ2T

⇒ σ2T =

s2T − s2

R

c=

306005− 16014

10= 28099.

σ2Y = σ2 + σ2

T ⇒ σ2Y = σ2 + σ2

T = 16014 + 28099 = 45013.

Al igual que en el problema anterior las siguientes gráficas ayudan a comprender einterpretar la resolución del problema:

Figura 2.5. Gráfico de cajas múltiple para los datos del problema según el factor.

Figura 2.6. Gráfico de medias condicionadas con intervalos de confianza según el factor.

Figura 2.7. Gráfico de residuos frente a predicciones.

Page 14: Practica 2

24 web www.udc.es/dep/mate/estadistica2. Juan Vilar

tiempo

oper

ario

1

2

3

4

5

60 65 70 75 80 85

Figura 2.5. Gráfico de cajas múltiple.

Means and 90,0 Percent LSD Intervals

operario

tiem

po

1 2 3 4 563

66

69

72

75

78

81

Figura 2.6. Gráfico de medias condicionadas.

-9

-6

-3

0

3

6

9

resi

dual

64 68 72 76 80

predicted tiempo

Figura 2.7. Gráfico de residuos frente a predicciones.

Page 15: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 25

2.4 Problemas propuestos de diseño de experimentos de unavía.

Problema 2.10.“Se ha estudiado el contenido en plata (tanto por ciento de plata) de monedas de

Bizancio descubiertas en Chipre. Nueve de las monedas eran de la Epoca I, en el reinadodel Rey Manuel I (1143-1180), siete monedas eran de la Epoca II, cuatro de la Epoca III ysiete de la Epoca IV. En base a estos datos ¿existen diferencias significativas del contenidode plata en las monedas según las diferentes épocas? En particular, ¿existe una diferenciasignificativa del contenido en plata de las monedas del reinado del Rey Manuel I con lasotras épocas?

Epoca I 509 608 604 700 606 707 702 609 602Epoca II 609 900 606 801 903 902 806Epoca III 409 505 406 405Epoca IV 503 506 505 501 602 508 508

Problema 2.11.“En la tabla adjunta se presentan los tiempos, en segundos, de coagulación de la sangre

extraída a 40 animales alimentados con cuatro dietas distintas (A, B, C, D). El muestreose ha realizado de forma que las dietas se han asignado al azar y las muestras de sangrefueron extraídas y analizadas en orden aleatorio. En base a estos datos ¿hay evidenciassuficientes que indiquen la existencia de diferencias reales entre los valores medios de lasdistintas dietas?

Analizar los residuos. En particular se tienen dudas acerca de las hipótesis de norma-lidad y homocedasticidad”

Dieta A Dieta B Dieta C Dieta D6208 6305 6301 687 6800 6805 5602 63076003 6102 6703 6209 6602 7002 6204 59096309 7100 6908 7108 6503 6003 58005902 6408 6405 6701 6405 6105 62026008 6505 6807 6308 60026401 6605 6806 6404 6303

Problema 2.12.“Un departamento universitario desea contrastar si en los resultados de los alumnos

en el aprendizaje de una asignatura influye el profesor que la imparte. Para ello se eligenaleatoriamente muestras de alumnos de los cuatro profesores que imparten la asignatu-ra: Juan, Luis, Pedro y Pablo, para que realizen un examen obteniendo los siguientesresultados en una puntuación de 0 a 80. ¿Qué conclusiones se deducen?”.

Page 16: Practica 2

26 web www.udc.es/dep/mate/estadistica2. Juan Vilar

Juan 40 26 40 14 36 9 22 40 45 28

Luis 23 52 68 54 31 57 50 37 67 61

Pedro 57 45 47 30 48 24 24 17 39 8

Pablo 48 24 6 61 45 38 32 27 36 42

Problema 2.13.“Se sabe que el dióxido de carbono tiene un efecto crítico en el crecimiento biológico.

Cantidades pequeñas de CO2 estimulan el crecimiento de muchos organismos, mientrasque altas concentraciones inhiben el crecimiento de la mayor parte de ellos. Este últimoefecto se utiliza comercialmente cuando se almacenan productos alimenticios perecederos.Se realizó un estudio para investigar el efecto de CO2 sobre la tasa de crecimiento delPseudomonasfragi, un corruptor de alimentos. Se administró CO2 a cinco presiones at-mosféricas diferentes. La respuesta anotada es el cambio porcentual en la masa celulardespués de un tiempo de crecimiento de una hora. Se utilizaron diez cultivos en cada ni-vel, obteniéndose los datos de la tabla adjunta. ¿Qué conclusiones se deducen del estudioestadístico de estos datos?

Los resultados del experimento se presentan en la tabla adjunta.”

Nivel del factor, presión en atmósferas de CO2

00000 00083 00290 00500 00860

6206 6406 5009 5004 4505 3805 2905 2401 2409 22015906 5009 4403 3502 4101 3002 2208 2206 1702 22066405 5602 4705 4909 2908 2700 1902 3207 708 16085903 5203 4905 4206 3803 4000 2006 2404 1005 15095806 6208 4805 4106 4002 3309 2902 2906 1708 808

Problema 2.14.“Una empresa de enlatado decide comprar nuevas máquinas y dispone de cuatro ofer-

tas. Antes de elegir decide realizar una prueba para saber si las cuatro máquinas ofertadaspueden producir la misma cantidad de unidades por hora. Para ello, observa la producciónde las cuatro máquinas y observa los resultados que se reflejan en la tabla adjunta. ¿Quéconclusiones se deducen de este experimento?”

maq.A maq.B maq.C maq.D89 88 97 94

84 77 92 79

81 87 87 85

87 92 89 84

79 81 80 88

Page 17: Practica 2

Prácticas y problemas de diseño de experimentos de una vía. 27

Problema 2.15.“Una cadena de supermercados desea determinar si los empleados de caja, que se

supone tienen un mismo nivel de capacidad, tardan el mismo tiempo en atender a losclientes. Para ello, se han seleccionado cinco empleados al azar y se ha observado eltiempo que han tardado en atender a los clientes. Los resultados son los de la tablaadjunta,

Cajero.1. Cajero.2. Cajero.3. Cajero. 4. Cajero.5.7008 8099 6088 11087 7008 8088 9060 9055 8028 5090

7088 8008 9056 8073 6007 5020 10057 5051 6026 7004

10014 4009 7001 9063 3018 2093 5068 6046 12066 9082

11015 5051 14041 12040 6035 6013 5046 6073 9033 11096

8067 11013 9057 14037 3050 3086 10032 8096 8004 7076

12073 11012 11090 7001 10079 6010 7048 8061

6064 8035 12047 5050

5008 4014

En base a estos datos:

1. Escribir el modelo matemático adecuado al problema. ¿Cuál es la hipótesis nula acontrastar?

2. Calcular la tabla ANOVA. Contrastes relacionados. Conclusiones.

3. Calcular el coeficiente de determinación.

4. Analizar los residuos del modelo.

Problema 2.16.“Los datos de la tabla adjunta indican la salinidad (partes por mil) de diferentes

muestras tomadas en el lago Binimi (Bahamas) en tres zonas diferentes, elegidas de formaaleatoria entre toda la extensión del lago. En base a estos datos, ¿se puede afirmar que lasalinidad en el lago es constante?”

Zona I Zona II Zona III37054 37032 37063 40017 40079 39004 38053 38051

37001 37001 36075 40080 40044 39021 38071 40008

36071 37003 37045 39076 39079 39005 38089

37003 37070 38085 39070 39038 38024 38066

Problema 2.17.“Los datos de la tabla adjunta indican el peso de los depósitos de corcho de 28 árboles

en cada una de las direcciones: norte, sur, este y oeste. Se quiere contrastar la hipótesisde que las medias de los pesos son iguales en todas las direcciones.

Page 18: Practica 2

28 web www.udc.es/dep/mate/estadistica2. Juan Vilar

1. Hacer un estudio descriptivo de cada una de las cuatro variables.

2. Calcular la tabla ANOVA. Conclusiones.

3. Análisis de los residuos.

4. Calcular intervalos de confianza para las medias y para la diferencia de medias.

5. ¿Se ha elegido la muestra de forma conveniente? Proponer un muestreo alternativo.

6. ¿Sería razonable utilizar un modelo de bloques? En caso afirmativo ¿cómo serecogería la muestra? ¿Con el nuevo modelo cambian las conclusiones?”

Norte Este Sur Oeste72 66 76 77

60 53 66 63

56 57 64 58

41 29 36 38

32 32 35 36

30 35 34 26

39 39 31 27

42 43 31 25

37 40 31 25

33 29 27 36

32 30 34 28

63 45 74 63

54 46 60 52

47 51 52 43

Norte Este Sur Oeste91 79 99 75

56 68 47 50

79 65 70 61

81 80 68 58

78 55 67 60

46 38 37 38

39 35 34 37

32 30 30 32

60 50 67 54

35 37 48 39

39 36 39 31

50 34 37 40

43 37 39 50

48 54 57 43

Problema 2.18.“Un ingeniero civil está interesado en determinar si cuatro métodos diferentes para

estimar la frecuencia de inundaciones producen estimaciones equivalentes del flujo máximo,medido en pies cúbicos por segundo, cuando se aplican a una misma cuenca. Cada pro-cedimiento se evaluó seis veces en la misma cuenca y las observaciones son las de la tablaadjunta. Realizar el análisis estadístico y comprobar la heterocedasticidad de los residuos.¿Qué transformación es más apropiada para conseguir varianza constante?”.

Método 1 0034 0012 1023 0070 1075 0012

Método 2 0091 2094 2014 2036 2086 4055

Método 3 6031 8037 9075 6009 9082 7024

Método 4 17015 11082 10095 17020 14035 16082

Page 19: Practica 2

Prácticas y problemas de diseño de experimentos. 29

Problema 2.19.“Interesa determinar el efecto de cambiar el número de revoluciones por minuto (rpm)

de una bomba rotatoria que impulsa un líquido por un circuito. Las rpm se controlandirectamente mediante el tacómetro situado en la consola de la bomba. La tasa de corrientedel fluído se mide en litros por minuto. Se seleccionan 5 niveles equiespaciados de rpm:10, 75, 100, 125 y 150 rpm (codificados respectivamente del 1 al 5). Los resultados de lasobservaciones se recogen en el fichero problema-2-19. En base a estos datos:

1. Calcular la tabla ANOVA y contrastar la hipótesis “el número de rpm no afecta ala tasa de corriente del líquido”.

2. Conclusiones del estudio.

3. Calcular un intervalo de confianza para la varianza al 90%”.

Problema 2.20.“El fichero problema-2-20 contiene variables que representan conjuntos de residuos

obtenidos al ajustar un diseño de experimentos de un factor con cinco niveles (se tienenveinte observaciones en cada nivel). Analizar cada uno de estos conjuntos de residuos yestudiar si verifican las hipótesis estructurales del modelo”.

Page 20: Practica 2

30 web www.udc.es/dep/mate/estadistica2. Juan Vilar