Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014...

6
Estad´ ıstica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice diferentes cuadernillos para responder a cada uno de los ejercicios Indique claramente en cada cuadernillo su nombre, n´ umero de orden en el grupo y grupo reducido de clase 1. (3 puntos) Se ha escogido una muestra aleatoria de 10 hogares con calefacci´ on de gas en una cierta zona. Se han recogido mediciones del consumo de gas (en euros) durante el mes de Enero para cada hogar, obteni´ endose los valores siguientes: 103 156 118 89 125 147 122 109 138 99 Se supone que dichas observaciones siguen una distribuci´ on normal. a ) (0,5 puntos) Si π denota la proporci´ on de todos los hogares en la zona con un consumo superior a 110 euros en Enero, calcule una estimaci´ on puntual para π empleando un estimador insesgado. Se han a˜ nadido datos de 5 hogares adicionales y se ha obtenido la siguiente informaci´ on de Excel para la muestra ampliada: b ) (0,5 puntos) Obtenga un intervalo de confianza al 95% para la desviaci´ on t´ ıpica del consumo de gas en el mes de Enero. Interprete el resultado. c ) (1 punto) Sobre la base de la informaci´ on de esta muestra ampliada se desea estudiar si los hogares de esta zona consumen en promedio menos de 130 euros durante el mes de Enero. Lleve a cabo un contraste de hip´ otesis para determinar si existe suficiente evidencia que soporte esta hip´ otesis. Indique sus supuestos, calcule el p-valor asociado con este contraste e indique su conclusi´ on para un nivel de significaci´ on del 5 %. d ) (0,5 puntos) ¿Qu´ e cambiar´ ıa si se quisiera llevar a cabo el contraste a un nivel de significaci´ on del 1 %? ¿Por qu´ e? Conteste a esta pregunta sin realizar c´ alculos adicionales. e ) (0,5 puntos) Para un cierto nivel de significaci´ on α, la funci´ on de potencia de este contraste viene dada por

Transcript of Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014...

Page 1: Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice

Estadıstica IIExamen Final 16/01/2014

Soluciones

Responda a las preguntas siguientes en los cuadernillos de la Universidad

Utilice diferentes cuadernillos para responder a cada uno de los ejercicios

Indique claramente en cada cuadernillo su nombre, numero de orden en el grupo y grupo reducido de clase

1. (3 puntos) Se ha escogido una muestra aleatoria de 10 hogares con calefaccion de gas en una cierta zona.Se han recogido mediciones del consumo de gas (en euros) durante el mes de Enero para cada hogar,obteniendose los valores siguientes:

103 156 118 89 125 147 122 109 138 99

Se supone que dichas observaciones siguen una distribucion normal.

a) (0,5 puntos) Si π denota la proporcion de todos los hogares en la zona con un consumo superior a110 euros en Enero, calcule una estimacion puntual para π empleando un estimador insesgado.

Se han anadido datos de 5 hogares adicionales y se ha obtenido la siguiente informacion de Excel para lamuestra ampliada:

b) (0,5 puntos) Obtenga un intervalo de confianza al 95 % para la desviacion tıpica del consumo de gasen el mes de Enero. Interprete el resultado.

c) (1 punto) Sobre la base de la informacion de esta muestra ampliada se desea estudiar si los hogaresde esta zona consumen en promedio menos de 130 euros durante el mes de Enero.Lleve a cabo un contraste de hipotesis para determinar si existe suficiente evidencia que soporte estahipotesis. Indique sus supuestos, calcule el p-valor asociado con este contraste e indique su conclusionpara un nivel de significacion del 5 %.

d) (0,5 puntos) ¿Que cambiarıa si se quisiera llevar a cabo el contraste a un nivel de significacion del1 %? ¿Por que? Conteste a esta pregunta sin realizar calculos adicionales.

e) (0,5 puntos) Para un cierto nivel de significacion α, la funcion de potencia de este contraste vienedada por

Page 2: Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice

Indique el valor (aproximado) de la probabilidad de un error de Tipo II cuando µ = 139.A partir de la grafica, ¿cual serıa el valor (aproximado) del nivel de significacion α empleado paraeste contraste? Justifique sus respuestas.

Solucion.

a) La proporcion muestral p es un estimador insesgado de la proporcion en la poblacion. La estimacionpuntual para esta muestra es p = 6/10 = 0,6.

b) El intervalo de confianza para la varianza vendra dado por

IC0,05(σ2) =

[(n− 1)s2

χ2n−1;α/2

;(n− 1)s2

χ2n−1;1−α/2

].

En nuestro caso, n = 15, χ214;0,025 = 26,1 y χ2

14;0,975 = 5,63. Ademas, de la salida de Excel s2 =315,209 y el intervalo para la varianza sera

IC0,95(σ2) =[

315,209× 1426,1

;315,209× 14

5,63

]= [169,07; 783,8]

y, por lo tanto, para la desviacion tıpica tendremos IC0,95(σ) = [√

169,07;√

783,8] = [13,00; 27,99].Si aplicamos este procedimiento a un numero muy elevado de muestras, en promedio el 95 % de lasveces el valor de la desviacion tıpica de la poblacion caera dentro del intervalo calculado.

c) Las hipotesis nula y alternativa del contraste son

H0 : µ0 ≥ µ0 = 130H1 : µ0 < 130

El estadıstico de contraste para estas hipotesis, si se cumple el supuesto de Normalidad, es:

T =X − µ0

s/√n

=121,0666− 13017,7541/

√15

= −1,995

La tabla de la distribucion T-Student nos da el valor crıtico, −t14;0,05 = −1,76.Como −1,995 < −1,76 rechazamos la hipotesis nula con un nivel de significacion del 5 %, esto es,concluimos que disponemos de suficiente evidencia para creer que el consumo promedio de los hogareses inferior a 130 euros.El p-valor, P (t14 < −1,995), esta entre el 2.5 % y el 5 %.

d) Como el nivel de significacion (α = 0,01) es ahora menor que el p-valor, no podrıamos rechazar lahipotesis nula.

e) La curva corresponde a un contraste de la forma H0 : µ ≤ 130 frente a H1 : µ > 130. Tenemos que

P (Error tipo II|µ = 139) = 1− potencia(µ = 139) ≈ 1− 0,7 = 0,3.

El valor aproximado del nivel de significacion en este caso serıa α = 0,1 ya que es el valor de lafuncion de potencia cuando µ = µ0 = 130.

Page 3: Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice

2. (2,5 puntos) La empresa M&H cree que el gasto medio en sus tiendas aumenta cuando el ritmo de lamusica que suena en ellas es mas energico. Para probarlo propone un experimento en el que a veintejovenes con caracterısticas socio-demograficas similares, se les regala un cheque de 50 euros que debentratar de gastar en visitas de 30 minutos a dos tiendas en las que suena musica relajada (x) o musicaenergica (y). Diez de los jovenes visitan la tienda con musica relajada y diez lo hacen en la tienda conmusica energica. La tienda a visitar se establece independientemente para cada joven. A continuaciacionse presenta el gasto en euros para cada visita:

xi: Gasto T. Mus. Rel. 40 49 30 45 25 50 38 20 41 33yi: Gasto T. Mus. Ener. 45 47 40 44 30 50 44 25 42 36

Para los valores anteriores se tiene que

10∑i=1

xi = 371,10∑i=1

yi = 403,10∑i=1

x2i = 14665,

10∑i=1

y2i = 16791.

a) (0,5 puntos) Plantee el contraste oportuno especificando claramente:

los supuestos necesarios sobre las variable aleatorias (o poblaciones) X e Y ;las hipotesis nula y alternativa;el estadıstico del contraste y su distribucion.

b) (0,75 puntos) Utilizando un nivel de significacion del 5 %, obtenga la region de rechazo y el p-valordel contraste planteado en el punto anterior. Explique a que conclusion llega.

c) (0,75 puntos) Supongamos ahora que el experimento anterior se hubiese llevado a cabo con 10 jovenes,cada uno de ellos visitando ambas tiendas en un orden fijado aleatoriamente. Si los resultados de gastofuesen los mismos indicados en la tabla anterior y el nivel de significacion no variase, ¿aumentarıael tamano de la region crıtica en este segundo caso? ¿Como cambiarıa el valor del estadıstico delcontraste? Razone su respuesta.

d) (0,5 puntos) Indique si las siguientes afirmaciones son verdaderas o falsas, razonando su respuesta:

1) En el caso de un contraste de igualdad de varianzas para dos muestras pareadas de dos distri-buciones normales, el estadıstico del contraste s2X/s

2Y sigue una distribucion F de Fisher.

2) La funcion de potencia de un contraste de igualdad de medias aumenta de valor (bajo la alter-nativa) cuando el tamano muestral aumenta (a igualdad de los demas datos).

Solucion.

a) Sobre el contraste indicado tenemos que:

Se trata de un contraste para la diferencia entre dos medias con muestras independientes. X esuna variable aleatoria con media µX , Y es una variable aleatoria con media µY y disponemosde dos muestras independientes. Como los tamanos muestrales son reducidos, para poder aplicarlos resultados del curso debemos suponer normalidad y varianzas poblacionales iguales.El contraste puede formularse con las siguientes hiotesis,

H0 : µx ≥ µy,H1 : µx < µy.

El estadıstico del contraste es

T =X − Y − (µX − µY )

SP√

1nx

+ 1ny

∼ tnx+ny−2,

donde

S2P =

(nx − 1)S2X + (ny − 1)S2

Y

nx + ny − 2.

b) Bajo H0 tenemos que µX − µY = 0 y la region de rechazo al 5 % es:

R0,05 =

x1, . . . , xnx , y1, . . . , yny

∣∣∣∣∣ x− ysP√

1nx

+ 1ny

< −tnx+ny−2;0,05

.

Page 4: Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice

De la muestra tenemos nx = 10, ny = 10, x = 37,1, y = 40,3, s2x = 100,1, s2y = 61,12 y entonces

s2P =9× 100,1 + 9× 61,12

10 + 10− 2= 80,61.

El valor del estadıstico bajo H0 es

t =x− y

sP√

1nx

+ 1ny

=37,1− 40,3√

80,61( 110 + 1

10 )= −0,797.

El valor crıtico en la tabla T-Student es t18;0,05 = 1,734 y, por tanto, como −0,797 > −1,734no podemos rechazar la hipotesis nula al nivel de significacion del 5 %, esto es, no disponemos desuficiente evidencia para creer que las ventas promedio aumenten si se escucha musica mas energicaen las tiendas.El p-valor asociado a este valor del estadıstico es

p-valor = P (t18 < −0,797) ∈ [0,2; 0,25].

c) Pasarıamos de tener 18 grados de libertad a tener solo 9, con lo que la region crıtica disminuirıa.En este segundo caso la varianza es menor, por lo que el valor absoluto del estadıstico sera mayor.

d) 1) No, las muestras deben ser independientes.2) Cuando todo lo demas permanece igual, el error tipo II disminuye cuando el tamano muestral

aumenta y, por tanto, la potencia aumenta.

3. (4,5 puntos) A partir de los resultados medios en lectura, matematicas y ciencias del informe Pisa 2009para los paıses miembros de la OCDE1 se han recogido datos para 32 paıses. Un resumen de estos datosse indica a continuacion:

32∑i=1

xi = 275,8,32∑i=1

x2i = 2683,6,

32∑i=1

yi = 16125,32∑i=1

y2i = 8149582,

32∑i=1

xiyi = 140243,

donde xi denota el gasto promedio por estudiante en miles de USD, PPPs 2009, en el paıs i, mientras queyi denota el resultado promedio en la prueba de ciencias para varones.

Se quiere estudiar si existe una relacion significativa entre gasto promedio y resultado en ciencias.

a) (0,75 puntos) Calcule la recta de regresion (estimada por mınimos cuadrados) que explica el resultadoen ciencias para varones en funcion del gasto por estudiante.

b) (0,75 puntos) Sabiendo que∑32i=1 e

2i = 19020,5, contraste si la relacion anterior es significativa para

un nivel de significacion del 1 %. Justifique el procedimiento empleado y explique sus conclusiones.

c) (0,75 puntos) Partiendo del modelo anterior, obtenga un intervalo de confianza al 95 % para laprediccion del resultado en ciencias para varones correspondiente a un paıs con un gasto por estudiantede 9500 USD.

Se desea estudiar ahora la relacion entre los resultados para las diferentes pruebas, de manera diferenciadapor genero. Las siguientes salidas de Excel muestran las estimaciones de sendos modelos de regresion porgenero (H/M) en las que los resultados medios en ciencias se explican por los resultados medios en lecturay matematicas.

1OECD Factbook 2011: Economic, Environmental and Social Statistics - ISBN 978-92-64-11150-9 - c©OECD 2011Education - International student assessment - Educational expenditure per student

Page 5: Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice

Utilizando los valores de estas tablas responda a las siguientes preguntas:

d) (0,5 puntos) Obtenga estimaciones insesgadas de las varianzas residuales de los modelos ajustadospara cada genero.

e) (0,75 puntos) Escriba los modelos de regresion ajustados para cada genero e interprete los valores delos coeficientes del modelo de regresion correspondiente a mujeres.

f ) (0,5 puntos) Obtenga un intervalo de confianza para los coeficientes asociados a Lectura y Matemati-cas en el modelo ajustado para hombres.

g) (0,5 puntos) ¿Los resultados del apartado anterior permiten contrastar las hipotesis H0 : β1 = β2 = 0frente a H1 : βi 6= 0 para algun i? Justifique su respuesta y realice el contraste de hipotesis de que larespuesta no depende de las variables explicativas.

Solucion.

a) De las expresiones

β1 =cov(x, y)

s2x= 4,20, β0 = y − β1x = 467,68,

se obtiene la recta de regresion ajustada

Ciencias H = 467,68 + 4,20×Gasto.

b) El contraste a realizar es:

H0 : β1 = 0,H1 : β1 6= 0.

El valor del estadıstico es

t =β1√s2R

(n− 1)s2x

= 2,953.

Lo comparamos con el valor crıtico t30;0,005 = 2,75. Como 2,953 > 2,75, rechazamos la hipotesis nulay diremos que la relacion sı es significativa (a un nivel de significacion del 1 %).

c) La estimacion puntual de la prediccion es y0 = β0 + β1x0 = 467,68 + 4,20× 9,50 = 507,6.El IC a un nivel 1 − α para el resultado promedio en ciencias de un paıs que invierte en promedio9500 USD por estudiante es:

IC0,05(y0) = y0 ± tn−2;α/2

√s2R

(1 +

1n

+(x0 − x)2

(n− 1)s2x

).

Sustituyendo valores, obtenemos el intervalo IC0,05(y0) = [455,32; 559,89].

d) Las varianzas pedidas se obtienen de las salidas de Excel bajo “Promedio de los cuadrados” y en lafila “Residuos”. Obtenemos:

Modelo masculino: Varianza residual = 66,0325Modelo femenino: Varianza residual = 86,2421

e) Las ecuaciones de los modelos ajustados son:

Page 6: Estad stica II Examen Final 16/01/2014 · PDF fileEstad stica II Examen Final 16/01/2014 Soluciones Responda a las preguntas siguientes en los cuadernillos de la Universidad Utilice

Modelo masculino: Ciencias H = 10,045 + 0,394× Lectura H + 0,607×Matem HModelo femenino: Ciencias M = −31,391 + 0,605× Lectura M + 0,453×Matem M

El coeficiente de la constante podrıa interpretarse como la nota media en ciencias que obtiene unaestudiante que obtiene 0 en las otras dos pruebas. Manteniendo constante la puntuacion de matemati-cas, por cada punto mas en lectura, la estudiante obtiene en media 0,605 puntos mas en ciencias.Manteniendo constante la puntuacion de lectura, por cada punto mas en matematicas, la estudianteobtiene en media 0,453 puntos mas en ciencias.

f ) Los intervalos de confianza al 95 % obtenidos de la salida de Excel son:

Lectura H: IC0,95(β1) = [0,1407; 0,6477]Matem H: IC0,95(β2) = [0,4053; 0,8098]

g) No, los resultados del apartado anterior pueden emplearse para llevar a cabo los contrastes de sig-nificacion individuales pero no el global. Para el contraste de significacion global tendrıamos queutilizar el valor del estadıstico F obtenido de la salida de Excel. Como su p-valor es muy proximo a 0,rechazamos la hipotesis nula y podemos decir que la respuesta sı depende de las variables explicativas.