exest

64
EXÁMENES RESUELTOS ESTADÍSTICA INFORMÁTICA SISTEMAS DELEGACIÓN DE ALUMNOS CENTRO ASOCIADO DE BALEARES

Transcript of exest

Page 1: exest

EXÁMENES RESUELTOS

ESTADÍSTICA

INFORMÁTICA SISTEMAS

DELEGACIÓN DE ALUMNOS

CENTRO ASOCIADO DE BALEARES

Page 2: exest

COLECCIÓN DE EXAMENES DE ESTADÍSTICA

CENTRO DE ASOCIADO DE BALEARES

Page 3: exest

ESTADISTICA I (SISTEMAS) Primera semana. 96/97 1. El tiempo que dura un proceso de validación de datos es una variable aleatoria con función

de densidad:

x2/9 0<=x<=a f(x)=

0 resto a) Calcular a. b) Calcular el tiempo esperado del proceso de validación c) Calcular la mediana de la distribución. 2. Un jugador tiene en su bolsillo dos dados de tipo A, tres de tipo B y cuatro de tipo C. Los

dados de tipo A tienen 3 caras con el número 3 y otras tres con el 6. Los de tipo B tienen dos caras de cada uno de los números 2, 4 y 6. Los del tipo C tienen una cara con cada uno de los números del 1 al 6. Si el jugador elige al azar un dato y lo lanza, se pide:

a) Calcular la probabilidad de que salga un 6. b) Suponiendo que haya salido un 3, calcular la probabilidad de que el dado elegido haya sido

del tipo A 3. En una muestra aleatoria de 400 individuos se encontraron 12 cumpliendo una condición

determinada. ¿Hay una evidencia suficiente para concluir que la proporción de individuos de esta clase es superior al 2%? (Utilice α=0.05)

4. Un sistema contiene 3 componentes conectados en serie que funcionan

independientemente. Suponiendo que el tiempo de vida de estos componentes (medido en horas) sigue una distribución exponencial de media 1000, 3000 y 6000 horas, respectivamente, calcular la probabilidad de que el sistema no falle antes de 100 horas.

Datos auxiliares: a) La densidad exponencial es de la forma

1/β exp (-x/β) x>0 f(x)=

0 en otro caso b) La conexión en serie implica que el sistema falla cuando lo hace alguno de sus

componentes.

Page 4: exest

ESTADÍSTICA I* (Informática de Sistemas)

Primera Prueba Presencial. Primera Semana.

Curso 1998-99. 1. Se sabe que la cuarta parte de los habitantes de una gran ciudad tiene menos de 50

años y que la probabilidad de que un habitante muera de cáncer es 0.1 en el caso de que tenga menos de 50 años, y 0.2 en otro caso.

(a) Determinar la probabilidad de que un habitante, elegido al azar, no muera de

cáncer. (b) Si una persona murió de cáncer, ¿cuál es la probabilidad de que tuviera menos de

50 años? 2. Una compañía aérea afirma que la duración de sus vuelos entre las ciudades A y

B se distribuye según una ley Normal de media no superior a 1.2 horas. Sin embargo, la competencia afirma que ésto no es cierto ya que, después de tomar 9 vuelos al azar, observó una duración media de 1.78 horas y una cuasivarianza de 0.36. ¿Avalan estos datos la afirmación de la competencia? (Utilice α = 0.05)

Datos auxiliares: t8,0.05 = 1.86 ; z0.05 = 1.645 ; z0.025 = 1.96 3. Una empresa compra grandes cantidades de una clase de dispositivos

electrónicos. La decisión para aceptar o rechazar un lote de dichos elementos se toma en base a una muestra aleatoria de 100 unidades. Si el lote se rechaza cuando se encuentran 3 ó más unidades defectuosas, ¿cuál es la probabilidad de rechazar un lote con un 1% de dispositivos defectuosos?

4. Con el fin de describir el comportamiento de una variable cuantitativa X bajo

unas condiciones determinadas, se procedió a su observación. Los datos registrados se resumen en la siguiente tabla de frecuencias:

__________________________________________ | X | 0 1 2 3 4 | | Frec. abs. acumulada | 2 3 7 8 10 |

(a) Calcule la media de esta distribución. (b) Obtenga una medida de la dispersión. _______________________________________ *NO se permite el uso de CALCULADORA.

Page 5: exest

Estadística I - Sistemas Primera Prueba Presencial. Segunda Semana. Curso 1998-99.

Examen realizado el 9 de febrero de 1999. 1. Una fábrica tiene tres plantas; el 20% de sus máquinas se montan en la primera planta, el 30% en la segunda y el 50% restante en la tercera. Se sabe además que la cadena de montaje falla, dando lugar a una máquina defectuosa, con probabilidades 0.1, 0.2 y 0.15 en cada una de las tres plantas. a) Determinar la probabilidad de que una máquina cualquiera montada en esa fábrica sea defectuosa. b) ¿Cuál es la probabilidad de que una máquina no defectuosa se haya montado en la primera planta? 2. La tabla siguiente resume los datos obtenidos en la observación de una variable cuantitativa X. X 1 2 3 4 5 f 0.1 0.2 0.4 0.1 0.2 a) Calcular el coeficiente de variación. b) Obtener los percentiles correspondientes al 25% y al 75% 3. Un vendedor afirma que el tiempo medio de vida de las bombillas que oferta a sus clientes no es inferior a 10 meses. Extraída una muestra aleatoria de 64 bombillas, se obtuvo un tiempo de vida medio de 9.8 meses y una cuasivarianza muestral de 1. ¿Avala la muestra, al nivel de significación alfa=0.025, la afirmación hecha por el vendedor? Datos auxiliares: Si F es la función de distribución de la N(0,1), F(1.96) = 0.975 y F(1.645) = 0.95. 4. Se supone que el voltaje medido en cierto circuito eléctrico tiene una distribución Normal con media 120 y desviación típica 2. Calcule la probabilidad de que una medición proporcione un voltaje: a) superior a 118, b) entre 116 y 118. Datos auxiliares: F(1) = 0.8413 y F(2) = 0.9773, siendo F la función de distribución de la N(0,1). NOTA: NO se permite el uso de calculadora.

Page 6: exest
Page 7: exest
Page 8: exest
Page 9: exest
Page 10: exest
Page 11: exest
Page 12: exest
Page 13: exest
Page 14: exest
Page 15: exest
Page 16: exest
Page 17: exest
Page 18: exest
Page 19: exest
Page 20: exest

ESTADÍSTICA I∗

(Informática de Sistemas)

Primera Prueba Presencial. Primera Semana.Curso 2001-2002.

1. El siguiente diagrama de tallos y hojas propor-ciona una descripción de la naturaleza de unacolección de datos relativos a un aspecto cuanti-tativo X de interés –con valores en el intervalo[0, 100].

4 25 56 9 3 8 57 2 9 2 18 4 4 89 2 1

Se pide:

(a) Calcular la media y la mediana de X.

(b) Obtener la desviación típica de X, par-tiendo de

Pi x

2i = 82169.

2. Un programa se ejecuta desde uno cualquierade dos periféricos: P1 y P2, de acuerdo con elsiguiente protocolo: si P1 está operativo el pro-grama se ejecuta desde P1; si no lo está se reali-za un segundo intento desde el segundo perifé-rico; si éste está operativo el programa se eje-cuta desde P2, en caso contrario el programa sequeda sin ejecutar. Cada periférico está opera-tivo o no con independencia del estado del otroy las probabilidades de estar operativo son: 0.8para P1 y 0.7 para P2.

(a) Determínese la probabilidad de que el pro-grama no se ejecute.

(b) Si el programa se ha ejecutado, ¿cuál es laprobabilidad de que lo haya hecho desde elsegundo periférico?

∗NO se permite el uso de CALCULADORA. No se exigeprecisión en los cálculos; puede efectuar los redondeos queconsidere oportunos.

3. El número de trabajadores que diariamente in-tegran una cadena de montaje varía a causa delnivel de absentismo. La tabla siguiente contienelos datos registrados en una muestra aleatoriade la producción diaria, siendo X el número detrabajadores ausentes e Y el número de produc-tos defectuosos generados por dicha cadena.

X 1 3 5 0 2Y 10 16 20 9 12

Si la recta de regresión estimada es

y = 8.26 + 2.34x ,

calcule un intervalo de confianza (99%) para lapredicción de la cantidad de productos defec-tuosos que se obtendrán cuando el número deoperarios ausentes sea 4.

Datos auxiliares:

x = 2.20, y = 13.4, vy = 20.80,

I =

·y0 ± tn−2;α/2

rvy(1−r2)n−2

³1 + (x0−x)2

vx

´¸,

t3;0.01 = 4.5407, t3;0.005 = 5.8409, t5;0.01 =3.3649.

4. Dos algoritmos A y B permiten simular ciertoproceso. En 10 simulaciones, realizadas concada uno de ellos, se obtuvieron los siguientestiempos de ejecución por cada simulación

Tiempo de ejecucion (en segundos)

A 7 10 8 9 6.5 8 7 7.5 9 8B 7 7 6 5.5 7 8 6.5 7 7 9

¿Proporcionan los datos la evidencia suficiente,al nivel de significación α = 0.05, para concluirque hay diferencias entre los tiempos medios deejecución de ambos algoritmos? Supóngase nor-malidad e igualdad de varianzas en los tiemposde ejecución.

Datos auxiliares: t20;0.05 = 1.725 , t18;0.05 =1.734 , t18;0.025 = 2.101 , z0.05 = 1.645 , z0.025 =1.96

1

Page 21: exest

ESTADÍSTICA I∗

(Informática de Sistemas)

Primera Prueba Presencial. Segunda Semana.Curso 2001-2002.

1. Con el fin de seleccionar el sistema más rápidode almacenamiento y recuperación de datospara un determinado tipo de procesos, se rea-lizó un experimento consistente en hacer 4 prue-bas con cada uno de los tres sistemas conside-rados: CD, Disco y Cinta. Los tiempos –enminutos– requeridos en cada ocasión se refle-jan en la siguiente tabla

CD Disco Cinta8.7 7.0 7.29.3 6.4 9.17.9 9.8 7.58.0 8.2 7.7

Suma 33.9 31.4 31.5Media 8.475 7.850 7.875

Varianza 0.429 2.250 0.709

Utilizando un nivel de significación α = 0.01,contraste la hipótesis de igualdad de los tiemposmedios.

Datos auxiliares: La variabilidad total es11.167. F2;11;0.01 = 7. 2057, F2;9;0.01 = 8. 0215,F3;9;0.01 = 6. 9919

2. Un programa se puede ejecutar en unocualquiera de dos periféricos A y B, de acuerdocon el siguiente protocolo: en un primer intentose elige uno de los dos periféricos al azar; si estáoperativo, el programa se ejecuta desde él; si nolo está, se intenta ejecutar el programa desde elotro periférico; si éste no está operativo el pro-grama se queda sin ejecutar. Cada periféricoestá operativo o no con independencia del es-tado del otro. Las probabilidades de estar ope-rativo son: 0.9 para A y 0.6 para B.

(a) Determínese la probabilidad de que el pro-grama no se ejecute.

(b) Si el programa se ha ejecutado, ¿cuál esla probabilidad de que haya sido en el se-gundo intento?

∗NO se permite el uso de CALCULADORA. No se exigeprecisión en los cálculos; puede efectuar los redondeos queconsidere oportunos.

3. Del tiempo que funciona cierta componente deun sistema hasta que comienza a presentar fa-llos sistemáticos se sabe que sigue una distribu-ción normal. A fin de estimar el tiempo mediode funcionamiento a pleno rendimiento, se ob-servaron 10 de estas componentes obteniéndoselos siguientes tiempos –en miles de horas– defuncionamiento sin fallos:

1 ,1.5 ,0.8 ,1.2 ,0.9 ,1.1 ,1.4 ,1.3 ,0.7 ,0.1 .

Determínese:

(a) Una estimación puntual para el parámetrode interés.

(b) Un intervalo de confianza, al 90%, para eltiempo medio de funcionamiento.

Datos auxiliares: z0.05 = 1.645 , t9;0.05 =1.833 , t10;0.05 = 1.812 , t9;0.1 = 1.383

4. Tratando de describir estadísticamente unacolección de 30 pares (X,Y ), se obtuvieron lossiguientes resultados:P

i xi = 15 ,Pi yi = 30 ,

Pi y2i = 190 ,P

i (xi − x) (yi − y) = 30 ,Pi (xi − x)2 = 10

.

(a) Calcule la recta de regresión de Y sobre Xy el coeficiente de correlación.

(b) Compare la varianza residual con la va-rianza de Y . ¿Qué se puede concluir?

1

Page 22: exest
Page 23: exest
Page 24: exest

ESTADÍSTICA I∗ (402014)

(Informática de Sistemas)

Curso 2002-2003.Primera Prueba Presencial (Primera Semana)

1. Extraemos tres dígitos al azar entre el 0 y el 9para formar una clave. Se pide:

(a) Calcular la probabilidad de que la clavetenga al menos dos cifras iguales.

(b) Calcular la probabilidad de que, si la claveobtenida es un número par, no sea superiora 100.

2. La lectura registrada por cierto aparato de me-dida es una variable aleatoria X con distribu-ción normal. En una muestra de doce lecturas,tomadas al azar, se han observado los siguientesvalores de la variable X :

10, 15, 11, 12, 8, 13, 16, 5, 14, 5, 6, 5

(a) Dar una estimación puntual de la media deX. Justifíquese la elección del estimadorque se utiliza.

(b) Obtener un intervalo de confianza, al 95%,para la media de X.

Datos auxiliares: t12;0.025 = 2.179 ,t11;0.05 = 1.796 , z0.025 = 1.96 , t11;0.025 =2.201, z0.05 = 1.645

∗NO se permite el uso de CALCULADORA.

3. Se dispone de los siguientes datos referentes a14 observaciones del par (X,Y ):P

xi = 517Pyi = 346

114

Px2i = 2792.5

114

Py2i = 1246.7

114

Pxiyi = 1844.6

Se pide:

(a) Calcular la pendiente de la recta de regre-sión de Y sobre X.

(b) Obtener una medida del ajuste de dicharecta a la nube de puntos.

Datos auxiliares: Coeficiente de correlaciónr = 0.98

4. Se piensa que el tiempo de respuesta de unequipo informático, cuando se le solicita ciertotipo de información, sigue una distribución ex-ponencial con parámetro λ = 1 seg. (por tanto,la densidad es f(x) = e−x, para x ≥ 0). Con-traste dicha hipótesis utilizando los siguientesdatos:

I Los puntos 0.22, 0.51, 0.92, 1.61 determinan 5clases equiprobables para la densidad citada.

I La frecuencia observada en cada una de estasclases, en un muestreo aleatorio de tamaño 40,es:

6, 8, 10, 7, 9

respectivamente.

Datos auxiliares: χ25;0.025 = 12.833;χ24;0.05 = 9.488 ; χ

25;0.05 = 11.07

1

Page 25: exest

ESTADÍSTICA I∗ (402014)

(Informática de Sistemas)

Curso 2002-2003.Primera Prueba Presencial (Segunda Semana)

1. Para estudiar la posible relación entre dos varia-bles, X e Y , se registraron los valores de dichasvariables en una muestra aleatoria formada por20 individuos. De la información recogida seobtuvieron los siguientes datos estadísticos:

120

Pxi = 53.69

120

Pyi = 58.81

120

Px2i = 2948.82

120

Py2i = 3505.15

120

Pxiyi = 3197.39

Suponiendo un modelo de regresión lineal, ¿sepuede concluir, con un nivel de significaciónα = 0.05, que la pendiente de la recta de Ysobre X es positiva?

Datos auxiliares: t18;0.05 = 1.734 , t20;0.025 =2.086 ; la estimación insesgada de la varianzaσ2 vale 31.36 ; cuando β1 = 0,

β1

SRq

1nvx

∼ tn−2 .

2. La distribución del error de medida de ciertoaparato es una variable aleatoria con distribu-ción normal de media y varianza desconocidas.En 10 mediciones, tomadas al azar, se obser-varon los siguientes errores (expresados en launidad de medida correspondiente):

8, 10, 11, 10, 12, 10, 9, 8, 13, 9

(a) Obtener un intervalo de confianza, al 90%,para el error de medida medio.

(b) Si la varianza del error de medida es σ2 =2.5 , obtener un nuevo intervalo, con elmismo nivel de confianza, para la mediadel error de medida. Compárelo con elobtenido en el apartado anterior.

Datos auxiliares: z0.1 = 1.28 , t10;0.05 =1.812 , z0.05 = 1.645 , t9;0.05 = 1.833 , t9;0.1 =1.383 , t10;0.1 = 1.372

∗NO se permite el uso de CALCULADORA.

3. Un algoritmo de búsqueda inspecciona una listade 1000 registros a fin de localizar un registrodeterminado. El algoritmo emplea un proce-dimiento secuencial de búsqueda: recorre lalista de izquierda a derecha, comprobando sicada registro coincide con el que busca, hastaque lo encuentra. Se pide:

(a) Calcular la probabilidad de que lo encuen-tre en 6 intentos.

(b) Calcular la probabilidad de que tenga querealizar k intentos.

(c) Determinar el número medio de intentosque realiza.

4. A partir de una muestra de 26 observaciones dela variable X –que toma valores entre 320 y430–, se obtuvo el siguiente diagrama de tallosy hojas:

32 5533 493435 669936 3446937 0334538 939 234740 234142 4

(a) Reproduzca las 10 primeras observaciones(en la ordenación de menor a mayor).

(b) ¿Dónde está situada la mediana de la dis-tribución? ¿Qué variación experimentaríadicha medida de centralización si el má-ximo de la distribución aumentara su valoren 10 unidades?

(c) Sabiendo que el valor medio es 370.7,¿cómo mediría la dispersión de los datosrespecto a este valor central? (No se re-quiere realizar los cálculos)

1

Page 26: exest

ESTADISTICA I (SISTEMAS)

Profesores: Hilario Navarro. Jorge Martın

DEPARTAMENTO DE ESTADISTICA,INVESTIGACION OPERATIVA Y CALCULO

NUMERICO

Soluciones a los problemas del examen.Primera prueba presencial. Curso 2002-2003

Page 27: exest

Soluciones a los problemas del examen. 1a P. Presencial 1

Problema 1. Primera semana. Extraemos tres dıgitos al azar entre el 0y el 9 para formar una clave. Se pide:

(a) Calcular la probabilidad de que la clave tenga al menos dos cifras iguales.

(b) Calcular la probabilidad de que, si la clave obtenida es un numero par, nosea superior a 100.

Solucion

(a) Se pueden formar un total de 103 claves con los dıgitos del 0 al 9.

Denotaremos por A el suceso

A = “ la clave tiene al menos dos cifras iguales ”

Vamos a calcular la probabilidad del complementario

Ac = “ todas las cifras que forman la clave son distintas ”

Hay 10 · 9 · 8 claves favorables al suceso Ac; ya que la cifra de las centenaspuede ser uno cualquiera de los diez dıgitos, la de las decenas uno de losnueve restantes y la de las unidades uno cualquiera de los ocho que noocuparon el lugar de las centenas y decenas.

10 9 8

· · ·

La probabilidad del complementario es P (Ac) =10 · 9 · 8

103; de donde se

sigue la probabilidad pedida:

P (A) = 1 − P (Ac) = 1 − 10 · 9 · 8103

= 1 − 18

25=

7

25.

(b) Vamos a resolver el problema utilizando dos metodos.

Metodo 1. El enunciado nos informa sobre el resultado del experimento: laclave obtenida es un numero par. Con esta informacion la incertidumbrese modifica; de entrada excluirıamos todas las claves impares. Por tanto,el espacio muestral cambia y queda restringido al conjunto de todas las

claves pares entre la 0 0 0 y la 9 9 9 ; un total de 500, es decir

Ω = Conjunto de claves pares entre la 0 0 0 y la 9 9 9

Page 28: exest

2 Estadıstica I (Sistemas). UNED. Curso 2002-2003

De todas ellas hay un total de 51 que no superan a 100; todos los pa-

res comprendidos entre el 0 cuya clave es 0 0 0 y el 100 con clave

1 0 0 . Consecuentemente, la probabilidad pedida sera 51/500.

Metodo 2. Se considera el espacio muestral inicial que esta formado por elconjunto de todas las claves comprendidas entre el 0 y el 999:

Ω = Conjunto de claves entre la 0 0 0 y la 9 9 9

A continuacion, se consideran los sucesos

A = “ la clave obtenida no supera a 100 ”

B = “ la clave obtenida es un numero par ”

Nos estan pidiendo calcular la probabilidad condicionada

P (A|B) =P (A ∩ B)

P (B).

Del conjunto de todas las claves, un total de 1000, hay 51 que son pares

menores o iguales que 100; con lo cual se tiene que P (A ∩ B) =51

1000.

Por otro lado, hay un total de 500 claves que son pares; luego se obten-

dra que P (B) =500

1000.

Por tanto, la probabilidad pedida es

P (A|B) =51/1000

500/1000=

51

500.

Problema 2. Primera semana. La lectura registrada por cierto aparatode medida es una variable aleatoria X con distribucion normal. En una muestrade doce lecturas, tomadas al azar, se han observado los siguientes valores de lavariable X.

10 15 11 12 8 13 16 5 14 5 6 5

(a) Dar una estimacion puntual de la media de X. Justifıquese la eleccion delestimador que se utiliza.

(b) Obtener un intervalo de confianza, al 95%, para la media de X.

Page 29: exest

Soluciones a los problemas del examen. 1a P. Presencial 3

Solucion

(a) Para estimar la media de X, utilizamos la media muestral: X =

∑n

i=1 Xi

n.

Se propone este estimador porque es insesgado para el parametro media dela variable poblacional X que se desea estimar. Con la muestra obtenida,la estimacion resulta:

x =10 + 15 + 11 + 12 + 8 + 13 + 16 + 5 + 14 + 5 + 6 + 5

12= 10

(b) Puesto que la variable aleatoria poblacional es normal de varianza desco-nocida, la cantidad pivotal que utilizamos para construir el intervalo deconfianza pedido es la basada en la distribucion t de Student, que eliminael efecto de la varianza poblacional:

U =X − µ

S/√

n∼ tn−1

donde

µ es la media de la variable X.

X es la media muestral. En este caso la media muestral es 10.

S2 es la cuasivarianza muestral. En la muestra obtenida S = 4.1.

n es el tamano muestral. En este caso n = 12.

En primer lugar, encontramos el intervalo que contiene a U con una pro-babilidad igual al nivel de confianza 0.95. Puesto que U tiene distribuciont con 11 grados de libertad, el problema se reduce a buscar los extremos deun intervalo que contenga a una distribucion t11 con una probabilidad de0.95. Los extremos del intervalo, obtenidos de las tablas de la distribuciont11, son −t11;0.025 = −2.201 y t11;0.025 = 2.201; ya que, por la simetrıa dela densidad de la distribucion t (vease la figura 1), la probabilidad del in-tervalo (2.201,∞) es 0.025, la del (−∞,−2.201) es 0.025 y la del intervalo(−2.201, 2.201) es 0.95 (area sombreada de la figura 1).

2.201−2.201

Figura 1: Funcion de densidad de una t11

Page 30: exest

4 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Ahora que conocemos el intervalo, el resto del ejercicio es un sencillo calcu-lo matematico. Dado que

0.95 = P (−2.201 ≤ X − µ

S/√

12≤ 2.201) = P (−2.201

S√12

≤ X−µ ≤ 2.201S√12

),

despejando en la desigualdad anterior la media µ, se obtiene que

(

X − 2.201S√12

, X + 2.201S√12

)

es un intervalo aleatorio que cubre a µ con probabilidad 0.95.

Una vez que se ha extraıdo la muestra, el intervalo anterior deja de seraleatorio, ya que los estimadores se sustituyen por sus valores en la mues-tra. Para la muestra extraıda el intervalo de confianza que resulta es

(

10 − 2.2014.1√12

, 10 + 2.2014.1√12

)

.

Problema 3. Primera Semana. Se dispone de los siguientes datos refe-rentes a 14 observaciones del par (X,Y ):

xi = 517∑

yi = 346

114

x2i = 2792.5 1

14

y2i = 1246.7

114

xiyi = 1844.6

Se pide:

(a) Calcular la pendiente de la recta de regresion de Y sobre X.

(b) Obtener una medida del ajuste de dicha recta a la nube de puntos.

Datos auxiliares: Coeficiente de correlacion r = 0.98

Solucion

(a) La pendiente de la recta de regresion de Y sobre X viene dada por elcociente

covx,y

vx

=1n

∑n

i=1 xiyi − xy1n

∑n

i=1 x2i − x2

o, alternativamente,covx,y

vx

= r

vy

vx

Page 31: exest

Soluciones a los problemas del examen. 1a P. Presencial 5

Sustituyendo en la primera expresion queda

1844.6 −(

51714

) (

34614

)

2792.5 −(

51714

)2

(b) La varianza residual se define como el error cuadratico medio cometidocon la recta de regresion de Y sobre X. Entonces, su valor nos dara unamedida del ajuste de dicha recta a la nube de puntos. Con los datos delenunciado obtenemos

vy =1

n

n∑

i=1

y2i − y2 = 1246.7 −

(

346

14

)2

= 635.9

y

V arianza residual = 635.9(

1 − 0.982)

= 25.18

Sin embargo, si queremos una medida del error con mayor capacidad deinterpretacion, deberemos calcular el valor relativo dado por el cociente

V arianza residual

vy

= 1 − r2

o, equivalentemente, tomar el coeficiente r2 como una medida del gradode ajuste: un valor proximo a 1 reflejara un buen ajuste y un valor cer-cano al 0 indicara la cualidad contraria. En definitiva, podrıamos calculardirectamente

r2 = 0.96

concluyendo que, en este caso, el ajuste es bastante bueno.

Problema 4. Primera semana. Se piensa que el tiempo de respuesta deun equipo informatico, cuando se le solicita cierto tipo de informacion, sigueuna distribucion exponencial con parametro λ = 1 seg. (por tanto, la densidades f(x) = e−x, para x ≥ 0). Contraste dicha hipotesis utilizando los siguientesdatos:

I Los puntos 0.22, 0.51, 0.92, 1.61 determinan 5 clases equiprobables para ladensidad citada.

I La frecuencia observada en cada una de estas clases, en un muestreoaleatorio de tamano 40, es:

6, 8, 10, 7, 9

respectivamente.

Datos auxiliares: χ25;0.025 = 12.833; χ2

4;0.05 = 9.488 ; χ25;0.05 = 11.07

Solucion

Page 32: exest

6 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Comparamos las frecuencias observada y esperada mediante el estadıstico

χ2 =∑5

i=1(O

i

−ei

)2

ei

. Los resultados se muestran en la siguiente tabla

Clases Oi ei (Oi − ei)2 (O

i

−ei

)2

ei

∑5i=1

(Oi

−ei

)2

ei

Menores que 0.22 6 8 4 4/8 1.250.22 − 0.51 8 8 0 00.51 − 0.92 10 8 4 4/80.92 − 1.61 7 8 1 1/8

Mayores que 1.61 9 8 1 1/8

El procedimiento que vamos a aplicar consiste en rechazar la hipotesis de interes—para el nivel de significacion α— si se satisface la desigualdad

5∑

i=1

(Oi − ei)2

ei

> χ25−1;α

En nuestro caso, el estadıstico proporciona el valor 1.25 y, segun los datos auxi-liares, χ2

4;0.05 = 9.488. Como consecuencia, no hay suficiente evidencia —al nivelde significacion 0.05— contra la hipotesis de que “el tiempo de respuesta sigue

una distribucion exponencial con parametro λ = 1 seg.”

Problema 1. Segunda Semana. Para estudiar la posible relacion entre dosvariables, X e Y , se registraron los valores de dichas variables en una muestraaleatoria formada por 20 individuos. De la informacion recogida se obtuvieronlos siguientes datos estadısticos:

120

xi = 53.69 120

yi = 58.81

120

x2i = 2948.82 1

20

y2i = 3505.15

120

xiyi = 3197.39

Suponiendo un modelo de regresion lineal, ¿se puede concluir, con un nivelde significacion α = 0.05, que la pendiente de la recta de Y sobre X es positiva?

Datos auxiliares: t18;0.05 = 1.734 , t20;0.025 = 2.086 ; la estimacion inses-

gada de la varianza σ2 vale 31.36 ; cuando β1 = 0,

β1

SR

1nv

x

∼ tn−2 .

Page 33: exest

Soluciones a los problemas del examen. 1a P. Presencial 7

Solucion

La pregunta alude al contraste

H0 : β1 ≤ 0 , H1 : β1 > 0

Entonces, al nivel α = 0.05, rechazaremos la hipotesis nula —concluyendo queβ1 es positiva— cuando

β1

SR

120v

x

> t18;0.05

Con los datos de este ejercicio resulta:

β1 =cov

x,y

vx

= 3197.39−53.69×58.812948.82−53.692 = 0.60

SR =√

31.36 = 5.6√

120(2948.82−53.692) = 0.03

y, como consecuencia,

β1

SR

1nv

x

=0.6

5.6 × 0.03= 3.57

Dado que t18;0.05 = 1.734, los datos nos permiten concluir que la pendiente β1

es positiva.

Problema 2. Segunda semana. La distribucion del error de medida decierto aparato es una variable aleatoria con distribucion normal de media yvarianzas desconocidas. En 10 mediciones, tomadas al azar, se observaron lossiguientes errores (expresados en la unidad de medida correspondiente).

8 10 11 10 12 10 9 8 13 9

(a) Obtener un intervalo de confianza, al 90%, para el error de medida medio.

(b) Si la varianza del error de medida es σ2 = 2.5 obtener un nuevo intervalode confianza, con el mismo nivel de confianza, para la media del error demedida. Comparelo con el obtenido en el apartado anterior.

Solucion

(a) Puesto que el error de medida sigue una distribucion normal con varianzadesconocida, la cantidad pivotal que se utiliza para obtener el intervalo deconfianza es

U =X − µ

S/√

n∼ tn−1

siendo

Page 34: exest

8 Estadıstica I (Sistemas). UNED. Curso 2002-2003

µ la media del error de medida.

X la media muestral.

S2 la cuasivarianza muestral.

n el tamano muestral.

En este caso, para la muestra extraıda de tamano n = 10, se tiene que

x =8 + 10 + 11 + 10 + 12 + 10 + 9 + 8 + 13 + 9

10= 10

S2 =1

n − 1

n∑

i=1

(xi−x)2 =(8 − 10)2 + (10 − 10)2 + · · · + (9 − 10)2

9= 2.67

Emplearemos el mismo procedimiento que en el problema 2 de la primerasemana. Ahora el tamano muestral es 10 y la cantidad pivotal U tienedistribucion t con 9 grados de libertad. Puesto que la probabilidad de queU este comprendida entre los valores −t9;0.05 = −1.833 y t9;0.05 = 1.833,obtenidos de las tablas de la t9, es 0.90 —area sombreada de la figura 2—se obtendra que

0.90 = P (−1.833 ≤ X − µ

S/√

10≤ 1.833) = P (−1.833

S√10

≤ X−µ ≤ 1.833S√10

).

Despejando en la desigualdad anterior µ, resulta que

(

X − 1.833S√10

, X + 1.833S√10

)

es un intervalo aleatorio que cubre a µ con probabilidad 0.90.

1.833−1.833

Figura 2: Funcion de densidad de una t9

Para la muestra obtenida, el intervalo con nivel de confianza del 90% sera

(

10 − 1.833

√2.67√10

, 10 + 1.833

√2.67√10

)

.

Page 35: exest

Soluciones a los problemas del examen. 1a P. Presencial 9

(b) Puesto que ahora la varianza de la poblacion es σ2 = 2.5 conocida, norecurrimos, como hacıamos en el apartado anterior, a la distribucion t,que elimina el efecto de la varianza. Utilizaremos la cantidad pivotal condistribucion normal dada por

V =X − µ

σ/√

n∼ N(0, 1)

donde

µ es la media del error de medida.

X es la media muestral. Para la muestra extraıda x = 10.

σ2 es la varianza de la poblacion. En este caso σ2 = 2.5

n es el tamano muestral.

Al igual que en el apartado anterior, encontramos el intervalo que contienea V con una probabilidad de 0.90. La distribucion N(0, 1), que rige sucomportamiento aleatorio, nos abre el camino. La probabilidad de queV , o equivalentemente, una N(0, 1), este comprendida entre los valores−z0.05 = −1.645 y z0.05 = 1.645, obtenidos de las tablas de la normal, es0.90 (area sombreada de la figura 3).

1.645−1.645

Figura 3: Funcion de densidad de una N(0, 1)

Por tanto, se tendra que

0.90 = P (−1.645 ≤ X − µ√2.5/

√10

≤ 1.645) = P (−1.645

√2.5√10

≤ X−µ ≤ 1.645

√2.5√10

)

Despejando µ en la desigualdad, resulta el siguiente intervalo de extremosaleatorios que cubre al error medio de medida con probabilidad 0.90

(

X − 1.645

√2.5√10

, X + 1.645

√2.5√10

)

Reemplazado el valor de la media muestral que resulta de la muestraextraıda, obtendremos el siguiente intervalo con nivel de confianza del90%:

Page 36: exest

10 Estadıstica I (Sistemas). UNED. Curso 2002-2003

(

10 − 1.645

√2.5√10

, 10 + 1.645

√2.5√10

)

.

Puesto que para la muestra extraıda S2 ≈ σ2, las longitudes de ambosintervalos estan caracterizadas por los cuantiles t9;0.05 y z0.05 de las dis-tribuciones t y normal; el primero es mayor que el segundo ya que ladistribucion t tiene colas mas pesadas que la normal. Esto explica que elintervalo de confianza basado en la t tenga mayor longitud que el basadoen la normal.

Problema 3. Segunda semana. Un algoritmo de busqueda inspeccionauna lista de 1000 registros a fin de localizar un registro determinado. El al-goritmo emplea un procedimiento secuencial de busqueda: recorre la lista deizquierda a derecha, comprobando si cada registro coincide con el que busca,hasta que lo encuentra. Se pide:

(a) Calcular la probabilidad de que lo encuentre en 6 intentos.

(b) Calcular la probabilidad de que tenga que realizar k intentos.

(c) Determinar el numero medio de intentos que realiza.

Solucion

(a) Sea X la variable aleatoria

X = numero de intentos hasta encontrar el registro buscado.

Supongamos que ponemos todos los registros en fila:

· · · · · · · · · · · · · ·

El algoritmo realizara seis intentos cuando no localice el registro que buscaen las cinco primeras posiciones de la fila y lo encuentre en la sexta.

Si denotamos por Ai el suceso “ el registro buscado ocupa la i−esima

posicion de la fila ” la probabilidad pedida sera

P (X = 6) = P (Ac1 ∩ Ac

2 ∩ Ac3 ∩ Ac

4 ∩ Ac5 ∩ A6).

Por la regla de la multiplicacion para el calculo de la probabilidad de lainterseccion de sucesos (seccion 6 del capıtulo 3 del texto base), se tieneque

Page 37: exest

Soluciones a los problemas del examen. 1a P. Presencial 11

P (X = 6) = P (Ac1)P (Ac

2|Ac1)P (Ac

3|Ac1∩Ac

2) · · ·P (A6|Ac1∩Ac

2∩Ac3∩Ac

4∩Ac5).

Por tanto, la probabilidad pedida sera

P (X = 6) =

(

999

1000

)(

998

999

)(

997

998

)(

996

997

)(

995

996

)(

1

995

)

=1

1000

(b) De la misma manera, la probabilidad de realizar k intentos es la pro-babilidad de que el algoritmo no localice el registro en los k − 1 prime-ros lugares de la fila y lo encuentre en el k-esimo. Por tanto, para cadak = 1, 2, . . . , 1000

P (X = k) =

(

999

1000

)

· · ·(

1000 − k + 1

1000 − k + 2

)(

1

1000 − k + 1

)

=1

1000

El calculo anterior se generaliza sin dificultad a una lista con n registros.Ası, para cada k = 1, 2, . . . , n, se tiene que

P (X = k) =

(

n − 1

n

)(

n − 2

n − 1

)

· · ·(

n − k + 1

n − k + 2

)(

1

n − k + 1

)

=1

n

Sin embargo, para calcular P (X = k) en el caso general, preferimos utilizarel siguiente razonamiento que en matematicas llamamos recurrente y quese sigue del procedimiento secuencial de busqueda.

Denotaremos por pk,n la probabilidad de localizar el registro buscado en kintentos con una lista de n registros y por A el suceso “el primer registro

de la fila es distinto al buscado”.

Para localizar el registro en k intentos, debe ocurrir A, y a continuacion,se han de realizar k − 1 intentos en una nueva lista con n − 1 registros(todos menos el primero). Por tanto, la probabilidad del suceso X = ksera

pk,n = P (X = k) =n − 1

npk−1,n−1 : k = 2, 3, . . . , n

de donde se sigue la ecuacion recurrente

npk,n = (n − 1)pk−1,n−1 (1)

Page 38: exest

12 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Teniendo en cuenta la condicion inicial: p1,i =1

i(en una lista con i regis-

tros la probabilidad de localizar el buscado en el primer intento es 1/i),basta aplicar la ecuacion anterior sucesivamente para obtener que

npk,n = (n−1)pk−1,n−1 = (n−2)pk−2,n−2 = · · · · · · = (n−k+1)p1,n−k+1 = 1

de donde se sigue que

pk,n = P (X = k) =1

n: k = 1, 2, . . . , n.

(c) Ya que hemos sido capaces de generalizar el problema, vamos a seguirutilizando la lista de n registros.

El numero medio de intentos que realiza el algoritmo es la media de lavariable aleatoria X.

EX =n∑

k=1

kP (X = k) =1

n

n∑

k=1

k.

Calcular este sumatorio es un ejercicio sencillo si se tiene en cuenta que lasuma de cada dos terminos del sumatorio que equidistan de los sumandosextremos es igual a la suma de estos:

1 2 3 · · · · · · · · · n − 2 n − 1 nn n − 1 n − 2 · · · · · · · · · 3 2 1

n + 1 n + 1 n + 1 · · · · · · · · · n + 1 n + 1 n + 1

De lo anterior se sigue que 2∑n

k=1 k = n(n + 1), es decir,

EX =1

n

n∑

k=1

k =n + 1

2.

Cuando n = 1000, el numero medio de intentos es 1001/2.

El razonamiento recurrente nos proporciona de nuevo un procedimientode calculo de la media que evita cuentas “engorrosas” como las anteriores.

Denotamos por µn el numero medio de intentos en una lista con n registros.

Si el registro buscado esta en la primera posicion de la fila, lo cual ocurrecon probabilidad 1/n, se realiza un intento y se acaba la busqueda. En

cambio, si no esta, lo cual ocurre con probabilidad(n − 1)

n, contamos un

intento y comenzaremos a buscar en una lista con n − 1 registros; con loque, en este caso, el numero medio de intentos sera 1 + µn−1.

Page 39: exest

Soluciones a los problemas del examen. 1a P. Presencial 13

De este razonamiento resulta la siguiente ecuacion recurrente:

µn =1

n+

n − 1

n(1 + µn−1) (2)

con la condicion inicial µ1 = 1 (en una lista con un solo registro se localizael buscado en un intento).

Poniendo Qn = nµn, la ecuacion recurrente 2 se transforma en

Qn = Qn−1 + n con Q1 = µ1 = 1 (3)

Es posible que no sepas resolver esta ecuacion en diferencias. Realmenteno lo necesitas, ya que el enunciado tan solo te pide que encuentres µ1000 =Q1000

1000. Seguro que sı sabes programar un bucle que realice el calculo. Las

siguientes cinco lıneas de codigo te resultaran familiares.

Q=1for n = 2 to 1000Q=Q+nnext nQ/1000

Para los aficionados a resolver problemas, vamos a solucionar 3.

Ensayamos para Qn una solucion de la forma: Qn = a+bn+cn2. Partiendode la condicion inicial, basta aplicar la recurrencia dos veces para obtener

Q1 = 1 Q2 = 3 Q3 = 6

Sustituyendo los valores n = 1, n = 2 y n = 3 en la solucion general, sellega al siguiente sistema de ecuaciones.

a + b + c = 1a + 2b + 4c = 3a + 3b + 9c = 6

La solucion del sistema es a = 0, b = 1/2, c = 1/2; con lo que

µn =Qn

n=

1

n

(

n

2+

n2

2

)

=n + 1

2

Page 40: exest

14 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Problema 4. Segunda Semana. A partir de una muestra de 26 obser-vaciones de la variable X —que toma valores entre 320 y 430—, se obtuvo elsiguiente diagrama de tallos y hojas:

32 5533 493435 669936 3446937 0334538 939 234740 234142 4

(a) Reproduzca las 10 primeras observaciones (en la ordenacion de menor amayor).

(b) ¿Donde esta situada la mediana de la distribucion? ¿Que variacion expe-rimentarıa dicha medida de centralizacion si el maximo de la distribucionaumentara su valor en 10 unidades?

(c) Sabiendo que el valor medio es 370.7, ¿como medirıa la dispersion de losdatos respecto a este valor central? (No se requiere realizar los calculos)

Solucion

(a) Las observaciones pedidas son

325, 325, 334, 339, 356, 356, 359, 359, 363, 364

(b) La mediana de la distribucion esta situada en el punto

369 + 370

2= 369.5

Si el maximo de la distribucion, que es 424, aumentara su valor en 10unidades, la mediana estarıa situada en el mismo punto —en 369.5—, yaque seguirıamos teniendo el mismo numero de observaciones a cada lado.

(c) Mediante la desviacion tıpica, que se define como la raız cuadrada positivade la varianza. Para el calculo de esta ultima, se puede aplicar directamentela definicion:

vx =1

n

i

(xi − x)2

Page 41: exest

Soluciones a los problemas del examen. 1a P. Presencial 15

o, equivalentemente,

vx =1

n

i

x2i − x2

=1

26

(

3252 + 3252 + 3342 + ... + 4242)

− 370.72

Page 42: exest

ESTADÍSTICA I∗ (402014)

(Informática de Sistemas)

Curso 2002-2003.Septiembre (Original)

1. Se está realizando un estudio sobre los fallosde un dispositivo electrónico. Este elemento sepuede montar en dos posiciones diferentes y haycuatro tipos de fallos posibles. Un muestreoaleatorio proporciona la siguiente distribuciónde frecuencias:

Tipo de fallo

Posición de Montaje A B C D1 14 18 8 202 6 12 12 10

¿Concluiría que el tipo de fallo es independientede la posición de montaje?

Datos auxiliares:

t3;0.025 = 3.182 , χ8;0.05 = 15.507 ,χ3;0.05 = 7.815, z0.05 = 1.645

2. Cierto aparato registra el nivel de saturaciónde la red eléctrica en una comarca. El errorrelativo porcentual de la medida dada por elaparato es una variable aleatoria continua Xcon función de distribución

F (x) =

0 si x < 0

1− (1− x)3 si 0 ≤ x ≤ 11 si x > 1

Determinar:

(a) La función de densidad de la variable X.

(b) La probabilidad de que una medida regis-trada por el aparato tenga un error entreel 0.1% y el 0.2%.

(c) El error relativo medio.

∗NO se permite el uso de CALCULADORA. Aproxime losresultados de las operaciones para facilitar el cálculo. Dejeindicadas las operaciones no elementales.

3. La cantidad –en kg– de cereal cosechada porm2 en una región es una variable aleatoria condistribución normal. En 25 localizaciones elegi-das al azar se obtuvo que la cantidad mediacosechada por m2 fue de 18.5 kg con una cua-sivarianza de 1 kg2. Contrastar la hipótesis deque la cantidad media por m2 es de 18 kg, frentea la alternativa de que es mayor. Tómese unnivel de significación de α = 0.01

Datos auxiliares:

z0.01 = 2.33, t24;0.01 = 2.192, t25;0.01 = 2.485

4. Para cada una de las condiciones que se indicana continuación, represente una nube de puntos(X,Y) que sea compatible con ella:

• Covarianza negativa• Pendiente de la recta de regresión de Ysobre X positiva

• Correlación próxima a 1.• Correlación nula.

(Nota: Justifique brevemente cada represen-tación)

Page 43: exest

ESTADISTICA I (SISTEMAS)

Profesores: Hilario Navarro. Jorge Martın

DEPARTAMENTO DE ESTADISTICA,INVESTIGACION OPERATIVA Y CALCULO

NUMERICO

Soluciones a los problemas del examen.Convocatoria de septiembre. Curso 2002-2003

Page 44: exest

Soluciones a los problemas del examen. Convocatoria de septiembre 1

Problema 1. Se esta realizando un estudio sobre los fallos de un dispositivoelectronico. Este elemento se puede montar en dos posiciones diferentes y haycuatro tipos de fallos posibles. Un muestreo aleatorio proporciona la siguientedistribucion de frecuencias:

Tipo de fallo

Posicion de Montaje A B C D

1 14 18 8 202 6 12 12 10

¿Concluirıa que el tipo de fallo es independiente de la posicion de montaje?

Datos auxiliares:

t3;0.025 = 3.182, χ8;0.05 = 15.507, χ3;0.05 = 7.815, z0.05 = 1.645

Solucion

Rechazaremos la hipotesis nula (Posicion de Montaje independiente del Tipo

de Fallo), con un nivel de sgnificacion α, si

4∑

j=1

2∑

i=1

(oij − eij)2

eij

> χ2(2−1)(4−1);α

El enunciado nos proporciona la frecuencia observada (o ij); multiplicando lascorrespondientes frecuencias marginales y dividiendo por el tamano de la mues-tra obtenemos la frecuencia esperada bajo la hipotesis nula (eij):

Tipo de fallo

Posicion de Montaje A B C D

1 12 18 12 18 602 8 12 8 12 40

20 30 20 30 100

Con estos datos podemos realizar la operacion (o − e)2/e para cada celda de la

tabla, resultando:

Tipo de fallo

Posicion de Montaje A B C D

1 4/12 0 16/12 4/182 4/8 0 16/8 4/12

Entonces,

4∑

j=1

2∑

i=1

(oij − eij)2

eij

=4 + 16 + 4

12+

16 + 4

8+

4

18=

144 + 180 + 16

72=

340

72' 4.7

Page 45: exest

2 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Como 4.7 < χ23;0.05 = 7.815, concluimos que, con un nivel de significacion α =

0.05, la condicion de independencia es aceptable.

Problema 2. Cierto aparato registra el nivel de saturacion de la red electricaen una comarca. El error relativo porcentual de la medida dada por el aparatoes una variable aleatoria continua X con funcion de distribucion

F (x) =

0 si x < 0

1 − (1 − x)3 si 0 ≤ x ≤ 1

1 si x > 1

Determinar:

(a) La funcion de densidad de la variable X.

(b) La probabilidad de que una medida registrada por el aparato tenga unerror entre el 0.1% y el 0.2%.

(c) El error relativo medio.

Solucion

(a) La representacion grafica de la funcion de distribucion F (x) es la queaparece en la figura 1.

0 1 2−1−2

1

Figura 1: Funcion de distribucion de la variable aleatoria X

Puesto que la variable X es continua, la funcion de densidad se obtienederivando la de distribucion. Dicha funcion viene dada por

f(x) = F ′(x) =

0 si x < 0

3(1 − x)2 si 0 ≤ x ≤ 1

0 si x > 1

Su representacion grafica es la que aparece en la figura 2.

Page 46: exest

Soluciones a los problemas del examen. Convocatoria de septiembre 3

0 1 2−1−2

1

2

Figura 2: Funcion de densidad de la variable aleatoria X

(b) El error de medida esta entre el 0.1% y el 0.2% cuando 0.1 ≤ X ≤ 0.2.Por tanto, la probabilidad pedida sera

P (0.1 ≤ X ≤ 0.2) =

∫ 0.2

0.1

f(x) dx = 3

∫ 0.2

0.1

(1 − x)2 dx = 0.217.

Esta probabilidad es el area sombreada de la figura 3.

0 1 2−1−2

1

2

Figura 3: P (0.1 ≤ X ≤ 0.2)

Un modo alternativo de llegar al mismo resultado es haciendo uso de lafuncion de distribucion dada en el enunciado del problema.

P (0.1 ≤ X ≤ 0.2) =

∫ 0.2

0.1

f(x) dx =

∫ 0.2

−∞

f(x) dx −∫ 0.1

−∞

f(x) dx

= F (0.2) − F (0.1) = 1 − (1 − 0.2)3 − (1 − (1 − 0.1)3) = 0.217.

(c) Finalmente, en este apartado nos estan pidiendo la media de la variablealeatoria X que mide el error, la cual viene dada por

EX =

−∞

xf(x) dx = 3

∫ 1

0

x(1−x)2 dx = 3

(

x2

2− 2x3

3+

x4

4

)]1

0

=1

4

Page 47: exest

4 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Problema 3. La cantidad —en Kg— de cereal cosechada por m2 en unaregion es una variable aleatoria con distribucion normal. En 25 localizacioneselegidas al azar se obtuvo que la cantidad media cosechada por m2 fue de 18.5kg con una cuasivarianza de 1 kg. Contrastar la hipotesis de que la cantidadmedia por m2 es de 18 kg, frente a la alternativa de que es mayor. Tomese unnivel de significacion de α = 0.1.

Datos auxiliares: z0.01 = 2.33, t24;0.01 = 2.192, t25;0.01 = 2.485

Solucion

El contraste de hipotesis sobre la cantidad media µ de cereal cosechado porm2 viene dado por

H0 : µ = 18 H1 : µ > 18.

Dado que la cantidad recolectada por m2 es una variable aleatoria con distri-bucion normal de varianza desconocida, el estadıstico de contraste que debemosemplear es

X − µ0

S/√

n∼ tn−1,

donde

µ0: la media poblacional bajo H0. En este caso µ0 = 18.

X: media muestral. Para la muestra extraıda X = 25.

S2: cuasivarianza muestral. Para la muestra extraıda S2 = 1.

n: tamano muestral. En este caso n = 25.

La region crıtica del test viene dada por

R =

X − µ0

S/√

n> tn−1;α

,

siendo α el nivel de significacion y tn−1;α el cuantil 1 − α de una distribuciont con n − 1 grados de libertad, es decir, el valor de la distribucion que verificaque P (tn−1 ≤ tn−1;α) = 1 − α.

En este caso, para un tamano muestral n = 25 y un nivel de significacionα = 0.01, la region crıtica —zona sombreada de la figura 4— viene dada por

R =

X − 18

S/5> t24;0.01 = 2.192

.

Para la muestra extraıda se obtendra queX − 18

S/5=

18.5 − 18

1/5= 2.5 ∈ R,

lo cual conduce a rechazar la hipotesis nula de que la cantidad media de cerealcosechada por m2 es de 18 Kg.

Page 48: exest

Soluciones a los problemas del examen. Convocatoria de septiembre 5

2.192

Figura 4: Funcion de densidad de una t24

Problema 4. Para cada una de las condiciones que se indican a continua-cion, represente una nube de puntos (X,Y ) que sea compatible con ella:

Covarianza negativa.

Pendiente de la recta de regresion de Y sobre X positiva.

Correlacion proxima a 1.

Correlacion nula.

(Nota: Justifique brevemente cada representacion)

Solucion

Breve justificacion: La relacion entre covarianza, coeficiente de corre-

lacion lineal y pendiente de la recta de regresion de Y sobre X sepone de manifiesto en las siguientes igualdades:

Pendiente =covx,y

vx

= r

vy

vx

Por tanto, dichos elementos tendran siempre el mismo signo (graficas dela figura 5).

X

Y

X

Y

Figura 5: Covarianza negativa. Pendiente positiva

Page 49: exest

6 Estadıstica I (Sistemas). UNED. Curso 2002-2003

Ademas, el valor del coeficiente de correlacion se refleja en la varianza

residual segun indica la siguiente expresion:

varianza residual = vy

(

1 − r2)

.

Ası, el caso de correlacion proxima a 1 se corresponde con un valor pe-

queno para el cocientevarianza residual

vy

(grafica izquierda de la figura

6), mientras que un coeficiente de correlacion nulo supone una varianzaresidual cercana a su valor maximo, que es vy (grafica derecha de la figura6).

X

Y

X

Y

Figura 6: Correlacion proxima a 1. Correlacion nula

Page 50: exest

ESTADÍSTICA I∗ (402014)

(Informática de Sistemas)

Curso 2002-2003.Septiembre (Reserva)

1. Se pretende describir el comportamiento de dosvariables cuantitativas, X e Y, en una poblacióndeterminada. Tras un estudio estadístico, serealiza un informe en el que aparecen los si-guientes datos:

• La recta de regresión de Y sobre X es:Y = 0.24X + 1.80

• Coeficiente de correlación lineal : −0.21• Varianza de Y : 120.5• Varianza residual (Y sobre X): 10.25

Detecte y comente los errores que contiene esteinforme.

2. La variable aleatoria X, que mide –en días–el tiempo de funcionamiento de determinadosequipos, hasta que comienzan a presentar fallos,tiene la siguiente función de densidad:

f(x) =

½0 si x ≤ 0,

11000e

−x/1000 si x > 0 .

Determinar:

(a) La probabilidad de que uno de estosequipos dure al menos 100 días.

(b) La probabilidad de que un equipo que noha fallado en 100 días, comience a hacerloantes de 500.

(c) Si un sistema está formado por tres de es-tos equipos conectados en serie, ¿cuál esla probabilidad de que el sistema funcionecorrectamente durante al menos 300 días?Supóngase que cada equipo funciona conindependencia de los otros.

∗NO se permite el uso de CALCULADORA. Aproxime losresultados de las operaciones para facilitar el cálculo. Dejeindicadas las operaciones no elementales.

3. A fin de contrastar la hipótesis de igualdad devarianzas de dos poblaciones normalmente dis-tribuidas, se obtuvo una muestra aleatoria decada una de ellas. Los resultados de ambasmuestras se recogen en la siguiente tabla:

Población 1 10.5 9.5 11 8 9 10

9.8 10.2

Población 2 17 18 16.5 17.2 19 18.5

18.3 17.5 17.8 17.7

¿Qué evidencia proporcionan los datos acercade la hipótesis que se pretende contrastar?Tómese nivel de significación α = 0.1 .

Datos auxiliares:

t16;0.01 = 2.552 , F7,9;0.1 = 2.5053 , F7,9;0.05 =3.2927, F9,7;0.05 = 3.6767

4. Del análisis de la varianza de una variable res-puesta (Y ), que se ha medido bajo 3 condicionesdiferentes, se conocen los siguientes datos:

• N o de observaciones de cada clase: 10

• Media de cada grupo: 8.1 (Grupo 1), 9.5(Grupo 2) y 9.9 (Grupo 3)

• Estadístico F : 0.8

Se pide:

(a) Completar la tabla de análisis de lavarianza.

(b) Obtener conclusiones a partir de losdatos estadísticos disponibles.

Datos auxiliares:

F27,2;0.01 = 99.462, F2,27;0.05 = 3.3541,F3,10;0.01 = 6.5523

Page 51: exest
Page 52: exest
Page 53: exest

ESTADISTICA (SISTEMAS)

Profesores: Hilario Navarro. Jorge Martın

DEPARTAMENTO DE ESTADISTICA,INVESTIGACION OPERATIVA Y CALCULO

NUMERICO

Soluciones a los problemas de examen.Primera prueba presencial. Curso 2003-2004

Page 54: exest

Soluciones a los problemas del examen. 1a P. Presencial 1

Problema 1. Primera semana. Partiendo de 10 observaciones del par(X,Y ), y con el fin de estudiar la asociacion entre dichas variables, se calcularonla recta de regresion de Y sobre X y el coeficiente de correlacion muestral,resultando:

Y = 25.5 + 3.6X ; r = 0.90,

respectivamente. Tambien se sabe que la varianza de X es 16. Se pide:

(a) Calcular la varianza de la variable Y .

(b) ¿Cuanto vale la covarianza entre ambas variables?

Solucion

(a) La pendiente (pend) de la recta de regresion de Y sobre X se relaciona conla varianza de Y a traves de la siguiente igualdad

pend =covx,y

vx

= r

vy

vx

Con los datos del enunciado resulta

vy =

(

pend

r

)2

× vx =

(

3.6

0.9

)2

× 16 = 256

(b) Para el calculo de la covarianza se puede utilizar

covx,y = r√

vxvy

o bien,covx,y = pend × vx

De cualquier modo, se obtiene que

covx,y = 57.6

Problema 2. Primera semana. Con el fin de ejecutar un proceso se se-lecciona uno de tres perifericos A, B y C. Las probabilidades de escoger cada unode ellos son: 0.5 para A, 0.3 para B y 0.2 para C. Como resultado de la eleccion,se pueden producir perturbaciones que detienen la ejecucion del proceso. Estoocurre el 10% de las veces si el periferico seleccionado fue A, el 20% si fue B yel 15% si fue C.

(a) Hallar la probabilidad de que el proceso no se ejecute.

Page 55: exest

2 Estadıstica (Sistemas). UNED. Curso 2003-2004

(b) Si el proceso se ha ejecutado, ¿cual es la probabilidad de que lo haya hechodesde A o B?

Solucion

(a) Vamos a denotar por A, B, C y E los siguientes sucesos:

A =“El periferico seleccionado es el A ”

B =“El periferico seleccionado es el B ”

C =“El periferico seleccionado es el C ”

E =“El proceso se ejecuta ”

Las probabilidades de los sucesos A, B y C son las probabilidades deseleccion de cada uno de los perifericos, que vienen dadas por:

P (A) = 0.5 , P (B) = 0.3 , P (C) = 0.2.

El proceso no se ejecutara cuando se produzca una perturbacion que lodetenga. Puesto que las probabilidades de que ocurran estas perturbacio-nes en cada uno de los perifericos vienen dadas por 0.1, 0.2 y 0.15, setendra que:

P (Ec|A) = 0.1 , P (Ec|B) = 0.2 y P (Ec|C) = 0.15.

Consecuentemente, aplicando el teorema de la probabilidad total se obtie-ne la probabilidad pedida de que el proceso no se ejecute, dada por

P (Ec) = P (Ec|A)P (A) + P (Ec|B)P (B) + P (Ec|C)P (C)

= 0.1 × 0.5 + 0.2 × 0.3 + 0.15 × 0.2 = 0.14.

(b) El enunciado nos dice que el proceso se ha ejecutado. Dada esta informa-cion, se pide hallar la probabilidad de que la ejecucion se hubiera realizadodesde el periferico A o B. La probabilidad pedida es una probabilidad con-dicionada por el suceso que recoge tal informacion —el suceso E—. Portanto, tendremos que calcular P (A ∪ B|E). Se sabe que:

P (A ∪ B|E) =P ((A ∪ B) ∩ E)

P (E)

=P (A ∩ E) + P (B ∩ E)

P (E)=

P (E|A)P (A) + P (E|B)P (B)

P (E).

Page 56: exest

Soluciones a los problemas del examen. 1a P. Presencial 3

La probabilidad del suceso E se obtiene del apartado anterior:

P (E) = 1 − P (Ec) = 1 − 0.14 = 0.86.

Las probabilidades condicionadas del numerador son:

P (E|A) = 1 − P (Ec|A) = 0.9 y P (E|B) = 1 − P (Ec|B) = 0.8.

Por tanto,

P (A ∪ B|E) =0.9 × 0.5 + 0.8 × 0.3

0.86=

0.45 + 0.24

0.86=

69

86≈ 0.8023256.

Otra manera de llegar al mismo resultado serıa mediante el calculo de laprobabilidad del complementario P (C|E), la cual viene dada por

P (C|E) =P (C ∩ E)

P (E)=

P (E|C)P (C)

P (E)=

0.85 × 0.2

0.86=

17

86≈ 0.1976744,

de donde P (A ∪ B|E) = 1 − P (C|E) = 1 − 17

86=

69

86≈ 0.8023256.

Problema 3. Primera Semana. Una muestra aleatoria de 200 dıgitosproporciono los datos que se recogen en la siguiente tabla de frecuencias

Dıgito Frecuencia0 101 202 193 214 215 156 217 228 259 26

Contraste la hipotesis de que la muestra procede de una distribucion en laque los 10 dıgitos son igualmente probables.

Page 57: exest

4 Estadıstica (Sistemas). UNED. Curso 2003-2004

Solucion

Estamos ante una situacion que el Texto Base identifica como “contraste dela bondad del ajuste (primer caso)”. La forma de proceder es calcular el valordel estadıstico

χ2 =

10∑

i=1

(Oi − ei)2

ei

y comparar con el dato que nos proporciona la distribucion χ29 (9 grados de

libertad) para el nivel de significacion seleccionado.Respecto al calculo del estadıstico, el enunciado nos proporciona la frecuen-

cia observada (Oi) en una muestra aleatoria de tamano 200, mientras que lafrecuencia esperada (ei) bajo la hipotesis de que los 10 dıgitos fuesen igualmen-te probables es, en cada caso, 20. Entonces,

(Oi − ei)2

: 100, 0, 1, 1, 1, 25, 1, 4, 25, 36

y10∑

i=1

(Oi − ei)2

ei

=194

20= 9.7

Entre los datos auxiliares encontramos χ29;0.05 = 16.92; entonces, dado que

9.7 < 16.92

las desviaciones observadas no son significativas, al nivel α = 0.05, y por tanto,aceptamos la hipotesis de que en la poblacion los 10 dıgitos son equiprobables.

Problema 4. Primera semana. De una poblacion normal se extrae unamuestra aleatoria de tamano 10, obteniendose las siguientes observaciones:

1, 2, 5, 1, 3, 7, 4, 2, 3, 2

(a) Obtener una estimacion insesgada de la media poblacional.

(b) Contrastar la hipotesis de que la media poblacional es 3.5, frente a laalternativa de que es menor. Tomese un nivel de significacion de α = 0.01.

Solucion

(a) Se sabe que la media muestral X =1

n

n∑

i=1

Xi es un estimador insesgado

de la media poblacional µ, ya que EX =1

n

n∑

i=1

EXi = µ.

Para la muestra extraıda la estimacion viene dada por

Page 58: exest

Soluciones a los problemas del examen. 1a P. Presencial 5

x =1 + 2 + 5 + 1 + 3 + 7 + 4 + 2 + 3 + 2

10= 3.

(b) La muestra obtenida ha proporcionado un valor para la media muestral dex = 3. Se trata de comprobar si ese valor proporciona evidencia estadısticaen favor de la hipotesis de que la media poblacional es µ = 3.5 o por elcontrario apoya la alternativa de que es inferior.

El problema se plantea en terminos de un contraste de hipotesis en el que

H0 : µ = 3.5 H1 : µ < 3.5.

Dado que la variable aleatoria poblacional sigue una distribucion normalde media y varianza desconocidas, el contraste se lleva a cabo utilizandola cantidad pivotal

X − µ0

S/√

n∼ tn−1,

donde

µ0: la media poblacional bajo H0. En este caso µ0 = 3.5.

X: media muestral.

S2: cuasivarianza muestral.

n: tamano muestral.

La region crıtica del test —conjunto de todas las muestras para las que serechaza H0— viene dada por

R =

(X1, X2, . . . , Xn) :X − µ0

S/√

n< c

donde el punto crıtico c se determina con la condicion del nivel de signifi-cacion, la cual viene dada por:

PH0((X1, X2, . . . , Xn) ∈ R) = P

(

X − µ0

S/√

n< c

)

= P (tn−1 < c) = 0.01.

En este caso, para un tamano muestral de n = 10, el punto crıtico valec = −2.821, ya que para una distribucion t con 9 grados de libertad setiene que P (t9 < −2.821) = 0.01 (vease la figura 1, en la que el area dela region sombreada coincide con el nivel de significacion α = 0.01). Por

tanto, la region crıtica R esta definida por R =

X − µ0

S/√

n< −2.821

.

Page 59: exest

6 Estadıstica (Sistemas). UNED. Curso 2003-2004

−2.821

0.01

Figura 1: Punto crıtico para una t9 (α = 0.01)

Para la muestra extraıda, se sabe que x = 3 y que

S2 =1

n − 1

n∑

i=1

(Xi − X)2 =(1 − 3)2 + (2 − 3)2 + · · · + (2 − 3)2

9=

32

9,

de donde se sigue que

X − µ0

S/√

n=

3 − 3.5√

32/90= −1.5 ×

10

32/∈ R.

Consecuentemente, la muestra extraıda no proporciona evidencia estadısti-ca como para rechazar H0 y mantendremos la afirmacion de que la mediade la poblacion es 3.5.

Problema 1. Segunda Semana. Con el fin de describir un conjunto de10 observaciones del par de variables (X,Y ), se calcularon la recta de regresionde Y sobre X y la correspondiente varianza residual, resultando:

Y = 23.5 − 10.2X ; V arianza residual = 9,

respectivamente. Se pide:

(a) ¿Cual es el signo de la covarianza? (Justifique la respuesta sin calculardicho dato)

(b) Si la varianza residual representa el 19% de la varianza de Y , ¿cuanto valeel coeficiente de correlacion muestral?

Solucion

(a) La relacion entre la covarianza y la pendiente (pend) de la recta de regre-sion de Y sobre X se pone de manifiesto en la siguiente igualdad

covx,y = pend × vx

Page 60: exest

Soluciones a los problemas del examen. 1a P. Presencial 7

Como la varianza es siempre positiva, covarianza y pendiente tendransiempre el mismo signo. En este caso la pendiente es −10.2; por tanto, lacovarianza es negativa.

(b) El enunciado nos adelanta que

V arianza residual

vy

= 0.19

Entonces, dado que

V arianza residual

vy

= 1 − r2

resulta

r2 = 0.81

y, como consecuencia

r = −0.9

Nota: Observe que el signo del coeficiente de correlacion es el mismo que el de

la covarianza.

Problema 2. Segunda semana. Se lanza un dado, y a continuacion, tantasmonedas como puntuacion se obtuvo en el lanzamiento del dado.

(a) Hallar la probabilidad de que se obtenga alguna cara.

(b) Si se ha obtenido alguna cara, ¿cual es la probabilidad de que el resultadodel dado fuera un uno?

Solucion

(a) Denotaremos por X la variable aleatoria que da la puntuacion del dado ypor A el suceso “ Obtener alguna cara ”. Vamos a razonar por calculo dela probabilidad del complementario de A.

Las probabilidades a priori de las distintas puntuaciones del dado son

P (X = i) =1

6con i = 1, 2, 3, 4, 5, 6.

Por otro lado, si en el lanzamiento del dado se obtuvo la puntuacion i,el suceso complementario de A ocurrira cuando se obtengan i cruces allanzar la moneda; con lo cual

Page 61: exest

8 Estadıstica (Sistemas). UNED. Curso 2003-2004

P (Ac|X = i) =

(

1

2

)i

: i = 1, 2, 3, 4, 5, 6.

Del teorema de la probabilidad total se sigue la probabilidad del sucesocomplementario de A:

P (Ac) =6

i=1

P (Ac|X = i)P (X = i) =1

6

6∑

i=1

(

1

2

)i

=1

6

(1/2)6(1/2) − (1/2)

(1/2) − 1=

1

6

(

26 − 1

26

)

=21

128,

de donde se obtendra que P (A) = 1 − P (Ac) = 1 − 21

128=

107

128.

(b) La informacion dada sobre el resultado del experimento aleatorio: “ se ha

obtenido alguna cara ” modifica las probabilidades a priori de las distintaspuntuaciones del dado. Nos estan pidiendo recalcular la probabilidad deque X = 1, conocida dicha informacion, es decir, hallar la probabilidad aposteriori P (X = 1|A).

Este es un ejemplo tıpico de aplicacion de la regla de Bayes para el que

P (X = 1|A) =P (X = 1 ∩ A)

P (A)=

P (A|X = 1)P (X = 1)

P (A)

=[1 − P (Ac|X = 1)]P (X = 1)

P (A)=

(

1 − 12

)

16

107128

=32

321.

Problema 3. Segunda semana. El analisis de la varianza de una variablerespuesta Y , medida bajo una serie de condiciones, proporciono los datos quese recogen en la siguiente tabla

Fuente de variacion SC GL CM FEntre grupos 348 3 — —

Dentro de los grupos — 8 —

(SC: Suma de cuadrados; GL: Grados de libertad; CM: Cuadrado medio; F: Estadıstico)

Sabiendo que la varianza total es 428, complete las posiciones que faltan enla tabla (marcadas con —) y obtenga conclusiones sobre el comportamiento deY en los grupos considerados.

Page 62: exest

Soluciones a los problemas del examen. 1a P. Presencial 9

Solucion

Como la varianza total es 428 y la SC(“Entre”) = 348, resulta

SC(“Dentro”) = 428 − 348 = 80

Ademas,

CM(“Entre”) = 348/3 = 116

CM(“Dentro”) = 80/8 = 10

F (“Estadıstico”) = 116/10 = 11.6

Una vez completada la tabla, observamos que el valor obtenido para el es-tadıstico F satisface la desigualdad

F3,8;0.05 = 9.28 < 11.6

Este hecho nos conduce al rechazo, con un nivel de significacion del 5%, de lahipotesis nula, que establece que la respuesta media es la misma en los 4 grupos

considerados.

Problema 4. Segunda Semana. De una poblacion con distribucion nor-mal se extrae una muestra aleatoria de tamano 11, de la cual se obtiene unavarianza muestral de 5.

(a) Obtener una estimacion insesgada de la varianza poblacional.

(b) Contrastar la hipotesis de que la varianza poblacional es 4.5, frente a laalternativa de que es mayor. Tomese un nivel de significacion de α = 0.05.

Solucion

(a) Se sabe que un estimador insesgado de la varianza poblacional es la cua-sivarianza muestral definida mediante

S2 =1

n − 1

n∑

i=1

(Xi − X)2 =n

n − 1v2

x,

donde v2x es la varianza muestral —cuyo valor es proporcionado por el

enunciado—.

Por tanto, la estimacion insesgada vendra dada por S2 =11

10× 5 = 5.5.

Page 63: exest

10 Estadıstica (Sistemas). UNED. Curso 2003-2004

(b) El enunciado pide realizar un contraste de hipotesis para la varianza dela poblacion σ2, con una hipotesis nula que postula que la varianza es 4.5frente una alternativa que afirma que es mayor:

H0 : σ2 = 4.5 H1 : σ2 > 4.5.

El objetivo es comprobar si la evidencia proporcionada por la muestra,descrita en terminos de la cuasivarianza muestral, corrobora la hipotesisnula o, por el contrario, la desacredita. Para ello, utilizaremos la cantidadpivotal que corresponde a la situacion planteada.

Dado que la distribucion poblacional es normal, llevaremos a cabo el con-traste empleando el estadıstico:

(n − 1)S2

σ20

∼ χ2n−1,

donde

σ20 : varianza poblacional bajo H0. En este caso σ2

0 = 4.5.

S2: cuasivarianza muestral. Para la muestra extraıda se obtuvo en elapartado anterior que S2 = 5.5.

n: tamano muestral. En este caso n = 11.

La region crıtica del contraste —conjunto de muestras para las que serechaza H0— viene dada por

R =

(X1, X2, . . . , Xn) :(n − 1)S2

σ20

> c

,

donde el punto crıtico c se determina con la condicion del nivel:

PH0((X1, X2, . . . , Xn) ∈ R) = P

(

(n − 1)S2

σ20

> c

)

= P (χ2n−1 > c) = 0.05.

18.307

0.05

Figura 2: Punto crıtico para una χ210 (α = 0.05)

Page 64: exest

Soluciones a los problemas del examen. 1a P. Presencial 11

En este caso, para un tamano muestral de n = 11, el punto crıtico valec = 18.307, ya que para una distribucion χ2 con 10 grados de libertad secumple que P (χ2

10 > 18.307) = 0.05 —vease la region sombreada en lafigura 2—.

Para la muestra extraıda, el valor de la cuasivarianza se sabe que es S2 =

5.5; con lo cual(n − 1)S2

σ20

=10 × 5.5

4.5< 18.307, es decir, la muestra

no pertenece a la region crıtica. Por tanto, la decision que adoptaremossera aceptar, con un nivel de significacion de α = 0.05, la hipotesis nulade que el valor de la varianza poblacional es 4.5.