Problemas de Análisis de Datos. Salinas, José M

41
Tema 1. Probabilidad. 1 Problemas Resueltos del Tema 1 1- Un estudiante responde al azar a dos preguntas de verdadero o falso. Escriba el espacio muestral de este experimento aleatorio. Solución. El espacio muestral es el conjunto de todos los sucesos elementales. Los sucesos elementales son cada uno de los resultados posibles del experimento aleatorio, indescomponibles en otros más simples. Como el experimento consiste en responder al azar a dos preguntas, cada uno de los posibles patrones de respuesta constituirá un suceso elemental. Un patrón de respuesta sería contestar verdadero a la primera pregunta y verdadero a la segunda, lo representamos (V, V). Con esta representación podemos escribir el espacio muestral como: E = {(V, V) (V, F) (F, V) (F, F)} 2- Otro estudiante responde al azar a 4 preguntas del mismo tipo anterior. a) Escriba el espacio muestral. b) Escriba el suceso responder “falso” a una sola pregunta. c) Escriba el suceso responder “verdadero” al menos a 3 preguntas. d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 2º y el 1º. e) La colección formada por estos 5 sucesos, más el suceso seguro y el suceso imposible ¿Constituyen un sigma-álgebra? Solución a) Con la misma convención del problema anterior, los sucesos elementales serían: (V, V, V, V) (V, V, V, F) (V, V, F, V) (V, F, V, V) (F, V, V, V) (V, V, F, F) (V, F, V, F) (V, F, F, V) (F, V, V, F) (F, V, F, V) (F, F, V, V) (V, F, F, F) (F, V, F, F) (F, F, V, F) (F, F, F, V) (F, F, F, F) b) El Suceso responder falso a una sola pregunta será el subconjunto del espacio muestral formado por todos los sucesos elementales en que solo hay una respuesta falso, lo llamaremos A y será: A = {(V, V, V, F) (V, V, F, V) (V, F, V, V) (F, V, V, V)} c) El suceso responder verdadero al menos a 3 preguntas, lo llamaremos B y será: B = {(V, V, V, F) (V, V, F, V) (V, F, V, V) (F, V, V, V) (V, V, V, V)} d) Observando los sucesos elementales que los componen se deducen inmediatamente los siguientes resultados: A B = B A B = A B- A = {(V, V, V, V)}

description

asdasd

Transcript of Problemas de Análisis de Datos. Salinas, José M

Page 1: Problemas de Análisis de Datos. Salinas, José M

Tema 1. Probabilidad. 1

Problemas Resueltos del Tema 1

1- Un estudiante responde al azar a dos preguntas de verdadero o falso. Escriba elespacio muestral de este experimento aleatorio.

Solución.

El espacio muestral es el conjunto de todos los sucesos elementales. Los sucesoselementales son cada uno de los resultados posibles del experimento aleatorio,indescomponibles en otros más simples. Como el experimento consiste en responder alazar a dos preguntas, cada uno de los posibles patrones de respuesta constituirá unsuceso elemental. Un patrón de respuesta sería contestar verdadero a la primerapregunta y verdadero a la segunda, lo representamos (V, V). Con esta representaciónpodemos escribir el espacio muestral como:

E = {(V, V) (V, F) (F, V) (F, F)}

2- Otro estudiante responde al azar a 4 preguntas del mismo tipo anterior.a) Escriba el espacio muestral.b) Escriba el suceso responder “falso” a una sola pregunta.c) Escriba el suceso responder “verdadero” al menos a 3 preguntas.d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 2º y el 1º.e) La colección formada por estos 5 sucesos, más el suceso seguro y el suceso

imposible ¿Constituyen un sigma-álgebra?

Solución

a) Con la misma convención del problema anterior, los sucesos elementales serían:

(V, V, V, V) (V, V, V, F) (V, V, F, V) (V, F, V, V)(F, V, V, V) (V, V, F, F) (V, F, V, F) (V, F, F, V)(F, V, V, F) (F, V, F, V) (F, F, V, V) (V, F, F, F)(F, V, F, F) (F, F, V, F) (F, F, F, V) (F, F, F, F)

b) El Suceso responder falso a una sola pregunta será el subconjunto del espaciomuestral formado por todos los sucesos elementales en que solo hay una respuestafalso, lo llamaremos A y será:

A = {(V, V, V, F) ∪ (V, V, F, V) ∪ (V, F, V, V) ∪ (F, V, V, V)}

c) El suceso responder verdadero al menos a 3 preguntas, lo llamaremos B y será:

B = {(V, V, V, F) ∪ (V, V, F, V) ∪ (V, F, V, V) ∪ (F, V, V, V) ∪ (V, V, V, V)}

d) Observando los sucesos elementales que los componen se deducen inmediatamentelos siguientes resultados:

A ∪ B = B A ∩ B = A B- A = {(V, V, V, V)}

Page 2: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de Datos. José M. Salinas

e) La colección formada por el suceso A, el B, la unión de ambos, su intersección, y sudiferencia, más el suceso seguro y el suceso imposible, no constituye un sigma-álgebra.Para demostrarlo basta comprobar que se incumple una de las dos condiciones. Porejemplo, el suceso A incumple la segunda porque su contrario no pertenece a lacolección.

3- Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y blanco. Sipulsa dos veces las palancas al azar:a) ¿Cuál es la probabilidad de que las dos veces pulse la roja?b) ¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas la tecla

azul?

Solución

a) Para que las dos veces pulse la roja tiene que ocurrir que la primera vez pulse la rojay la segunda también pulse la roja, es decir que se verifique el suceso (R1 ∩ R2).Ahora bien , como ambos sucesos son independientes, la probabilidad de laintersección es igual al producto de las probabilidades de ambos sucesos. Laprobabilidad de estos sucesos se determina mediante la regla de Laplace de casosfavorables (uno), partido por casos posibles (tres)

P(R1 ∩ R2) = P(R1) · P(R2) = 1/3 · 1/3 = 1/9

b) En este apartado, claramente, nos piden la probabilidad de la unión de los sucesospulsar azul la primera vez y pulsar azul la segunda. Ahora bien, estos dos sucesos noson incompatibles, luego la probabilidad de la unión será igual a la suma de lasprobabilidades menos la probabilidad de la intersección. La probabilidad de laintersección, al igual que en el apartado anterior, se calcula basándonos en el hechode que son independientes.

P(A1 ∪ A2) = P(A1) + P(A2) – P(A1 ∩ A2) = 1/3 + 1/3 – 1/9 = 5/9

4- Como todo el mundo sabe, la probabilidad de que en una ruleta salga 10 vecesseguidas el color rojo es muy pequeña. Habiendo salido 9 veces seguidas el rojo, unjugador apuesta al negro ¿Qué probabilidad tiene de ganar?

Solución

Para que el jugador gane tiene que ocurrir la secuencia R1, R2, ..., R9, N10. Comosabemos ya se ha producido R1, R2, ..., R9. La probabilidad que buscamos será laprobabilidad de que salga negro en el décimo lanzamiento, condicionada por que hayasalido rojo en las nueve anteriores. Por la definición de probabilidad condicionada:

( ) ( )( ) 5,0

5,05,0

9...219...2110

9...21/10 9

10

===RRRP

RRRNPRRRNP

III

IIIIIII

Como vemos el hecho de que previamente haya salido nueve veces rojo no cambia laprobabilidad de que salga la décima vez. Esto es así porque cada lanzamiento esindependiente de los restantes. (Nota. En realidad la probabilidad de que salga rojo o negro en unaruleta no es exactamente 0,5, sino 18/37 ya que además de los 18 números rojos y los 18 negros, existe el

Page 3: Problemas de Análisis de Datos. Salinas, José M

Tema 1. Probabilidad. 3

cero que no tiene asignado color, pero este dato no cambia el razonamiento hecho y el resultado sería18/37)

5- En una asignatura se ha decidido aprobar a aquellos que superen uno de los dosparciales. Con este criterio aprobó el 80%, sabiendo que el primer parcial lo superó el60% y el segundo el 50% ¿Cuál hubiese sido el porcentaje de aprobados, si se hubieseexigido superar ambos parciales?

Solución

Sea A1 el suceso aprobar el primer parcial y A2 aprobar el segundo. Los datos delproblema nos dicen que:

P(A1 ∪ A2) = 0,8 P(A1) = 0,6 P(A2) = 0,5

Y se pide la probabilidad de la intersección de ambos sucesos. Como A1 y A2 no sonincompatibles, la probabilidad de la unión será:

P(A1 ∪ A2) = P(A1) + P(A2) – P(A1 ∩ A2)

Despejando tenemos:

P(A1 ∩ A2) = P(A1) + P(A2) – P(A1 ∪ A2)

Sustituyendo los valores numéricos:

P(A1 ∩ A2) = 0,6 + 0,5 – 0,8 = 0,3

La conclusión es que si se hubiese exigido aprobar los dos parciales el porcentaje deaprobados hubiese sido del 30%.

6- La probabilidad de resolver correctamente alguna de las dos versiones de la tarea deMartens es 0,45. La de resolver la 1ª es 0,40 y la de la 2ª 0,30 ¿La resolución de las dosversiones es independiente?

Solución

Sea V1 el suceso de resolver la primera versión y V2 resolver la segunda. Los datos delproblema nos indican que:

P(V1 ∪ V2) = 0,45 P(V1) = 0,4 P(V2) = 0,3

Para determinar si los sucesos son independiente, calcularemos la probabilidad se suintersección, de forma análoga al problema anterior, y comprobaremos si el valorobtenido es igual al producto de las probabilidades de estos dos sucesos.

P(V1 ∩ V2) = P(V1) + P(V2) – P(V1 ∪ V2)

Sustituyendo

Page 4: Problemas de Análisis de Datos. Salinas, José M

4 Problemas de Análisis de Datos. José M. Salinas

P(V1 ∩ V2) = 0,4 + 0,3 – 0,45 = 0,25

Por otra parte

P(V1) · P(V2) = 0,4 · 0,3 = 0,12 ≠ 0,25 = P(V1 ∩ V2)Luego, no son independientes.

7- La prevalencia de la diabetes es del 4%. La glucemia basal diagnóstica correctamenteel 95% de los diabéticos, pero da un 2% de falsos positivos. Diagnosticada una persona¿Cuál es la probabilidad de que realmente sea diabética?

Solución

Sea D el suceso de tener diabetes, ∼D el suceso de no tenerla y Gl+ el suceso de darpositivo en la prueba de la glucemia basal. Los datos del problema nos dicen que:

P(D) = 0,04 P(∼D) = 0,96 P(Gl+ / D) = 0,95 P(Gl+ / ∼D) = 0,02

Entonces el teorema de Bayes, escrito en los términos de este problema nos dice que:

)~

()~

/()()/()()/(

)/(DPDGlPDPDGlP

DPDGlPGlDP

⋅++⋅+⋅+=+

sustituyendo por los valores numéricos

664,00192,0038,0

038,096,002,004,095,0

04,095,0)/( =

+=

⋅+⋅⋅=+GlDP

Page 5: Problemas de Análisis de Datos. Salinas, José M

Tema 2. Variables aleatorias. 5

Problemas resueltos del Tema 2

2.1- Calcule y escriba en una tabla la distribución de la variable aleatoria suma de los númerosque aparecen al lanzar dos dados.

Solución.

A continuación presentamos todos los sucesos que pueden ocurrir al lanzar dos dadosy el valor que para cada uno de estos sucesos tiene la variable suma:

(1,1) 2 (2,1) 3 (3,1) 4 (4,1) 5 (5,1) 6 (6,1) 7(1,2) 3 (2,2) 4 (3,2) 5 (4,2) 6 (5,2) 7 (6,2) 8(1,3) 4 (2,3) 5 (3,3) 6 (4,3) 7 (5,3) 8 (6,3) 9(1,4) 5 (2,4) 6 (3,4) 7 (4,4) 8 (5,4) 9 (6,4) 10(1,5) 6 (2,5) 7 (3,5) 8 (4,5) 9 (5,5) 10 (6,5) 11(1,6)) 7 (2,6) 8 (3,6) 9 (4,6) 10 (5,6) 11 (6,6) 12

Como todos estos sucesos tienen la misma probabilidad 1/36, la distribución de lasuma será:

X 2 3 4 5 6 7 8 9 10 11 12P 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

2.2- Un jugador afirma que al lanzar dos dados es igual de probable obtener un seis que unsiete, ya que hay el mismo número de resultados a favor de un resultado que de otro. Cinco yuno, cuatro y dos, tres y tres, para el seis y seis y uno, cinco y dos, cuatro y tres, para el siete.¿Es cierta esta afirmación? Razone la respuesta.

Solución.

No, en realidad los sucesos que dan origen a que la suma valga 6 son: (1,5) (2,4)(3,3) (4,2) (5,1) por tanto la probabilidad será 5/36, mientras que los sucesos que hacen quela suma sea 7 son (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) y en consecuencia esta probabilidadserá 6/36.

2.3- Para estudiar si las ratas tienen visión cromática, en una caja que cuenta con trespalancas se marca en rojo aquella que al pulsarla proporciona alimento. En cada prueba laposición de este pulsador se cambia aleatoriamente. Se somete una rata a cuatro pruebas.¿Cual sería la distribución de la variable aleatoria número de pulsaciones que consiguenalimento, si la rata no distinguiera el rojo y pulsase al azar?

Solución.

La variable aleatoria número de pulsaciones puede tomar los valores 0, 1, 2, 3 y 4. Elsuceso que da origen a que la variable valga 0 sería:

Page 6: Problemas de Análisis de Datos. Salinas, José M

6 Problemas de Análisis de Datos. José M. Salinas

( )R R R R, , , cuya probabilidad sería 2/3 · 2/3 · 2/3 · 2/3 = 16/81

El suceso que da origen a que la variable valga 1 sería:

( ) ( ) ( ) ( )R R R R R R R R R R R R R R R R, , , , , , , , , , , ,U U U

y su probabilidad sería 4 · 1/3 · 2/3 · 2/3 · 2/3 = 32/81

El suceso que es la imagen inversa de 2 es:

( ) ( ) ( ) ( ) ( ) ( )R R R R R R R R R R R R R R R R R R R R R R R R, , , , , , , , , , , , , , , , , ,U U U U U

y su probabilidad 6 · 1/3 · 1/3 · 2/3 · 2/3 = 24/81

La imagen inversa de 3 es:

( ) ( ) ( ) ( )R R R R R R R R R R R R R R R R, , , , , , , , , , , ,U U U

y su probabilidad 4 · 1/3 · 1/3 · 1/3 · 2/3 = 8/81

La imagen inversa de 4 es el suceso:

( )R R R R, , , y su probabilidad es 1/3 · 1/3 · 1/3 · 1/3 = 1/81

Resumiendo la distribución del número de aciertos es:

X 0 1 2 3 4P 16/81 32/81 24/81 8/81 1/81

2.4- Un jugador de Rol, en una partida de Dungeons and Dragons, para salvarse de unconjuro de Raistlin, necesita sacar un 18 en el lanzamiento de los dados. El Dungeon Masterle ofrece lanzar tres dados de seis caras o uno de diez junto con uno de ocho. ¿En cual deestas dos alternativas es más probable obtener un 18 y salvarse del conjuro? Explique surespuesta ¿Sería la respuesta la misma si hubiese que sacar 17 o más para evitar el conjuro?

Solución.

Para sacar 18 con tres dados de seis caras tiene que ocurrir el suceso (6, 6, 6) quetiene una probabilidad 1/6 · 1/6 · 1/6 = 1/216.

Para obtener 18 con un dado de diez caras y otro de ocho tiene que ocurrir el suceso(10, 8) cuya probabilidad es 1/10 · 1/8 = 1/80. Obviamente esta probabilidad es mayor quela anterior.

Para obtener 17 o más con los tres dados tiene que ocurrir el suceso:

Page 7: Problemas de Análisis de Datos. Salinas, José M

Tema 2. Variables aleatorias. 7

(5, 6, 6) ∪ (6, 5, 6) ∪ (6, 6, 5) ∪ (6, 6, 6) cuya probabilidad es 4/216.

Para conseguir el mismo resultado con los dos dados tiene que ocurrir:(10, 7) ∪ (9, 8) ∪ (10, 8) que tiene una probabilidad de 3/80 que también sería mayor quecon los tres dados.

2.5- Tenemos una urna con dos bolas blancas, tres verdes y cinco rojas. Extraemos al azardos bolas simultáneamente. Recibimos 200 pesetas si las dos bolas son blancas, 100 si lasdos son verdes y 10 si una es roja y la otra verde, en los demás casos no recibimos nada.¿Cual es el valor esperado de los premios?

Solución.

P(B1 ∩ B2) = P(B1) · P(B2 / B1) = 2/10 · 1/9 = 2/90 = 1/45

P(V1 ∩ V2) = P(V1) · P(V2 / V1) = 3/10 · 2/9 = 6/90 = 1/15

P((R1 ∩ V2) ∪ (V1 ∩ R2)) = P(R1 ∩ V2) + P(V1 ∩ R2) = 5/10 · 3/9 + 3/10 · 5/9 =15/90 + 15/90 = 1/3

Por consiguiente el premio esperado sería:

E[premio] = 200 · 1/45 + 100 · 1/15 + 10 · 1/3 + 0 · 26/45 = 14,4

2.6- En el punto de partida de un laberinto hay tres orificios iguales A, B y C. Si la rata eligeA vuelve al punto de partida después de recorrer dos metros. Si elige B recorre cinco metrosy vuelve al mismo punto. Si elige C sale al exterior recorriendo un metro. ¿Por término medioque distancia recorre una rata antes de salir, si siempre elige un orificio distinto de losseleccionados en veces anteriores?

Solución.

Los itinerarios que pueden darse con las distancias recorridas en cada caso, son (A,B, C) 8, (B, A, C) 8, (A, C) 3, (B, C) 6, (C) 1, y sus probabilidades serían:

P(A, B, C) = P(A) · P(B/A) · P(C/A∩B) = 1/3 · 1/2 · 1 = 1/6P(B, A, C) = P(B) · P(A/B) · P(C/B∩A) = 1/3 · 1/2 · 1 = 1/6P(A, C) = P(A) · P(C/A) = 1/3 · 1/2 = 1/6P(B, C) = P(B) · P(C/B) = 1/3 · 1/2 = 1/6P(C) = 1/3

En consecuencia la distancia media recorrida será:

E[D] = 8 · 1/3 + 6 · 1/6 + 3 · 1/6 + 1 · 1/3 = 4,5

Page 8: Problemas de Análisis de Datos. Salinas, José M

Terma 3. Distribuciones. 9

Problemas resueltos del Tema 3.

3.1- Si un estudiante responde al azar a un examen de 8 preguntas de verdadero o falso ¿Cuales la probabilidad de que acierte 4? ¿Cual es la probabilidad de que acierte dos o menos?¿Cual es la probabilidad de que acierte cinco o más? ¿Cuanto valen la media y la varianza delnúmero de preguntas acertadas?

Solución.

La distribución del número de aciertos será una distribución Binomial de parámetros n= 8 y p = 1/2, en consecuencia:

( )Pr , , ,ξ = =

⋅ ⋅ = =4

8

40 5 0 5

70256

0 2734 4

Para resolver los dos apartados siguientes calculamos previamente

( )Pr , , ,ξ = =

⋅ ⋅ = =0

8

00 5 0 5

1256

0 0040 8

( )Pr , , ,ξ= =

⋅ ⋅ = =1

8

10 5 0 5

8256

0 0311 7

( )Pr , , ,ξ = =

⋅ ⋅ = =2

8

20 5 0 5

28256

0 1092 6

( )Pr , , ,ξ= =

⋅ ⋅ = =3

8

30 5 0 5

56256

0 2193 5

en consecuencia

( ) ( ) ( ) ( )Pr Pr Pr Pr , , , ,ξ ξ ξ ξ≤ = = + = + = = + + =2 0 1 2 0 004 0 031 0 109 0 144

( ) ( ) ( )Pr Pr , , , , , ,ξ ξ≥ = − ≤ = − + + + + =5 1 4 1 0 004 0 031 0109 0 219 0 273 0 364

La media y la varianza se obtienen aplicando la expresión obtenida de forma generalpara la media y la varianza de una distribución Binomial:

E[ξ] = n · p = 8 · 0,5 = 4 y Var[ξ] = n · p · q = 8 · 0,5 · 0,5 = 2

3.2- En una población en la que hay un 40% de hombres y un 60% de mujeres seleccionamos4 individuos ¿Cual es la probabilidad de que haya 2 hombres y 2 mujeres? ¿Cual es laprobabilidad de que haya más mujeres que hombres?

Page 9: Problemas de Análisis de Datos. Salinas, José M

10 Problemas de Análisis de Datos. José M. Salinas

Solución.

El número de hombres en la muestra sigue una distribución Binomial de parámetros n= 4 y p = 0,4. Entonces para calcular la probabilidad de que haya 2 hombres y 2 mujeres enla muestra, basta calcular la probabilidad de que haya dos hombres en la misma.

( )Pr , , , , ,ξ= =

⋅ ⋅ = ⋅ ⋅ =2

4

20 4 0 6 6 016 0 36 0 34562 2

Para que haya más mujeres que hombres en la muestra, el número de estos tiene queser menor que 2, luego la probabilidad será:

( ) ( ) ( )Pr Pr Pr , , , , ,ξ ξ ξ< = = + = =

⋅ ⋅ +

⋅ ⋅ =2 0 1

4

00 4 0 6

4

10 4 0 6 0 47520 4 1 3

3.3- Sabiendo que la variable Z sigue una distribución Normal cero, uno, calcule las siguientesProbabilidades:P(Z ≤ 0,93) P(Z ≤ 1,68) P(Z ≤ -2,27) P(Z ≤ -0,27)P(Z > 0,62) P(Z > 2,05) P(Z > -1,07) P(Z > -3,39)P(0,56 < Z ≤ 2,80) P(-2,81 < Z ≤ -0,33) P(-0,85 < Z ≤ 0,72)

Solución.

Los ejercicios de la primera fila se resuelven buscando directamente en las tablas de ladistribución Normal, donde se obtienen los siguientes valores:

P(Z ≤ 0,93) = 0,8238 P(Z ≤ 1,68) = 0,9535 P(Z ≤ -2,27) = 0,0116P(Z ≤ -0,27) = 0,3936

Para resolver los ejercicios de la segunda fila se recurre a calcular la probabilidad delsuceso contrario:

P(Z > 0,62) = 1 - P(Z ≤ 0,62) = 1 - 0,7324 = 0,2676

y de forma análoga se obtiene:

P(Z > 2,05) = 0,0202 P(Z > -1,07) = 0,8577 P(Z > -3,39) = 0,9996

En la tercera fila se pide calcular la probabilidad de una serie de intervalos, para ellodebe recordarse que la probabilidad de un intervalo es igual al valor de la Función deDistribución para el extremo superior menos el valor de la Función de Distribución para elextremo inferior, es decir:

P(0,56 < Z ≤ 2,80) = P(Z ≤ 2,80) - P(Z ≤ 0,56) = 0,9974 - 0,7123 = 0,2851

Page 10: Problemas de Análisis de Datos. Salinas, José M

Terma 3. Distribuciones. 11

y para los otros dos intervalos sería:

P(-2,81 < Z ≤ -0,33) = 0,3707 - 0,0025 = 0,3682 P(-0,85 < Z ≤ 0,72) = 0,5665

3.4- Siendo Z una N(0,1), calcule los valores de la variable que verifican las siguientescondiciones:P(Z ≤ z) = 0,70 P(Z ≤ z) = 0,90 P(Z ≤ z) = 0,35 P(Z ≤ z) = 0,05P(Z > z) = 0,25 P(Z > z) = 0,05 P(Z > z) = 0,85 P(Z > z) = 0,69P(-z < Z ≤ z) = 0,90 P(-z < Z ≤ z) = 0,60

Solución.

Los ejercicios de la primera fila se resuelven buscando en las tablas de la Normal elvalor más próximo a la probabilidad pedida y viendo a que valor de la variable corresponde:

P(Z ≤ z) = 0,70 ⇒ z ≈ 0,52 P(Z ≤ z) = 0,90 ⇒ z ≈ 1,28P(Z ≤ z) = 0,35 ⇒ z ≈ -0,39 P(Z ≤ z) = 0,05 ⇒ z ≈ -1,64

La resolución de los ejercicios de la segunda fila utiliza las propiedades de laprobabilidad del suceso contrario:

P(Z > z) = 0,25 ⇒ P(Z ≤ z) = 1- 0,25 = 0,75 ⇒ z ≈ 0,67análogamente:

P(Z > z) = 0,05 ⇒ z ≈ 1,64 P(Z > z) = 0,85 ⇒ z ≈ -1,04 P(Z > z) = 0,69 ⇒ z ≈ -0,5

Para resolver los ejercicios de la tercera fila se aplica la simetría de la Normal

P(-z < Z ≤ z) = 0,90 ⇒ P(Z ≤ -z) = 0,05 y P(Z ≤ z) = 0,95 ⇒ z ≈ 1,64

P(-z < Z ≤ z) = 0,60 ⇒ z ≈ 0,84

3.5- Partiendo de que X es una variable que sigue una distribución Normal de media 50 ydesviación típica 4, calcule las siguientes probabilidades:P(X ≤ 55) P(X ≤ 59) P(X ≤ 47,5) P(X ≤ 45,6)P(X > 60,4) P(X > 58,64) P(X > 48,2) P(X > 46,26)P(52 < X ≤ 54) P(44,5 < X ≤ 49) P(47,25 < X ≤ 53,48)

Solución.

Estos ejercicios se resuelven merced a la propiedad de que al tipificar una variableNormal la variable resultante sigue una distribución Normal cero, uno.

( ) ( )P X P Z P Z≤ = ≤−

= ≤ =55

55 504

125 0 8944, ,

análogamente:

Page 11: Problemas de Análisis de Datos. Salinas, José M

12 Problemas de Análisis de Datos. José M. Salinas

P(X ≤ 59) = 0,9878 P(X ≤ 47,5) = 0,2676 P(X ≤ 45,6) = 0,1357

Para los ejercicios de la segunda fila vuelve a utilizarse las propiedades del sucesocontrario:

( ) ( ) ( )P X P Z P Z P Z> = >−

= > = − ≤ =60 4

60 4 504

2 6 1 2 6 0 0047,,

, , ,

de forma semejante:

P(X > 58,64) = 0,0154 P(X > 48,2) = 0,6736 P(X > 46,26) = 0,8264

Los intervalos de la tercera fila se resuelven en la forma siguiente:

( ) ( ) ( )P X P X P X P Z P Z52 54 54 5254 50

452 50

4< ≤ = ≤ − ≤ = ≤

− ≤

( ) ( )= ≤ − ≤ = − =P Z P Z1 0 5 0 8413 0 6915 0 1498, , , ,

similarmente

P(44,5 < X ≤ 49) = 0,3175 P(47,25 < X ≤ 53,48) = 0,5627

3.6- La variable aleatoria Y sigue una distribución Normal de media 2,55 y desviación típica0,36. Halle los valores de la variable que cumplen las siguientes condiciones:P(Y ≤ y) = 0,54 P(Y ≤ y) = 0,95 P(Y ≤ y) = 0,42 P(Y ≤ y) = 0,1P(Y > y) = 0,38 P(Y > y) = 0,05 P(Y > y) = 0,54 P(Y > y) = 0,01P(a < Y ≤ b) = 0,80 P(a < Y ≤ b) = 0,95

Solución.

( )P Y y P Zy

≤ = ⇒ ≤−

=0 542 55

0 360 54,

,,

,

buscando en las tablas de la Normal:

( )P Zy

y≤ ≈ ⇒−

= ⇒ = + ⋅ =01 0 542 55

0 360 1 2 55 0 36 01 2 586, ,

,,

, , , , ,

de manera semejante:

P(Y ≤ y) = 0,95 ⇒ y = 3,1404 P(Y ≤ y) = 0,42 ⇒ y = 2,478P(Y ≤ y) = 0,1 ⇒ y = 2,0892

Page 12: Problemas de Análisis de Datos. Salinas, José M

Terma 3. Distribuciones. 13

( ) ( )P Y y P Y y P Zy

> = ⇒ ≤ = ⇒ ≤−

=0 38 0 622 55

0 360 62, ,

,,

,

buscando en las tablas de la Normal cero, uno:

( )P Zy

y≤ ≈ ⇒−

= ⇒ = + ⋅ =0 31 0 622 55

0 360 31 2 55 0 36 0 31 2 6616, ,

,,

, , , , ,

análogamente:

P(Y > y) = 0,05 ⇒ y =3,1404 P(Y > y) = 0,54 ⇒ y = 2,514P(Y > y) = 0,01 ⇒ y = 3,3888

( ) ( ) ( )P a Y b P Y a P Y b< ≤ = ⇒ ≤ = ≤ =0 80 01 0 9, , ,

( )P Za

P Za

a≤−

= ≤ − = ⇒−

= − ⇒ =2 55

0 3601 1 28 01

2 550 36

128 2 0892,

,, , ,

,,

, ,

( )P Zb

P Zb

b≤−

= ≤ = ⇒−

= ⇒ =2 55

0 360 9 128 0 9

2 550 36

128 3 0108,

,, , ,

,,

, ,

y para el otro intervalo:P(a < Y ≤ b) = 0,95 ⇒ a = 1,8444 y b = 3,2556

3.7- Las calificaciones en un examen siguen una distribución Normal de media 5,6 ydesviación típica 0,8.a) ¿Qué proporción de alumnos tendrá puntuaciones inferiores o iguales a 4?b) ¿Qué proporción de alumnos aprobará?c) ¿Qué proporción de alumnos obtendrá Notable o Sobresaliente?

Solución.

a) ( ) ( )Pr Pr,

,Pr ,X Z Z≤ = ≤

= ≤ − =44 5 6

0 82 0 0228

b) ( ) ( )Pr Pr,

,Pr , , ,X Z Z> = >

= − ≤ − = − =55 5 6

0 81 0 75 1 0 2266 0 7734

c) ( ) ( )Pr Pr,

,Pr , , ,X Z Z> = >

= − ≤ = − =77 5 6

0 81 175 1 0 9599 0 0401

3.8- Las puntuaciones en un test de ansiedad-rasgo siguen, en una población de mujeres, unadistribución Normal de media 25 y desviación Típica 10. Si queremos clasificar la poblaciónen cuatro grupos de igual tamaño ¿Cuales serán las puntuaciones que delimiten estos grupos?

Solución.

Page 13: Problemas de Análisis de Datos. Salinas, José M

14 Problemas de Análisis de Datos. José M. Salinas

Las puntuaciones que delimitan estos cuatro grupos serán el primer, segundo y tercercuartil de la distribución

( )Pr , Pr ,X Q ZQ

≤ = ⇒ ≤−

=1

10 2525

100 25

buscando en las tablas de la Normal cero, uno el valor de la variable que deja por debajo desi una probabilidad de 0,25 tenemos:

( )Pr , ,Z ≤ − =0 67 0 25 luego Q1 25

100 67

− = − ,

y despejando Q1 25 10 0 67 18 3= − ⋅ =, ,

Como en la distribución Normal Media y Mediana son iguales tendremos que:

Q2 25=

( )Pr , Pr ,X Q ZQ

≤ = ⇒ ≤−

=3

30 7525

100 75

buscando en las tablas

( )Pr , ,Z ≤ =0 67 0 75 luego Q3 25

100 67

− = ,

despejandoQ3 25 10 0 67 31 7= + ⋅ =, ,

Por consiguiente el primer grupo serían los individuos con puntuaciones inferiores oiguales a 18,3, el segundo aquellos con puntuaciones entre 18,3 y 25, el tercero los sujetoscon puntuaciones entre 25 y 31,7 y el cuarto aquellos que tengan puntuaciones superiores a31,7.

3.9- Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto querespondiese al azar ¿Cual sería la probabilidad de que acertase?a) 50 preguntas o menos.b) Más de 50 y menos de 100.c) Más de 120 preguntas.

Solución.

El número de preguntas acertadas seguirá una distribución Binomial con n = 200 y p= 0,5. Ahora bien, como el número de pruebas es elevado esta distribución se puedeaproximar por una Normal de media 200·0,5 = 100 y de varianza 200·0,5·0,5 = 50 o lo quees lo mismo con desviación típica 7,07, luego:

Page 14: Problemas de Análisis de Datos. Salinas, José M

Terma 3. Distribuciones. 15

( ) ( ) ( )Pr Pr , Pr,

,Prξ ≤ ≈ ≤ = ≤

= ≤ − ≈50 50 550 5 100

7 077 0X Z Z

( ) ( ) ( )Pr Pr Pr Pr,

,Pr

,,

50 100 99 5199 5 100

7 0750 5 100

7 07< < = ≤ − ≤ = ≤

− ≤−

ξ ξ ξ Z Z

( ) ( )= ≤ − − ≤ − = − =Pr , Pr , ,Z Z0 07 7 0 4721 0 0 4721

( ) ( )Pr Pr,,

Pr , , ,ξ> ≈ >−

= − ≤ = − =120120 5 100

7 071 2 9 1 0 9981 0 0019Z Z

3.10- En una distribución Binomial con n = 10 y P = 0,8 ¿Qué error se comete al calcular laprobabilidad de que la variable sea igual a 6, mediante la aproximación Normal?

Solución.

( )Pr , , ,ξ= =

⋅ =6

10

60 8 0 2 0 08816 4

Esta distribución Binomial se aproxima por una Normal de media 8 y desviación típica1,265, luego:

( ) ( ) ( ) ( )Pr Pr , , Pr , Pr ,ξ= ≈ < ≤ = ≤ − ≤6 55 6 5 6 5 5 5X X X

( ) ( )= ≤−

− ≤−

= ≤ − − ≤ −Pr,,

Pr,,

Pr , Pr ,Z Z Z Z6 5 81265

55 81265

118 198

= 0,1190 - 0,0238 = 0,0952

y el error que cometeríamos sería:

0,0952 - 0,0881 = 0,0071

Page 15: Problemas de Análisis de Datos. Salinas, José M

Tema 6. Descripción de la distribución de frecuencias

Problemas resueltos del Tema 6

1.- Los datos siguientes corresponden a los tiempos de reacción de una muestra de 33sujetos, medidos en centésimas de segundo:

55, 51, 60, 56, 64, 56, 63, 63, 61, 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74,65, 58, 61, 62, 59, 64, 57, 63, 52, 67.

Calcule la media, mediana, el primer y el tercer cuartil, directamente a partir de losdatos.

Solución:a) Para calcular la media simplemente sumamos todos los valores, lo cual da como

resultado 1963, y dividimos entre el número de observaciones que es 33, con lo cualobtenemos:

48,5933

1963 ==x

b) Para calcular la mediana, el primer paso es escribir los valores en orden creciente:

45, 48, 49, 50, 51, 52, 53, 54, 55, 56, 56, 57, 57, 58, 58, 59, 60, 61, 61, 62, 62, 63, 63,63, 64, 64, 65, 66, 67, 68, 70, 72, 74

Como el número de observaciones es impar el valor central, es decir el decimosexto, esla mediana, por consiguiente la Mediana de esta distribución es 60.

El cálculo del primer cuartil es análogo, es la observación que deja una cuarta parte delas observaciones por debajo y tres cuartas partes por encima, luego en este caso es lanovena observación y por consiguiente el valor del primer cuartil es 55.

Análogamente el tercer cuartil es el valor que ocupa en la anterior ordenación laposición vigesimoquinta y es 64.

2.- Con los datos del problema anterior, construya una tabla estadística de estos datos,agrupados en 5 intervalos de igual amplitud, calcule la media, y la mediana, compareestos resultados con los obtenidos en el problema anterior.

Solución:

Tiempos Nº sujetos45 a 51 451 a 57 657 a 63 1163 a 69 969 a 75 3

Para llegar a la anterior tabla se ha calculado en primer lugar el rango de la distribuciónque es el mayor valor 74 menos el menor 45, lo que nos da 29. Como 29 no es divisibleentre 5 redondeamos hasta el valor más próximo por exceso que es 30, dividiendo esterango entre el número de intervalos que deseamos, cinco, obtenemos la amplitud quedeben tener los intervalos, seis. A partir del primer valor, 45 se han calculado los

Page 16: Problemas de Análisis de Datos. Salinas, José M

Problemas de Análisis de Datos. José M. Salinas

restantes extremos sumando 6, sucesivas veces. Posteriormente se ha contado el númerode observaciones comprendidas dentro de cada intervalo, recuérdese que los intervalosse toman abiertos a la derecha, y de esta forma se han obtenido las frecuencias queaparecen en la tabla.

Tiempos ni ci ci·ni Ni

45 a 51 4 48 192 451 a 57 6 54 324 1057 a 63 11 60 660 2163 a 69 9 66 594 3069 a 75 3 72 216 33

33 1986

La media es: 1986/33 = 60,18

Mediana:Comenzamos calculando la mitad del tamaño de la muestra 33/2 = 16,5. A continuaciónobservamos cuál es la primera frecuencia acumulada que es mayor que 16,5 que resultaser 21. Esto nos indica que la Mediana se encuentra en el intervalo de 57 a 63, aplicandoentonces la fórmula que determina la mediana, obtenemos:

5,6011

6)105,16(57 =⋅−+=Me

Las diferencias existentes entre los valores anteriores (exactos) y los valores actuales(aproximados) son debidas al efecto del agrupamiento de los valores en clases. En esteúltimo caso los cálculos hacen la suposición de que las observaciones estánuniformemente distribuidas dentro de los intervalos, si este supuesto se cumpleexactamente ambos valores coincidirán. Conforme los datos reales se aparten de estesupuesto mayor será la discrepancia entre ambos procedimientos. Como en este caso losdatos se distribuyen de forma bastante uniforme, las discrepancias entre los valoresobtenidos por ambos procedimientos son pequeñas.

3.- La distribución de las puntuaciones en una escala de hostilidad, de 160 sujetos deuna muestra, ha sido la siguiente:

Xi ni

0 a 10 810 a 20 2220 a 30 3230 a 40 4440 a 50 2850 a 60 2060 a 70 6

a) ¿Entre que valores se encuentra el 50% central de los individuos?b) Calcule el percentil 27.c) ¿A partir de que puntuación se encuentra el 12% de los sujetos más hostiles?d) Si descontamos el 15 % de los individuos menos hostiles y el 15% de los más

hostiles ¿En qué intervalo de puntuación se encuentran los restantes?

Page 17: Problemas de Análisis de Datos. Salinas, José M

Tema 6. Descripción de la distribución de frecuencias

Solución:Antes de comenzar a responder los distintos apartados, debemos en primer lugarcalcular las frecuencias acumuladas

Xi ni Ni

0 a 10 8 810 a 20 22 3020 a 30 32 6230 a 40 44 10640 a 50 28 13450 a 60 20 15460 a 70 6 160

a) Se trata de calcular el primer cuartil que dejará por debajo el 25% inferior, y eltercer cuartil que dejará por encima el 25% superior. De esta forma entre ambosvalores se encontrará el 50% central. Para calcular el primer cuartil determinamos lacuata parte del tamaño de la muestra 160/4 = 40. La primera frecuencia acumuladaque supera este valor es 62, por consiguiente el primer cuartil se encuentra en elintervalo de 20 a 30, aplicamos la fórmula para su determinación:

125,2332

10)3040(201 =⋅−+=Q

Las tres cuartas partes del tamaño de la muestra son 120, por tanto el tercer cuartil seencuentra en el intervalo de 40 a 50 y su valor es:

4528

10)106120(403 =⋅−+=Q

b) El 27% del tamaño de la muestra es 43,2, luego el percentil 27 está en el intervalode 20 a 30 y su valor es:

125,2432

10)302,43(2027 =⋅−+=P

c) El valor que deja por encima el 12% de los sujetos más hostiles, es el mismo quedeja por debajo el 88% con menores puntuaciones, por tanto debemos calcular elpercentil 88. El 88% del tamaño de la muestra vale 140,8. Aplicando la formulatenemos:

4,5320

10)1348,140(5088 =⋅−+=P

d) Se trata de calcular el percentil 15 y el percentil 85. El 15% del tamaño de lamuestra es 24. El 85% del tamaño es 136 y por tanto:

27,1722

10)824(1015 =⋅−+=P

5120

10)134136(5085 =⋅−+=P

Page 18: Problemas de Análisis de Datos. Salinas, José M

Problemas de Análisis de Datos. José M. Salinas

4.- Hemos medido la variable neuroticismo en un grupo de sujetos obteniendo lossiguientes resultados:

3, 5, 3, 6, 4, 2, 8, 3, 7, 5, 8, 9, 4, 5, 5, 3

Calcule la desviación media y la desviación típica.

Solución:

Comenzamos calculando la media de la muestra, para ello sumamos los valores de lasobservaciones obteniendo 80. Dividiendo por el número de observaciones, 16, tenemosel valor de la media, 5.

A continuación calculamos las desviaciones a la media:

2, 0, 2, 1, 1, 3, 3, 2, 2, 0, 3, 4, 1, 0, 0, 2

Sumando estas desviaciones, obtenemos 26 y dividiendo por el tamaño de la muestra,16, obtenemos la Desviación media:

625,11626 ==Dm

Para calcular la desviación típica, empezamos calculando los cuadrados de los valores:

9, 25, 9, 36, 16, 4, 64, 9, 49, 25, 64, 81, 16, 25, 25, 9

Sumando obtenemos 466, por consiguiente la varianza valdrá:

125,4516466 22 =−=S

calculando su raíz cuadrada obtenemos el valor de la desviación típica:

S = 2,03

Page 19: Problemas de Análisis de Datos. Salinas, José M

Temas 7 y8. Estimadores y sus distribuciones. 1

Problemas resueltos Temas 7 y 8.

1- En una población se presenta una alteración leve en una cierta proporción P de losindividuos que la componen. Definimos una variable aleatoria X que vale 1 para los individuosalterados y 0 para los no alterados.a) Escriba la distribución poblacional de esta variable aleatoriab) Si p es la proporción de veces que aparece el valor 1 en muestras aleatorias simples detamaño 3. Calcule la distribución en el muestreo de p, suponiendo que P es igual a 0,2.c) Demuestre que en este caso p es un estimador insesgado de P.d) Repita los pasos b) y c) de forma general para un valor cualquiera de P.

Solución:La solución del apartado a) aparece en la siguiente tabla:

xi pi0 0,81 0,2

Para resolver el apartado b) comenzamos con una tabla donde aparecen todas lasposibles muestras de tamaño 3, la probabilidad de estas muestras y el valor de la proporciónmuestral en cada una de ellas

Muestra Prob. p(0,0,0) 0,512 0(1,0,0) 0,128 1/3(0,1,0) 0,128 1/3(0,0,1) 0,128 1/3(1,1,0) 0,032 2/3(1,0,1) 0,032 2/3(0,1,1) 0,032 2/3(1,1,1) 0,008 1

por consiguiente la esperanza matemática será:

E[p] = 0 · 0,512 + 1/3 · 0,384 + 2/3 · 0,096 + 1 · 0,008 = 0,2

y queda resuelto el apartado c). Para el apartado d) escribimos la distribución de p en el casogenérico que será:

p Prob.0 Q3

1/3 3PQ2

2/3 3P2Q1 P3

y la esperanza matemática de p será:

Distribución de p:

p Prob.0 0,512

1/3 0,3842/3 0,0961 0,008

Page 20: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de Datos. José M. Salinas

[ ] ( ) ( )E p PQ P Q P P Q PQ P P Q P P= + + = + + = + =2 2 3 2 2 22 2

2- Una variable aleatoria puede tomar los valores 1, 2 y 3 con probabilidades 0,25 0,5 y 0,25respectivamente. Si para estimar la media de esta variable aleatoria extraemos muestrasaleatorias simples de tamaño 3 y utilizamos como estimadores la media muestral y la semisumade los valores extremos. Queremos confirmar que:a) Los dos estimadores son insesgados y b) La media muestral es más eficienteRealice los cálculos necesarios para verificar estos dos puntos.

Solución:En la siguiente tabla damos todas las muestras posibles de tamaño 3, sus

probabilidades y los valores que tomarían ambos estimadores en esas muestras:

Muestra Prob. Media Semisum.(1,1,1) 0,015625 1 1(2,1,1) 0,03125 4/3 1,5(1,2,1) 0,03125 4/3 1,5(1,1,2) 0,03125 4/3 1,5(3,1,1) 0,015625 5/3 2(1,3,1) 0,015625 5/3 2(1,1,3) 0,015625 5/3 2(2,2,2) 0,125 2 2(3,2,2) 0,0625 7/3 2,5(2,3,2) 0,0625 7/3 2,5(2,2,3) 0,0625 7/3 2,5(1,2,2) 0,0625 5/3 1,5(2,1,2) 0,0625 5/3 1,5(2,2,1) 0,0625 5/3 1,5(3,3,3) 0,015625 3 3(2,3,3) 0,03125 8/3 2,5(3,2,3) 0,03125 8/3 2,5(3,3,2) 0,03125 8/3 2,5(1,3,3) 0,015625 7/3 2(3,1,3) 0,015625 7/3 2(3,3,1) 0,015625 7/3 2(1,2,3) 0,03125 2 2(1,3,2) 0,03125 2 2(2,3,1) 0,03125 2 2(2,1,3) 0,03125 2 2(3,1,2) 0,03125 2 2(3,2,1) 0,03125 2 2

Por consiguiente la distribución de la media muestral será:

Page 21: Problemas de Análisis de Datos. Salinas, José M

Temas 7 y8. Estimadores y sus distribuciones. 3

Media 1 4/3 5/3 2 7/3 8/3 3Prob. 0,015625 0,09375 0,234375 0,3125 0,234375 0,09375 0,015625

y la distribución de la semisuma de los valores extremos será:

Semisuma 1 1,5 2 2,5 3Prob. 0,015625 0,28125 0,40625 0,28125 0,015625

por consiguiente las esperanzas de estos dos estimadores serían:

E[Media] = 1 · 0,015625 + 4/3 · 0,09375 + 5/3 · 0,234375 + 2 · 0,3125 + 7/3 · 0,234375 + 8/3 · 0,09375 + 3 · 0,015625 = 2

E[Semisuma] = 1 · 0,015625 + 1,5 · 0,28125 + 2 · 0,40625 + 2,5 · 0,28125 + 3 · 0,015625 = 2

luego ambos estimadores son insesgados. Las varianzas respectivas serían:

Var[Media] = 1 · 0,015625 + 16/9 · 0,09375 + 25/9 · 0,234375 + 4 · 0,3125 + 49/9 · 0,234375 + 64/9 · 0,09375 + 9 · 0,015625 - 4 = 0,167

Var[Semisuma] = 1 · 0,015625 + 2,25 · 0,28125 + 4 · 0,40625 + 6,25 · 0,28125 + 9 · 0,015625 - 4 = 0,172

por consiguiente la media es en este caso un estimador más eficiente que la semisuma de losvalores extremos.

3- Las puntuaciones en la Escala de Inteligencia para Adultos de Wechsler (WAIS) siguen enuna población una distribución Normal de media 100 y desviación típica 16. Si extraemos deesa población una muestra aleatoria simple de 25 individuosa) ¿Cual es la probabilidad de que la media de esos 25 individuos sea inferior a 95?b) ¿Cual es la probabilidad de que esa misma media esté comprendida entre 98 y 102?

Solución:De acuerdo con el teorema de Fisher:

x Nn

µσ

,

Por lo que en nuestro caso:

( )x N N→

=10016

25100 3 2,, ,, ,

Page 22: Problemas de Análisis de Datos. Salinas, José M

4 Problemas de Análisis de Datos. José M. Salinas

Entonces el apartado a) se resuelve en la forma siguiente:

( ) ( )Pr Pr,

Pr , ,x Z Z≤ = ≤−

= ≤ − =9595 100

3 2156 0 0594

y el apartado b) quedará resuelto de la siguiente forma:

( ) ( ) ( )Pr Pr Pr Pr,

Pr,

98 102 102 98102 100

3 298 100

3 2< ≤ = ≤ − ≤ = ≤

− ≤

x x x Z Z

( ) ( )= ≤ − ≤ − = − =Pr , Pr , , , ,Z Z0 62 0 62 0 7324 0 2676 0 4648

4- Las puntuaciones obtenidas en la escala de Locus de Control de James por los sujetosdepresivos, siguen una distribución Normal de media 90 y desviación típica 12. Si se extraenmuestras aleatorias simples de 30 sujetos depresivos ¿ Por debajo de que cantidad seencontrará el 90% de las veces el valor de la varianza de la muestra?

Solución:En virtud del teorema de Fisher sabemos que:

nSn

2

2 12

σχ→ −

Por tanto en el problema que nos ocupa se verificará:

30144

2

292S → χ

De las tablas de la Ji-cuadrado obtenemos:

( )Pr , ,χ292 0 9 39 09≤ = ⇒ =x x

Por consiguiente:

( )Pr , , Pr,

, Pr , ,30144

39 09 0 939 09 144

300 9 187 63 0 9

22 2S

S S≤

= ⇒ ≤

= ⇒ ≤ =

Por tanto, el valor pedido es 187,63.

Page 23: Problemas de Análisis de Datos. Salinas, José M

Tema 9. Intervalos de confianza 1

Problemas resueltos. Tema 9

1- Los tiempos de reacción, en mili segundos, de 17 sujetos frente a una matriz de 15estímulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492, 534,523, 452, 464, 562, 584, 507, 461Suponiendo que el tiempo de reacción se distribuye Normalmente, determine un intervalo deconfianza para la media a un nivel de confianza del 95%.

Solución:

Mediante los cálculos básicos obtenemos que la media muestral vale 505,35 y la desviacióntípica 42,54.

Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos que el valorque deja por debajo una probabilidad de 0,975 es 2,12

Sustituyendo estos valores en la expresión del intervalo de confianza de la media tenemos:(505,35 - 2,12 · 42,54 / 4 ,, 505,35 + 2,12 · 42,54 / 4)

operando( 482,80 ,, 527,90 )

2- En una muestra de 65 sujetos las puntuaciones en una escala de extroversión tienen unamedia de 32,7 puntos y una desviación típica de 12,64.a) Calcule a partir de estos datos el correspondiente intervalo de confianza, a un nivel del90%, para la media de la población.b) Indique, con un nivel de confianza del 95%, cual sería el máximo error que podríamoscometer al tomar como media de la población el valor obtenido en la estimación puntual.

Solución:

a) Buscando en las tablas de la t de Student obtenemos que el valor que deja por debajo unaprobabilidad del 95% es 1,671 (aproximadamente). Sustituyendo los valores de esta muestraen la expresión del intervalo de confianza obtenemos:

( 32,7 - 1,671 · 12,64 / 8 ,, 32,7 + 1,671 · 12,64 / 8 )operando

( 30,06 ,, 35,34 )

b) En las tablas de la t de Student encontramos que el valor de la variable que deja pordebajo una probabilidad de 0,975 es 2. En consecuencia a un nivel de confianza del 95% lamedia de la población puede valer

32,7 ± 2 · 12,64 / 8

luego el máximo error que se puede cometer, a este nivel de confianza, es: 3,16

Page 24: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de Datos. José M. Salinas

3- Con los datos del problema 1, calcule a un nivel de confianza del 90% un intervalo deconfianza para la varianza e indique cual sería el máximo error por exceso y por defecto quepodría cometerse utilizando el estimador insesgado de la varianza.

Solución:

Mediante cálculos básicos obtenemos que la varianza de la muestra vale 1809,29 y lacuasivarianza 1922,37

En las tablas de la Ji-cuadrado encontramos que el valor que deja por debajo unaprobabilidad de 0,05 es 7,96 y que 26,30 deja por debajo una probabilidad de 0,95.

Sustituyendo en la expresión del intervalo de confianza para la varianza tenemos:

( 17 · 1809,29 / 26,30 ,, 17 · 1809,29 / 7,96 )operando

( 1169,50 ,, 3864,06 )

Por tanto el error por defecto sería 1922,37 - 3864,06 = -1941,69y el error por exceso 1922,37 – 1169,50 = 752,87

4- En una muestra de 300 universitarios el 80% ha respondido que asiste semanalmente alcine. Entre que valores se encuentra, con un nivel de confianza del 95%, la proporción deuniversitarios que acude todas las semanas al cine.

Solución:

En las tablas de la Normal encontramos que el valor de la variable que deja por debajo unaprobabilidad de 0,975 es 1,96.

Sustituyendo en la expresión del intervalo de confianza para una proporción:

0 8 1960 8 0 2

3000 8 1 96

0 8 0 2300

, ,, • ,

,, , ,, • ,

− +

operando( 0,755 ,, 0,845 )

Page 25: Problemas de Análisis de Datos. Salinas, José M

Temas 10 y 11. Contrastes paramétricos de hipótesis. 1

Problemas resueltos. Temas 10 y 11

1- las puntuaciones en un test que mide la variable creatividad siguen, en la población generalde adolescentes, una distribución Normal de media 11,5. En un centro escolar que haimplantado un programa de estimulación de la creatividad una muestra de 30 alumnos haproporcionado las siguientes puntuaciones:

11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8,23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.

A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?

Solución:

1º Ho µ = 11,5

2º H1 µ > 11,5

3º El estadístico de contraste en este caso es: tx

Sn

= −

µ0

1

4º La media muestral es 12,47 y la desviación típica de la muestra es 5,22, sustituyendoen el estadístico estos valores se obtiene:

t = − =12 47 11 55 22

29

1 00, ,

,,

5º Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 29grados de libertad, el valor que deja por debajo de sí una probabilidad de 0,95, que resultaser 1,699

6º El valor del estadístico es menor que el valor crítico, por consiguiente se acepta lahipótesis nula.

7º La interpretación sería que no hay evidencia de que el programa sea efectivo.

2- En una muestra de 1000 nacimientos el número de varones ha sido 542 ¿Puedeconsiderarse, con un nivel de significación del 10%, que en general nacen más niños queniñas?

Solución:

1º La hipótesis nula sería que nacen igual número de niños que de niñas, o lo que es lomismo que la proporción de niños nacidos es igual 1/2.

Page 26: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de datos. José M. Salinas

Por consiguiente: Ho P = 0,5

2º H1 P > 0,5

3º El estadístico de contraste es : p PP Q

n

−⋅

0

0 0

4º Como la proporción muestral es 542/1000 = 0,542, sustituyendo se obtiene el valordel estadístico:

0 542 0 50 5 0 51000

2 66, ,

, ,,

−⋅

=

5º Como el contraste es unilateral, buscamos en las tablas de la Normal el valor de lavariable que deja por debajo de sí una probabilidad de 0,9, este valor es 1,282.

6º El valor del estadístico 2,66 es mayor que el valor crítico 1,282 por consiguiente, serechaza la hipótesis nula.

7º Efectivamente, nacen en mayor proporción iños que niñas.

3- En una muestra de 66 alumnos se ha calculado el coeficiente de correlación de Pearsonentre sus puntuaciones en el primer parcial de Análisis de Datos y el tiempo que se emplea endesplazarse desde su domicilio hasta la Facultad, obteniéndose que r vale 0,24. Podemosmantener, con un nivel de confianza del 95%, la idea de que estas variables son incorreladas,o por el contrario debemos rechazarla.

Solución:

1º Ho ρ = 0

2º H1 ρ ≠ 0

3º El estadístico de contraste es: tr n

r= −

2

1 2

4º Sustituyendo tenemos:0 24 641 0 0576

1 98,

,,

−=

5º El contraste es bilateral, por ello buscamos en las tablas de la t de Student, con 60grados de libertad (el valor más próximo a 64 que figura en nuestras tablas), el valor que deja

Page 27: Problemas de Análisis de Datos. Salinas, José M

Temas 10 y 11. Contrastes paramétricos de hipótesis. 3

por debajo una probabilidad de 0,975 que es 2. Por tanto la región de aceptación será elintervalo (-2 ,, 2).

6º El valor del estadístico pertenece a la región de aceptación, por consiguiente se aceptala hipótesis nula.

7º No existe correlación entre ambas variables, de donde se deduce que el tiempoempleado no influye en la calificación.

4- Las puntuaciones en un test de razonamiento abstracto siguen una distribución Normal demedia 35 y varianza 60. Para evaluar un programa de mejora de las capacidades intelectuales,a 101 individuos que están realizando este programa se les pasa el test, obteniéndose unamedia de 50 puntos y una varianza de 80 ¿Puede asegurarse, a un nivel de confianza del 90%,que el programa incrementa las diferencias individuales en esta variable?

Solución:

1º H02 60σ =

2º H12 60σ >

3º El estadístico de contraste es:nS 2

02σ

4º Sustituyendo en el estadístico obtenemos:

101 8060

134 7⋅ = ,

5º Como el contraste es unilateral buscamos en las tablas de la Ji-cuadrado, con 100grados de libertad, el valor de la variable que deja por debajo de sí una probabilidad de 0,9,este valor es 118,5.

6º El valor del estadístico es mayor que el valor crítico, por consiguiente se rechaza lahipótesis nula.

7º En efecto, la varianza es significativamente mayor lo que indica que ha aumentado ladispersión de la puntuaciones lo que indica que se han incrementado las diferencias entre losindividuos.

5- Las notas obtenidas en Análisis de Datos de 5 individuos elegidos al azar del grupo T1 yde 6 individuos, elegidos también al azar, del grupo T2 son las siguientes:

Page 28: Problemas de Análisis de Datos. Salinas, José M

4 Problemas de Análisis de datos. José M. Salinas

T1 10 6 4 5 4T2 4 8 6 6 2 3

¿Puede concluirse a un nivel de confianza del 95% que las puntuaciones medias de ambosgrupos son iguales? o por el contrario que hay diferencia entre ambas.

Solución:

1º Ho µ1 = µ2

2º H1 µ1 ≠ µ2

3º El estadístico de contraste en este caso es:

tx x

n S n Sn n n n

=−

++ −

+

1 2

1 12

2 22

1 2 1 221 1

4º La muestra del grupo T1 tiene una media de 5,8 y una varianza de 4,96. En la muestradel grupo T2 la media es 4,83 y la varianza 4,14 sustituyendo en el estadístico estos valoresse obtiene:

t =−

⋅ + ⋅+ −

+

=58 4 83

5 4 96 6 4145 6 2

15

16

0 68, ,

, ,,

5º Como el contraste es bilateral, buscamos en las tablas de la t de Student, con 9grados de libertad, el valor que deja por debajo de sí una probabilidad de 0,975, que resultaser 2,262

6º El valor del estadístico es menor que el valor crítico, por consiguiente se acepta lahipótesis nula.

7º La interpretación sería que no hay evidencia de diferencias significativas entre ambosgrupos.

6- Para comprobar la utilidad de una técnica de enriquecimiento motivacional un investigadorpasa una prueba de rendimiento académico a una muestra de 16 sujetos. Después aplica sutécnica de enriquecimiento y tras ello, vuelve a pasar la prueba de rendimiento. Los resultadosfueron los siguientes:

1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º 13º 14º 15º 16º

Page 29: Problemas de Análisis de Datos. Salinas, José M

Temas 10 y 11. Contrastes paramétricos de hipótesis. 5

8 12 14 11 16 6 11 9 10 10 19 12 17 8 13 129 16 23 21 17 10 14 8 11 12 19 16 16 13 17 11

A un nivel de confianza del 95%, ¿Podemos rechazar que los rendimientos académicos soniguales antes que después frente a la alternativa de que se produce una mejora?

Teniendo en cuenta que los sujetos son los mismos en ambas muestras se trata de un contrastede igualdad de medias con datos emparejados, por consiguiente:

Solución:

1º Ho µd = 0

2º H1 µd > 0

3º El estadístico de contraste en este caso es:

txSn

d

d

=

−1

4º En primer lugar calculamos las diferencias muestrales

Pre 8 12 14 11 16 6 11 9 10 10 19 12 17 8 13 12Pos 9 16 23 21 17 10 14 8 11 12 19 16 16 13 17 11Dif. 1 4 9 10 1 4 3 -1 1 2 0 4 -1 5 4 -1

La media de las diferencias es 2,81 y la desviación típica 3,19, sustituyendo en el estadísticoestos valores se obtiene:

t = =2 813 19

15

3 41,,

,

5º Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 15grados de libertad, el valor que deja por debajo de sí una probabilidad de 0,95, que resultaser 1,753

6º El valor del estadístico es mayor que el valor crítico, por consiguiente se rechaza lahipótesis nula.

7º La interpretación sería que que el programa es efectivo e incrementa el rendimientoacadémico.

Page 30: Problemas de Análisis de Datos. Salinas, José M

Tema 12. Contrastes No Paramétricos. 1

Problemas resueltos. Tema 12

1.- En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4.Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden aun dado homogéneo.

Solución:

1º La hipótesis nula será que el dado es homogéneo, esto implica que la distribución delos números es uniforme, es decir que los cuatro números tienen una probabilidad deaparecer de 0,25.

2º La hipótesis alternativa será que la distribución no es uniforme.

3º Como la variable es discreta utilizaremos el test Ji-cuadrado de bondad de ajuste auna distribución.

4º En la tabla siguiente se han realizado todos los cálculos necesarios, obteniéndose elvalor 4,36 para el estadístico de contraste.

xi ni pi Npi ni-npi (ni-npi)2 (ni-npi)2/npi

1 60 0,25 50 10 100 22 45 0,25 50 -5 25 0,53 38 0,25 50 -12 144 2,884 57 0,25 50 7 49 0,98

200 4,36

5º Como el estadístico tenía 4 sumandos, buscamos en las tablas de la Ji-cuadrado con 3grados de libertad el valor que deja por debajo una probabilidad de 0,95 y obtenemosque el valor crítico es 7,81.

6º Como el valor del estadístico es inferior al valor crítico, aceptamos la hipótesis nula.

7º Estos resultados son compatibles con el hecho de que el dado sea homogéneo.

2.- En una encuesta preelectoral realizada a 500 personas se obtuvo la siguientedistribución en función de sus edades y de su intención de voto:

EdadPartido 18 – 35 35 – 50 50 o más

A 10 40 60B 15 70 90C 45 60 35D 30 30 15

A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto esindependiente de la edad?

Page 31: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de datos. José M. Salinas

Solución:

1º La hipótesis nula es que las dos variables son independientes.

2º La hipótesis alternativa es que hay relación entre ambas variables.

3º Se trata de un contraste de independencia entre dos variables, por consiguiente elestadístico de contraste a utilizar es el estadístico Ji-cuadrado para tablas decontingencia.

4º Las tablas siguientes presentan los cálculos del estadístico:

EdadPartido 18 – 35 35 – 50 50 o más

A 10 40 60 110B 15 70 90 175C 45 60 35 140D 30 30 15 75

100 200 200 500

A partir de las frecuencias marginales de la tabla anterior, se obtienen las frecuenciasesperadas que aparecen a continuación:

EdadPartido 18 – 35 35 – 50 50 o más

A 22 44 44B 35 70 70C 28 56 56D 15 30 30

Por consiguiente las discrepancias entre frecuencias empíricas y frecuencias esperadasson:

EdadPartido 18 – 35 35 – 50 50 o más

A -12 -4 16B -20 0 20C 17 4 -21D 15 0 -15

Los cuadrados de las discrepancias son:

EdadPartido 18 – 35 35 – 50 50 o más

A 144 16 256B 400 0 400C 289 16 441D 225 0 225

Dividiendo por las frecuencias esperadas se obtiene:

Page 32: Problemas de Análisis de Datos. Salinas, José M

Tema 12. Contrastes No Paramétricos. 3

EdadPartido 18 – 35 35 – 50 50 o más

A 6,55 0,36 5,82B 11,43 0 5,71C 10,32 0,29 7,88D 15 0 7,5

43,30 0,65 26,91 70,86

Sumando, se obtiene el valor del estadístico 70,86.

5º Como la edad presenta tres intervalos y los partidos son cuatro, el estadístico tendrá(3 - 1)·(4 -1 ) = 6. Buscamos en las tablas de la distribución Ji-cuadrado con 6 gradosde libertad el valor de la variable que deja por debajo una probabilidad de 0,9encontramos que el valor crítico es 10,64.

6º Como el valor del estadístico es mayor que el valor crítico rechazamos la hipótesisnula de que ambas variables son independientes.

7º La edad cambia la intención de voto.

3.- Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de palabras,previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% ¿Son compatibles estos resultados con la hipótesis deque el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 ydesviación típica 10?

Solución:

1º La hipótesis nula es que los datos proceden de una Normal (110, 10).

2º La hipótesis alternativa es que no siguen esa distribución Normal.

3º Como la variable es continua, y la hipótesis nula especifica totalmente la distribuciónutilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadístico de contraste es:max | Fn(xi) - Mn(xi) |

4º los cálculos del estadístico se especifican en la siguiente tabla:

xi 87 98 104 109 112 115 116 118 123zi -2,3 -1,2 -0,6 -0,1 0,2 0,5 0,6 0,8 1,3Fn 0,0107 0,1151 0,2743 0,4602 0,5793 0,6915 0,7257 0,7881 0,9032Mn 0,1111 0,2222 0,3333 0,4444 0,5556 0,6667 0,7778 0,8889 1

|Fn-Mn| 0,1004 0,1071 0,059 0,0158 0,0237 0,0248 0,0521 0,1008 0,0968

5º Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor crítico paraun nivel de confianza del 95% se obtiene 0,43001.

Page 33: Problemas de Análisis de Datos. Salinas, José M

4 Problemas de Análisis de datos. José M. Salinas

6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta lahipótesis nula.

7º A un nivel de confianza del 95% no hay evidencia en contra de que el tiempo dereacción siga una distribución N(110, 10).

4.- En la encuesta telefónica realizada el pasado curso por los alumnos los resultadosfueron muy dispares, mientras algunos realizaron las cuatro entrevistas programadasotros no consiguieron cumplimentar ninguna de ellas. La distribución del número deentrevistas conseguidas por los 57 alumnos que participaron en el proyecto fue lasiguiente:

Nº entrevistas Nº alumnos0 61 162 243 94 2

Total 57

A un nivel de confianza del 90% ¿Puede afirmarse que estas diferencias han sidodebidas al azar? O por el contrario están motivadas por alguna otra causa.

1º La hipótesis nula de que los resultados obtenidos son debidos al azar implica que entodas las llamadas hay la misma probabilidad de conseguir respuesta y que el resultadode cada llamada es independiente de las restantes. Entonces el número de entrevistasconseguidas por cada alumno es la suma de cuatro variables de Bernouilli y porconsiguiente, la distribución sería una Binomial con n = 4 y P desconocida.

2º La hipótesis alternativa es que no siguen esa distribución Binomial.

3º Como la variable es discreta y además la hipótesis nula no especifica totalmente ladistribución utilizaremos el test Ji-cuadrado de bondad de ajuste.

4º Para calcular el valor del estadístico necesitamos las probabilidades de los valores,para ello es preciso estimar previamente el valor de P a partir de los datos de la muestra.

El total de llamadas ha sido 57·4 = 228.Las llamadas con éxito han sido 1·16 + 2·24 + 3·9 + 4·2 = 99.La proporción es 99/228 = 0,4342.Las probabilidades aplicando la función de probabilidad de la distribución Binomialserán:

1025,05658,0·4342,00

4)0Pr( 40 =

==x

3146,05658,0·4342,01

4)1Pr( 31 =

==x

Page 34: Problemas de Análisis de Datos. Salinas, José M

Tema 12. Contrastes No Paramétricos. 5

3621,05658,0·4342,02

4)2Pr( 22 =

==x

1853,05658,0·4342,03

4)3Pr( 13 =

==x

0355,05658,0·4342,04

4)4Pr( 04 =

==x

El resto de los cálculos necesarios para obtener el valor del estadístico aparecenordenados en la tabla siguiente:

xi ni pi npi ni-npi (ni-npi)2 (ni-npi)2/npi

0 6 0,1025 5,84 0,16 0,03 0,0051 16 0,3146 17,93 -1,93 3,72 0,2072 24 0,3621 20,64 3,36 11,29 0,5473 9 0,1853 10,56 -1,56 2,43 0,2304 2 0,0355 2,02 -0,02 0 0

57 0,989

5º El estadístico tiene 5 sumandos, pero como hemos estimado un parámetro, debemosbuscar en las tablas de la Ji-cuadrado con 3 grados de libertad. El valor de la variableque deja por debajo una probabilidad de 0,9 es 6,25.

6º Como el valor del estadístico 0,989 es menor que el valor crítico, 6,25 se acepta lahipótesis nula.

7º Los resultados obtenidos por los alumnos pueden ser fruto del azar.

Page 35: Problemas de Análisis de Datos. Salinas, José M

Tema13. Regresión. 1

Problemas resueltos. Tema 13

1- En una tarea de clasificación de patrones que constaba de 10 láminas se obtuvieron lossiguientes datos de las diferencias de las distancias logarítmicas del estímulo a clasificar conrespecto a los prototipos de las dos clases en que podía ser encuadrado y del número deerrores cometidos por los sujetos:

Lámina 1 2 3 4 5 6 7 8 9 10Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95Nº errores 12 10 4 2 6 5 16 3 4 8

a) Calcule el coeficiente de correlación de Pearson e interprete el resultado.b) Determine la recta de regresión que permite predecir el número de errores en función de ladiferencia entre las distancias.c) De acuerdo con el modelo anterior, indique cual tiene que ser la diferencia para que nohaya errores.

Solución:

a) Comenzamos calculando media, varianza y desviación típica de ambas variables

Dl S SE S S

Dl Dl

E E

= = == = =

1 082 0 256 0 5067 18 4 243

2

2

, , ,,

Calculamos la covarianza

SE Dl

nE DlEDl =

⋅− ⋅ = − = −∑ 5 794 7 574 1 78, , ,

El coeficiente de correlación será:

rS

S SEDl

E Dl

=⋅

= −⋅

= −1 784 243 0 506

0 829,

, ,,

El signo negativo del coeficiente de correlación nos indica que la relación entre ambasvariables es inversa, es decir que al aumentar la distancia disminuye el número de errores. Elvalor absoluto nos indica que la relación lineal entre distancia y número de errores es bastantealta, por consiguiente las variaciones en el número de errores en esta tarea se pueden explicary predecir en gran medida, por la diferencia de las distancias de los estímulos a clasificar.

b) Para determinar la recta de regresión E = a·Dl + b calculamos los valores de loscoeficientes a y b mediante las expresiones obtenidas por el método de mínimos cuadrados:

aSS

EDl

Dl

= = − = −2

1 780 256

6 953,

,,

Page 36: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de datos. José M. Salinas

b E aDl= − = + ⋅ =7 6 953 1 082 14 523, , ,

Luego la recta será E = -6,953·Dl + 14,253

c) Haciendo cero el número de errores en la expresión anterior tenemos:0 = -6,953·Dl + 14,503, despejando obtenemos Dl = -14,503/-6,953 = 2,089Téngase en cuenta que no se trata de predecir la distancia en función del número de errores,sino de buscar en que punto corta la recta de regresión el eje de abscisas. Es decir para quevalor de la distancia se hace cero E.

2- En el mismo trabajo del problema anterior, se calculó también la diferencia de las distanciaseuclídeas del patrón a clasificar con respecto a los prototipos de ambas clases, obteniéndoseel siguiente resultado:

Lámina 1 2 3 4 5 6 7 8 9 10 Diferencia 9,98 9,97 9,93 9,92 9,99 9,99 9,93 9,93 9,97 8,00

Indique que distancia le parece mas adecuada para expresar la dificultad de la tarea y porqué.

Solución:

Calculamos la media, varianza y desviación típica de las diferencias de distancias euclídeas:De S SDe De= = =9 761 0 345 0 5882, , ,

Calculamos la covarianza entre el número de errores y esta distancia

SE De

nE DeEDe =

⋅− ⋅ = − = −∑ 68 146 68 327 0 181, , ,

Por consiguiente el coeficiente de correlación de Pearson entre el número de errores y ladiferencia de las distancias euclídeas valdrá:

rS

S SEDe

E De

=⋅

= −⋅

= −0 1814 243 0 588

0 073,

, ,,

Comparando ambos coeficientes de correlación se ve que la diferencia de distanciaslogarítmicas explica mucho mejor el número de errores que la diferencia de distanciaseuclídeas.

Page 37: Problemas de Análisis de Datos. Salinas, José M

Tema13. Regresión. 3

3- Se ha medido la motivación ante el estudio a 38 sujetos, antes y después de participar enun programa de innovación didáctica. Obteniéndose los siguientes datos:

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13Pre-prueba 55 49 37 40 50 45 35 38 28 56 41 44 44Post-prueba 65 53 57 51 66 60 51 53 62 57 58 51 48

Sujeto 14 15 16 17 18 19 20 21 22 23 24 25 26Pre-prueba 38 56 58 38 46 57 45 58 57 62 63 46 60Post-prueba 48 48 64 67 48 61 59 69 64 69 62 60 61

Sujeto 27 28 29 30 31 32 33 34 35 36 37 38Pre-prueba 54 56 66 48 46 60 55 57 51 43 56 52Post-prueba 68 61 55 56 58 65 68 58 49 66 62 65

a) Calcule la recta de regresión que permite predecir los resultados de la post-prueba enfunción de las puntuaciones en la pre-prueba y descomponga la varianza total de laspuntuaciones en la post-prueba en dos componentes.b) Calcule para cada individuo la diferencia entre el valor pronosticado por la recta obtenidaen el apartado a y el valor observado.c) Calcule la media y varianza de las diferencias obtenidas en el apartado anterior y comparelos resultados con lo obtenido en el apartado a.d) Calcule la recta de regresión que permite deducir las puntuaciones en la pre-prueba a partirdel resultado obtenido por los sujetos en la post-prueba.

Solución:

a) Calculamos los estadísticos básicos de ambas puntuaciones:

Pr , , ,

, , ,Pr Pr= = =

= = =49 737 78 194 8 843

59 026 42 289 6 503

2

2

S S

Po S SPo Po

SPo

nPoPoPr

PrPr , , ,=

⋅− ⋅ = − =∑ 2956 71 2935 776 20 934

Por consiguiente los coeficientes de la recta Po = a·Pr + b valdrán:

a b= = = − ⋅ =20 93478 194

0 268 59 026 0 268 49 737 45 696,,

, , , , ,

Por consiguiente la recta de regresión pedida, tendrá de ecuación:

Po = 0,268·Pr + 45,696

y la varianza de las predicciones será:

Page 38: Problemas de Análisis de Datos. Salinas, José M

4 Problemas de Análisis de datos. José M. Salinas

616,5194,78268,0 22Pr

22ˆ =⋅=⋅= SaS oP

Por consiguiente, la varianza de los residuos será:

673,36616,5289,422ˆ

22 =−=−= oPPor SSS

b) Sustituyendo las puntuaciones Pre en la recta de regresión, obtenida en el apartadoanterior, calculamos las predicciones para las puntuaciones Post. La diferencia entre lapuntuación Post y esta predicción constituye el residuo. Repitiendo esta operación para todoslos sujetos obtenemos los siguientes datos:

Sujeto 1 2 3 4 5 6 7 8

Predicción 60,436 58,828 55,612 56,416 59,096 57,756 55,076 55,88

Residuo 4,564 -5,828 1,388 -5,416 6,904 2,244 -4,076 -2,88

Sujeto 9 10 11 12 13 14 15 16

Predicción 53,2 60,704 56,684 57,488 57,488 55,88 60,704 61,24

Residuo 8,8 -3,704 1,316 -6,488 -9,488 -7,88 -12,704 2,76

Sujeto 17 18 19 20 21 22 23 24

Predicción 55,88 58,024 60,972 57,756 61,24 60,972 62,312 62,58

Residuo 11,12 -10,024 0,028 1,244 7,76 3,028 6,688 -0,58

Sujeto 25 26 27 28 29 30 31 32

Predicción 58,024 61,776 60,168 60,704 63,384 58,56 58,024 61,776

Residuo 1,976 -0,776 7,832 0,296 -8,384 -2,56 -0,024 3,224

Sujeto 33 34 35 36 37 38

Predicción 60,436 60,972 59,364 57,22 60,704 59,632

Residuo 7,564 -2,972 -10,364 8,78 1.296 5,368

c) Calculando la media y varianza de los residuos obtenemos que la media es 0,0008 y lavarianza 36,687. Como vemos la media de los residuos es prácticamente nula y la varianzacoincide con la que habíamos deducido teóricamente.

d) Tenemos que calcular los coeficientes de la ecuación Pre = a'·Post + b que serán:

′ = = =aSS

Po

Po

Pr ,,

,2

20 93442 289

0 495

′ = − ′ ⋅ = − ⋅ =b a PoPr , , , ,49 737 0 495 59 026 20 519

Con lo cual la ecuación resulta ser Pre = 0,495·Post + 20,519

Page 39: Problemas de Análisis de Datos. Salinas, José M

Tema 14 Análisis de Varianza. 1

Problemas resueltos. Tema 14 Análisis de Varianza

1.- Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenancon métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, elsegundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasiocon pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes deentrenamiento se realiza un test de rendimiento consistente en un recorridocronometrado de 9 Km. Los tiempos empleados fueron los siguientes:

Método I Método II Método III15 14 1316 13 1214 15 1115 16 1417 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producenresultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales divididos por elnúmero de observaciones:

Metd. I Metd. II Metd. III Total Sum2/nSuma 77 72 61 210 2940

Sum2/n 1185,8 1036,8 744,2 2966,8

A continuación calculamos los cuadrados de las observaciones y su total:

Metd. I Metd. II Metd. III225 196 169256 169 144196 225 121225 256 196289 196 1211191 1042 751 2984

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44SC(intra) = 2984 – 2966,8 = 17,2SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios serán:

CM(entre) = 26,8/2 = 13,4CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadístico de contraste vale:

Page 40: Problemas de Análisis de Datos. Salinas, José M

2 Problemas de Análisis de Datos. José María Salinas

F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos deentrenamiento producen diferencias significativas.

2.- Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatroprocedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente seles realiza una prueba de recuerdo de dichas palabras, obteniéndose los siguientesresultados:

Procdmt. I Procdmt. II Procdmt. III Procdmt. IV5 9 8 17 11 6 36 8 9 43 7 5 59 7 7 17 4 44 42

¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con unnivel de significación del 5%?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales divididos por elnúmero de observaciones:

Proc. I Proc. II Proc. III Proc. IV Total Sum2/nSuma 43 42 43 18 146 819,8

Sum2/n 231,1 352,8 264,1 54 902

A continuación calculamos los cuadrados de las observaciones y su total:

Procdmt. I Procdmt. II Procdmt. III Procdmt. IV25 81 64 149 121 36 936 64 81 169 49 25 2581 49 49 149 16 1616 164

269 364 287 68 988

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

Page 41: Problemas de Análisis de Datos. Salinas, José M

Tema 14 Análisis de Varianza. 3

SC(total) = 988 – 819,8 = 168,2SC(intra) = 988 – 902 = 86SC(entre) = 902 – 819,8 = 82,2

Los cuadrados medios serán:

CM(entre) = 82,2/3 = 27,4CM(intra) = 86/22 = 3,9

Por consiguiente el estadístico de contraste vale:

F = 27,4/ 3,9 = 7,03

El valor de la F teórica con 3 y 22 grados de libertad, a un nivel de confianza del 95% es3,05. Por consiguiente se rechaza la hipótesis nula y se concluye que los cuatroprocedimientos de presentación producen diferencias significativas.