ACTIVIDAD 1: Estadística descriptiva + distribución binomial

13
Actividad 1: Estadística descriptiva + distribución binomial ACTIVIDAD 1: Estadística descriptiva + distribución binomial CASO 1-1: EVALUACIÓN DE UNA CLASE______________________________ Supongamos que trabajas como profesor en una universidad y te encuentras al final de un semestre académico. En el archivo notas.mtw has guardado las calificaciones obtenidas por cada uno de tus estudiantes en cada una de las tres pruebas que éstos han realizado. 1. Calcular la nota media y la mediana obtenida por cada estudiante en el conjunto de las tres pruebas: Seleccionamos Calc > Row Statistics: A continuación, para hallar la media por filas, rellenamos los campos como sigue: A1 - 1

Transcript of ACTIVIDAD 1: Estadística descriptiva + distribución binomial

Actividad 1: Estadística descriptiva + distribución binomial

ACTIVIDAD 1: Estadística descriptiva + distribución binomial

CASO 1-1: EVALUACIÓN DE UNA CLASE______________________________ Supongamos que trabajas como profesor en una universidad y te encuentras al final de un semestre académico. En el archivo notas.mtw has guardado las calificaciones obtenidas por cada uno de tus estudiantes en cada una de las tres pruebas que éstos han realizado.

1. Calcular la nota media y la mediana obtenida por cada estudiante en el conjunto de las

tres pruebas:

Seleccionamos Calc > Row Statistics:

A continuación, para hallar la media por filas, rellenamos los campos como sigue:

A1 - 1

Estadística Aplicada con Minitab

Para hallar la mediana por filas, se procede de forma análoga con la opción Median de la ventana anterior (guardaremos los resultados en la columna C7). El output resultante será:

Data Display Row Apellido Nombre Media Mediana 1 Arnau Juan 8,60000 9,3 2 Benítez Melisa 8,93333 8,6 3 Boyer Mar 6,93333 5,9 4 Díez Joaquín 6,93333 6,9 5 Duart José 5,00000 4,8 6 García Andrés 7,40000 7,8 7 Gómez Juan 9,66667 9,8 8 Gutierrez Jenifer 9,40000 9,2 9 López Antonio 7,03333 7,1 10 Lucas Tomás 7,63333 6,8 11 Méndez Guillermo 5,70000 4,9 12 Morales Esteban 9,40000 9,4 13 Murcia Bárbara 9,26667 9,5 14 Neruda Amalia 8,36667 8,1 15 Núñez Inma 8,40000 9,0 16 Pérez Ricardo 9,23333 10,0 17 Rojas Luis 7,83333 7,9 18 Rupèrez Alberto 8,03333 7,9 19 Sáez Núria 7,13333 7,9 20 Sánchez Miguel 8,53333 8,1 21 Segura Carlos 9,70000 9,7 22 Solá Isabel 5,26667 5,1 23 Tárrega Francisco 6,76667 6,0 24 Tomás Josefa 7,40000 8,8 2. Hallar el valor medio o esperado de la nota asociada al Test 1:

Seleccionamos Calc > Column Statistics Rellenamos los campos como se muestra en la siguiente imagen, guardando el resultado en la

constante K1, cuyo valor se muestra en el output del programa:

Column Mean Mean of Test1 = 8,0000

A1 - 2

Actividad 1: Estadística descriptiva + distribución binomial

CASO 1-2: COMPARACIÓN DE SALARIOS______________________________ El archivo salarios.mtw contiene los salarios anuales (en €) de los 11 trabajadores del departamento de finanzas de una empresa, así como otra información relevante asociada (número de años que lleva cada trabajador en la empresa, experiencia previa, años de formación superior, edad, nº identificativo, y sexo). 1. Construir un histograma a partir de la variable que contiene los sueldos.

Seleccionamos Graph > Histogram y completamos los campos como sigue:

4250040000375003500032500300002750025000

3

2

1

0

������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������

HISTOGRAMA DE SUELDOS

Sueldos

Frec

uenc

ia

Observar que hay un “salto” bastante grande entre los 4 trabajadores mejor pagados y el resto.

A1 - 3

Estadística Aplicada con Minitab

2. Construir dos histogramas, uno por cada sexo, de la variable sueldos, comentando el resultado.

Seleccionamos Graph > Histogram y completamos los campos como sigue:

4250040000375003500032500300002750025000

2

1

0���������������������������������������������

������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������

�����������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������

������������������������������������������������������������������������

HISTOGRAMA SUELDOS MUJERES

4250040000375003500032500300002750025000

2

1

0

������������

������������������������������������������������������������

������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������

HISTOGRAMA SUELDOS HOMBRES

Sueldos M

Frec

uenc

ia

Sueldos H

Frec

uenc

ia

Parece observarse que los sueldos de los hombres tienden a ser mas altos que los de las mujeres.

A1 - 4

Actividad 1: Estadística descriptiva + distribución binomial

3. Representar la variable sueldos mediante una gráfico de cajas (Boxplot). Hacer lo mismo para cada sexo y comentar los resultados.

Seleccionamos Graph > Boxplot y completamos los campos como sigue:

25000

30000

35000

40000

Suel

dos

BOXPLOT PARA SUELDOS

El gráfico anterior nos proporciona de forma visual bastante información. Por ejemplo, nos dice que la mitad de los sueldos del departamento están comprendidos, aproximadamente, en el intervalo (29.000, 39.000), y también que la mitad de los salarios se sitúan por debajo de 33.000 €.

A1 - 5

Estadística Aplicada con Minitab

Seleccionamos Graph > Boxplot y completamos los campos como sigue:

0 = H 1 = M

25000

30000

35000

40000

Sexo N

Suel

dos

BOXPLOT SUELDOS POR SEXO

Se aprecia en este último gráfico que la mediana asociada a los sueldos de los hombres es mayor que la asociada a los sueldos de las mujeres en unos 7.000 €. Es importante hacer notar aquí que, si bien parece haber indicios de diferencias entre los sueldos según sexo, no se puede concluir nada en firme. Para ello sería necesario recurrir a técnicas más avanzadas, como la regresión lineal múltiple, que nos proporcionasen resultados estadísticamente significativos.

A1 - 6

Actividad 1: Estadística descriptiva + distribución binomial

CASO 1-3: ANÁLISIS NUTRITIVO______________________________________ Pretendemos ahora realizar un análisis descriptivo sobre las propiedades nutritivas de 14 marcas diferentes de yogures. Para cada marca se ha evaluado su calidad nutritiva, el coste de cada unidad, y el número de calorías. Los datos se encuentran guardados en el archivo Yogurt.mtw . A la hora de decidirnos por una determinada marca de yogurt, nos interesará escoger una que proporcione suficientes calorías a un precio razonable. En principio, podríamos pensar en escoger una marca cuyo precio se encuentre por debajo de la media. 1. Hallar los estadísticos descriptivos asociados a las variables coste y calorías.

Seleccionar Stat > Basic Statistics > Display Descriptive Statistics:

Los resultados se muestran a continuación: Current worksheet: Yogurt.mtw Descriptive Statistics Variable N Mean Median TrMean StDev SE Mean Coste en 14 0,09357 0,09000 0,09333 0,01692 0,00452 Calorías 14 170,9 175,0 170,8 65,0 17,4 Variable Minimum Maximum Q1 Q3 Coste en 0,07000 0,12000 0,07750 0,11000 Calorías 90,0 253,0 100,0 240,0

A1 - 7

Estadística Aplicada con Minitab

2. Hallar, para cada nivel de calificación nutritiva, los estadísticos descriptivos asociados a las variables coste y calorías. Comentar los resultados.

Seleccionar Stat > Basic Statistics > Display Descriptive Statistics:

Descriptive Statistics Variable Califica N Mean Median TrMean StDev Coste en Buena 4 0,09500 0,09500 0,09500 0,01291 Excelent 3 0,0967 0,1100 0,0967 0,0231 Muy buen 2 0,09000 0,09000 0,09000 0,00000 Pobre 2 0,0950 0,0950 0,0950 0,0354 Suficien 3 0,0900 0,0900 0,0900 0,0200 Calorías Buena 4 185,0 200,0 185,0 75,1 Excelent 3 113,33 120,00 113,33 11,55 Muy buen 2 100,00 100,00 100,00 0,00 Pobre 2 246,50 246,50 246,50 9,19 Suficien 3 206,7 190,0 206,7 28,9 Variable Califica SE Mean Minimum Maximum Q1 Q3 Coste en Buena 0,00645 0,08000 0,11000 0,08250 0,10750 Excelent 0,0133 0,0700 0,1100 0,0700 0,1100 Muy buen 0,00000 0,09000 0,09000 * * Pobre 0,0250 0,0700 0,1200 * * Suficien 0,0115 0,0700 0,1100 0,0700 0,1100 Calorías Buena 37,5 90,0 250,0 107,5 247,5 Excelent 6,67 100,00 120,00 100,00 120,00 Muy buen 0,00 100,00 100,00 * * Pobre 6,50 240,00 253,00 * * Suficien 16,7 190,0 240,0 190,0 240,0

Observamos que las marcas calificadas nutricionalmente como pobres tienen un coste medio de 0,095 € , lo cual resulta superior a lo que deseamos gastar, por tanto las descartaremos. Se aprecia también como aquellas marcas con una mejor calificación nutricional tienden a tener un menor número de calorías.

A1 - 8

Actividad 1: Estadística descriptiva + distribución binomial

3. Crear una tabla de frecuencias y porcentajes para la variable calificación nutritiva. Sacar conclusiones.

Seleccionar Stat > Tables > Tally : Summary Statistics for Discrete Variables Califica Count CumCnt Percent CumPct Buena 4 4 28,57 28,57 Excelent 3 7 21,43 50,00 Muy buen 2 9 14,29 64,29 Pobre 2 11 14,29 78,57 Suficien 3 14 21,43 100,00 N= 14

Comprobamos que el 64% de las marcas fueron calificadas como buenas, muy buenas, o excelentes en términos de valores nutritivos. Aunque el coste de los yogures varía entre 0,07 y 0,12 € , la mitad de las marcas están por debajo de los 0,09 €. A la hora de seleccionar una de ellas, nos quedaríamos probablemente con la marca nº 8, dado que está considerado como excelente, cuesta 0,07 € por unidad y, además, el número de calorías que aporta (100) es inferior a la media (107,9).

A1 - 9

Estadística Aplicada con Minitab

CASO 1-4: TIPOS DE SANGRE________________________________________ Supongamos que trabajas como estadístico voluntario para la Cruz Roja. El coordinador del centro te ha comentado que las reservas de sangre tipo O se están acabando y que, en base a su experiencia, estima que necesitaréis unas 10 o 12 nuevas bolsas se sangre tipo O para poder cubrir las necesidades de la próxima semana. Además, te informa de que dispone de 25 potenciales donantes (los cuales no mantienen ninguna relación de parentesco entre ellos), y te pregunta si serán suficientes o si, por el contrario, debería seguir buscando más donantes. Viendo el historial clínico de tu centro, compruebas que 45 de cada 100 donantes tienen sangre del tipo buscado, por lo que la probabilidad de que al elegir un donante al azar éste tenga sangre de tipo O es de 0,45. Así pues, si denotamos por X al número de donantes ya disponibles que tienen sangre de tipo O, tendremos que X seguirá una distribución binomial con n = 25 pruebas y probabilidad de éxito p = 0,45. 1. Para k = 0, 1, 2, …, 25 hallar la probabilidad de que X valga k, i.e., hallar P(X = k).

En primer lugar, generaremos una columna que contenga los números 1, 2, …, 25. Para ello seleccionamos Calc > Make Patterned Data > Simple Set of Numbers :

A continuación pulsamos Calc > Probability Distributions > Binomial :

A1 -

10

Actividad 1: Estadística descriptiva + distribución binomial

Obtendremos el output que aparece a continuación, el cual nos proporciona la probabilidad de que la variable aleatoria X tome cada uno de los valores posibles. Así, p.e., la probabilidad de que exactamente 11 de entre los 25 donantes tengan clase de tipo O será de 0,1583:

Data Display Row k P(X=k) 1 1 0,000007 2 2 0,000065 3 3 0,000407 4 4 0,001830 5 5 0,006290 6 6 0,017155 7 7 0,038097 8 8 0,070133 9 9 0,108387 10 10 0,141889 11 11 0,158306 12 12 0,151110 13 13 0,123636 14 14 0,086705 15 15 0,052023 16 16 0,026603 17 17 0,011523 18 18 0,004190 19 19 0,001263 20 20 0,000310 21 21 0,000060 22 22 0,000009 23 23 0,000001 24 24 0,000000 25 25 0,000000

2. Estudiar, mediante un histograma, qué valores son los más probables:

Seleccionamos Graph > Plot :

A1 - 11

Estadística Aplicada con Minitab

0 5 10 15 20 25

0,00

0,05

0,10

0,15

k

P(X=

k)

Nube de puntos de probabilidadvs. nº de sucesos

En el gráfico anterior se aprecia claramente que los valores más probables son: X = 9, X = 10, X = 11, X = 12 y X = 13.

3. Para k = 0, 1, 2, …, 25 hallar la probabilidad de que X valga a lo sumo k, i.e.: P(X <= k). ¿Cuál es la probabilidad de que entre los 25 donantes haya al menos 12 que tengan sangre de tipo O?

Pulsamos Calc > Probability Distributions > Binomial :

A1 - 12

Actividad 1: Estadística descriptiva + distribución binomial

Data Display Row k P(X=k) P(X<=k) 1 1 0,000007 0,00001 2 2 0,000065 0,00007 3 3 0,000407 0,00048 4 4 0,001830 0,00231 5 5 0,006290 0,00860 6 6 0,017155 0,02575 7 7 0,038097 0,06385 8 8 0,070133 0,13398 9 9 0,108387 0,24237 10 10 0,141889 0,38426 11 11 0,158306 0,54257 12 12 0,151110 0,69368 13 13 0,123636 0,81731 14 14 0,086705 0,90402 15 15 0,052023 0,95604 16 16 0,026603 0,98264 17 17 0,011523 0,99417 18 18 0,004190 0,99836 19 19 0,001263 0,99962 20 20 0,000310 0,99993 21 21 0,000060 0,99999 22 22 0,000009 1,00000 23 23 0,000001 1,00000 24 24 0,000000 1,00000 25 25 0,000000 1,00000

A partir de este último output podemos conocer la probabilidad de que el número de donantes con sangre tipo O sea menor o igual que un determinado nº. Así, la probabilidad de que el número de donantes con sangre tipo O sea igual o menor a 11 es de 0,5426. Veamos, finalmente, cómo calcular la probabilidad de que al menos 12 de los 25 donantes tengan sangre tipo O, i.e., P(X >= 12). Para hallar esta probabilidad, usaremos la siguiente propiedad: “la probabilidad de un suceso más la de su opuesto es igual a 1”, o dicho de otra forma: “dado un suceso A de probabilidad P(A), la probabilidad de que éste no ocurra será 1 – P(A)” . Por tanto, P(X >= 12) = 1 – P(X < 12) = 1 – P(X <= 11) = 1 – 0,5426 = 0,4574. Esto nos dice que, en las condiciones actuales, la probabilidad de que consigamos cubrir con éxito las necesidades de la próxima semana por lo que a sangre de tipo O se refiere será del orden de 0,46. Conclusión: nuestro coordinador deberá seguir buscando nuevos donantes. Siguiendo un razonamiento análogo al anterior podéis comprobar que con 35 donantes la probabilidad de que cubramos nuestras necesidades de sangre tipo O, i.e.: P(X >= 12), será de 0,93, valor que ya es bastante aceptable, pues significa que en 93 (aproximadamente) de cada 100 veces que estemos en una situación como ésta, lograremos disponer de las bolsas necesarias.

A1 - 13