Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de...

22
1 Curso de Estadística Unidad de Medidas Descriptivas Lección 6: Medidas de Dispersión para Datos Agrupados por Clases Creado por: Dra. Noemí L. Ruiz Limardo, EdD © 2010 Derechos de Autor

Transcript of Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de...

Page 1: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

1

Curso de Estadística Unidad de Medidas Descriptivas

Lección 6: Medidas de Dispersión para Datos

Agrupados por Clases

Creado por: Dra. Noemí L. Ruiz Limardo, EdD

© 2010 Derechos de Autor

Page 2: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

2

Objetivos

1. Calcular las medidas de dispersión (amplitud, varianza,

desviación estándar y coeficiente de variación) para datos

agrupados por clases.

2. Realizar análisis estadístico con medidas de dispersión para

datos agrupados por clases.

3. Interpretar los resultados obtenidos en las medidas de

dispersión a la luz del conjunto de datos

Page 3: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

3

Introducción

Medidas de Dispersión para Datos Agrupados por Clases

Cuando los datos están agrupados por clases no tenemos acceso directo a ellos. Al calcular las medidas de dispersión hay que considerar un valor que represente el intervalo de valores que hay en una clase. Este valor es la Marca de Clase o Punto Medio del intervalo definido por las clases, según se estudió

en lecciones anteriores. En esta lección se discutirá la manera de obtener las medidas de dispersión (amplitud, varianza, desviación estándar y coeficiente de variación) cuando los datos están agrupados por clases.

A. AMPLITUD, RANGO O RECORRIDO Los estadísticos utilizan diferentes técnicas para agrupar los datos por clases. Cuando los datos están agrupados por clases, como se ha mencionado en lecciones anteriores, se pierde información. En las clases no se refleja cuál es el dato menor como tampoco se refleja el dato mayor. Por lo tanto, en estos casos es imposible obtener la amplitud ya que la amplitud, como se ha definido anteriormente, es la diferencia entre el valor mayor y el menor. En algunas ocasiones, cuando se construye la distribución de frecuencias se utiliza el dato menor como límite inferior en la primera clase y el dato mayor como límite superior de la última clase. En este caso se puede obtener la amplitud de la forma usual y acostumbrada ya que observando los límites se puede conocer el dato mayor y el menor. Entonces se puede aplicar la fórmula:

Amplitud = Dato Mayor - Dato Menor

B. VARIANZA Cuando los datos están agrupados por valor simple, como se estudió en la lección anterior, la varianza se determina con la fórmula siguiente:

1

)(1

2

2

n

fxx

s

n

i

ii

Cuando los datos están agrupados en clases la fórmula que se utiliza es similar a la fórmula anterior, con la diferencia de que ahora se sustituye el componente que se refiere al dato xi por la marca de clase mi. La fórmula anterior se

convierte en:

Page 4: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

4

1

)(1

2

2

n

fxm

s

n

i

ii

2s

x - Representa la media aritmética.

n - Es la cantidad total de datos que haya en el conjunto.

im -Representa cada marca de clase.

( 1m es la marca de la primera clase, 2m es la marca de la segunda clase,

hasta nm que es la marca de la última clase).

if -Representa la frecuencia que corresponde a la marca de clase im

-Este es el símbolo de sumatoria y significa que se suma la serie de

valores que están definidos por el símbolo. En este caso, como

i comienza en 1 ( 1i ) y termina en n , se suman los resultados

correspondientes, desde el valor ][ 1

2

1 fxm hasta el valor

][2

nn fxm .

La fórmula anterior podría resultar muy trabajosa ya que para poder utilizarla habría que determinar primero la media aritmética, luego las diferencias de cada valor respecto a la media de la muestra. Después, habría que cuadrar ese resultado. Luego habría que multiplicar el resultado anterior por la frecuencia correspondiente a cada dato. Finalmente, sumar los resultados anteriores y dividir ese total por (n – 1). Esto podría ser muy trabajoso. En la lección anterior se presentó otra fórmula para hallar la varianza que resulta más fácil de aplicar: fórmula del atrecho. La fórmula del atrecho

para calcular la varianza es la siguiente:

-Representa la varianza de una muestra.

Page 5: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

5

2

1

12

2

1

)(

n

n

fx

fx

s

n

i

n

i

ii

ii

Para usar esta fórmula no se necesita hallar la media aritmética. Solo se necesita tener los valores xi representados por las marcas de clase, o sea, por mi, las frecuencias fi, y n. Al usar las marcas de clase representando a los valores mi, la fórmula se convierte en:

2

1

12

2

1

)(

n

n

fm

fm

s

n

i

n

i

ii

ii

A continuación, con el Ejemplo – 1 se demuestra la aplicación de ambas fórmula para calcular la varianza, la fórmula que utiliza la media y la fórmula de atrecho. Se demostrará primero la fórmula que utiliza la media y luego la fórmula de atrecho.

Ejemplo - 1 Una empresa farmacéutica va a probar un nuevo medicamento para diabéticos. Realiza un estudio con una muestra de 13 pacientes. El propósito del estudio es conocer los efectos del nuevo medicamento de acuerdo a la edad de los pacientes. Los resultados aparecen en la Tabla 1 a continuación. Calcule la varianza de la muestra.

Page 6: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

6

Tabla 1: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIAS (fi)

20- 29 24.5 1

30 - 39 34.5 3

40 - 49 44.5 2

50 - 59 54.5 3

60 - 69 64.5 2

70 - 79 74.5 2

TOTAL 13

1. El primer paso para hallar la varianza con la primera fórmula es calcular la media para datos agrupados por clase según se explicó en la Lección – 12 con la siguiente fórmula:

n

fm

x

n

i

ii

1

(Recuerde que m significa la marca de clase, f es la frecuencia, x es la

media aritmética, y n es el total de datos en la muestra)

Para poder usar esta fórmula se necesita añadir a la Tabla 1 la columna que corresponde al producto de mi

. fi , como se ilustra en la Tabla 2 a continuación.

Tabla 2: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIA (fi)

mi . fi

20-29 24.5 1 24.50

30-39 34.5 3 103.50

40-49 44.5 2 89.00

50-59 54.5 3 163.5

60-69 64.5 2 129.00

70-79 74.5 2 149.00

TOTAL 13 658.5

Page 7: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

7

Ahora se puede sustituir en la fórmula de media aritmética:

65.5013

5.6581

n

fm

x

n

i

ii

Se obtuvo una media aproximada de 50.65 años.

2. Después de calcular la media, ahora se necesita añadir tres columnas más a la tabla anterior, como se ilustra en la Tabla 3 y obtener los totales que se muestran con una flecha.

Tabla 3: Edades de Personas Diabéticas

CLASES mi fi mi . fi xmi 2)( xmi 2)( xmi . fi

20-29 24.5 1 24.50 -26.15 683.82 683.82

30-39 34.5 3 103.50 -16.15 260.82 782.46

40-49 44.5 2 89.00 -6.15 37.82 75.64

50-59 54.5 3 163.5 3.85 14.82 44.46

60-69 64.5 2 129.00 13.85 191.82 383.64

70-79 74.5 2 149.00 23.85 568.82 1137.64

TOTAL 13 3107.66

3. Ahora se puede sustituir en la fórmula de varianza:

97.25812

66.3107

1

)(1

2

2

n

fxm

s

n

i

ii

n

i

ii fxm1

2)(

n

Page 8: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

8

Se obtuvo una varianza aproximada a 258.97 unidades cuadradas. (Recuerde que esta medida no se interpreta ya que representa una unidad cuadrada-en este caso sería edad al cuadrado)

Ejemplo – 2

Calcule la varianza usando la fórmula de atrecho con los datos del ejemplo Ejemplo – 1. (Se usarán los datos del ejemplo anterior para ilustrar la aplicación de la fórmula de atrecho con los mismos datos y de esa manera poder comparar ambos resultados.)

Tabla 1: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIAS (fi)

20- 29 24.5 1

30 - 39 34.5 3

40 - 49 44.5 2

50 - 59 54.5 3

60 - 69 64.5 2

70 - 79 74.5 2

TOTAL 13

La fórmula de atrecho es;

2

1

12

2

1

)(

n

n

fm

fm

s

n

i

n

i

ii

ii

1. Para aplicar la fórmula de atrecho se necesita primero añadir a la Tabla 1 tres columnas, como se muestra a continuación:

Page 9: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

9

Tabla 4: Edades de Personas Diabéticas

CLASES mi fi mi . fi 2

im ii fm2

20-29 24.5 1 24.50 600.25 600.25

30-39 34.5 3 103.50 1190.25 3570.75

40-49 44.5 2 89.00 1980.25 3960.5

50-59 54.5 3 163.5 2970.25 8910.75

60-69 64.5 2 129.00 4160.25 8320.5

70-79 74.5 2 149.00 5550.25 11100.5

TOTAL 13 658.5 36463.25

2. Ahora se puede sustituir en la fórmula de atrecho:

12

13

)5.658(25.36463

1

)(2

2

1

12

2

n

n

fm

fm

s

n

i

n

i

ii

ii

12

557.3335525.36463

12

13

25.43362225.36463

97.25812

693.3107

n

i

ii fm1

)(

n )(

1

2

i

n

i

i fm

Page 10: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

10

La varianza que se obtuvo en este grupo fue de 258.97 unidades cuadradas. Si se comparan los resultados obtenidos con ambas fórmulas (la de atrecho y la fórmula de varianza anterior), se verá que se obtienen los mismos resultados.

C. DESVIACIÓN ESTÁNDAR La desviación estándar, como se ha presentado en las lecciones anteriores, es

la raíz cuadrada de la varianza. La desviación estándar es un valor que representa los promedios de todas las diferencias individuales de las observaciones con respecto a la media aritmética. Esta medida se interpreta ya que está en la misma unidad de medida que los datos. Su interpretación refleja, en promedio, cuánto se desvían todos los datos en relación a la media aritmética de la muestra. Al igual que todas las medidas de dispersión, se entiende que mientras menor sea este valor más homogéneo es el conjunto de datos. Mientras más grande sea esta medida más variación hay en el grupo, por tanto, más heterogéneo es el conjunto de datos. La desviación estándar de una muestra se obtiene mediante la siguiente fórmula.

2ss

O sea, sacando la raíz cuadrada de la varianza. A continuación se muestra la fórmula de desviación estándar sacando la raíz cuadrada de la fórmula de varianza mostrada anteriormente-la fórmula de atrecho.

1

)(1

2

12

n

n

fm

fm

s

n

i

n

i

ii

ii

s

n - Es la cantidad total de datos que haya en el conjunto.

im -Representa cada marca de clase.

( 1m es la marca de la primera clase, 2m es la marca de la segunda clase,

hasta nm que es la marca de la última clase).

-Representa la desviación estándar de una muestra.

Page 11: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

11

if -Representa la frecuencia que corresponde a la marca de clase im

-Este es el símbolo de sumatoria y significa que se suma la serie de

valores que están definidos por el símbolo.

Ejemplo – 3

Calcule la desviación estándar con los datos del Ejemplo – 1 a continuación:

Tabla 1: Edades de Personas Diabéticas

CLASES MARCAS DE CLASE

(mi)

FRECUENCIAS (fi)

20- 29 24.5 1

30 - 39 34.5 3

40 - 49 44.5 2

50 - 59 54.5 3

60 - 69 64.5 2

70 - 79 74.5 2

TOTAL 13

En el ejemplo anterior se utilizó el mismo conjunto de datos para demostrar cómo se calcula varianza. Para calcular la desviación estándar, se saca la raíz cuadrada de la varianza obtenida anteriormente, que fue 258.97 unidades cuadradas aproximadamente.

09.1697.2582ss

Esto significa que este grupo se desvía de su media aritmética un promedio aproximado de 16.09 unidades.

D. COEFICIENTE DE VARIACIÓN

El coeficiente de variación representa una medida relativa que permite

comparar grupos distintos. El coeficiente de variación representa un por ciento. Es una medida que relaciona la desviación estándar de una muestra con su

Page 12: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

12

media aritmética. El coeficiente de variación dice cuál es el por ciento de variación de un grupo respecto a su media aritmética. El coeficiente de variación es un valor que no depende de la unidad de medición y siempre se encuentra entre cero y uno, inclusive, (0 ≤ cv ≤ 1), si se expresa como decimal, o entre 0% y 100%, inclusive, (0% ≤ cv ≤ 100%), si se expresa como por ciento. Mientras más cerca el coeficiente de variación se encuentre de cero, menos variación tendrá la muestra. Mientras más cerca el coeficiente de variación se encuentre de uno (o 100%) mayor variabilidad tendrá la muestra. El coeficiente de variación cuando los datos están agrupados por clases se obtiene de la misma manera que para datos crudos y que para datos agrupados por valor simple. Para calcular el coeficiente de variación se divide la desviación estándar de una muestra por su media aritmética, o sea, la fórmula es:

x

scv

cv Coeficiente de Variación

s Desviación estándar de la muestra

x

Cuando el coeficiente de variación se expresa como por ciento la fórmula para determinarlo se convierte en:

%100x

scv

Ejemplo – 4

Calcule el coeficiente de variación del grupo representado en el Ejemplo – 1. En el ejemplo 1 se obtuvo una desviación estándar aproximada de 16.09 unidades y una media aritmética aproximada de 50.65. Se sustituye estos valores en la fórmula de coeficiente de variación, como se ilustra a continuación.

3176.065.50

09.16

x

scv

Media aritmética de la muestra

Page 13: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

13

Se obtuvo un coeficiente aproximado de 0.3176. Se puede convertir este decimal a por ciento multiplicando por 100 (esto equivale a rodar el punto dos lugares a la derecha), y se obtiene 31.76%. Este coeficiente indica que este grupo tiene un 31.76% de variación. Este grupo reflejó poca variación ya que el por ciento es bajo. Si en vez de usar la fórmula anterior se desea usar la fórmula convertida a por ciento, se usaría la fórmula siguiente:

%76.31%100)3176.0(%1005065

09.16%100

x

scv

Observe que se obtiene el mismo resultado que con la fórmula anterior.

EJERCICIOS

EJERCICIO – 1 Considere la siguiente tabla para hallar:

a. Amplitud b. Varianza c. Desviación estándar d. Coeficiente de variación

Asuma que el límite inferior de la primera clase es el dato menor en la muestra y que el límite superior de la última clase es el dato mayor en la muestra.

Tabla 5: Salario Mensual por Familia en una comunidad

CLASES MARCA DE CLASE

FRECUENCIA

1001- 1500 1250.50 2

1501 - 2000 1750.50 4

2001 - 2500 2250.50 3

2501 - 3000 2750.50 1

TOTAL 10

Page 14: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

14

EJERCICIO – 2 Una empresa que fabrica bombillas desea conocer las horas de vida que duran sus bombillas. Selecciona al azar 80 bombillas para probar su duración dejándolas encendidas todo el tiempo necesario hasta fundirse. Registran las horas de duración de la muestra. Se muestran los resultados en la tabla a continuación. Determine la varianza y la desviación estándar.

Tabla 6: Durabilidad de la muestra de bombillas

FRONTERAS FRECUENCIA

52.5-63.5 6

63.5-74.5 12

74.5-85.5 25

85.5-96.5 18

96.5-107.5 14

107.5-118.5 5

TOTAL 80

EJERCICIO – 3 La puntuación media de un grupo de estudiantes de Cálculo es 110 y la desviación estándar de 5. La puntuación media de un grupo de estudiantes de estadística es 106 y la desviación estándar es 4. ¿Qué clase es más variable en términos de las puntuaciones que obtienen los estudiantes? EJERCICIO – 4 Los datos a continuación representan el total de palabras por minuto que una muestra de 25 taquígrafos reflejaron en una prueba de velocidad. Use esta información para contestar las preguntas que aparecen más abajo.

Tabla 7: Total de palabras por minuto que escriben los taquígrafos

CLASES FRECUENCIA

54-58 2

59-63 5

64-68 8

69-73 0

74-78 4

79-83 5

84-88 1

TOTAL 25

Page 15: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

15

A. ¿Qué medida estadística se está calculando en Excel en la pantalla a continuación?

Page 16: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

16

B. ¿Qué medida estadística se está calculando en Excel en la pantalla a continuación?

C. Interprete los resultados de esta muestra utilizando los resultados trabajados en Excel.

Page 17: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

17

ASIGNACION ESPECIAL

Utilice los datos recopilados en la asignación especial correspondiente a la Lección – 3 y calcule todas las medidas de dispersión de la muestra. Debe someter electrónicamente los procedimientos necesarios para obtener cada una de las medidas solicitadas.

Page 18: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

18

RESPUESTAS A EJERCICIOS

EJERCICIO – 1 Amplitud = 1,999 Varianza ≈ 225,000 Desviación estándar ≈ 474.34 Coeficiente de variación ≈ 0.2496 A continuación se muestra el proceso para calcular varianza, desviación estándar y coeficiente de variación:

Tabla 5: Salario Mensual por Familia en una comunidad

CLASES MARCA DE

CLASE (mi)

FRECUENCIAS (fi)

mi . fi 2

im

ii fm2

1001- 1500 1250.50 2 2,501 1,563,750.25 3,127,500.5

1501 - 2000 1750.50 4 7,002 3,064,250.25 12,257,001

2001 - 2500 2250.50 3 6,751.5 5,064,750.25 15,194,250.75

2501 - 3000 2750.50 1 2,750.5 7,565,250.25 7,565,250.25

TOTAL 10 19,005 38,144,002.5

Page 19: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

19

Varianza

9

10

)005,19(5.002,144,38

1

)(

2

2

1

12

2

n

n

fm

fm

s

n

i

n

i

ii

ii

9

5.002,119,365.002,144,38

9

10

025,190,3615.002,144,38

000,225

9

000,025,2

Desviación estándar:

34.474000,225s

Page 20: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

20

Coeficiente de variación:

x

scv

5.900,110

005,191

n

fm

x

n

i

ii

2496.05.900,1

34.474

x

scv

EJERCICIO – 2 Varianza ≈ 211.2 Desviación estándar ≈ 14.5

Tabla 6: Durabilidad de la muestra de bombillas

FRONTERAS FRECUENCIA fi

mi mi . fi 2

im

ii fm2

52.5-63.5 6 58 348 3,364 20,184

63.5-74.5 12 69 828 4,761 57,132

74.5-85.5 25 80 2,000 6,400 160,000

85.5-96.5 18 91 1,638 8,281 149,058

96.5-107.5 14 102 1,428 10,404 145,656

107.5-118.5 5 113 565 12,769 63,845

TOTAL 80 6,807 595,875

Page 21: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

21

79

80

)807,6(875,595

1

)(

2

2

1

12

2

n

n

fm

fm

s

n

i

n

i

ii

ii

2.211

79

39.16684

79

61.190,579875,595

79

80

249,35,463875,595

Fórmula de desviación estándar

5.142.211s

EJERCICIO – 3 El grupo de Cálculo tiene aproximadamente 5% de variación mientras que el grupo de estadística tiene aproximadamente 4%. El grupo de Cálculo tiene mayor variabilidad.

Page 22: Curso de Estadística Unidad de Medidas Descriptivas ... · PDF fileque es la marca de la última clase ). f i-Representa la fr ecuencia que corresponde a la marca de clase m i ...

22

%5045.0110

5

x

sCVcálculo

%4038.0106

4

x

sCV aestadístic

EJERCICIO – 4

A. Media aritmética

B. Coeficiente de variación

C. Los taquígrafos de esta muestra escriben un promedio de 69.6 palabras por minutos. Este grupo se desvía de su media aritmética un promedio de 9 palabras por minuto. El grupo tiene aproximadamente un 13% de variación. Esto podría representar poca variación ya que el por ciento es bajo.