20101 d403020321203010401114460

55
SEGUNDA UNIDAD ESTADÍSTICA Y PROBABILIDADES MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

Transcript of 20101 d403020321203010401114460

Page 1: 20101 d403020321203010401114460

SEGUNDA UNIDAD

ESTADÍSTICA Y PROBABILIDADES

MEDIDAS DE TENDENCIA CENTRAL Y DISPERSIÓN

Page 2: 20101 d403020321203010401114460

49

Segunda Unidad Didáctica ● Estadística y Probabilidades

INTRODUCCIÓN MEDIDAS DE TENDENCIA CENTRAL - Definición - Media aritmética - Media aritmética para datos sin agrupar - Media aritmética para datos agrupados - Propiedades de la media aritmética - Media aritmética total o global - Moda - Moda para datos no agrupados - Moda para datos agrupados sin intervalos - Moda para datos agrupados en intervalos - Mediana - Mediana para datos no agrupados - Mediana para datos agrupados sin intervalos - Mediana para datos agrupados en intervalos

- Medidas de Posición: Cuartiles, Deciles y Percentiles - Percentiles para datos agrupados en intervalos. MEDIDAS DE DISPERSIÓN - Medidas de dispersión absoluta - Rango o Recorrido - Varianza - Varianza para datos no agrupados y agrupados - Varianza total o global - Propiedades de la varianza - Desviación estándar - Medidas de dispersión relativa - Coeficiente de variación ASIMETRÍA Y CURTOSIS - Asimetría o sesgo - Coeficiente de asimetría - Curtosis o apuntamiento - Coeficiente de curtosis

Esquema de contenidos

Page 3: 20101 d403020321203010401114460

50

Escuela Profesional de Ingeniería de Sistemas e Informática

Objetivo general Reconoce la importancia de desarrollar habilidades en el planteo, solución y análisis

de resultados de problemas usando herramientas estadísticas descriptivas.

Objetivos específicos - Analizar un conjunto de datos calculando sus principales medidas descriptivas.

- Calcular: Media aritmética, Mediana y Moda.

- Elegir la medida de tendencia central más adecuada para un conjunto de datos.

- Comprender la aplicación de los percentiles.

- Calcular el rango, la varianza y la desviación estándar.

- Calcular e interpretar el coeficiente de variación.

- Aplicar en forma correcta las medidas de dispersión absoluta y relativa.

- Diferenciar entre asimetría y curtosis.

- Determinar el sesgo de una distribución.

- Interpretar la curtosis de una distribución.

Objetivos

Page 4: 20101 d403020321203010401114460

51

Segunda Unidad Didáctica ● Estadística y Probabilidades

Estimado alumno:

Se inicia, y con mucho agrado, a la Segunda Unidad de esta asignatura con el mismo

entusiasmo que cuando inicié la unidad anterior.

En la estadística descriptiva, después de haber clasificado los datos recopilados en

una tabla de frecuencias, es interesante resumir la información contenida en ella. Es

pertinente condensar dicha información en algunos números que la expresen de forma

clara y precisa, lo cual facilitará posteriores análisis y comparaciones.

En esta unidad nos ocuparemos de las medidas de tendencia central, que son valores

que reflejan la centralización de la variable estudiada, las medidas de dispersión que

expresan el alejamiento de los datos con respecto a una medida de tendencia central y

las medidas de posición, que indican dónde se encuentra una determinada unidad de

análisis con relación a otras unidades, con respecto a una variable.

Las medidas de forma permiten comprobar si una distribución de frecuencia tiene

características especiales como simetría, asimetría, nivel de concentración de datos y

nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

Introducción

Page 5: 20101 d403020321203010401114460

52

Escuela Profesional de Ingeniería de Sistemas e Informática

II UNIDAD DIDÁCTICA

MEDIDAS DE TENDENCIA CENTRAL Definición Las medidas de tendencia central son valores numéricos que tienden a localizar, en

algún sentido, la parte central de un conjunto de datos. A menudo el término promedio

se asocia a estas mediciones. Cada una de las diferentes medidas de tendencia

central puede recibir el nombre de valor medio o promedio.

Dado un conjunto de datos se tratará de buscar una representación de ellos, que de

manera condensada nos permita tener una idea global de ese conjunto y así:

• Conocer el dato que aparece con mayor frecuencia en el conjunto.

• Saber cuál es el número que está a igual distancia de los valores máximo y

mínimo.

• Conocer la media de los datos, es decir el número que resultaría de repartir el total

de los datos equitativamente entre el número de individuos.

Las medidas de tendencia central son útiles como “descriptivas” del conjunto de datos,

pero no puede decirse que una de ellas es más descriptiva que las otras; depende de

los datos que tenga más sentido utilizar entre una u otra.

Las principales medidas de tendencia central son:

Media Aritmética : x

Mediana : Me

Moda : Mo

Contenidos

Page 6: 20101 d403020321203010401114460

53

Segunda Unidad Didáctica ● Estadística y Probabilidades

MEDIA ARITMÉTICA

Es el valor que tomaría cada uno de los datos si el total de los valores se repartiera

uniformemente entre el número de ellos.

La media aritmética es una medida muy precisa, por lo menos bajo ciertas

circunstancias, por ejemplo, cuando la presencia de valores extremos no es

significativa. La media aritmética juega un papel importante en la estadística

descriptiva, pero por ser una medida de alta precisión, su rol es fundamental en la

estadística inferencial.

Notación:

Media poblacional : µ

Media muestral : )x(M,x

x para datos sin agrupar: (Media aritmética simple).

La media aritmética de n números tales como X1 , X2 , ....... , Xn se define como la

suma de los valores de los n números, divididos entre n.

Ejemplo:

Las edades correspondientes a cinco alumnos de la UAP son las siguientes:

23 , 27 , 19 , 24 , 21 Calcular la edad promedio.

.años8,225

21241927235

5

1iiX

X =++++

=∑==

n

n

1i iXX

∑==

Page 7: 20101 d403020321203010401114460

54

Escuela Profesional de Ingeniería de Sistemas e Informática

x para datos agrupados: (Media aritmética ponderada).

Sean X1, X2, ....... , Xk valores de la variable X con sus respectivas frecuencias

absolutas f1, f2, ...... , fk , la media de X se calcula mediante:

Usando frecuencias absolutas:

n

fXx

k

1iii∑

==

Usando frecuencias relativas:

∑=

=k

1iii hXx

Ejemplos:

1.- La siguiente tabla muestra la distribución del peso de un grupo de personas.

Calcular e interpretar el promedio aritmético del peso.

Peso Xi

Nº personas if

58 7

65 12

70 9

72 14

78 6

Total n = 48

.skilo6958,6848

329248

5

1iiXif

X ≅==∑==

En promedio estas personas tienen un peso

aproximado de 69 kilos.

2.- Un grupo de personas han sido clasificadas de acuerdo a su edad,

obteniéndose los siguientes resultados.

Edad Xi

Nº de Personas fi

ih

18 4 0,12

20 12 0,35

24 6 0,18

27 10 0,29

30 2 0,06

Total n = 34 1,00

años2311,235

1i iXihX ≅=∑=

=

Nota: En el caso de intervalos, iX es la marca de clase.

Page 8: 20101 d403020321203010401114460

55

Segunda Unidad Didáctica ● Estadística y Probabilidades

Ejemplos:

1.- La siguiente es la distribución del número de accidentes registrados durante 60

meses en cierta ciudad.

Edad

Ii : [Li-1 - Li[

Nº meses

if iX

10 – 20 2 15

20 – 30 10 25

30 – 40 4 35

40 – 50 16 45

50 – 60 20 55

60 – 70 8 65

Total n = 60 -

.accidentes4660

276060

6

1i iXifx ==

∑==

2.- Calcular el promedio aritmético de la siguiente distribución de frecuencias.

Peso

Ii : [Li-1 - Li[

Nº alumnos

fi hi Xi

50 – 55 2

55 – 60 10

60 – 65 4

65 - 70 8

Total n =

=

∑=

=

x

5

1iiXihx

Nota:

• La media aritmética es quizá la medida de tendencia central más comúnmente

usada. Sin embargo, no es siempre ideal usarla como un promedio, porque es muy

sensible a los valores extremos.

Page 9: 20101 d403020321203010401114460

56

Escuela Profesional de Ingeniería de Sistemas e Informática

Ejemplo:

Calcular la edad promedio de cinco personas, cuyas edades son:

18 20 19 23 85 ⇒ años335

165X ==

• Aún siendo la media aritmética el promedio más utilizado en la práctica, muchas

veces puede dar lugar a falsas interpretaciones. Esto ocurrirá cuando no tenga

suficiente grado de representatividad, es decir, cuando los valores de la variable

estén poco concentrados, o lo que es lo mismo, muy dispersos a su alrededor;

entonces, poco podrá decirnos la media sobre los datos en estudio.

Propiedades de la Media Aritmética

Si iX es una variable cualquiera y además c y b son constantes, entonces se tiene:

1.- M ( c ) = c

2.- M ( iX ± c ) = x ± c

3.- M ( c iX ) = c x

4.- M ( c iX ± b ) = c x ± b

5.- ∑=

=−n

1ii 0)xx(

6.- ∑ ∑= =

−≤−n

1i

n

1i

2i

2i )kx()xx(

Page 10: 20101 d403020321203010401114460

57

Segunda Unidad Didáctica ● Estadística y Probabilidades

Ejemplo:

Completar la siguiente tabla de distribución de frecuencias, para la información dada:

Xi : temperatura f5 = 9 H1 = 0,12 k = 6

X3 = 10 H2 = 0,28 f1 = f6 = 6

A = 10 u.e.: días. =x 15,2

Temperatura

[Li-1-Li[

T. prom.

Xi

Nº días

fi

Prop. días

hi

% días

hi%

Nº días

Fi

Prop.días

Hi

% días

Hi%

-15--5 -10 6 0,12 12 6 0,12 12

-5- 5 0 8 0,16 16 14 0,28 28

5-15 10 11 0,22 22 25 0,50 50

15-25 20 10 0,20 20 35 0,70 70

25-35 30 9 0,18 18 44 0,88 88

35-45 40 6 0,12 12 50 1,00 100

TOTAL 50 1.00 100 - - -

hi = ifn

50 = f i∑ n

Xfx ii∑=

n hi = fi 29 + f3 + f4 = 50 ∑=× ii Xfxn

f3 + f4 = 21 50 × 15,2 = -60 + 0 + 10f3 + 20f4

n = i

i

fh

31 = f3 + 2f4

n = 0,12

6 ⇒ n = 50

Al resolver simultáneamente estas dos ecuaciones

f3 + f4 = 21

f3 + 2f4 = 31 se obtiene: f4 = 10 f3 = 11

Page 11: 20101 d403020321203010401114460

58

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIA ARITMÉTICA TOTAL O GLOBAL

Si una muestra de tamaño n se particiona en k muestras de tamaño in cada una con

su correspondiente promedio aritmético ix , entonces el promedio aritmético para los k

grupos juntos se calcula mediante:

n

xnx

k

1iii

T

∑== , donde: ∑

=

=k

1iinn

Ejemplo:

Se tienen los datos correspondientes a la duración de los focos (horas) en las

empresas A y B. Calcular el promedio aritmético para las dos empresas juntas.

Empresa A Empresa B

Duración Nº focos Duración Nº focos

17 7 12-18 7

23 5 18-24 4

28 8 24-30 12

35 15 30-38 5

42 7 38-46 3

Total 42 Total 31

Calculando el promedio aritmético para cada empresa:

40.3042

127742

i iXifx

5

1A ==

∑== 10.26

31809

31i iXif

x

5

1B ==

∑==

Reemplazando en la fórmula del promedio total:

horas2957,2873

10,263140,3042x T ≈=×+×

=

Significa la duración promedio de los focos de ambas empresas en forma conjunta es

de aproximadamente 29 horas.

Page 12: 20101 d403020321203010401114460

59

Segunda Unidad Didáctica ● Estadística y Probabilidades

MODA (Mo)

Es el valor de la variable que se presenta con mayor frecuencia. Una distribución de

frecuencias puede ser unimodal (una moda), bimodal (dos modas), .... , o multimodal

(n modas).

unimodal bimodal multimodal

Ocasionalmente encontramos algunas de estas distribuciones en las ciencias sociales,

siendo las bimodales más frecuentes.

Mo para datos no agrupados La Moda es el dato que más se repite.

Ejemplo:

Seis personas presentan las edades siguientes: 25 , 18 , 20 , 25 , 30 , 25, 25

Calcular e interpretar la Moda.

⇒ Mo = 25 años La mayoría de estas personas tienen 25 años.

Mo para datos agrupados sin intervalos Se ubica la máxima frecuencia absoluta simple ( if ), la moda es el valor de la variable

que presenta dicha frecuencia.

jji XMoffmáx =⇒=

Page 13: 20101 d403020321203010401114460

60

Escuela Profesional de Ingeniería de Sistemas e Informática

Ejemplo:

Hallar e interpretar la moda de la siguiente tabla de distribución de frecuencias.

Nº de PCs vendidas

iX

Nº de meses

if

20 5

22 7

24 10

30 6

32 8

Máx if = 10 ⇒ Mo = 24 PCs. En la mayoría de los meses se

vendió 24 computadoras.

Nota: Sólo la Moda tiene significado para variables cualitativas nominales.

Ejemplo:

Hallar e interpretar la moda de la siguiente tabla de distribución de frecuencias.

Marca

iX

Nº de impresoras

if

HP 7

Epson 11

Canon 23

Lexmark 9

Máx if = 23 ⇒ Mo = Canon.

La mayoría de las impresoras vendidas corresponde a la marca Canon.

Page 14: 20101 d403020321203010401114460

61

Segunda Unidad Didáctica ● Estadística y Probabilidades

Mo para datos agrupados en intervalos

En la columna de las frecuencias absolutas simples se ubica la máxima frecuencia;

entonces el intervalo que posee dicha frecuencia es el intervalo modal, es decir el

intervalo al cual va a pertenecer la moda.

Máxima frecuencia = jf ⇒ La mediana pertenece al intervalo jI

Luego se aplica la siguiente fórmula:

⎥⎥

⎢⎢

−+−

−+=

+−

)ff()ff(

)ff(ALMo

1jj1jj

1jjjj

Donde:

jL : Límite real inferior del intervalo que contiene a la moda.

jA : Amplitud del intervalo modal.

jf : Máxima frecuencia absoluta simple.

Ejemplo:

1.- La siguiente tabla muestra la distribución de las edades de un grupo de

personas. Calcular e interpretar la moda.

5I

Edad : 33-45 45-50 50-65 65-72 72-90 90-110

Nº Personas : 12 8 10 9 15 5

1jf − jf 1jf +

Entonces:

75.78)515()915(

)915(1872Mo =⎥⎦

⎤⎢⎣

⎡−+−

−+=

La mayoría de estas personas tiene aproximadamente 79 años de edad.

Page 15: 20101 d403020321203010401114460

62

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIANA (Me)

Es el valor que divide al total de las observaciones, ordenadas en forma ascendente o

descendente en dos partes de igual tamaño. Es decir que a uno y otro lado de la

mediana se encuentra no más del 50% del total de las observaciones.

< Me ≥

Xmín 50% 50% Xmáx

Me para datos no agrupados

Los datos originales iX se ordenan en forma ascendente o descendente.

a) Si n es impar

La mediana es igual al valor del término central.

21nXMe +=

Ejemplo:

Los periodos de tiempo, en minutos, que doce clientes esperaron en la cola de

un Banco antes de ser atendidos fueron:

5 5 11 10 8 5 10 4 10 6 10

Variable : Tiempo de espera (minutos)

Unidades estadísticas : Clientes.

⇒ Ordenando los datos: 4 , 5 , 5 , 5 , 6 , 8 , 10 , 10 , 10 , 10 , 11

Me = 8 minutos

El 50% de los clientes esperaron menos de 8 minutos mientras que el

otro 50% esperó 8 minutos o más.

Page 16: 20101 d403020321203010401114460

63

Segunda Unidad Didáctica ● Estadística y Probabilidades

b) Si n es par

La Mediana es igual a la media aritmética de los dos valores centrales.

2

12nX

2nX

Me+

+

=

Ejemplo:

Seis alumnos del tercer ciclo de la facultad de Ingeniería de Sistemas de la

UAP obtuvieron las siguientes notas en su primera evaluación de estadística:

15 , 05 , 20 , 16 , 09 , 12 Calcular e interpretar la mediana.

⇒ Ordenando los datos: 05 , 09 , 12 , 15 , 16 , 20

.ospunt5.132

1512Me =

+=

El 50% de los alumnos obtuvieron una nota inferior a 13.5 ; el 50% restante

obtuvo una nota de 13.5 o más.

Nota:

• La Mediana es un promedio adecuado en los casos en que se presenten

valores extremos (muy alto o muy pequeño).

Ejemplo:

El número de e-mails que recibió cada uno de los empleados de una compañía

se muestran a continuación:

40 , 35 , 30 , 45 , 32 , 98 , 38 Calcular e interpretar la Mediana.

⇒ Ordenando los datos: 30 , 32 , 35 , 38 , 40 , 45 , 98

Me = 38 e-mails.

Page 17: 20101 d403020321203010401114460

64

Escuela Profesional de Ingeniería de Sistemas e Informática

Me para datos agrupados: Variable cualitativa ordinal. Si la variable es cualitativa ordinal, la mediana se encuentra en el lugar n/2, por lo

tanto se ubica dicho lugar en la columna de las frecuencias absolutas acumuladas iF .

Ejemplo:

La siguiente tabla presenta la distribución de un grupo de alumnos elegidos en forma

aleatoria clasificados según su ciclo de estudios.

Ciclo de Estudios Nº alumnos iF

I 4 4

II 2 6

III 6 12

IV 3 15

IIIMe

lugar.vo85,72n

=⇒

==

El 50% de los alumnos está como máximo en II Ciclo, el 50% restante está

como mínimo en III ciclo.

Me para datos agrupados sin intervalos

a) Cuando 2n se encuentra ubicado entre dos frecuencias absolutas

acumuladas:

j1j F2nF <<− ⇒ jXMe =

Ejemplo:

Nº trabajadores Nº empresas iF

120 6 6

180 8 4

220 9 23

250 7 30

estrabajador220Me

lugar.vo15152n

=⇒

==

Page 18: 20101 d403020321203010401114460

65

Segunda Unidad Didáctica ● Estadística y Probabilidades

El 50% de las empresas tienen menos de 220 trabajadores, el resto tienen 220 a

más trabajadores.

b) Cuando 2n coincide con una frecuencia absoluta acumulada:

j1j F2nF <=− ⇒

2XX

Me j1j += −

Ejemplo:

Nº hijos Nº señoras iF

1 6 6

2 9 15

4 7 22

5 8 30

hijos3Me

lugar.vo15152n

=⇒

==

Me para datos agrupados en intervalos Se determina el intervalo mediano, es decir el intervalo que va a contener a la

mediana, ubicando en la columna de las frecuencias acumuladas el 2n lugar

mediante:

j1j F2nF <≤− ⇒ jIMe ∈

Luego se aplica la fórmula:

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡ −+=

j

1jjj f

F2n

ALMe

Donde:

jL : Límite real inferior del intervalo que contiene a la mediana.

jA : Amplitud del intervalo mediano.

Page 19: 20101 d403020321203010401114460

66

Escuela Profesional de Ingeniería de Sistemas e Informática

Ejemplo:

Temperatura.

( °C ) Nº días iF

10-15 8 8

15-18 9 17

18-25 12 29

25-30 7 36

lugar.vo18182n

==

Total 36

32 F2nF << ⇒ 3IMe∈

Luego:

58.1812

1718718Me =⎥⎦

⎤⎢⎣

⎡ −+=

En el 50% de los días se registró una temperatura por debajo de los 19 °C, en

el resto de los días hubo una temperatura superior o igual a los 19 °C.

NOTA: Una distribución de frecuencias puede presentar una de las tres formas:

Simétrica

MoMex ==

Asimétrica positiva

xMeMo <<

Asimétrica negativa

MoMex <<

Page 20: 20101 d403020321203010401114460

67

Segunda Unidad Didáctica ● Estadística y Probabilidades

MEDIDAS DE POSICIÓN

Las medidas de tendencia central a veces son insuficientes sobre todo cuando en

ocasiones se desea presentar el análisis con respecto a la posición que ocupa la

información que para nosotros resulta relevante. Para esto se utilizan las medidas de

posición, llamadas también medidas de localización.

Las principales medidas de posición son:

Cuartiles : k = 4 partes iguales.

Deciles : k = 10 partes iguales.

Percentiles : k = 100 partes iguales.

Cuartiles Son medidas de posición que dividen al total de los datos ordenados en cuatro partes

iguales. De esta forma entre dos cuartiles consecutivos se encuentra ubicado no más

del 25% del total de los datos.

El 3Q supera al 75% de los datos y es superado por el 25%.

Deciles Son valores que dividen al total de los datos ordenados en diez partes iguales; de

modo que en cada una de estas partes se encuentre ubicado no más del 10% del

total.

El 4D supera al 40% de los datos y es superado por el 60%.

Page 21: 20101 d403020321203010401114460

68

Escuela Profesional de Ingeniería de Sistemas e Informática

PERCENTILES

Son valores que dividen al total de los datos ordenados en cien partes iguales de

manera que en cada una de estas partes se encuentre ubicado no más del 1% del

total.

Percentiles para datos agrupados en intervalos

Se determina el intervalo que va a contener al percentil, ubicando en la columna de las

frecuencias acumuladas el 100

nk lugar mediante:

j1j F100

nkF <≤− ⇒ jk IP ∈

Luego se aplica la fórmula:

⎥⎥⎥⎥

⎢⎢⎢⎢

⎡−−

+=jf

1jF100

nk

jAjLkP

Donde:

jL : Límite real inferior del intervalo al cual pertenece el percentil.

jA : Amplitud del intervalo al cual pertenece el percentil.

Ejemplo:

La siguiente tabla de frecuencias corresponde a la distribución de 42 días de acuerdo

a la temperatura que se registró en cada día.

a) El 35% inferior de los días. ¿Qué temperatura presentó como máximo?

Temperatura.

( °C )

Nº días iF

10-15 8 8

15-18 9 17

18-25 12 29

25-30 7 36

lugar.vo157.14100

4235==

×

30-34 6 42

Total n = 42

Page 22: 20101 d403020321203010401114460

69

Segunda Unidad Didáctica ● Estadística y Probabilidades

21 F100

4235F <×

< ⇒ 235 IP ∈

Luego:

33,179

815315P35 =⎥⎦

⎤⎢⎣

⎡ −+=

En el 35% inferior de los días se registró una temperatura de 17 °C como

máximo.

b) Hallar la temperatura mínima y máxima para el 50% central de los días.

El 50% central deja a ambos lados un 25%, entonces para responder a esta

pregunta deberán calcularse los percentiles: 7525 PyP

25P :

lugar.vo115.10100

4225==

×

21 F11F << ⇒ 225 IP ∈

Luego:

169

811315P25 =⎥⎦

⎤⎢⎣

⎡ −+=

75P :

lugar325.31100

4275==

×

43 F32F << ⇒ 475 IP ∈

Luego:

14.277

2932525P75 =⎥⎦

⎤⎢⎣

⎡ −+=

⇒ El 50% central de los días presenta una temperatura mínima de 16ºC y

una temperatura máxima de 27.14ºC.

Page 23: 20101 d403020321203010401114460

70

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIDAS DE DISPERSIÓN

En el análisis estadístico no basta el cálculo e interpretación de las medidas de

tendencia central o de posición, ya que, por ejemplo, cuando pretendemos representar

toda una información con la media aritmética, no estamos siendo absolutamente fieles

a la realidad, pues suelen existir datos extremos inferiores y superiores a la media

aritmética.

La dispersión se refiere a la variabilidad entre los valores, es decir, qué tan grandes

son las diferencias entre los valores. La idea de dispersión se relaciona con la mayor o

menor concentración de los datos en torno a un valor central, generalmente la media

aritmética.

Ejemplos:

• A continuación se muestran dos figuras. La primera presenta una distribución con

datos más concentrados alrededor de su promedio (400) que la otra figura con

respecto a su promedio (1000). Es decir, la primera figura es una distribución con

menor dispersión.

400 1000

• Las figuras siguientes muestran a tres distribuciones con promedio 70, sin

embargo las tres difieren en cuanto a su variabilidad alrededor de la media.

poca variabilidad alguna variabilidad gran variabilidad

Page 24: 20101 d403020321203010401114460

71

Segunda Unidad Didáctica ● Estadística y Probabilidades

Ejemplo:

Un enlatador de refrescos indica que cada lata contiene 12 onzas. ¿Cuánto refresco

tiene en realidad cada lata?

• Es poco probable que todas las latas contengan exactamente 12 onzas.

• Existe variabilidad en el proceso de llenar las latas.

• Algunas latas contienen un poco más de 12 onzas, otras contienen un poco

menos.

• En promedio las latas tienen 12 onzas.

• El empacador espera que haya poca variabilidad en el proceso de tal forma

que las latas estén lo más cerca posible a las 12 onzas de refresco.

Ejemplo:

Se tienen dos grupos de estudiantes que sometidos a una prueba arrojaron los

siguientes puntajes:

Puntaje Nº estudiantes

9 2 Puntaje Nº estudiantes

10 4 11 5

11 6 12 10

13 4 13 5

15 2 Total 20

17 2

Total 20

Al calcular el promedio aritmético para ambos grupos se obtiene: 12xxBA==

Este resultado puede conducir a conclusiones equivocadas cuando se está

comparando distribuciones, pues se podría pensar que ambas secciones son idénticas

en su rendimiento, siendo esto falso ya que observando los datos se aprecia que la

sección B es más homogénea. En este caso el promedio no tiene suficiente grado de

representatividad por lo tanto poco podrá decirnos acerca de los datos en estudio.

Page 25: 20101 d403020321203010401114460

72

Escuela Profesional de Ingeniería de Sistemas e Informática

Es necesario entonces calcular otras medidas estadísticas para mostrar cómo varían

los datos alrededor del promedio y esto se logra mediante las medidas de dispersión.

Es necesario estudiar las medidas de dispersión:

1. Para evaluar la confiabilidad del promedio que se está utilizando:

Una dispersión pequeña indica que los datos se encuentran acumulados

cercanamente, alrededor de la medida de tendencia central establecida. Por tanto,

la medida de tendencia central se considera confiable o bastante representativa de

los datos. Por el contrario, una dispersión grande indica que la medida escogida

para representar los datos no es muy confiable, es decir, no es muy representativa

de los datos.

2. Para apreciar cuán dispersas están dos o más distribuciones:

Para poder comparar dos distribuciones de frecuencias entre sí, no sólo

necesitamos la medida de tendencia central, sino también la dispersión entre las

observaciones para no elaborar conclusiones erróneas.

A mayor medida de dispersión → el grupo es más heterogéneo.

A menor medida de dispersión → el grupo es más homogéneo o uniforme.

Page 26: 20101 d403020321203010401114460

73

Segunda Unidad Didáctica ● Estadística y Probabilidades

MEDIDAS DE DISPERSIÓN ABSOLUTA

Cuantifican el grado de concentración o de dispersión de los valores de la variable en

torno de un promedio de la distribución.

Principales medidas de dispersión absoluta:

• Rango o Recorrido : R

• Varianza : S2

• Desviación Estándar : S

RANGO O RECORRIDO: R Es la diferencia entre los valores máximo y mínimo de los datos.

mínXmáxXR −=

Esta medida es muy fácil de calcular sin embargo no es muy recomendable porque

sólo toma en cuenta los valores extremos, sin considerar los demás valores.

Page 27: 20101 d403020321203010401114460

74

Escuela Profesional de Ingeniería de Sistemas e Informática

VARIANZA S2, V[X]

Es un valor numérico que cuantifica el grado de dispersión de los valores de una

variable respecto a su media aritmética. Es el promedio de los cuadrados de las

desviaciones de la variable respecto a su media aritmética.

[ ] ( )⎭⎬⎫

⎩⎨⎧ −=

2xiXMXV

Notación:

:S2 Varianza muestral.

:2σ Varianza poblacional.

Nota:

• La varianza nunca es negativa.

• Cuando la variable toma un único valor; es decir cuando es constante entonces la

varianza es cero.

• Mientras más se aproxima a cero, más concentrados están los valores de la serie

alrededor de la media. Por el contrario, mientras mayor sea la varianza, más

dispersos están.

S2 para datos no agrupados:

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠

⎞⎜⎝

⎛ ∑−∑

−=

2

niX

n2iX

1n1

)x(V

Ejemplo:

Calcular e interpretar la varianza de los pesos de un grupo de personas. Los datos son

los siguientes: 56 65 68 70 72 76 78 80

⇒ n = 8 5651i

iX8

=∑=

329401i

2iX

8=∑

=

2oskil6184,602

8565

832940712

xS ≅=−=⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

Page 28: 20101 d403020321203010401114460

75

Segunda Unidad Didáctica ● Estadística y Probabilidades

En promedio, los pesos del grupo de personas se alejan con respecto al promedio

aritmético en aproximadamente 61 kilos al cuadrado. S2 para datos agrupados:

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛∑=−∑

=−=

2

n

k

1iiXif

nk

1i2iXif1n

12xS

Ejemplo:

Calcular e interpretar la varianza para la siguiente tabla de frecuencias.

Edad

iI

Nº de personas

if

4 - 6 4

6 - 10 5

10 - 16 7

16 - 20 3

20 - 30 1

Total n = 20

Primero deberá calcularse las marcas de clase para cada uno de los intervalos.

Reemplazando en la fórmula:

⎥⎥

⎢⎢

⎡⎟⎠⎞

⎜⎝⎛−=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

⎟⎟⎟⎟

⎜⎜⎜⎜

⎛∑=−∑

=−=

2

20230203200

191

2

n

k

1iiXif

nk

1i2iXif1n

1)x(V

V ( x ) = 29.21 ≈ 29 años2

En promedio la edad de estas personas se aleja con respecto a su promedio

aritmético en aproximadamente 29 años al cuadrado.

Page 29: 20101 d403020321203010401114460

76

Escuela Profesional de Ingeniería de Sistemas e Informática

VARIANZA TOTAL O GLOBAL

Si una muestra de tamaño n se particiona en k muestras cada una de tamaño in con

su correspondiente promedio aritmético ix , y su varianza 2iS

1 2 k

1n 2n kn

1x 2x kx 21S 2

2S 2kS

Entonces la varianza para los k grupos juntos se calcula mediante:

2

n

xn

n

)Sx(nS

k

1iii

k

1i

2i

2ii

2T

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

+

=∑∑==

Donde: ∑=

=k

1iinn

Ejemplo:

Se tienen tres grupos, de seis, nueve y siete estudiantes respectivamente. Si las notas

correspondientes a cada uno de ellos son:

Grupo 1 : 12 16 08 11 10 12

Grupo 2 : 17 14 07 13 11 18 13 15 14

Grupo 3 : 10 13 11 08 12 09 12

Calcular e interpretar la varianza para los tres grupos juntos.

⇒ Primero deberá calcularse la varianza para cada uno de los grupos:

Page 30: 20101 d403020321203010401114460

77

Segunda Unidad Didáctica ● Estadística y Probabilidades

1.7269

6829512

1S6

=−=⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛ 53.10

212291738

122S

98=−=

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

24.3275

7823612

3S7

=−=⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

Se calcula también el promedio aritmético de cada grupo:

5.116

69x1 == 56.139

122x1 == 71.106775x1 ==

Reemplazando en la fórmula de varianza total:

( ) 89.809.1222

)24.371.10(7)53.1056.13(9)1.75.11(6S 2222

2T

=−+++++

=

T

S = 2.98 En promedio las notas de los estudiantes de los tres grupos se

alejan con respecto al promedio total en aproximadamente 3

puntos.

Propiedades de la Varianza

Si iX es una variable cualquiera y además c y b son constantes, entonces se tiene:

1.- V ( c ) = 0 2.- V ( iX ± c ) = V ( X )

3.- V ( c iX ) = 2c V ( X ) 4.- V ( c iX ± b ) = 2c V ( X )

Page 31: 20101 d403020321203010401114460

78

Escuela Profesional de Ingeniería de Sistemas e Informática

DESVIACIÓN ESTÁNDAR

Es la raíz cuadrada positiva de la varianza y posee las mismas unidades que la media

aritmética, las mismas que ya no están elevadas al cuadrado como en la varianza.

)X(VS =

La desviación estándar o desviación típica aparece para simplificar la interpretación de

la varianza. Cuando calculamos la varianza, nos basamos en datos elevados al

cuadrado, por lo que, el resultado obtenido debe interpretarse en unidades al

cuadrado; por esta razón aparece la desviación estándar como la raíz cuadrada de la

variancia.

Distribuciones con igual promedio aritmético y diferente desviación estándar

Ejemplo:

Calcular la desviación estándar de las notas obtenidas por un grupo de alumnos del

tercer ciclo de la Facultad de Ingeniería de Sistemas de la UAP en la primera

evaluación de estadística.

12 07 14 11 16 18 09 14 10

⇒ n = 9 1111i

iX9

=∑=

46711i

2iX

9=∑

=

Por lo tanto:

( ) puntos5.325,12xS25.122

9111

9467181

xV ==⇒=−=⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

Page 32: 20101 d403020321203010401114460

79

Segunda Unidad Didáctica ● Estadística y Probabilidades

Nota:

• La varianza y la desviación estándar se utilizan para comparar grupos cuya

variable está expresada en las mismas unidades. Así, el grupo más

homogéneo, el más uniforme o aquel en el que la media aritmética es más

representativa, será aquel en el cual la varianza o la desviación estándar es

menor.

Ejemplo:

En algunas semanas consecutivas, los oficiales de policía Martínez y Castro

levantaron las siguientes infracciones por exceso de velocidad:

Martínez : 31 38 42 32 39 26

Castro : 35 43 38 37 33 28 27

¿Cuál de los oficiales es más homogéneo con respecto al número de infracciones?

Solución:

35,872

6208

6390751

S2M =−=

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

31,952

7241

7489861

S2C =−=

⎥⎥⎦

⎢⎢⎣

⎡⎟⎠⎞

⎜⎝⎛

2MS2

CS <

El oficial Castro es más homogéneo con respecto al número de infracciones

porque su varianza es menor.

Page 33: 20101 d403020321203010401114460

80

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIDAS DE DISPERSIÓN RELATIVA La varianza y la desviación típica también tienen sus limitaciones. Similar a la media

aritmética es vulnerable a la influencia de casos extremos. Además, cuando las

medias aritméticas no son iguales o cuando las unidades de medición son distintas, la

comparación de desviaciones típicas puede no ser significativa. La medida de

dispersión relativa más utilizada es el coeficiente de variación.

COEFICIENTE DE VARIACIÓN Es la desviación estándar dividida sobre la media aritmética multiplicada por 100. El

mismo nos permite comparar desviaciones típicas de variables con unidades de

medición distintas.

100xSCV ×=

En la práctica, se acostumbra considerar que un coeficiente de variación superior a

25% indica alto grado de dispersión y por lo tanto poca representatividad de la media

aritmética.

Ejemplo:

Se desea comparar los sueldos de los trabajadores de dos empresas, A y B. Para tal

efecto se tienen los siguientes datos:

Empresa A Empresa B

Sueldos ( $ ) Nº trabajadores Sueldos ( S/. ) Nº trabajadores

380 10 600-650 7

410 9 650-700 9

450 12 700-750 14

480 8 750-800 6

500 7 800-850 4

¿Se puede afirmar que los sueldos de los trabajadores de la empresa A son más

uniformes? ¿Por qué?

Page 34: 20101 d403020321203010401114460

81

Segunda Unidad Didáctica ● Estadística y Probabilidades

78.439xA= 75.713x

B=

02.43SA= 43.60S

B=

%78.910078.43902.43CVA =×= %47.8100

75.71343.60CVA =×=

Por lo tanto, los sueldos de los trabajadores de la empresa A no son los más

uniformes, sino los sueldos de la empresa B, porque presentan menor

coeficiente de variación.

Page 35: 20101 d403020321203010401114460

82

Escuela Profesional de Ingeniería de Sistemas e Informática

ASIMETRÍA O SESGO

Una distribución es asimétrica cuando sus datos tienden a agruparse hacia uno de los

extremos de la distribución. Cuando una curva es asimétrica se dice que tiene un

sesgo. El sesgo puede ser de dos tipos:

• Si los datos tienden a agruparse en las primeras clases, se dice que la

distribución tiene un sesgo positivo o que es asimétrica positiva.

• Si los datos tienden a agruparse en las últimas clases de la distribución, se dice

que esta tiene sesgo negativo o que es asimétrica negativa.

Coeficiente de Asimetría Es una medida que se utiliza para evaluar el sesgo de una distribución:

S)Mex(3CA −

=

Según es grado de asimetría una distribución puede ser:

Simétrica

CA = 0

Asimétrica positiva

CA > 0

Asimétrica negativa

CA < 0

Page 36: 20101 d403020321203010401114460

83

Segunda Unidad Didáctica ● Estadística y Probabilidades

CURTOSIS O APUNTAMIENTO

Mide el grado de elevación o agudeza de una distribución comparada con la curva

normal.

Coeficiente de Curtosis Indica la deformación vertical de una distribución de frecuencias.

)PP(2PPK

1090

2575−−

=

Según su grado de curtosis, una distribución puede ser:

K = 0 K > 0,263 K < 0,263

Si K = 0,263 ⇒ mesocúrtica.

Si K > 0,263 ⇒ leptocúrtica.

Si K < 0,263 ⇒ platicúrtica.

Page 37: 20101 d403020321203010401114460

84

Escuela Profesional de Ingeniería de Sistemas e Informática

En la presente unidad se tratan el cálculo y la interpretación de las medidas de

tendencia central, de posición y de dispersión.

Las medidas de tendencia central tienen como objetivo sintetizar los datos en un valor

representativo, las medidas de dispersión nos dicen hasta qué punto estas medidas de

tendencia central son representativas como síntesis de la información. Por su parte,

las medidas de dispersión cuantifican la variabilidad de los valores de la distribución

respecto al valor central.

El conocimiento de la forma de la distribución y del respectivo promedio de un conjunto

de datos correspondientes a una variable sirve para tener una idea bastante clara

acerca de las propiedades de la muestra en estudio.

Resumen

Page 38: 20101 d403020321203010401114460

85

Segunda Unidad Didáctica ● Estadística y Probabilidades

1.- Preguntar la edad a 12 mujeres y 20 varones.

2.- Calcular la edad promedio tanto para mujeres como para varones.

3.- En promedio: ¿Quiénes son mayores, los hombres o las mujeres?

4.- Calcular e interpretar la edad promedio para mujeres y varones en forma

conjunta.

5.- ¿Qué grupo es más homogéneo en cuanto a su edad?

6.- Calcular e interpretar la desviación estándar para estas 32 personas.

7.- Hallar e interpretar el grado de asimetría.

8.- Calcular e interpretar la curtosis.

Actividad 2

Page 39: 20101 d403020321203010401114460

86

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN: 1.- En un examen de estadística tomado el mismo día y hora a los tres grupos del

tercer ciclo de Ingeniería de Sistema, A, B y C, con un total de 150 alumnos, se

obtuvo una nota promedio de 13,2. Las notas promedio de los grupos A y B

fueron 12 y 14 respectivamente, los registros del grupo C se extraviaron pero

se sabe que el grupo A es el 36% del total y el número de alumnos del grupo B

es la tercera parte de los matriculados en el grupo C.

a) Hallar la nota promedio del grupo C.

b) Calcular la nota promedio de los grupos A y C juntos. 2.- De un grupo de empresas se sabe que ninguna tiene más de 5 trabajadores ni

menos de 2, la mayoría tiene 3 trabajadores, el 20% tiene 5 trabajadores y 2 de

cada 20 empresas tiene 4 trabajadores. La proporción de empresas que tienen

dos trabajadores es 0,25. Calcular e interpretar la media aritmética.

3- Se ha realizado una competencia deportiva para seleccionar a los atletas en

100 metros planos que representarán a un club en una competencia. Sólo el

10% más apto representará al club en dicha competencia, el 20% menos apto

será separado del equipo y se les derivará al grupo de salto largo. El 40%

central será sometido a un riguroso entrenamiento. Hallar los límites de estos

tres grupos; si se cuenta con los siguientes datos:

Velocidad (km/h) 8-10 10-13 13-16 16-19 19-22 22-25 25-27

Nº atletas 8 6 5 9 6 7 5

4.- El jefe de control de calidad de una empresa ha clasificado un lote de 80

artículos de acuerdo a su peso en una distribución con seis intervalos de clase.

Si las frecuencias absolutas simples correspondientes a cada intervalo son 6,

12, 24, 18, 13 y 7, siendo además:

Autoevaluación

Page 40: 20101 d403020321203010401114460

87

Segunda Unidad Didáctica ● Estadística y Probabilidades

X4 = 35 ∑ = 195Xi

a) ¿Sobre qué peso se encuentra las 3/4 partes de los artículos?

b) ¿Cuánto pesan como máximo el 15% menos pesado de los artículos?

5- En un examen tomado a tres secciones de un curso de estadística de 91

alumnos, el puntaje medio general fue de 69,3. Los puntajes medios de las

secciones 1 y 2 fueron 70,4 y 64,2 respectivamente. Se perdieron los archivos

con las notas de la sección 3 pero los ayudantes recuerdan que las secciones 1

y 2 tenían exactamente el mismo número de alumnos, mientras que el

ayudante de la sección 3 menciona que su sección tenía 5 estudiantes menos

que la 1. ¿Cuál es el promedio de las notas de la sección 3?

6.- Una tabla de distribución de frecuencias muestra el número de artículos

producidos por diferentes fábricas. Si se sabe que a partir de la segunda

frecuencia absoluta simple se cumple que cada frecuencia es la tercera parte

de la anterior aumentada en cuatro unidades, y además se conoce:

1119f5

1ii =∑

=

5,387X5

1ii =∑

=

5,95X4 =

Calcular e interpretar el promedio aritmético.

7.- Doscientos cuarenta alumnos correspondientes a las facultades de Ing. de

Sistemas, Veterinaria y Contabilidad rinden en forma conjunta un examen de

estadística. El promedio general fue 12,5. La nota promedio de los 60 alumnos

de Sistemas fue 13, mientras que la nota promedio de los alumnos de

Contabilidad fue 11. Si se sabe que el número de alumnos de Contabilidad es

el triple de los alumnos de Veterinaria; calcular la nota promedio para los

alumnos de:

a) Veterinaria.

b) Sistemas y Veterinaria juntos.

c) Sistemas y Contabilidad juntos.

d) Veterinaria y Contabilidad juntos.

Page 41: 20101 d403020321203010401114460

88

Escuela Profesional de Ingeniería de Sistemas e Informática

8.- En una investigación sobre salarios diarios de los trabajadores de una empresa

se encontraron los siguientes datos:

25 30 28 40 32 22 42

Se cree que luego de cinco años cada trabajador triplicará su ingreso. ¿Cuál

será entonces el salario promedio?

9.- Un grupo de cien personas viaja en dos aviones. El primero lleva 40 personas y

el segundo las restantes. Se sabe que el peso medio de todas las personas es

de 186,3 libras y que el de los del segundo avión es de 10 libras menos que el

de las personas del primer avión. ¿Cuál es el peso medio de las personas en

cada avión?

10.- Las siguientes tablas muestran la duración de los artefactos electrónicos

vendidos por dos tiendas, A y B.

Tienda A Tienda B

Duración (días) iF Duración (días) ii fX

17 7 12 – 18 105

23 12 18 – 24 84

28 20 24 – 30 324

35 35 30 – 38 170

42 42 38 - 46 126

Hallar el promedio aritmético para las dos tiendas juntas.

11.- Las siguientes tablas muestran a dos grupos de alumnos clasificados según el

número de palabras que han memorizado.

Grupo A Grupo B

Xi if Xi iF

43 12 30 – 45 5

56 9 46 – 58 14

Page 42: 20101 d403020321203010401114460

89

Segunda Unidad Didáctica ● Estadística y Probabilidades

69 8 59 – 71 34

82 10 72 – 80 42

95 9 81 – 88 51

a) El grupo ganador será aquel cuyos 15 mejores participantes obtengan la

mayor cantidad de palabras memorizadas. ¿Cuál será el grupo

ganador?

b) Calcular e interpretar el promedio más adecuado del grupo B.

c) ¿Cuál es la cantidad mínima de palabras que memorizaron el 20%

correspondiente a los participantes con mayor capacidad? 12.- Un grupo de 200 personas, cuya estatura promedio es de 1.70 m se divide en

dos grupos; uno con una estatura media de 1.68 m y otro con una de 1.73 m.

¿Cuántas personas hay en cada grupo?

13.- Se tiene una distribución de frecuencias con cinco intervalos de clase cuya

amplitud es constante y representa a una variable continua. Además se sabe

que:

75,23Me20f10,0hh 421 ====

50n = 40,0H3 = 25Mo =

a) Calcular e interpretar el promedio aritmético.

b) Si otra distribución de 32 unidades estadísticas presenta un promedio

aritmético igual a 29.8, calcular el promedio aritmético para las dos

distribuciones juntas.

14.- El número de computadoras en las empresas de la ciudad A presenta una

distribución simétrica y además se conoce los siguientes datos:

20Xmín = 88X5 = 91hh 12 =− 5,54X3 =

20AA 41 == 30f3 = 10A2 = ∑=

=5

1ii 90f

a) Calcular e interpretar el promedio aritmético.

b) Si el promedio de computadoras para las ciudades A y B es 62, hallar el

número de empresas en la ciudad B si se sabe que su promedio es 69.

Page 43: 20101 d403020321203010401114460

90

Escuela Profesional de Ingeniería de Sistemas e Informática

15.- La siguiente tabla muestra la distribución porcentual de los pesos de cincuenta

personas elegidas en forma aleatoria a la entrada de un estadio.

iX : 48 56 64 72 80 88 96

%hi : 12 18 16 20 14 12 8

a) Hallar el peso mínimo de las 15 personas más pesadas.

b) Hallar el peso bajo el cual se encuentran ubicadas las 25 personas que

no son las más pesadas.

16.- La biblioteca de una universidad tiene registrado el número de libros tanto de

ciencias como de letras que solicitaron, por día, los alumnos durante el año

2007.

Letras Ciencias

Xi if Xi if

24 6 21 4

41 9 36 8

58 4 51 6

75 13 66 12

92 5 81 7

109 8 96 5

126 5

a) En los quince días de mayor lectura: ¿Se solicitaron más libros de letras

que de ciencias? ¿Por qué?

b) ¿Podemos afirmar que con mayor frecuencia se solicitan libros de letras

que de ciencias? ¿Por qué?

17.- La siguiente tabla muestra los sueldos de los trabajadores de una compañía.

Sueldos (S/.) Nº Trabajadores

950-1000 4

1000-1150 9

1150-1230 12

1230-1260 19

Page 44: 20101 d403020321203010401114460

91

Segunda Unidad Didáctica ● Estadística y Probabilidades

1260-1310 10

1310-1460 7

1460-1550 5

a) ¿Cuánto ganan como mínimo los 33 trabajadores con mayor sueldo?

b) A la quinta parte de los trabajadores, correspondiente a los que ganan

menos, se les dará un aumento. ¿Si José gana 1100, recibirá aumento?

c) Se considera que hay siete trabajadores cuyos sueldos son altos; en

una reunión de directorio se acordó hacerles un descuento del 5% de

sus sueldos. ¿A partir de qué sueldo corresponde dicho descuento?

18.- En uno de los laboratorios de la UAP se desea hacer un estudio acerca de las

computadoras y la cantidad de virus que han ingresado el mes pasado.

iX : 29 38 47 56 65 74 83

iF : 4 12 17 29 34 42 46

a) Se afirma que las quince computadoras con mayor cantidad de virus

llegaron a tener no menos de 64 virus ¿Está de acuerdo? ¿Por qué?

b) Sandra afirma que en este caso el promedio más adecuado es la moda,

sin embargo Pedro piensa que sería la mediana. ¿Cuál de los dos cree

que tiene la razón? ¿Por qué? Calcule e interprete dicho promedio

adecuado.

c) Clasificar las computadoras en cuatro categorías diferentes: el 50%

central en la categoría B, el 10% más afectado en la D y el resto en las

categorías A y C. Hallar los límites entre las categorías.

d) Teniendo en cuenta la clasificación anterior hallar el número de

computadoras correspondiente a cada categoría y luego calcular el

promedio más adecuado.

Page 45: 20101 d403020321203010401114460

92

Escuela Profesional de Ingeniería de Sistemas e Informática

19.- Durante los últimos dos meses se ha venido recogiendo la información

correspondiente a la cantidad de mensajes electrónicos recibidos por los

alumnos de la UAP.

iI : 20-27 28-35 36-48 49-56 57-64 65-75 76-89 90-95

if : 8 5 6 13 17 6 5 8

a) ¿Cuántos mensajes reciben como mínimo y como máximo los 34

estudiantes centrales?

b) Se desea realizar una nueva clasificación de modo que se tengan

cuatro categorías. El 40% superior se divide en dos partes iguales para

formar las categorías C y D, mientras que el 45% siguiente constituye la

categoría B y el resto la A. Hallar los límites entre estas categorías.

c) ¿Cuántos mensajes reciben en promedio la mayor parte de los

estudiantes?

d) José quiere saber cuántos mensajes ha recibido Rocío. El número de

mensajes de Rocío es igual a la mitad del valor mínimo del 35%

superior. ¿Cuántos mensajes ha recibido Rocío?

20.- La siguiente tabla muestra la distribución de frecuencias relativas de los pesos

de cincuenta personas elegidas en forma aleatoria a la entrada de un gimnasio.

Ii 45-48 48-54 54-60 60-65 65-72 72-78 78-82

%hi 12 18 16 20 14 12 8

a) Hallar el peso mínimo de las 15 personas más pesadas.

b) Hallar el peso bajo el cual se encuentran ubicadas las 25 personas que

no son las más pesadas.

c) Se afirma que la media aritmética es menor que la moda, ¿estás de

acuerdo?

d) Hallar los pesos entre los cuales se encuentra ubicado el 80% central de

estas personas.

Page 46: 20101 d403020321203010401114460

93

Segunda Unidad Didáctica ● Estadística y Probabilidades

21.- Se desea hacer un estudio en la Escuela Profesional de Ingeniería de Sistemas

de la UAP. Con tal motivo se cuenta con la información correspondiente a las

notas en el curso de Estadística de los alumnos del III ciclo de Ingeniería de

Sistemas.

Ii : 0-5 5-8 8-10 10-12 12-16 16-18 18-20

if : 6 5 8 15 9 7 4

a) La profesora de estadística va a premiar al quinto superior. ¿A quiénes

premiará?

b) Si el 30% de los alumnos reprueba el examen de estadística, la profesora

tomará un examen de recuperación. ¿Será necesario dar la

recuperación?

c) A los quince alumnos que tengan las mejores notas se les hará un

descuento especial en su próxima boleta. Su nota es 17. ¿Se hará

acreedor a dicho descuento?

d) Los alumnos están muy preocupados porque afirman que la nota más

frecuente ha sido 09. ¿Hay razón para preocuparse? ¿Por qué?

e) Se sabe que doce alumnos reprobarán el curso y que seis recibirán un

premio especial. Hallar las notas entre las cuales se encuentran los

alumnos que no reprobarán ni recibirán premio alguno.

Page 47: 20101 d403020321203010401114460

94

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIDAS DE DISPERSIÓN, ASIMETRÍA Y CURTOSIS 1.- Se utilizan dos máquinas diferentes para fabricar conductos de salida de papel

destinados a copiadoras Kodak. Los conductos de una muestra de la primera

máquina medían: 12.2, 11.9, 11.8, 12.1, 11.9, 12.4, 11.3 y 12.3 pulgadas. Los

conductos hechos con la segunda máquina medían 12.2, 11.9, 11.5, 12.1, 12.2,

11.9 y 11.8 pulgadas. ¿Qué máquina deberá utilizarse si se desea utilizar la

máquina que produzca conductos de tamaños más uniformes?

2.- Dos secciones, A y B, del III ciclo de la facultad de Ingeniería de Sistemas de la

UAP rinden un mismo examen final de estadística y probabilidades. Los

resultados fueron los siguientes:

Sección A Sección B

Nº de alumnos ii Xf Xi Nº de alumnos Notas

3 18 6 4 4

5 50 10 18 8

14 154 11 20 12

8 104 13 2 14

30 45 1 16

a) ¿Cuál de las secciones es más homogénea con respecto a sus notas?

b) Si se toma un examen sustitutorio y los alumnos de la sección A

aumentan sus notas en un 15% mientras que los de la sección B

disminuyen 3 puntos; calcular la nueva desviación estándar para cada

sección.

c) ¿En cuántos puntos se alejan las notas de los alumnos con respecto al

promedio aritmético total?

3.- Se tiene los siguientes datos correspondientes al peso de un grupo de

personas y además se sabe que el peso promedio es 72.2 Kg.

Peso 50-60 60-70 70-80 80-90 90-100

Nº de personas 12 7 10 9 5

¿Se podría afirmar que se trata de una distribución simétrica? ¿Por qué?

Page 48: 20101 d403020321203010401114460

95

Segunda Unidad Didáctica ● Estadística y Probabilidades

4.- Un entrenador de pista y campo debe decidir a cuál de sus dos velocistas

seleccionará para los cien metros planos en una próxima competencia. El

entrenador basará la decisión en los resultados de cinco carreras entre los dos

atletas, celebradas en un periodo de una hora con descansos de 15 minutos.

Los siguientes tiempos (en segundos) se registraron para las cinco carreras:

Carrera Atleta

1 2 3 4 5

Mendoza 11,1 11,0 11,0 15,8 11,1

Ramírez 11,3 11,4 11,4 11,5 11,4

Con base en estos datos: ¿A cuál de los dos velocistas debe seleccionar el

entrenador? ¿Por qué?

5.- Los siguientes datos corresponden al número de veces que el programa

Minitab se “colgó” durante un mes, en cada uno de los ordenadores de una

empresa.

9 12 14 19 10 12 15 21 29 17

En promedio: ¿En cuánto se alejan los datos con respecto al promedio

aritmético?

6.- Se sabe que la media aritmética de la siguiente distribución es 11.5.

iI : 4 - 6 6 - 10 10 - 16 16 - 20 20 – 30

if : 4 5 9 3 1

Calcular e interpretar la varianza.

7.- Si X es una variable que tiene media 15 y varianza 25, hallar la media, varianza

y desviación típica de Y en los siguientes casos:

a) Y = 4 + 16X b) Y = 16 - 4X c) Y = 41

41+ X

Page 49: 20101 d403020321203010401114460

96

Escuela Profesional de Ingeniería de Sistemas e Informática

8.- Durante un periodo de diez años, los precios de un producto fueron en

promedio de $80 con una desviación estándar de $12. En el anterior periodo de

diez años el promedio fue de $50 con una varianza de 36. ¿En qué periodo

hubo mayor estabilidad?

9.- Se clasificó a los trabajadores de una mina en dos categorías, mayores y

menores de 25 años, y se extrajo la siguiente información:

Edad Nº de obreros Productividad

media Varianza

Mayores de 25 años 200 40 4900

Menores de 25 años 300 60 1600

Calcular e interpretar la desviación estándar de todos los obreros de la mina.

10.- Los alumnos de un grupo obtuvieron en matemática II una nota media de 68.7

puntos con una desviación estándar de 15.4 y los de otro grupo obtuvieron en

la misma asignatura un promedio de 50.9 puntos con una desviación estándar

de 19.6. ¿Cuál de los dos grupos tiene un rendimiento más heterogéneo?

11.- Un grupo de niños de ocho años de edad tiene una estatura media de 141 cm y

su desviación estándar es 6.9 cm, su peso medio es 42 kilos y su desviación

estándar 5 kilos. ¿En qué aspecto es este grupo más variable, en estatura o en

peso?

12.- Dos marcas de máquinas, A y B, han sido diseñadas para producir cierto tipo

de producto. Tienen igual precio. Un fabricante, al decidir cuál comprar, ha

observado diez máquinas diferentes de cada marca en operación durante una

hora. El número de artículos producidos por cada máquina se registra en la

siguiente tabla:

Marca A 35 36 49 44 43 37 38 42 39 40

Marca B 27 28 53 52 48 29 34 47 45 45

a) ¿Cuál máquina recomendaría comprar? ¿Por qué?

b) Calcular e interpretar la desviación estándar para las dos marcas juntas.

Page 50: 20101 d403020321203010401114460

97

Segunda Unidad Didáctica ● Estadística y Probabilidades

13.- Una prueba de conocimientos A se calificó sobre 20 puntos dando una media

de 12 y una desviación estándar de 2 puntos, mientras que una prueba de

aptitud B se calificó sobre 100 puntos, dando una media de 70 y una varianza

de 25. ¿Cuál de las dos pruebas tiene mayor dispersión? ¿Por qué?

14.- Una empresa informática tiene un registro de productos de software al cual se

les midió el número de errores encontrados medidos en cientos de módulos.

Los datos se encuentran resumidos en la siguiente tabla:

iX : 1 2 3 4 5

if : 17 11 10 5 3

a) Calcular e interpretar la desviación estándar. b) ¿Qué sesgo presenta la distribución?

15.- Un encargado de compras ha obtenido muestras de focos de luz de dos

proveedores. En su laboratorio ha probado ambas muestras con respecto a la

duración de su vida útil, con los siguientes resultados:

Duración de la vida útil Muestras de

(horas) Empresa A Empresa B

800 700 – 900 10 3

1000 900 – 1100 16 42

1200 1100 – 1300 26 12

1400 1300 - 1500 8 3

¿Para los focos de cuál de las empresas es el promedio aritmético más

representativo?

16.- Las siguientes tablas muestran la distribución de las tallas correspondientes a

dos grupos de niños.

Page 51: 20101 d403020321203010401114460

98

Escuela Profesional de Ingeniería de Sistemas e Informática

Talla

(cm.) Nº de Niños

Talla

(pulg) Nº de Niños

80-100 12 30-40 30

100-120 9 40-50 10

120-140 20 50-60 15

140-160 15 60-70 20

160-180 2 70-80 40

80-90 8

¿En cuál de los grupos la media aritmética es menos representativa? Justifique

su respuesta.

17.- Las notas del curso A tuvieron una media aritmética de 75 puntos y una

varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una

desviación estándar de 14. Si en ambos cursos las notas se aumentan en 10%,

¿cuál de los dos cursos tiene un CV mayor después de arreglar las notas?

18.- Se tienen los sueldos correspondientes a los técnicos y profesionales que

laboran en una empresa privada. Se quiere comparar la dispersión existente

entre éstos y para ello se cuenta con la siguiente información:

Sueldos/mes

($) Nº de técnicos

Sueldos/mes

(S/)

Nº de

Profesionales

200 10 400 5

250 10 500 10

300 10 600 5

¿Se puede afirmar que la dispersión es ligeramente superior en los sueldos de

los técnicos? ¿Por qué?

19.- Un grupo de 300 alumnos llevan el curso de estadística, distribuidos en cuatro

secciones. Si se sabe que el número de alumnos por sección está en una

progresión aritmética cuya razón es 20 y además se conoce que las notas

promedio de las secciones A, C y D son 12, 14 y 11 mientras que las varianzas

Page 52: 20101 d403020321203010401114460

99

Segunda Unidad Didáctica ● Estadística y Probabilidades

de los grupos A y C son 16 y 4, y las desviaciones estándar de B y D son 3 y 1

respectivamente. Si la nota promedio en el curso es 12.37, calcular e

interpretar la desviación estándar de las cuatro secciones juntas.

20.- Una muestra de 70 datos originales da una media de 120 y una desviación

estándar de 6, otra muestra de 30 datos originales da una media de 125 y una

varianza de 25. Se reúne las dos muestras formando una sola, calcular el

coeficiente de variación de esta nueva muestra.

21.- El número de artículos producidos por dos máquinas durante los últimos meses

ha sido el siguiente:

Nº artic. Nº meses Nº artic. Nº meses

20 3 10-14 2

28 4 15-19 1

35 1 20-24 6

40 2 25-29 2

42 3 30-34 3

¿Cuál de las dos máquinas es más heterogénea en cuanto al número de

artículos producidos?

22.- Se tiene tres empresa con aproximadamente igual número de trabajadores. El

número de inasistencias registradas durante los últimos seis meses en cada

una de las tres empresas se muestra a continuación:

Empresa:

A : 3 19 4 5 15 6

B : 7 8 11 9 14 16

C : 10 17 12 2 18 13

¿En cuál de estas tres empresas existe mayor variabilidad con respecto al

número de inasistencias?

23.- Se ha medido el tiempo en segundos que demora en arrancar la última versión

del programa Macrohard Phrase en los ordenadores de nuestra empresa según

Page 53: 20101 d403020321203010401114460

100

Escuela Profesional de Ingeniería de Sistemas e Informática

el sistema operativo con el que funcionan. Los resultados han sido los

siguientes:

En los ordenadores equipados con Windows XP:

27 25 50 33 25 86 28 31 36 85

En los ordenadores equipados con Windows Vista:

33 7 25 14 5 31 19 10 29 18

¿A qué conclusión se puede llegar si se toma en cuenta el grado de dispersión

de los dos grupos de ordenadores?

Page 54: 20101 d403020321203010401114460

101

Segunda Unidad Didáctica ● Estadística y Probabilidades

MEDIDAS DE TENDENCIA CENTRAL Y POSICIÓN:

Nº Respuesta Nº Respuesta 1 a) 13.8

b) 13.04

15 a) 78.3

b) 69.6

2

3

3.25

10.5 13 21 25

16 a) 93.7 69.75

b) 75.5 66.68

4

5

6

a) 27.9

b) 25

74.04

50.86

17 a) 1242.63

b) 1150

c) 1417.14

7 a) 16.3

b) 14.4

c) 11.6

d) 12.3

18 a) 64.1

b) 56

c) 42.5 70.6 77.4

d) 46.36

8

9

10

93.84

192.30 182.30

28.57

19 a) 44.17 68

b) 31 61 74

c) 59

d) 31

11 a) A 80.7

b) 64.72

c) 87.2

20 a) 67

b) 61

c) 61.37 62

d) 47.5 77

12 120 180 21

13 a) 22.5

b) 25.35

14 a) 56.56

b) 64

a) 16 20

b) 9.25

c) 14.22

d) No 11.08

e) 8.25 17.43

Solucionario de autoevaluación

Page 55: 20101 d403020321203010401114460

102

Escuela Profesional de Ingeniería de Sistemas e Informática

MEDIDAS DE DISPERSIÓN, ASIMETRÍA Y CURTOSIS:

Nº Respuesta Nº Respuesta 1 2da.

0.12 0.06

11 Peso

4.89 11.9

2

a) A 3.84 8.25

b) 2.25 2.87

c) 2.59

12

13

a) A 18.23 104.4

b) 7.57

A 16.7% 7.14%

3

4

No -0.17

Ramírez

4.52 0.005

14 a) 1.25

b) 0.62

5

6

6.01

26.62

15 34531.07

15762.71

7 244 80

-44 20

4 1.3

16

17

18

A 18.53 28.86

20% 20%

16.6% 14.5%

8

Periodo anterior

15% 12%

19

20

21

2.69

5.07%

A 77.7 43

9 54.91 22 A

44.3 12.6 33.2

10

Grupo 2

22.4% 38.5%

23

24

564.71 102.54

A

11.24 324