Ing. Tania N. Colque Ortiz
CAPITULO 2
MEDIDAS DE TENDENCIA CENTRAL
Una de las características más sobresalientes de la distribución de datos es su tendencia a
acumularse hacia el centro de la misma. Esta característica se denomina Tendencia central.
Las medidas de tendencia central más usuales son:
También llamadas de centralización o de tendencia central. Sirven para estudiar las características de los valores centrales de la distribución atendiendo a distintos criterios. Veamos su significado con un ejemplo:
Supongamos que queremos describir de una forma breve y precisa los resultados obtenidos
por un conjunto de alumnos en un cierto examen; diríamos:
a) La nota media de la clase es de 6,5.
b) La mitad de los alumnos han obtenido una nota inferior a 5.
c) La nota que más veces se repite es el 4,5.
En la expresión a) se utiliza como medida la media aritmética o simplemente la media.
En la b) se emplea como medida la mediana, que es el valor promedio que deja por debajo
de ella la mitad de las notas y por encima de ella la otra mitad. Y en la c) se usa el valor de
la nota que más veces se ha repetido en ese examen, este valor es la moda.
MEDIA ARITMETICA.-
La media aritmética (X) es una medida algebraica de esa posición media; para cuyo cálculo se tienen en cuenta los valores de todas las observaciones de la serie. En el lenguaje no técnico es el conocido como promedio; aunque, estadísticamente, promedio es sinónimo de medida de tendencia central. Matemáticamente, se obtiene por la sumatoria de los valores de cada una de las observaciones dividido el número de esas observaciones:
1
Ing. Tania N. Colque Ortiz
a) Datos No tabulados.-
Ejemplo:
Sean los siguientes valores las calificaciones la asignatura de matemáticas de estudiantes de primer año:
10 8 6 7.5 7 7.5 8 9.5 10 10
8 6 9 10 7.5 6 9.5 10 6.5 8
6 6 9 10 7 8 9.5 5 8 7.5
Sumando los valores de las 30 calificaciones y dividiéndolas entre los 30 datos obtendremos:
830
240
n
xx i
Por lo que la media de calificaciones obtenida por el grupo considerado es igual a 8.
b) Datos agrupados
Ejemplo: A partir de los datos tabulados en la siguiente tabla que corresponden a las edades de un grupo de personas tomadas al azar, calcular la media aritmética
2
X Media Aritmetica
x Suma de las muestras
n numero total de las muestras
Ing. Tania N. Colque Ortiz
Calculo de la Media Aritmética para variables cuantitativas discretas
Ejemplo: Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los siguientes datos expresados en kg.
xi fi xi fi
54 2 10859 3 17763 4 25264 1 64
10 601
kg
NOTA: A la media aritmética se la denomina también CENTRO DE GRAVEDAD de la distribución.
CARACTERISTICAS DE LA MEDIA ARITMETICA.-
3
Li - Ls fi
32 – 4242 – 5252 – 6262 – 7272 – 82
361072
Li - Ls fi MC
32 – 4242 – 5252 – 6262 – 7272 – 82
361072
3747576777
111282570469154
28 1.586
Calculamos primero la marca de clase. Luego la columna de las marcas de clase se las multiplica con las frecuencias absolutas.
El promedio de las edades de este grupo de personas es: 56,64 años.
Ing. Tania N. Colque Ortiz
- Es una medida totalmente numérica o sea sólo puede calcularse en datos de características cuantitativas.
- En su cálculo se toman en cuenta todos los valores de la variable.- Es lógica desde el punto de vista algebraico.- La media aritmética es altamente afectada por valores extremos.- No puede ser calculada en distribuciones de frecuencia que tengan clases abiertas.- La media aritmética es única, o sea, un conjunto de datos numéricos tiene una y solo
una media aritmética.- Si multiplicamos o dividimos todas las observaciones por un mismo número, la
media queda multiplicada o dividida por dicho número. - Si le sumamos a todas las observaciones un mismo número, la media aumentará en
dicha cantidad.
MEDIA GEOMETRICA.-
El empleo más frecuente de la media geométrica es el de promediar variables tales como
porcentajes, tasas, números índices. etc., es decir, en los casos en los que se supone que la
variable presenta variaciones acumulativas. Además, cuando la variable toma al menos un x
= 0 entonces G se anula, y si la variable toma valores negativos se pueden presentar una
gama de casos particulares en los que tampoco queda determinada debido al problema de
las raíces de índice par de números negativos.
La media geométrica (G) de n valores no negativos es la enésima raíz del producto de los n
valores.
Si algunos valores son muy grandes en magnitud y otros muy pequeños, la media
geométrica proporciona una mejor representación de los datos que un simple promedio. In
una “serie geométrica”, el average más significativo es la media geométrica (G). La media
aritmética es muy favorecida por valores grandes de la serie.
4
Ing. Tania N. Colque Ortiz
Una aplicación: Suponga que las ventas de un determinado producto incrementan en 110% en el primer año y en 150% en el segundo. Por simplicidad, asuma que usted inicialmente vendió 100 unidades. Entonces el número de unidades vendidas en el primer año fueron 110 y en el segundo fueron 150% x110= 165. Usando la media aritmética de 110% y 150% que es 130%, estimaríamos incorrectamente las unidades vendidas en el primer año de 130 y las del segundo año de 169. Mediante la media geométrica de 110% y 150% obtendríamos G = (1,65)1/2 la cual es la estimación correcta, por lo cual venderíamos 100 (G)2 = 165 unidades en el segundo año.
a) Datos no agrupados
Ejemplo: Encontrar la Media Geométrica de: 7 8 2 6 5
b) Datos agrupados
5
Esta fórmula es complicada de usar cuando los valores son grandes. Por lo que es necesario hacerle algunos arreglos matemáticos
Aplicamos una propiedad de raiz cuadrada
Aplicamos propiedades logarítmicas
Aplicamos propiedades logarítmicas
Obtenemos una ecuación de fácil uso.
Ing. Tania N. Colque Ortiz
Calcular la media geométrica para la siguiente tabla:
Características de la Media Geométrica.-
En su cálculo intervienen todos los valores de la distribución Los valores extremos tienen menor influencia que en la media aritmética Es única. No puede ser calculada en distribuciones con clases abiertas. Cuando la variable toma al menos un valor de cero (0), entonces XG se anula, y si la
variable toma valores negativos se puede presentar una gama de casos particulares en los que tampoco queda determinada debido al problema de las raíces de índice de números negativos.
6
Li - Ls fi MC Log. MC
32 – 4242 – 5252 – 6262 – 7272 – 82
361072
3747576777
1,5861,6721,7551,8261,826
4,70410,03217,55012,7823,772
28 = 48,851
Ing. Tania N. Colque Ortiz
La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la medida de posición central más utilizada.
MEDIA ARMONICA (XH).- La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. No es aconsejable en distribuciones de variables con valores pequeños. Se suele utilizar para promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc
La media armónica otro average especializado, el cual es útil para calcular promedios de variables expresadas en proporciones de unidades por tiempo, tales como kilómetros por hora, número de unidades de producción por día. La media armónica (G) de n valores no cero x(i) es: H = n/[ (1/x(i)].
a) Datos no agrupados
Ej: Calcular la Media Armónica de los siguientes valores: 7 5 10 6 (n = 4)
b) Datos Agrupados
Encontrar la media armónica de la siguiente tabla:
7
Ing. Tania N. Colque Ortiz
Características de la Media Armónica.-
Se toman en cuenta todos los valores de la variable Es afectada por valores extremos aunque en menor medida que la media aritmética. La media geométrica de un número y su recíproco será siempre igual a uno. No puede ser calculada en distribuciones con clase abiertas. Es mayormente usada para promediar tazas de cambio, razones y valores que
muestren una progresión geométrica
RELACION ENTRE LAS MEDIAS.-
Entre la media aritmética la media geométrica y media armónica se da siempre la siguiente relación:
MEDIA ARITMÉTICA PONDERADA
Caso particular de la media aritmética, que aparece cuando se otorga a cada valor de la
variable x una ponderación o peso w , distinto de la frecuencia o repetición n . En este
8
Li - Ls fi MC
32 – 4242 – 5252 – 6262 – 7272 – 82
361072
3747576777
0,0810,1280,1750,1040,025
Ing. Tania N. Colque Ortiz
caso no todos los valores de la distribución intervienen con el mismo peso en el cálculo de
la media. La cuantía de dichos pesos define la importancia de cada valor de la distribución
en el cálculo de la media.
Si la distribución de frecuencias es (X , w ), siendo X los valores de la variable o las
marcas de clase, y siendo w los pesos o ponderaciones, la media aritmética ponderada que
denotaremos por , se define como sigue:
W =
En ocasiones no todos los valores de la variable tienen el mismo peso. Esta importancia
que asignamos a cada variable, es independiente de la frecuencia absoluta que tenga. Será
como un aumento del valor de esa variable, en tantas veces como consideremos su peso.
Ejemplo.-
Un estudiante realiza 3 exámenes de complejidad creciente, obteniendo los siguientes resultados: 5, 8 y 7. El primer examen lo hizo en ½ hora, el segundo en 1 hora y el tercero en hora y media, por lo que se les atribuye una ponderación de 1, 2 y 3 respectivamente. Se pide calcular la nota media.
XiWi XiWI
5 1 58 2 167 3 21
6 42
Ahora bien, si calculamos la media ponderada, obtendremos:
Ejemplo
9
Ing. Tania N. Colque Ortiz
Para ocupar un puesto de trabajo vacante en la recepción-administración de un hotel, se realizan diferentes pruebas a los aspirantes, cada una de ellas con una importancia determinada. El resultado de las pruebas por parte de dos aspirantes es la siguiente:
Importancia PruebaNota
ASPIRANTE 1
Nota ASPIRANTE
21 Cultura General 9 73 Contabilidad 6 56 Idiomas 7 102 Manejo de
ordenadores10 4
¿Qué aspirante obtendrá la plaza?3
Solución:Primero se calculará la media ponderada para cada aspirante y después se compararán los resultados.
Aspirante 1 Aspirante 2xi wi xi.wi yi wi yi.wi
9 1 9 7 1 76 3 18 5 3 157 6 42 10 6 6010 2
122089
4 212
890
ASPIRANTE 1: _ 89 ASPIRANTE 2: _ 90xP = --------- = 7,4 puntos; yp = --------- = 7,5 puntos;
12 12
Obtendrá la plaza el Aspirante 2 (ya que es el que tiene la nota más alta)
LA MEDIANA.-
Consideramos una variable discreta X cuyas observaciones en una tabla estadística han sido ordenadas de menor a mayor. Llamaremos mediana al primer valor de la variable que deja por debajo de sí al 50 %de las observaciones. En otras palabras es el valor que se encuentra exactamente en el centro del conjunto de datos.
10
Ing. Tania N. Colque Ortiz
Es el valor de la variable que, ordenados los datos de menor a mayor, deja a izquierda y derecha el mismo número de observaciones. El valor de la variable que tiene una frecuencia acumulada de N/2.
En el caso de una distribución "no agrupada" su determinación no presenta problemas.
En el caso de una distribución con los valores agrupados por intervalos: habrá de detectarse primero el "intervalo mediano"(aquel intervalo en el que se produzca una acumulación de frecuencia de N/2).Después obtendremos el valor "intrapolando" gráficamente, suponiendo que la distribución de frecuencias dentro del intervalo es "uniforme":
Una vez detectado el intervalo mediano, aquél en el que la frecuencia acumulada llega a sobrepasar la mitad del total de las observaciones, consideraremos como valor de la mediana la abscisa correspondiente al punto de corte del polígono acumulativo y la recta Y=N/2 .La determinación de ese valor puede resolverse fácilmente por semejanza de triángulos:
11
Ing. Tania N. Colque Ortiz
Ej: Analizando el siguiente gráfico, el dibujo correspondiente a la posición 4 será la mediana de este grupo
a) Datos no agrupados:
1 2 2 3 5 6 8 9 9 10 10 10 13 15 17
El valor central corresponde a la mediana
Para su cálculo es necesario seguir los siguientes pasos:
12
= 5,510 + 12
= 5,510 + 12
Ing. Tania N. Colque Ortiz
1) Ordenar los datos. (Es decir, hacer del conjunto de datos una serie).2) Hallar el lugar donde cae la mediana.3) Hallar el valor de la mediana.
Ordenada la serie se busca el lugar. Para ello se aplica la fórmula: Siguiendo con el ejemplo anterior:
2, 2, 3, 4, 4, 5, 5, 5, 6
“5” es el lugar donde cae la mediana. Hallar el valor, en este caso en que hay un número impar de observaciones, es fácil: es la quinta observación (contando de izquierda a derecha o de derecha a izquierda). Esa observación tiene el valor 4. Por lo tanto, la mediana de esta serie es de 4 años de edad.
Si el número de observaciones fuera par:
2, 2, 3, 4, 4, 5, 5, 5, 6, 8
“5,5” es el lugar donde cae la mediana; es decir en la mitad entre el 5º y el 6º lugar. Para hallar el valor deberá sacarse la media de los valores de las observaciones que corresponden a esos lugares; ya que 5,5 representa la mitad del espacio comprendido entre ambas. El quinto y el sexto lugar lo ocupan observaciones que tienen valores 4 y 5, respectivamente. Por lo tanto, la mediana será la media de 4 y 5; es decir: 4,5 años de edad.Si existiera un valor aberrante:
2, 2, 3, 4, 4, 5, 5, 5, 24
Como puede verse el lugar de la mediana no cambia y su valor tampoco; es decir, no se ve influido por un valor aberrante.
b) Datos agrupados
Donde:
Eje mplo:
13
Li - Ls MC f fa
40 – 50 45 5 550 – 60 55 10 1560 – 70 65 21 3670 - 80 75 11 4780 - 90 85 5 5290 - 100 95 3 55
100 – 130 115 3 58
9 + 12
n + 12
= 5
Ing. Tania N. Colque Ortiz
Primero debemos determinar en que clase se encuentra la mediana, para ello:
14
583115100 – 130
58
55395 90 - 100
52585 80 - 90
471175 70 - 80
362165 60 – 70
151055 50 – 60
5545 40 – 50
fafMC Li - Ls
Con este valor nos vamos a la columna de frecuencia acumulada (fa), y observamos en que clase está contenido el valor de 29 (La mediana se ubica en la tercer clase).
Ing. Tania N. Colque Ortiz
Por lo tanto, el valor que se encuentra exactamente en el centro de este conjunto de datos es: 66,67
Calculo de la Mediana para variables cuantitativas discretas.-
Ejemplos:
A) Edades de un grupo de jóvenes que han realizado un curso para aprender a montar a caballo.
xi fi fai
-------------------------------- 20 3 3 21 2 5 N/2 = 10/2 = 5 22 2 8 Edad mediana: Me = 21 años 23 1 9 24 1 10
10
Características de la Mediana.-
En su cálculo no se incluyen todos los valores de la variable. La Mediana no es afectada por valores extremos. Puede ser calculada en distribuciones de frecuencia con clases abiertas. No es lógica desde el punto de vista algebraico.
LA MODA
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite, es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una distribución bimodal o polimodal según el caso.
Por lo tanto el cálculo de la moda en distribuciones discretas o cualitativas no precisa de una explicación mayor; sin embargo, debemos detenernos un poco en el cálculo de la moda para distribuciones cuantitativas continuas.
a) Datos no agrupados.-
15
Ing. Tania N. Colque Ortiz
Se selecciona el dato que esté mas repetido.
b) Datos agrupados.-
Ejemplo:
Veamos sus cálculos con un ejemplo para lo cual utilizaremos la distribución de los ingresos semanales en dólares
Li - Ls fi
65 - 75 475 - 85 1185 - 95 2095 - 105 9105 - 115 6
Total 50
Como el intervalo que tiene mayor frecuencia absoluta es el tercero, en esta clase se encuentra la Moda. Entonces, al reemplazar en las formulas anteriores se tiene lo siguiente:
El valor mas frecuente es 89,50 dólares.
Características de la moda.-
En su cálculo no se incluyen todos los valores de la variable.
16
Mo = ModaLi = Límite Inferior de la clase modal
= fi – fi-1 = Frec. Absoluta de la clase modal menos la frecuencia absoluta de la clase premodal
= fi – fi+1 = Frec. Absoluta de la clase modal menos la frecuencia absoluta de la clase postmodalAC = Ancho de clase
Clase Modal
Ing. Tania N. Colque Ortiz
El valor de la moda puede ser afectado grandemente por el método de designación de los intervalos de clases.
No está definida algebraicamente. Puede ser calculada en distribuciones de frecuencia que tengan clases abiertas. No es afectada por valores extremos.
Las características principales de estos tres estadísticos son tabuladas a continuación:
Principales Características de la Moda, Mediana y Media Hechos
Moda Mediana Media
1
Es el valor mas frecuente en la
distribución. Es el punto de más alto
densidad.
Es el valor del punto medio de la selección (no del rango), tal que la mitad de los datos están por arriba y por
debajo de ella.
Es el valor en algún agregado, el cual se
obtendría si todos los valores fueran iguales.
2
Su valor es establecido por la frecuencia
predominante, no por los valores en la
distribución.
El valor de la media es fijado por su posición en la selección, y no
refleja valores individuales.
La suma de las desviaciones en
cualquier lado de la media son iguales; por lo tanto la suma algebraica de sus desviaciones es
cero.
3Este es el valor más
probable, por lo tanto el más común.
La distancia agregada entre la mediana y
cualquier otro punto de la muestra es menor que en cualquier otro
punto.
Esta refleja la magnitud de cada valor.
4
Una distribución puede tener más de 2 modas, pero no existe
moda en una distribución rectangular.
Cada selección tiene solo una mediana.
Una muestra tiene solo una media.
5
No puede ser manipulada
algebraicamente. Modas de subgrupos
no pueden ser ponderadas o combinadas.
No puede ser manipulada
algebraicamente. Medianas de subgrupos
no pueden ser ponderadas o combinadas.
Pueden ser manipuladas algebraicamente. Medias de subgrupos pueden ser combinadas cuando son
ponderadas apropiadamente.
17
Ing. Tania N. Colque Ortiz
6
Es inestable, puede ser influenciada en el
proceso de agrupación.
Es estable en cuanto a que procedimientos
para agrupar no afecta su apreciación.
Es estable en cuanto a que procedimientos para
agrupar no afecta su apreciación.
7La moda no refleja el grado de modalidad.
No es aplicable para datos cualitativos.
Podría ser calcula igualmente cuando los
valores individuales son desconocidos, si se
posee la suma de los valores y el tamaño de la
muestra.
8
Puede ser calculada cuando los extremos de los valores de los grupos son abiertos.
Puede ser calculado cuando los valores
extremos son abiertos.
No puede ser calculado de una tabla de
frecuencia cuando sus valores extremos son
abiertos.
9Valores deben ser ordenados para su
cálculo.
Valores deben ser ordenados y agrupados
para su cálculo.
Los valores no necesitan ser ordenados para su
cálculo.
CUARTILES.-
Son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Q1, primer cuartil, al menos el 25% de los datos son menores o iguales que el y al menos el 75% de los datos son mayores o iguales que él.
18
Ing. Tania N. Colque Ortiz
Q2, segundo cuartil, es la mediana, Q2 = Me. Al menos el 50 % de los datos son menores o iguales que el y al menos el 50 % de los datos son mayores o iguales que el.
Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que el y al menos el 25% de los datos son mayores o iguales que él.
Q4, cuarto cuartil, es el mayor valor que se alcanza en la muestra.
Resumiendo: Q1= Valor de la variable que deja a la izquierda el 25% de la distribución. Q2= Valor de la variable que deja a la izquierda el 50% de la distribución =
mediana. Q3= Valor de la variable que deja a la izquierda el 75% de la distribución.
Ejemplo: Se tiene a 15 personas en filas ordenadas de menor a mayor estatura
Representación.-
b) Datos tabulados
19
100 110 120
150
140
130 11eerr ccuuaarrttiill
33eerr ccuuaarrttiill
MMeeddiiaannaa
Q1 Q3Q2
0 % 25 % 50 % 100 %75 %
Donde:= Límite Inferior de la clase donde se encuentra el Cuartil
= Indica el número del cuartil =La cantidad de valores u observaciones
= La frecuencia acumulada “menor que” de la clase anterior a la del Cuartil
= Frecuencia absoluta de la clase donde se encuentra el Cuartil
=Ancho de clase
Ing. Tania N. Colque Ortiz
Ejemplo: Utilicemos la distribución de los ingresos por familia semanal en dólares.
Límites fi fa
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
Calcular los cuartiles 1 y 3:
Con la relación determinamos en la columna de fa (-) en que clase está contenido el
cuartil deseado, donde “ ”, representa el cuartil.
Primer Cuartil.- (Q1)
20
Límites fi fa
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
Lo que nos indica que el primer cuartil se encuentra en el segundo intervalo
Q1
Ing. Tania N. Colque Ortiz
Reemplazando en la ecuación:
Interpretación.- Significa que el 25 % de todas las familias encuestadas tienen un ingreso menor o igual a 82,73 dólares.
Tercer Cuartil.- (Q3)
Reemplazando en la ecuación:
Interpretación.- Significa que el 75 % de todas las familias encuestadas tienen un ingreso menor o igual a 97,78 dólares.
DECILES.-
Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.
21
Límites fi fa
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
Lo que nos indica que el tercer cuartil se encuentra en el cuarto intervalo o clase.
Q3
D2
0 % 10% 20% 100 %40%30% 60%50% 70% 80% 90%
D1 D3 D4 D5 D6 D7 D8 D9
Ing. Tania N. Colque Ortiz
b) Datos tabulados
Ejemplo: Utilicemos la distribución de los ingresos por familia semanal en dólares.
Límites fi fa
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
Calcular los Deciles 2 y 4:
Con la relación determinamos en la columna de fa (-) en que clase está contenido el
decil deseado, donde “ ”, representa el decil.
Decil 2.-
22
Donde:= Límite Inferior de la clase donde se encuentra el Decil
= Indica el número del decil (1,2,3,4,5,6,7,8,9) =La cantidad de valores u observaciones
= La frecuencia acumulada “menor que” de la clase anterior a la del Decil
= Frecuencia absoluta de la clase donde se encuentra el Decil
=Ancho de clase
Lo que nos indica que el Decil 2 se encuentra en el segundo intervalo
Ing. Tania N. Colque Ortiz
Reemplazando en la ecuación:
Interpretación.- Significa que el 50 % de todas las familias encuestadas tienen un ingreso menor o igual a 80,55 dólares.
PERCENTILES.-
Son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.
Los Percentiles son 99 y dividen a la muestra en cien partes iguales Los Percentiles se pueden calcular del siguiente modo:
b) Datos tabulados
23
Límites fi fa
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
D2
Donde:= Límite Inferior de la clase donde se encuentra el Percentil
= Indica el número del percentil =La cantidad de valores u observaciones
= La frecuencia acumulada “menor que” de la clase anterior a la del percentil
= Frecuencia absoluta de la clase donde se encuentra el percentil
=Ancho de clase
Ing. Tania N. Colque Ortiz
Ejemplo: Utilicemos la distribución de los ingresos por familia semanal en dólares.
Límites fi fa(-)
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
Calcular el percentil 43:
Con la relación determinamos en la columna de fa (-) en que clase está contenido el
percentil deseado, donde “ ”, representa el percentil.
Percentil 43.- (P43)
Reemplazando en la ecuación:
24
Límites fi fa(-)
65 - 75 4 475 - 85 11 1585 - 95 20 3595 - 105 9 44105 - 115 6 50
Total 50
Lo que nos indica que el percentil 43 se encuentra en el tercer intervalo
P43
Ing. Tania N. Colque Ortiz
Interpretación.- Significa que el 43 % de todas las familias encuestadas tienen un ingreso menor o igual a dólares.
RECORRIDO INTERCUARTILICO.-
Es la diferencia entre el tercer cuartil y el primer cuartil
RI = Q3 – Q1
RECORRIDO INTERDECILICO.-
Es la diferencia entre los percentiles 90avo y décimo. P90 - P10
GRAFICO DE CAJAS
Los diagramas de cajas y bigotes –también llamados “boxplots o box and whiskers” son representaciones gráficas de una distribución estadística unidimensional en las que se reflejan cinco parámetros: límite inferior, primer cuartil, mediana, tercer cuartil y límite superior. A partir de estos cinco parámetros se pueden obtener fácilmente otros dos: el rango y el rango intercuartílico. Además, también dan una medida de la simetría o asimetría de la distribución, del sesgo y de la dispersión.
Esta presentación visual, asocia las cinco medidas que suelen trabajarse de forma individual. Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los datos de estudio. Además, permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos. A estas observaciones se les conoce como valores atípicos.
25Mínimo
Máximo
Mediana
1er cuartil
3er cuartil
Ing. Tania N. Colque Ortiz
Las partes del Boxplot se identifican como sigue:
1.-Límite superior: Es el extremo superior del bigote. Las opiniones por encima de este límite se consideran atípicas. Para más detalles consulte sobre la construcción de los límites y los valores atípicos.
2.-Tercer cuartil (Q3): Por debajo de este valor se encentran como máximo el 75% de las opiniones de los estudiantes.
3.-Mediana: Coincide con el segundo cuartil. Divide a la distribución en dos partes iguales. De este modo, 50% de las observaciones están por debajo de la mediana y 50% está por encima.
4.-Primer cuartil (Q1): Por debajo de este valor se encuentra como máximo el 25% de las opiniones de los estudiantes
5.-Límite inferior: Es el extremo inferior del bigote. Las opiniones por debajo de este valor se consideran atípicas. Para más detalles consulte sobre la construcción de los límites y los valores atípicos.
6.-Valores atípicos: Opiniones que están apartadas del cuerpo principal de datos. Pueden representar efectos de causas extrañas, opiniones extremas o en el caso de la tabulación manual, errores de medición o registro.
Se colocan en la gráfica con asteriscos (*) o puntos (.) según se alejan menos o más del conjunto de datos. Se utiliza un superíndice numérico para indicar el número de veces que aparece ese dato como atípico. NOTA:
26
Ing. Tania N. Colque Ortiz
Esta presentación en línea del Boxplot está en primera versión y aun en proceso de mejora. Se señalan los datos atípicos con una circunferencia (o) en el caso de ser única la observación. En caso contrario, usted sólo verá un triángulo ($). Si esto sucede, debe remitirse al reporte numérico para verificar la cantidad de observaciones atípicas por pregunta.
7.-Media aritmética: Es lo que tradicionalmente se conoce como promedio. Originalmente no forma parte del boxplot, sin embargo, se consideró su inclusión para dar una idea del puntaje general obtenido por pregunta. Actualmente se trabaja en la elaboración de estadísticos más representativos que la media aritmética para describir el conjunto de datos.
EJERCICIO RESUELTO No. 1
1. Los siguientes datos corresponden a tiempos de vida (en horas) de unas ratitas de laboratorio expuestas a un cierto veneno. Se quiere ver la efectividad de dicho veneno.
0,03 0,03 0,04 0,05 0,07 0,11 0,12 0,14 0,22 0,220,23 0,24 0,29 0,29 0,31 0,33 0,36 0,47 0,51 0,600,61 0,73 0,85 0,86 0,86 0,93 0,97 0,99 1,05 1,061,11 1,14 1,18 1,21 1,35 1,40 1,44 1,71 1,79 1,881,91 1,93 1,96 2,21 2,34 2,63 2,66 2,93 3,20 3,53
(a) Construir la respectiva tabla de Frecuencias, (CON 7 INTERVALOS) calculando: marca de clase, intervalo, frecuencia absoluta, frecuencia absoluta acumulada, frecuencia relativa, frecuencia relativa acumulada
(b) Elaborar un histograma absoluto(c) Calcular la Media Aritmética y Mediana.
RESPUESTA.-
27
Li - Ls fi fa hi Hi hi % Hi %
0,03 - 0,530,53 -1,031,03 – 1,531,53 – 2,032,03 – 2,532,53 – 3,033,03 – 3,53
19996232
19283743454850
0,380,180,180,120,040,060,04
0,380,560,740,860,900,961,00
38181812464
385674869096100
50 1,00 100%
Ing. Tania N. Colque Ortiz
b) Elaborar un histograma absoluto
c) Calcular la Media Aritmética y Mediana.
28
Li - Ls fi MC MC.fi
0,03 - 0,530,53 -1,031,03 – 1,531,53 – 2,032,03 – 2,532,53 – 3,033,03 – 3,53
19996232
0,280,781,281,782,282,783,28
50 54
0,03 1,03 1,530,53 2,532,03 3,03
4
2
14
10
16
6
12
8
18
Límites
20
fi
3,53
Ing. Tania N. Colque Ortiz
Primero debemos determinar en que clase se encuentra la mediana, para ello:
0,863 horas.
29
5023,283,03 – 3,53
50
4832,78 2,53 – 3,03
4522,28 2,03 – 2,53
4361,78 1,53 – 2,03
3791,281,03 – 1,53
2890,78 0,53 -1,03
19190,28 0,03 - 0,53
fafMC Li - Ls
Con este valor nos vamos a la columna de frecuencia acumulada (fa), y observamos en que clase está contenido el valor de 25 (La mediana se ubica en la segunda clase.
Ing. Tania N. Colque Ortiz
Interpretación.- El valor que se encuentra exactamente en el centro del conjunto de datos es 0,863.
d) Obtenga el intervalo donde se encuentra el 40 % central de la distribución:
30
Li - Ls fi fa
0,03 - 0,530,53 -1,031,03 – 1,531,53 – 2,032,03 – 2,532,53 – 3,033,03 – 3,53
19996232
19283743454850
50
100 %0 % 30% 50% 70%
D3 D7
P30 P70
40% central
Con este valor observamos en la columna de frecuencia acumulada, y vemos que el P30 está ubicado en la 1er. clase
P30
Con este valor observamos en la columna de frecuencia acumulada, y vemos que el P70 está ubicado en la 3era. Clase
P70
Ing. Tania N. Colque Ortiz
Reemplazando en la fórmula:
Conclusión: El 40 % central se encuentra entre el P30 y el P70, es decir entre: 0,42 y 1,41 horas.
e) ¿En qué intervalo de tiempo mueren el 90 % de las ratitas?
31
Li - Ls fi fa
0,03 - 0,530,53 -1,031,03 – 1,531,53 – 2,032,03 – 2,532,53 – 3,033,03 – 3,53
19996232
19283743454850
50
100 %0 %
90 %
90%
P90
D9
Con este valor observamos en la columna de frecuencia acumulada, y vemos que el D9 está ubicado en la 5ta. Clase
D9
Ing. Tania N. Colque Ortiz
EJERCICIOS RESUELTOS No. 2
Los siguientes datos corresponden a la cantidad de minutos que un grupo de universitarios tardan en llegar desde su domicilio hasta la universidad. Calcular el intervalo en que están concentrados el 50 % de los universitarios
Li - Ls fi fa
20 , 25 100 10025 , 30 150 25030 , 35 200 45035 , 40 180 63040 , 45 41 671
N = 671
Calcularemos la Mediana:
La mediana se encuentra en la tercera clase, es decir en el intervalo 30 – 35.
Conclusión: El intervalo en que están concentrados el 50 % está entre los valores de 20 – 32,14 minutos.
32
Significa que entre 0,03 y 2,53 horas mueren el 90 % de las ratitas.
100 %0 % 50 %
D5=P50=Q2=Me
Mediana
Ing. Tania N. Colque Ortiz
EJERCICIOS RESUELTOS No. 3
- Ejemplo de cálculo de cuartiles con una variable discreta
Dada la siguiente distribución en el número de hijos de 100 familias, calcular sus cuartiles
Cantidad de hijos fi fa0 14 141 10 242 15 393 26 654 20 855 15 100
Solución:
- Primer Cuartil (Q1):
- Segundo Cuartil (Q2):
- Tercer Cuartil (Q3):
33
Con este valor observamos en la columna de frecuencia acumulada, y vemos que el Q1 está ubicado en la 3era. Clase. Por lo tanto el Q1 = 2 hijos
Q1
Con este valor observamos en la columna de frecuencia acumulada, y vemos que el Q2 está ubicado en la 4ta. Clase. Por lo tanto el Q2 = 3 hijos
Q2
Con este valor observamos en la columna de frecuencia acumulada, y vemos que el Q3 está ubicado en la 5ta. Clase. Por lo tanto el Q3 = 4 hijos
Q3
Ing. Tania N. Colque Ortiz
EJERCICIOS RESUELTOS No. 4
Han sido ordenados los pesos de 21 personas en la siguiente tabla:
Li - Ls fi fa
38 - 4545 – 5252 – 5959 – 6666 – 73
32736
35121521
21
Calcular los cuartiles 1 y 3:
Con la relación determinamos en la columna de fa (-) en que clase está contenido el
cuartil deseado, donde “ ”, representa el cuartil.
Primer Cuartil.- (Q1)
Li - Ls fi fa
38 - 4545 – 5252 – 5959 – 6666 – 73
32736
35121521
21
34
Lo que nos indica que el primer cuartil se encuentra en el tercer intervalo
Q1
Ing. Tania N. Colque Ortiz
Reemplazando en la ecuación:
Interpretación.- Significa que el 25 % de todas las personas tienen un peso menor o igual a 52,25 dólares.
Segundo Cuartil- (Q2)
Li - Ls fi fa
38 - 4545 – 5252 – 5959 – 6666 – 73
32736
35121521
21
Reemplazando en la ecuación:
Interpretación.- Significa que el 50 % de todas las personas tienen un peso menor o igual a 57,50 dólares.
Tercer Cuartil (Q23)
35
Lo que nos indica que el segundo cuartil se encuentra en el tercer intervalo
Q2
Lo que nos indica que el tercer cuartil se encuentra en el quinto intervalo
Ing. Tania N. Colque Ortiz
Li - Ls fi fa
38 - 4545 – 5252 – 5959 – 6666 – 73
32736
35121521
21
Reemplazando en la ecuación:
Interpretación.- Significa que el 75 % de todas las personas tienen un peso menor o igual a 66,875 dólares.
EJERCICIO RESUELTO 5
En la siguiente tabla tenemos tabulados la cantidad de minutos que un grupo de 50 personas ingresan al Internet un día cualquiera de la semana.
36
Q3
Ing. Tania N. Colque Ortiz
Calcular las medidas de tendencia central.-
Cálculo de la Moda
Cálculo de la Mediana.-
Calculo del Cuartil 2.- (Q2)
37
Como el intervalo que tiene mayor frecuencia absoluta es el segundo, en esta clase se encuentra la Moda. Entonces, al reemplazar en las formulas anteriores se tiene lo siguiente:
Con este valor nos fijamos en la columna de fa(-), vemos que la mediana se encuentra en la segunda clase
Con este valor nos fijamos en la columna de fa (-), vemos que el Cuartil 2 se encuentra en la segunda clase
utosACfi
fain
LiQ min23,9439*17
142569*
14
2
Ing. Tania N. Colque Ortiz
Calculo del Decil 7.- (D7)
Calculo del Percentil 90.- (P90)
38
Con este valor nos fijamos en la columna de fa (-), vemos que el Decil 7 se encuentra en la tercer clase
Con este valor nos fijamos en la columna de fa (-), vemos que el P90 se encuentra en la quinta clase
Top Related