Post on 18-Jul-2016
description
1
UNIDAD 4: “ Medidas de dispersión”
Introducción.
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersión dicen hasta que punto estas medidas de tendencia central
son representativas como síntesis de la información. Las medidas de dispersión cuantifican la
separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.
Se distinguen las medidas de dispersión absolutas, que no son comparables entre diferentes
muestras y las relativas que permiten comparar varias muestras.
Para variables numéricas o cuantitativas, en las que puede haber un gran número de valores
observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes
preguntas:
a. ¿Alrededor de qué valor se agrupan los datos?
b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy
concentrados? ¿muy dispersos?
Las medidas de centralización vienen a responder a la primera pregunta. Es decir que estas
medidas de centralización, sirven para describir un aspecto de los datos, pero no nos dicen nada
acerca de otro aspecto de igual importancia: la dispersión de los valores observados. Un promedio
como la Media o la Mediana sólo localizan el centro de los datos. Eso es valioso desde ese punto de
vista, pero un promedio no nos dice nada acerca de la dispersión de los datos, para esto
utilizaremos las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión es
pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces
la media se considera representativa de los datos, la Media es un promedio confiable. Inversamente,
una medida de dispersión grande indica que la Media no es confiable, no es representativa de los
datos.
Para entender mejor esto, supongamos que tenemos dos muestras de tamaño tres:
10, 20 y 60 28,29 y 33
La media aritmética de ambas muestras es 30. Sin embargo, existe una diferencia esencial
entre ellas, puesto que los valores de la primera muestra se encuentran más separados que los de la
2
segunda. Es por esto, que es necesario que introduzcamos alguna medida de variabilidad que
distinga a las dos muestras.
La importancia práctica de tales medidas, se evidencia por ejemplo, en que una muy
pequeña variabilidad en un proceso de producción de cierto producto, puede indicar alta calidad.
4. 2 . Medidas de Dispersión
Son indicadores estadísticos que muestran la distancia promedio que existe entre los datos y la
media aritmética.
4.3 Medidas de dispersión Absolutas:
4.3.1 Rango
Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el
valor mayor y el menor de la distribución. Lo notaremos como R. Realmente no es una medida muy
significativa en la mayoría de los casos, pero indudablemente es muy fácil de calcular.
Se lo llama también ancho o recorrido.
PARA VARIABLES
CUANTITATIVAS
ABSOLUTAS:
Rango
Variancia
Desvío Estándar
RELATIVAS:
Coeficiente de
Variación
3
En el caso de datos sueltos se obtiene buscando el máximo y el mínimo valor entre los datos,
que se llaman valores extremos, y se realiza la diferencia.
Ejemplo: Tenemos los siguientes datos, que representan el valor del colesterol Total de 10
niños internados en el Hospital V.J.Vilela:
156 – 209 – 189 – 196 – 203 – 162 – 228 – 134 -155 - 96
Rango = 228 - 96 = 132
Si disponemos de datos agrupados, no sabemos los valores máximos o mínimos, por lo que
no podemos calcularlo.
Ventajas:
Es fácil de calcular y es comúnmente usado como una medida burda, pero eficaz de variabilidad.
Es comprensible para cualquier persona, aún cuando no conozca de estadística.
Desventajas:
La desventaja más importante es que posiblemente deseemos saber más respecto a la dispersión de
los datos, que lo que podemos obtener del rango, puesto que éste refleja únicamente los valores
extremos, ignorando la información intermedia.
No es aconsejable usarlo para muestras grandes, pues puede conducirnos a errores. Pero sí, por lo
común, se lo utiliza en muestras pequeñas de 4 a 5 observaciones, sobre todo en el control
estadístico de la calidad.
4.3.2 Variancia
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es
la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad.
De todas ellas, la varianza (S2) de los datos es la más utilizada.
Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media
aritmética de la distribución.
4
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por
tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la
variable estudiada.
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71,
y 80. La media de edad de estos sujetos será de:
En el ejemplo anterior la varianza sería:
S
x2=
La Variancia se utiliza sólo a fin de realizar demostraciones teóricas y se la define como el
cuadrado del desvío standard que veremos a continuación.
4.3.3 Desvio Estándar
¿Qué se entiende por desviación?
Desviación es la diferencia que se observa entre el valor de la variable y la media aritmética.
La desviación estándar (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la
distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es
la medida de dispersión más utilizada en estadística.
5
Donde:
Xj: valores de la muestra.
X : media aritmética de la muestra.
n: tamaño de la muestra.
En los cálculos del ejercicio previo, la desviación estándar muestral, que tiene como
denominador n, el valor sería 20,68. A efectos de cálculo lo haremos como n-1 y el resultado sería
21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta
segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la
población y posee las propiedades que necesitamos para realizar inferencias a la población.
Ejemplo:
Continuamos con el ejemplo de la medición de Colesterol Total realizada a 10 niños del Hospital
V.J.Vilela:
X = 156 + 209 + 189 + 196 + 203 + 162 + 228 + 134 + 155 + 96 = 1728 = 172,8
10 10
Por lo tanto el promedio de Colesterol Total es de 172,8.
Siguiendo el ejemplo calculamos S:
(156 – 172,8)2 + (209 – 172,8)
2 +……..+ (96 – 172,8)
2
S = 10 – 1
S = 228,24 + 1310,44 +262,44+……..+ 5898,24 = 14189,6 = 39,71
9 9
Interpretación: Los valores de la variable se dispersan en promedio en 39,71 con respecto a la
Media Aritmética.
6
Como medidas de variabilidad más importantes, conviene destacar algunas características de
la varianza y el desvío estándar:
Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están
muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la
desviación estándar también lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación estándar.
Cuando todos los datos de la distribución son iguales, la varianza y el desvío estándar son
iguales a 0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de
valor será detectado.
4.4 Medidas de dispersión Relativa: Coeficiente de Variación
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de
dispersión relativa de los datos y se calcula dividiendo la desviación estándar muestral por la media
y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o
variabilidad de dos o más grupos.
El coeficiente de variación se utiliza se utiliza para comparar la homogeneidad de dos series
de datos, aún cuando estén expresados en distintas unidades de medida.
Se debe destacar que a medida que el Coeficiente de variación disminuye, se observa una
mayor homogeneidad en los datos o lo que es lo mismo, los datos están más concentrados alrededor
del promedio.
Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es
de 69,6 kg. y su desviación estándar (S) = 10,44 kg y la Talla de los mismos (150, 170, 135, 180 y
195 cm) cuya media es de 166 cm y su desviación estándar de 21,3 cm. La pregunta sería: ¿qué
distribución es más dispersa, el peso o la talla? Si comparamos las desviaciones estándar
observamos que la desviación estándar de la talla es mucho mayor; sin embargo, no podemos