medidas de dispersion

7
1 UNIDAD 4: “ Medidas de dispersión” Introducción. Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersión dicen hasta que punto estas medidas de tendencia central son representativas como síntesis de la información. Las medidas de dispersión cuantifican la separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central. Se distinguen las medidas de dispersión absolutas, que no son comparables entre diferentes muestras y las relativas que permiten comparar varias muestras. Para variables numéricas o cuantitativas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: a. ¿Alrededor de qué valor se agrupan los datos? b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos? Las medidas de centralización vienen a responder a la primera pregunta. Es decir que estas medidas de centralización, sirven para describir un aspecto de los datos, pero no nos dicen nada acerca de otro aspecto de igual importancia: la dispersión de los valores observados. Un promedio como la Media o la Mediana sólo localizan el centro de los datos. Eso es valioso desde ese punto de vista, pero un promedio no nos dice nada acerca de la dispersión de los datos, para esto utilizaremos las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión es pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces la media se considera representativa de los datos, la Media es un promedio confiable. Inversamente, una medida de dispersión grande indica que la Media no es confiable, no es representativa de los datos. Para entender mejor esto, supongamos que tenemos dos muestras de tamaño tres: 10, 20 y 60 28,29 y 33 La media aritmética de ambas muestras es 30. Sin embargo, existe una diferencia esencial entre ellas, puesto que los valores de la primera muestra se encuentran más separados que los de la

description

teoria sobre medidas de dispersion

Transcript of medidas de dispersion

1

UNIDAD 4: “ Medidas de dispersión”

Introducción.

Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor

representativo, las medidas de dispersión dicen hasta que punto estas medidas de tendencia central

son representativas como síntesis de la información. Las medidas de dispersión cuantifican la

separación, la dispersión, la variabilidad de los valores de la distribución respecto al valor central.

Se distinguen las medidas de dispersión absolutas, que no son comparables entre diferentes

muestras y las relativas que permiten comparar varias muestras.

Para variables numéricas o cuantitativas, en las que puede haber un gran número de valores

observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes

preguntas:

a. ¿Alrededor de qué valor se agrupan los datos?

b. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy

concentrados? ¿muy dispersos?

Las medidas de centralización vienen a responder a la primera pregunta. Es decir que estas

medidas de centralización, sirven para describir un aspecto de los datos, pero no nos dicen nada

acerca de otro aspecto de igual importancia: la dispersión de los valores observados. Un promedio

como la Media o la Mediana sólo localizan el centro de los datos. Eso es valioso desde ese punto de

vista, pero un promedio no nos dice nada acerca de la dispersión de los datos, para esto

utilizaremos las medidas de dispersión o variabilidad. Si el valor de estas medidas de dispersión es

pequeño, nos indica que los datos están estrechamente agrupados alrededor de la Media, entonces

la media se considera representativa de los datos, la Media es un promedio confiable. Inversamente,

una medida de dispersión grande indica que la Media no es confiable, no es representativa de los

datos.

Para entender mejor esto, supongamos que tenemos dos muestras de tamaño tres:

10, 20 y 60 28,29 y 33

La media aritmética de ambas muestras es 30. Sin embargo, existe una diferencia esencial

entre ellas, puesto que los valores de la primera muestra se encuentran más separados que los de la

2

segunda. Es por esto, que es necesario que introduzcamos alguna medida de variabilidad que

distinga a las dos muestras.

La importancia práctica de tales medidas, se evidencia por ejemplo, en que una muy

pequeña variabilidad en un proceso de producción de cierto producto, puede indicar alta calidad.

4. 2 . Medidas de Dispersión

Son indicadores estadísticos que muestran la distancia promedio que existe entre los datos y la

media aritmética.

4.3 Medidas de dispersión Absolutas:

4.3.1 Rango

Es la primera medida que vamos a estudiar, se define como la diferencia existente entre el

valor mayor y el menor de la distribución. Lo notaremos como R. Realmente no es una medida muy

significativa en la mayoría de los casos, pero indudablemente es muy fácil de calcular.

Se lo llama también ancho o recorrido.

PARA VARIABLES

CUANTITATIVAS

ABSOLUTAS:

Rango

Variancia

Desvío Estándar

RELATIVAS:

Coeficiente de

Variación

3

En el caso de datos sueltos se obtiene buscando el máximo y el mínimo valor entre los datos,

que se llaman valores extremos, y se realiza la diferencia.

Ejemplo: Tenemos los siguientes datos, que representan el valor del colesterol Total de 10

niños internados en el Hospital V.J.Vilela:

156 – 209 – 189 – 196 – 203 – 162 – 228 – 134 -155 - 96

Rango = 228 - 96 = 132

Si disponemos de datos agrupados, no sabemos los valores máximos o mínimos, por lo que

no podemos calcularlo.

Ventajas:

Es fácil de calcular y es comúnmente usado como una medida burda, pero eficaz de variabilidad.

Es comprensible para cualquier persona, aún cuando no conozca de estadística.

Desventajas:

La desventaja más importante es que posiblemente deseemos saber más respecto a la dispersión de

los datos, que lo que podemos obtener del rango, puesto que éste refleja únicamente los valores

extremos, ignorando la información intermedia.

No es aconsejable usarlo para muestras grandes, pues puede conducirnos a errores. Pero sí, por lo

común, se lo utiliza en muestras pequeñas de 4 a 5 observaciones, sobre todo en el control

estadístico de la calidad.

4.3.2 Variancia

Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es

la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad.

De todas ellas, la varianza (S2) de los datos es la más utilizada.

Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media

aritmética de la distribución.

4

Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por

tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la

variable estudiada.

Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71,

y 80. La media de edad de estos sujetos será de:

En el ejemplo anterior la varianza sería:

S

x2=

La Variancia se utiliza sólo a fin de realizar demostraciones teóricas y se la define como el

cuadrado del desvío standard que veremos a continuación.

4.3.3 Desvio Estándar

¿Qué se entiende por desviación?

Desviación es la diferencia que se observa entre el valor de la variable y la media aritmética.

La desviación estándar (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la

distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es

la medida de dispersión más utilizada en estadística.

5

Donde:

Xj: valores de la muestra.

X : media aritmética de la muestra.

n: tamaño de la muestra.

En los cálculos del ejercicio previo, la desviación estándar muestral, que tiene como

denominador n, el valor sería 20,68. A efectos de cálculo lo haremos como n-1 y el resultado sería

21,79.

El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta

segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la

población y posee las propiedades que necesitamos para realizar inferencias a la población.

Ejemplo:

Continuamos con el ejemplo de la medición de Colesterol Total realizada a 10 niños del Hospital

V.J.Vilela:

X = 156 + 209 + 189 + 196 + 203 + 162 + 228 + 134 + 155 + 96 = 1728 = 172,8

10 10

Por lo tanto el promedio de Colesterol Total es de 172,8.

Siguiendo el ejemplo calculamos S:

(156 – 172,8)2 + (209 – 172,8)

2 +……..+ (96 – 172,8)

2

S = 10 – 1

S = 228,24 + 1310,44 +262,44+……..+ 5898,24 = 14189,6 = 39,71

9 9

Interpretación: Los valores de la variable se dispersan en promedio en 39,71 con respecto a la

Media Aritmética.

6

Como medidas de variabilidad más importantes, conviene destacar algunas características de

la varianza y el desvío estándar:

Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están

muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la

desviación estándar también lo serán.

Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación estándar.

Cuando todos los datos de la distribución son iguales, la varianza y el desvío estándar son

iguales a 0.

Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de

valor será detectado.

4.4 Medidas de dispersión Relativa: Coeficiente de Variación

Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de

dispersión relativa de los datos y se calcula dividiendo la desviación estándar muestral por la media

y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o

variabilidad de dos o más grupos.

El coeficiente de variación se utiliza se utiliza para comparar la homogeneidad de dos series

de datos, aún cuando estén expresados en distintas unidades de medida.

Se debe destacar que a medida que el Coeficiente de variación disminuye, se observa una

mayor homogeneidad en los datos o lo que es lo mismo, los datos están más concentrados alrededor

del promedio.

Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es

de 69,6 kg. y su desviación estándar (S) = 10,44 kg y la Talla de los mismos (150, 170, 135, 180 y

195 cm) cuya media es de 166 cm y su desviación estándar de 21,3 cm. La pregunta sería: ¿qué

distribución es más dispersa, el peso o la talla? Si comparamos las desviaciones estándar

observamos que la desviación estándar de la talla es mucho mayor; sin embargo, no podemos

7

comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los

coeficientes de variación:

CV de la variable peso = 10,44 = 15 %

69,6

CV de la variable talla = 21,3 = 12,8 %

166

Respuesta: La distribución más dispersa es la del peso.