5.3 Estadísticas de una distribución frecuencial
5.3.1 Medidas de tendencia central
Medidas de tendencia central
Las medidas de tendencia central son descriptores numéricos que proporcionan una
idea de los valores de la variable, alrededor de los cuales tienden a aglomerarse los
datos. Los más útiles son la media, la mediana y la moda. Las unidades son las mismas
que los de los datos.
Media
De una serie de datos. Es el promedio aritmético. Notación: x
n
i
i 1
1x x
n (5.7)
Donde: n = número de datos
Xi = dato, i = 1, 2,..., n
1x 1374.9 45.83
30
De una distribución de datos agrupados: k
i i
i 1
1x x f
n (5.7’)
Donde: n = número de datos
k = número de intervalos de clase
xi = marca de clase, i = 1, 2,…, k
fi = frecuencia de clase, i =1, 2,…, k
Mediana
De una serie de datos: Es el valor intermedio de la serie ordenada. Notación: M.
Si n es impar, se toma el valor intermedio. Si n es par, se toma el promedio de los
valores intermedios.
45.8 46
M 45.92
De una distribución de datos agrupados
MM M
M
n / 2 FM L d
f (5.8)
Donde: n = número de datos
LM = límite real inferior del intervalo que contiene a la mediana
FM = frecuencia acumulada hasta el límite real inferior LM
fM = frecuencia del intervalo que contiene a la mediana
DM = tamaño del intervalo que contiene a la mediana
El intervalo que contiene a la mediana es aquel para el cual, menos del 5O % de los
valores son menores que su límite real inferior y menos del 5O % de los valores son
mayores que su límite real superior.
30 / 2 10M 44.05 2 46.05
5
Moda
De una serie de datos: es el valor que se repite más frecuentemente en la serie de
datos. Notación: M
M 42.6
De una distribución de datos agrupados: es la marca de la clase del intervalo de mayor
frecuencia
Una distribución unimodal es aquella que tiene una sola moda.
Una distribución multimodal es aquella que tiene más de una moda. Si tiene dos
modas es bimodal; si tiene tres modas, es trimodal.
Una distribución es simétrica si su media y su mediana coinciden: x M
Si además la distribución es unimodal, la media, la mediana y la moda coinciden:
x M M
Se dice que una distribución es asimétrica a la derecha o sesgada positivamente, si la
media es menor que la mediana: x M
Se dice que una distribución es asimétrica a la izquierda o sesgada negativamente, si la
media es mayor que la mediana: x M
Caso discreto
Si se trata de una serie de datos, la media, la mediana y la moda se obtienen de la
misma manera que para el caso continuo.
Si los datos están agrupados:
Media: k
i i
i 1
1x x f
n (7”)
Donde: n = número de datos
k = número de clase
xi = clase, i = 1, 2,..., k
fi = frecuencia de clase, i = 1, 2,..., k
Mediana: Se da en forma aproximada, de la misma manera que en el caso continuo,
diciendo que está entre dos valores discretos de la variable.
49 / 2 21
M 1 1 1.3211
Moda: Es la clase de mayor frecuencia; en el caso discreto, la moda de la distribución
de datos agrupados coincide con la moda de la serie de datos.
Caso nominal
La única medida de tendencia central apropiada para variables nominales es la moda.
Moda es el nombre que presente con mayor frecuencia.
Aunque menos usuales que las anteriores, la media geométrica, la media armónica y el
promedio cuadrático, son medidas de tendencia central bastante útiles.
Media geométrica
Notación: G
De una serie de datos:
n
ni
i 1
G x ó n
i
i 1
1logG logx
n (5.9)
Donde: n = número de datos
xi = dato, i = 1, 2,…, n
De una distribución de datos agrupados:
i
kf
ni
i 1
G x ó k
i i
i 1
1logG f log x
n (5.9´)
Donde: n = número de datos
k = número de intervalos
xi = marca de clase, i = 1, 2,…, k
fi = frecuencia de clase, i = 1, 2,…, k
Media armónica
Notación: H
De una serie de datos:
n
i 1 i
1H
1 1
n x
(5.10)
Donde: n = número de datos
xi = dato, i = 1, 2,…, n
De una distribución de datos agrupados:
ki
i 1 i
1H
f1
n x
(5.10’)
Donde: n = número de datos
k = número de intervalos
xi = marca de clase, i = 1, 2,…, k
fi = frecuencia de clase, i = 1, 2,…, k
Promedio cuadrático
Notación: 2x
De una serie de datos:
i
n2 2
i 1
1x x
n (5.11)
Donde: n = número de datos
xi = dato, i = 1, 2,…, n
De una distribución de datos agrupados 2k
2
i
i 1 i
1x x f
n (5.11´)
Donde: n = número de datos
k = número de intervalos
xi = marca clase, i =1, 2,…, k
fi = frecuencia de clase, i =1, 2,…, k
5.3.2 Medidas de dispersión
Las medidas de dispersión son descriptores numéricos que proporcionan una idea de
la dispersión o variabilidad de los datos. Los más útiles son la variancia, la desviación
estándar y el coeficiente de variación.
Varianza
Notación: 2s
De una serie de datos:
2)n
2
i
i 1
1s (x x
n (5.12)
Donde: n = número de datos
xi = dato, i=1,….,n
x = media de la serie de datos
2 1s 310.843 10.36
30
De la distribución de los datos agrupados:
2)k
2
i i
i 1
1s (x x f
n (5.12’)
Donde: n = número de datos
k = número de intervalos
xi = marca clase, i=1, 2,…, k
x = media de la distribución de datos agrupados
fi = frecuencia de clase, i=1, 2,…, k
La varianza es una medida de dispersión que mide la variabilidad de los datos
alrededor de la media, pero no tiene como ésta, las mismas unidades que los datos,
debido a que en su obtención se involucran términos cuadráticos: 2
ix x ó
2
i ix x f . La razón de elevar al cuadrado las diferencias es la de eliminar los
términos negativos, que sumados a los positivos, darían como resultado el valor cero.
Fórmula simplificada para la varianza
La varianza es igual al promedio cuadrático menos el cuadrado de la media:
22 2s x x (5.13)
22
n n n n2 2 22 2 2
i i i i i
i 1 i 1 i 1 i 1
xxx
1 1 1 1 1s x x x 2x x x x 2x x nx
n n n n n
2 22x 2x x
Varianza modificada
Notación: 2
s
De una serie de datos:
n 22
i
i 1
1s x x
n 1 (5.14)
Donde: n = número de datos
k = número de intervalos
xi = dato, i = 1, 2,…, k
x = media de la distribución de datos agrupados
2 1
s 310.843 10.7229
De una distribución de datos agrupados:
k 22
i i
i 1
1s x x f
n 1 (5.14´)
Donde: n = número de datos
K =número de intervalos
xi = marca clase, i=1, 2,…, k
x = media de la distribución de datos agrupados
fi = frecuencia de clase, i=1, 2,…, k
2 1
s 301.467 10.4029
Hay razones importantes para utilizar 2
s en lugar de s2; éstas se verán luego, en la
parte de inferencia estadística.
Desviación estándar
Notación: s
De una serie de datos:
n 2
i
i 1
1s x x
n (5.12”)
s 10.36 3.22
De una distribución de datos agrupados
k 2
i i
i 1
1s x x f
n (5.12’’’)
s 10.05 3.17
La desviación estándar es la raíz cuadrado de la variancia, por lo que si tiene las
mismas unidades que los datos.
2s s (5.15)
22 2s x x (5.13´)
Desviación estándar modificada
Notación: s
De una serie de datos:
n 2
i
i 1
1s x x
n 1 (5.14’’)
s 10.72 3.27
De una distribución de datos agrupados:
k 2
i i
i 1
1s x x f
n 1 (5.14’’’)
s 10.40 3.22
La desviación estándar modificada es la raíz cuadrada de la variancia modificada.
2s s (5.15’)
Coeficiente de variación
Notación: v
s
vx
(5.16)
El coeficiente de variación es una medida de dispersión adimensional que permite
comparar directamente la desviación estándar con la media.
3.22 3.17v 0.07, v 0.069
45.83 45.92
Aunque menos usuales que las anteriores, otras medidas de dispersión bastante útiles
son el rango y la desviación media.
Rango
El rango de una serie de datos es igual a la diferencia entre el dato de mayor valor y el
dato de menor valor. Notación: R
Desviación media
Notación: D
De una serie de datos:
n
i
i 1
1D x x
n (5.17)
Donde: n = número de datos
xi = dato, i=1, 2,…, n
x = media de la serie de datos
1D 81.9 2.73
30
De la distribución de datos agrupados:
k
i i
i 1
1D x x f
n (5.17´)
Donde: n = número de datos
k = número de intervalos
xi = marca clase, i=1, 2,…, k
x = media de la distribución de datos agrupados
fi = frecuencia de clase, i=1, 2,…, k
La desviación media es una medida de disposición que tiene las mismas unidades que
los datos. La utilización de valores absolutos permite eliminar los términos negativos,
evitando con esto que la suma de las diferencias se anule.
5.3.3. Medidas de asimetría y curtosis
Las medidas de asimetría son descriptores numéricos que dan una idea de la simetría
o asimetría de la distribución de frecuencias obtenidas de los datos.
Coeficiente de asimetría
Notación: G1
De la serie de datos:
3n
1 i3i 1
1G x x
ns (5.18)
Donde: n = número de datos
xi = dato, i = 1, 2,…, n
x = media de la distribución de datos
s = desviación estándar de la serie de datos
1 3
1G 137.1 0.137
30 3.22
De la distribución de datos agrupados
3k
1 i i3i 1
1G x x f
ns (5.18´)
Donde: n = número de datos
k = número de intervalos
xi = marca clase, i = 1, 2,…, k
x = media de la distribución de datos agrupados
s = desviación estándar de la distribución de datos agrupados
fi = frecuencia de clase, i = 1, 2,…, k
El coeficiente de asimetría es una medida adimensional.
Coeficiente de asimetría de Pearson
Notación: AP
P
x MA
s (5.19)
Donde: x = media
M = moda
s = desviación estándar
P
3 x MA
s (5.19’)
Donde: x = media
M = mediana
s = desviación estándar
Si G1, AP > 0; distribución sesgada positivamente o a la derecha
Si G1, AP = 0; distribución simétrica
Si G1, AP < 0; distribución sesgada negativamente o a la izquierda
El coeficiente de Pearson no es eficiente para medir asimetrías leves.
Las medidas de curtosis son descriptores numéricos que dan una idea de la agudeza o
aplanamiento de la distribución obtenida de los datos.
Coeficiente de curtosis
Notación: G2
De la serie de datos:
4n
2 i4i 1
1G x x
ns (5.20)
Donde: n = número de datos
xi = dato, i = 1, 2,…, n
x = media de la serie de datos
s = desviación estándar de la serie de datos
2 4
1G 6467.4 2.01
30 3.22
De la distribución de los datos agrupados
4k
2 i i4i 1
1G x x f
ns
(5.20’)
Donde: n = número de datos
k = número de intervalos
xi = marca clase, i = 1, 2,…, k
x = media de la distribución de datos agrupados
s = desviación estándar de la serie de datos
fi = frecuencia de clase, i = 1, 2,…, k