Download - 5.3 Estadísticas de una distribución frecuencialprofesores.dcb.unam.mx/users/gustavorb/Probabilidad/PE53.pdf · 5.3 Estadísticas de una distribución frecuencial 5.3.1 Medidas

5.3 Estadísticas de una distribución frecuencial

5.3.1 Medidas de tendencia central

Medidas de tendencia central

Las medidas de tendencia central son descriptores numéricos que proporcionan una

idea de los valores de la variable, alrededor de los cuales tienden a aglomerarse los

datos. Los más útiles son la media, la mediana y la moda. Las unidades son las mismas

que los de los datos.

Media

De una serie de datos. Es el promedio aritmético. Notación: x

n

i

i 1

1x x

n (5.7)

Donde: n = número de datos

Xi = dato, i = 1, 2,..., n

1x 1374.9 45.83

30

De una distribución de datos agrupados: k

i i

i 1

1x x f

n (5.7’)


k = número de intervalos de clase

xi = marca de clase, i = 1, 2,…, k

fi = frecuencia de clase, i =1, 2,…, k

Mediana

De una serie de datos: Es el valor intermedio de la serie ordenada. Notación: M.

Si n es impar, se toma el valor intermedio. Si n es par, se toma el promedio de los

valores intermedios.

45.8 46

M 45.92

De una distribución de datos agrupados

MM M

M

n / 2 FM L d

f (5.8)


LM = límite real inferior del intervalo que contiene a la mediana

FM = frecuencia acumulada hasta el límite real inferior LM

fM = frecuencia del intervalo que contiene a la mediana

DM = tamaño del intervalo que contiene a la mediana

El intervalo que contiene a la mediana es aquel para el cual, menos del 5O % de los

valores son menores que su límite real inferior y menos del 5O % de los valores son

mayores que su límite real superior.

30 / 2 10M 44.05 2 46.05

5

Moda

De una serie de datos: es el valor que se repite más frecuentemente en la serie de

datos. Notación: M

M 42.6

De una distribución de datos agrupados: es la marca de la clase del intervalo de mayor

frecuencia

Una distribución unimodal es aquella que tiene una sola moda.

Una distribución multimodal es aquella que tiene más de una moda. Si tiene dos

modas es bimodal; si tiene tres modas, es trimodal.

Una distribución es simétrica si su media y su mediana coinciden: x M

Si además la distribución es unimodal, la media, la mediana y la moda coinciden:

x M M

Se dice que una distribución es asimétrica a la derecha o sesgada positivamente, si la

media es menor que la mediana: x M

Se dice que una distribución es asimétrica a la izquierda o sesgada negativamente, si la

media es mayor que la mediana: x M

Caso discreto

Si se trata de una serie de datos, la media, la mediana y la moda se obtienen de la

misma manera que para el caso continuo.

Si los datos están agrupados:

Media: k

i i

i 1

1x x f

n (7”)


k = número de clase

xi = clase, i = 1, 2,..., k

fi = frecuencia de clase, i = 1, 2,..., k

Mediana: Se da en forma aproximada, de la misma manera que en el caso continuo,

diciendo que está entre dos valores discretos de la variable.

49 / 2 21

M 1 1 1.3211

Moda: Es la clase de mayor frecuencia; en el caso discreto, la moda de la distribución

de datos agrupados coincide con la moda de la serie de datos.

Caso nominal

La única medida de tendencia central apropiada para variables nominales es la moda.

Moda es el nombre que presente con mayor frecuencia.

Aunque menos usuales que las anteriores, la media geométrica, la media armónica y el

promedio cuadrático, son medidas de tendencia central bastante útiles.

Media geométrica

Notación: G

De una serie de datos:

n

ni

i 1

G x ó n

i

i 1

1logG logx

n (5.9)


xi = dato, i = 1, 2,…, n

De una distribución de datos agrupados:

i

kf

ni

i 1

G x ó k

i i

i 1

1logG f log x

n (5.9´)


k = número de intervalos


fi = frecuencia de clase, i = 1, 2,…, k

Media armónica

Notación: H


n

i 1 i

1H

1 1

n x

(5.10)


xi = dato, i = 1, 2,…, n


ki

i 1 i

1H

f1

n x

(5.10’)





Promedio cuadrático

Notación: 2x


i

n2 2

i 1

1x x

n (5.11)


xi = dato, i = 1, 2,…, n

De una distribución de datos agrupados 2k

2

i

i 1 i

1x x f

n (5.11´)



xi = marca clase, i =1, 2,…, k

fi = frecuencia de clase, i =1, 2,…, k

5.3.2 Medidas de dispersión

Las medidas de dispersión son descriptores numéricos que proporcionan una idea de

la dispersión o variabilidad de los datos. Los más útiles son la variancia, la desviación

estándar y el coeficiente de variación.

Varianza

Notación: 2s


2)n

2

i

i 1

1s (x x

n (5.12)


xi = dato, i=1,….,n

x = media de la serie de datos

2 1s 310.843 10.36

30

De la distribución de los datos agrupados:

2)k

2

i i

i 1

1s (x x f

n (5.12’)



xi = marca clase, i=1, 2,…, k

x = media de la distribución de datos agrupados

fi = frecuencia de clase, i=1, 2,…, k

La varianza es una medida de dispersión que mide la variabilidad de los datos

alrededor de la media, pero no tiene como ésta, las mismas unidades que los datos,

debido a que en su obtención se involucran términos cuadráticos: 2

ix x ó

2

i ix x f . La razón de elevar al cuadrado las diferencias es la de eliminar los

términos negativos, que sumados a los positivos, darían como resultado el valor cero.

Fórmula simplificada para la varianza

La varianza es igual al promedio cuadrático menos el cuadrado de la media:

22 2s x x (5.13)

22

n n n n2 2 22 2 2

i i i i i

i 1 i 1 i 1 i 1

xxx

1 1 1 1 1s x x x 2x x x x 2x x nx

n n n n n

2 22x 2x x

Varianza modificada

Notación: 2

s


n 22

i

i 1

1s x x

n 1 (5.14)



xi = dato, i = 1, 2,…, k


2 1

s 310.843 10.7229


k 22

i i

i 1

1s x x f

n 1 (5.14´)


K =número de intervalos




2 1

s 301.467 10.4029

Hay razones importantes para utilizar 2

s en lugar de s2; éstas se verán luego, en la

parte de inferencia estadística.

Desviación estándar

Notación: s


n 2

i

i 1

1s x x

n (5.12”)

s 10.36 3.22

De una distribución de datos agrupados

k 2

i i

i 1

1s x x f

n (5.12’’’)

s 10.05 3.17

La desviación estándar es la raíz cuadrado de la variancia, por lo que si tiene las

mismas unidades que los datos.

2s s (5.15)

22 2s x x (5.13´)

Desviación estándar modificada

Notación: s


n 2

i

i 1

1s x x

n 1 (5.14’’)

s 10.72 3.27


k 2

i i

i 1

1s x x f

n 1 (5.14’’’)

s 10.40 3.22

La desviación estándar modificada es la raíz cuadrada de la variancia modificada.

2s s (5.15’)

Coeficiente de variación

Notación: v

s

vx

(5.16)

El coeficiente de variación es una medida de dispersión adimensional que permite

comparar directamente la desviación estándar con la media.

3.22 3.17v 0.07, v 0.069

45.83 45.92

Aunque menos usuales que las anteriores, otras medidas de dispersión bastante útiles

son el rango y la desviación media.

Rango

El rango de una serie de datos es igual a la diferencia entre el dato de mayor valor y el

dato de menor valor. Notación: R

Desviación media

Notación: D


n

i

i 1

1D x x

n (5.17)


xi = dato, i=1, 2,…, n


1D 81.9 2.73

30

De la distribución de datos agrupados:

k

i i

i 1

1D x x f

n (5.17´)






La desviación media es una medida de disposición que tiene las mismas unidades que

los datos. La utilización de valores absolutos permite eliminar los términos negativos,

evitando con esto que la suma de las diferencias se anule.

5.3.3. Medidas de asimetría y curtosis

Las medidas de asimetría son descriptores numéricos que dan una idea de la simetría

o asimetría de la distribución de frecuencias obtenidas de los datos.

Coeficiente de asimetría

Notación: G1

De la serie de datos:

3n

1 i3i 1

1G x x

ns (5.18)


xi = dato, i = 1, 2,…, n

x = media de la distribución de datos

s = desviación estándar de la serie de datos

1 3

1G 137.1 0.137

30 3.22

De la distribución de datos agrupados

3k

1 i i3i 1

1G x x f

ns (5.18´)



xi = marca clase, i = 1, 2,…, k


s = desviación estándar de la distribución de datos agrupados


El coeficiente de asimetría es una medida adimensional.

Coeficiente de asimetría de Pearson

Notación: AP

P

x MA

s (5.19)

Donde: x = media

M = moda

s = desviación estándar

P

3 x MA

s (5.19’)

Donde: x = media

M = mediana

s = desviación estándar

Si G1, AP > 0; distribución sesgada positivamente o a la derecha

Si G1, AP = 0; distribución simétrica

Si G1, AP < 0; distribución sesgada negativamente o a la izquierda

El coeficiente de Pearson no es eficiente para medir asimetrías leves.

Las medidas de curtosis son descriptores numéricos que dan una idea de la agudeza o

aplanamiento de la distribución obtenida de los datos.

Coeficiente de curtosis

Notación: G2

De la serie de datos:

4n

2 i4i 1

1G x x

ns (5.20)


xi = dato, i = 1, 2,…, n



2 4

1G 6467.4 2.01

30 3.22

De la distribución de los datos agrupados

4k

2 i i4i 1

1G x x f

ns

(5.20’)



xi = marca clase, i = 1, 2,…, k