Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas...

28
Estadística Descriptiva. Grado en Biología. Universidad de Alcalá. Curso 2017-18. Capítulo 2: Medidas centrales y dispersión. Autor: Fernando San Segundo. Actualizado: 2017-09-13 Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado: 2017-09-1 / 28

Transcript of Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas...

Page 1: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Estadística Descriptiva.

Grado en Biología. Universidad de Alcalá. Curso 2017-18.

Capítulo 2: Medidas centrales y dispersión.

Autor: Fernando San Segundo. Actualizado: 2017-09-13

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 1

/ 28

Page 2: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Introducción.En este tema, para empezar, vamos a centrarnos en el caso de variables cuantitativas.Dentro de ese caso y para seguir extrayendo la información que contiene una muestra,nuestros siguientes pasos van a ser:

1 Aprender a elegir un valor central de la muestra. Es decir, un valor que tiene que serun buen representante del conjunto de datos que estamos usando.

2 Medir la calidad del valor central. Es decir, como de representativo es el representanteque hemos elegido. Para eso necesitaremos la noción de dispersión de los valores de lamuestra.

Además aprenderemos a situar cada valor en relación con los restantes valores de lamuestra, definiendo las medidas de posición. Esas medidas nos permiten profundizar en laidea de forma de la distribución y definir nociones como la de valores atípicos.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 2

/ 28

Page 3: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

La media aritméticaEl primer candidato a valor central es bien conocido. Si tenemos una muestra de nvalores de una variable cuantitativa (discreta o continua), la media aritmética es:

x̄ = x1 + · · ·+ xn

n =

n∑i=1

xi

n .

Ejemplo: dados estos valores (hay n = 40)16, 12, 12, 11, 14, 14, 7, 12, 12, 10, 13, 5, 7, 12, 12, 11, 11, 13, 16, 14, 13, 11, 16, 14, 10,16, 13, 11, 8, 10, 15, 7, 11, 10, 15, 13, 9, 9, 10, 12Su media se calcula así:16 + 12 + 12 + 11 + 14 + 14 + 7 + 12 + 12 + 10 + 13 + 5 + 7 + 12 + 12 + 11 +11 + 13 + 16 + 14 + 13 + 11 + 16 + 14 + 10 + 16 + 13 + 11 + 8 + 10 + 15 + 7 +11 + 10 + 15 + 13 + 9 + 9 + 10 + 12 = 467Y por tanto:

x̄ = 46740 ≈ 11.68

¿Cómo de representativo es este número? En el fichero de datos BreastCancer2.csv ¿cuáles la media de la variable Cell.size? Está claro que necesitamos el ordenador pararesponder a preguntas como esa.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 3

/ 28

Page 4: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Media aritmética partiendo de la tabla de frecuencias absolutasVariable cuantitativa discreta.

En algunos casos el punto de partida de nuestro trabajo no será la muestra original,sino su tabla de frecuencias. Si tenemos la tabla de frecuencias absolutas de unavariable cuantitativa discreta:

Valor x1 x2 · · · xkFrecuencia f1 f2 · · · fk

entonces la media aritmética se calcula así:

x̄ = x1 · f1 + x2 · f2 + · · ·+ xk · fk

f1 + f2 + · · ·+ fk=

k∑i=1

xi · fi

k∑i=1

fi

=

k∑i=1

xi · fi

n .

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 4

/ 28

Page 5: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Ejemplo de media a partir de tabla de frecuencias.En el capítulo anterior hemos visto que la tabla de frecuencias absolutas de la variableedad en el fichero cap01-DatosAlumnos-Calc.csv es:

Valor xi : x1 = 17 x2 = 18 x3 = 19 x4 = 20Frecuencia fi : f1 = 17 f2 = 37 f3 = 23 f4 = 23

Así que la media, calculada a partir de esta tabla es:

x̄ = x1 · f1 + · · ·+ xk · fk

f1 + · · ·+ fk= 17 · 17 + 18 · 37 + 19 · 23 + 20 · 23

17 + 37 + 23 + 23 = 1852100 = 18.52

Calcula esta misma media a partir de los datos de la muestra (con repeticiones, sin usar latabla de frecuencias).Importante: Piensa cómo se calcula la media aritmética a partir de una tabla defrecuencias relativas.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 5

/ 28

Page 6: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Limitaciones de la media aritmética.La media aritmética no tiene sentido en el caso de factores (variables cualitativas).

Si tenemos la tabla de frecuencias de una variable cuantitativa continua agrupada enclases (intervalos), a veces se calcula la media reemplazando cada intervalo por supunto medio (la marca de clase). Pero debes recordar que la tabla de frecuencias eneste caso implica una pérdida de información y que la calidad de la media se resentirá.Lo mejor es siempre calcular la media a partir de los datos sin agrupar, si esposible. Ver el Ejemplo 2.1.4, pág. 24 del libro.

Pero la principal limitación de la media aritmética es su dependencia de valoresatípicos (inusualmente grandes o pequeños).

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 6

/ 28

Page 7: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

El problema de los valores atípicos en la media aritmética.Ejemplo: en una empresa hay 9 personas que cobran 1000e mensuales y una persona quecobra 10000e mensuales. La media aritmética de los sueldos en esa empresa es:

9 · 1000 + 1 · 1000010 = 1900

euros al mes. ¿Crees que este valor es representativo? En particular, si eliges un empleadoal azar, ¿su sueldo se parecerá a esta media aritmética?

Pronto veremos una definición precisa de lo que entendemos por valores atípicos (outliers),pero necesitamos más vocabulario.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 7

/ 28

Page 8: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

MedianaLa mediana es otro valor central que se inventó para tener un valor representativoque no se viera tan afectado por los valores extremos como la media aritmética.Para calcular la mediana:

1 Ordenamos los datos de menor a mayor.2 Si hay un número impar de datos tomamos el valor central.3 Si hay un número par, tomamos la media de los dos valores centrales.

Ejemplos.Dados estos valores:

19 11 10 6 16 16 1 9 10 6 14 1 1 9 10

para calcular su mediana los ordenamos (y contamos; hay 15):

1 1 1 6 6 9 9 10 10 10 11 14 16 16 19

y vemos que la mediana es 10. La media es aprox. 9.267

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 8

/ 28

Page 9: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Más ejemplos de cálculo de la mediana.¿Cómo cambia la mediana del ejemplo anterior si añades el valor 200 a esos datos?¿Y cómo cambia la media?¿Cuál es la mediana de la variable Mitoses en el fichero BreastCancer2.csv? En casoscomo este está claro que la única solución es usar el ordenador.¿Cuál es el salario mediano en la empresa que hemos usado antes como ejemplo? Ladiferencia entre salario medio y salario mediano parece un indicador de desigualdad delos salarios.¿Y en España qué pasa? Ver este enlace para una discusión reciente en prensa.

Mediana vs media.Y si la mediana no se ve afectada por los valores extremos, ¿por qué no usamos lamediana siempre en lugar de la media? Pues porque la media viene dada por unafórmula, mientras que la mediana viene definida por un algoritmo (una receta oprograma). Eso hace que las propiedades matemáticas de la media sean más sencillas(por ejemplo, para calcular derivadas).

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 9

/ 28

Page 10: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Cuartiles, percentiles. Medidas de posición.La idea de la mediana (dividir la muestra por la mitad) se generaliza fácilmente. Loscuartiles de una muestra son los valores que dividen a la muestra en cuatro partesiguales. El primer cuartil es el valor que deja por debajo al 25% más pequeño de losvalores de la muestra, mientras que el tercer cuartil deja por encima al 25% másgrande de la muestra. El segundo cuartil es la mediana que ya conocemos.

De la misma manera se definen los percentiles, que son los valores que dejan pordebajo un porcentaje dado de los datos (siempre ordenados de menor a mayor).

Todo este tipo de valores se denominan genéricamente medidas de posición de lamuestra. A menudo incluiremos el mínimo y el maximo de la muestra entre estasmedidas.

Aunque la intuición es muy sencilla, en la práctica la definición precisa y el cálculo deestos valores es más complicado de lo que parece. Dejaremos que se encargue elordenador (en R usaremos las funciones median y quantile).

Ten en cuenta además que algunos de estos valores sólo empiezan a tener sentido y serútiles cuando se dispone de muestras relativamente grandes de la población de interés.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 10

/ 28

Page 11: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Ejemplo de cálculo de medidas de posición.Dado el fichero wcgs.csv, en R podemos leer esos datos muy fácilmente y obtener lasmedidas de posición de la variable bmi con estos comandos:

enlace = "http://www3.uah.es/marcos_marva/biologia1718/datos/wcgs.csv"wcgs = read.table(enlace, sep=";", dec=",", header=TRUE)bmi = wcgs$bmisummary(bmi)

## Min. 1st Qu. Median Mean 3rd Qu. Max.## 11.19 22.96 24.39 24.52 25.84 38.95

Y para calcular, por ejemplo, el percentil 60, usamos quantile.

quantile(bmi, probs = 0.6)

## 60%## 25.0568

¿Cómo lo calcularías “a mano”?

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 11

/ 28

Page 12: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Frecuencias acumuladas y relativas acumuladas.Las frecuencias acumuladas están estrechamente relacionadas con las medidas deposición que acabamos de ver. Si tenemos la tabla de frecuencias absolutas de unavariable cuantitativa discreta, como esta

Valor x1 x2 · · · xkFrecuencia f1 f2 · · · fk

entonces las frecuencias acumuladas se definen así:

F1 = f1, F2 = F1 + f2, F3 = F2 + f3, . . . , Fk = Fk−1 + fk .

Es decir, la frecuencia acumulada de xk indica cuántos valores de la muestra son ≤ xk .Las frecuencias relativas acumuladas se definen dividiendo las acumuladas por n, elnúmero de datos de la muestra.

F ′1 = F1

n , F ′2 = F2

n , . . . , F ′k = Fk

n .

La frecuencia relativa acumulada de xk sirve para calcular qué porcentaje de valoresde la muestra son ≤ xk .

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 12

/ 28

Page 13: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Ejemplo de cálculo:Veremos en clase como calcular con R las tabla de frecuencias absolutas, relativas,acumuladas y relatativas acumuladas de la variable de la variable Cl.thickness en elfichero BreastCancer2.csv

Valor Frec.Absoluta Frec.Relativa Frec.Acumulada Frec.Rel.Acumulada1 139 0.204 139 0.2042 50 0.073 189 0.2773 104 0.152 293 0.4294 79 0.116 372 0.5455 128 0.187 500 0.7326 33 0.048 533 0.7807 23 0.034 556 0.8148 44 0.064 600 0.8789 14 0.021 614 0.899

10 69 0.101 683 1.000

¿Ves la relación entre frecuencias relativas acumuladas y percentiles?

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 13

/ 28

Page 14: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Diagrama de caja y bigotes (boxplot).El diagrama de caja y bigotes es una forma de representar gráficamente las medidasde posición. Más a menudo usaremos el nombre inglés, boxplot. La estructura de unboxplot es esta:

Y en R se dibujan fácilmente con la función boxplot (veremos que se pueden ajustarvarias opciones del gráfico).

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 14

/ 28

Page 15: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Comentarios adicionales sobre el boxplot.Un inconveniente del boxplot es que puede ocultar información sobre la distribuciónde los datos. Por ejemplo, este boxplot no nos hace sospechar que esté pasando nadademasiado raro con la muestra:

05

1015

2025

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 15

/ 28

Page 16: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Pero si añadimos los valores de la muestra (puntos rojos):

05

1015

2025

entonces resulta evidente que los valores de la muestra están divididos en dos grupos.Nuestra muestra tiene una distribución que el boxplot no refleja.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 16

/ 28

Page 17: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Una alternativa al boxplot que ha ganado popularidad recientemente es el violinplot:

05

1015

2025

1

Como ves, este tipo de gráficos combina un boxplot con un diagrama de densidad de lamuestra (que sí contiene información sobre la forma de la distribución).

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 17

/ 28

Page 18: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Recorrido y Recorrido intercuartílico.El recorrido (range) de una muestra es la diferencia entre máximo y mínimo. Elrecorrido intercuartílico (IQR) es la diferencia entre el tercer y el primer cuartil (laanchura de la caja en el boxplot, que contiene al 50% central de la población).Ambas cantidades se suelen llamar rangos por una traducción defectuosa del inglés.

Moda. Distribuciones unimodales, bimodales, etc.Ya que volvemos a hablar de la forma de la distribución, aprovechemos para definir lamoda como el valor más frecuente que aparece en la muestra. Una ventaja de lamoda es que se puede usar también con factores (variables cualitativas).Cuando representamos gráficamente la tabla de frecuencias en un diagrama decolumna, un histograma, una curva de densidad (o gráficos similares) la moda es elvalor que corresponde al punto más alto del diagrama. En general, los máximoslocales del diagrama indican valores modales.Una distribución de frecuencias con un único máximo es unimodal. Una distribucióncon dos es bimodal. Si hay más de dos es mejor decir que es multimodal.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 18

/ 28

Page 19: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Por ejemplo:

0 10 20 30

0.00

0.04

0.08

0.12

unimodal

−10 10 30

0.00

0.02

0.04

bimodal

Den

sity

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 19

/ 28

Page 20: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Asimetría de una distribución.Otra característica de la forma de una distribución en la que nos vamos a fijar es lasimetría. Las siguientes distribuciones son todas unimodales, pero difieren en cuantoa la simetría.

0 10 20 30

0.00

0.04

0.08

0.12

Asimetría a dcha.

−4 0 2 4

0.0

0.1

0.2

0.3

0.4

Simétrica.

0 5 15 25

0.00

0.05

0.10

0.15

Asimetría a izda.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 20

/ 28

Page 21: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Medidas de dispersión: introducción.Una vez que hemos elegido un representante de los datos (un valor central) ladispersión es una manera de medir su representatividad. Por ejemplo, una colecciónde números es poco dispersa cuando los datos están muy concentrados alrededor de lamedia.¿Cómo medimos la dispersión? Mirando si los datos son muy diferentes de la media,claro. Pero si medimos las diferencias con la media:

di = xi − x̄

Y hacemos la media de esas diferencias, el resultado siempre es 0:

d1 + d2 + · · ·+ dn

n = 0

Esto se debe a la propia definición de la media. Las diferencias positivas y negativasse compensan exactamente.

Ejemplo: la media de estos datos es 6.

Datos xi 10 6 5 3 8 8 1 5 5 9Diferencias di 4 0 -1 -3 2 2 -5 -1 -1 3

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 21

/ 28

Page 22: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Hay dos soluciones naturales para evitar que esos valores positivos y negativos secompensen:

I Tomar el valor absoluto de las diferencias antes de hacer la media.I Tomar el cuadrado de las diferencias antes de hacer la media.

El problema de la primera opción es parecido al que nos hemos encontrado con lamediana. El valor absoluto es una función que da problemas al calcular derivadas. Esono sucede con el cuadrado y por eso la Estadística Clásica ha elegido la segundaopción. Que también tiene dificultades, como veremos enseguida. Pero primero ladefinición:

La varianza (poblacional).Es la media de los cuadrados de las desviaciones respecto a la media:

Var(x) = (x1 − x̄)2 + (x2 − x̄)2 + · · ·+ (xn − x̄)2

n =

n∑i=1

(xi − x̄)2

n .

El problema es de dimensiones: si los valores x1, x2, . . . , xk se miden en metros, ¿en quéunidades se mide Var(x)?

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 22

/ 28

Page 23: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Ejemplo de cálculo de varianza.En los datos anteriores:

Datos xi 10 6 5 3 8 8 1 5 5 9Diferencias di 4 0 -1 -3 2 2 -5 -1 -1 3

Dif. al cuadrado d2i 16 0 1 9 4 4 25 1 1 9

Así que:Var(x) = 16 + 0 + 1 + 9 + 4 + 4 + 25 + 1 + 1 + 9

10 = 7010 = 7.

La desviación típica (poblacional)Para evitar el problema de las dimensiones se define la desviación típica (poblacional),que es nuestra medida más común de la dispersión:

DT (x) =√

Var(x) =

√√√√√ n∑i=1

(xi − x̄)2

n .

En el ejemplo anteriorDT (x) =

√7 ≈ 2.646

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 23

/ 28

Page 24: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

La varianza a partir de tablas de frecuencias.Si el punto de partida es una tabla de frecuencias absolutas como esta:

Valor x1 x2 · · · xkFrecuencia f1 f2 · · · fk

entonces empezamos por calcular la media como hemos aprendido a hacerlo. Despuésaplicamos esta fórmula:

Var(x) =

k∑i=1

fi · (xi − x̄)2

k∑i=1

fi

.

Practicaremos esta fórmula con el ordenador, que es una buena forma de aprenderla.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 24

/ 28

Page 25: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Ejemplo de cálculo con R de la varianza desde una tabla de frecuencias.Para irnos acostumbrando al uso de R vamos a ver como desde un conjunto de valores ysus frecuencias es muy fácil calcular la varianza.

valores = c(1, 5, 7, 8, 9, 11, 13, 16, 17, 19, 23, 24)frecuencias = c(1, 4, 4, 3, 3, 6, 7, 6, 5, 3, 7, 6)

(n = sum(frecuencias))

## [1] 55

(media = sum(valores * frecuencias) / n)

## [1] 14.54545

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 25

/ 28

Page 26: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

(diferencias = valores - media)

## [1] -13.545455 -9.545455 -7.545455 -6.545455 -5.545455## [6] -3.545455 -1.545455 1.454545 2.454545 4.454545## [11] 8.454545 9.454545

(difCuadrado = diferencias^2)

## [1] 183.479339 91.115702 56.933884 42.842975 30.752066## [6] 12.570248 2.388430 2.115702 6.024793 19.842975## [11] 71.479339 89.388430

(varianza = sum(frecuencias * difCuadrado) / n)

## [1] 40.50248

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 26

/ 28

Page 27: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Otra posibilidad es usar rep (de repeat) para reconstruir los valores a partir de la tabla defrecuencias.

(expandValores = rep(valores, frecuencias))

## [1] 1 5 5 5 5 7 7 7 7 8 8 8 9 9 9 11 11 11## [19] 11 11 11 13 13 13 13 13 13 13 16 16 16 16 16 16 17 17## [37] 17 17 17 19 19 19 23 23 23 23 23 23 23 24 24 24 24 24## [55] 24

(media = mean(expandValores))

## [1] 14.54545

(varianza = sum((expandValores - media)^2) / n)

## [1] 40.50248

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 27

/ 28

Page 28: Estadística Descriptiva. - Grado en Biología. Universidad ...€¦ · Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva. Autor: Fernando San Segundo. Actualizado:

Cuasivarianza y cuasidesviación típica (muestrales).La varianza y la desviación típica se calculan usando n en el denominador. Hay doscantidades estrechamente relacionadas que se calculan usando n − 1 en lugar de n.La cuasivarianza muestral es:

s2(x) = (x1 − x̄)2 + (x2 − x̄)2 + · · ·+ (xn − x̄)2

n − 1 =

n∑i=1

(xi − x̄)2

n − 1 .

Como ves la única diferencia con la varianza poblacional es el denominador.

La cuasidesviación típica muestral es simplemente la raíz cuadrada de lacuasivarianza:

s(x) =√

s2(x)

Es muy importante que cuando uses un programa de ordenador o una calculadorasepas si el resultado es poblacional o muestral. En particular, adelantamos que lasfunciones var y sd de R calculan la cuasivarianza muestral y la cuasidesviación típicamuestral respectivamente (y no hay funciones para las poblacionales).Todavía no podemos entender completamente la diferencia entre muestral ypoblacional, pero te podemos adelantar que se debe al deseo de hacer Inferencia: losvalores muestrales serán útiles para estimar los poblacionales.

Capítulo 2: Medidas centrales y dispersión. Estadística Descriptiva.Autor: Fernando San Segundo. Actualizado: 2017-09-13 28

/ 28