ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La...

26
Pg. nº 1/26 ESTADÍSTICA DESCRIPTIVA I 1.- DISTRIBUCIONES UNIDIMENSIONALES. CONCEPTOS GENERALES. La estadística se puede dividir en dos partes: Estadística descriptiva o deductiva. Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos que permiten simplificar en gran medida, la complejidad de todos los datos que intervienen en la distribución. Asimismo se calculan parámetros estadísticos que caracterizan la distribución. En esta parte de la estadística no se hace uso del cálculo de probabilidades, y únicamente se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. La estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra. Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el cálculo de probabilidades. La población es el conjunto de todos los elementos, que cumpliendo una condición, deseamos estudiar (por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una granja, etc.). Un individuo es cada uno de los elementos de la población. Una muestra es cualquier subconjunto de la población (por ejemplo: 100 alumnos del colegio, 1.000 habitantes de una ciudad, 300 gallinas de una granja, etc.). El saber seleccionar una muestra suficientemente representativa de la población a estudiar es fundamental para que los resultados del estudio sean fiables. Sobre cómo seleccionar una muestra existen todo un tratado llamado “Teoría de las muestras”, al cual haremos una aproximación más adelante. Cada una de las propiedades que se pueden estudiar se llama carácter estadístico (por ejemplo: talla, peso, sexo, estado civil, etc). Pueden ser cuantitativos si se pueden medir numéricamente (por ejemplo: la talla, el peso, etc) o cualitativo si no se puede medir numéricamente (por ejemplo: sexo, estado civil, etc). Al conjunto de valores que toma un carácter se le llama variable estadística que podrá ser cualitativa o cuantitativa, dependiendo de si el carácter es cualitativo o cuantitativo, respectivamente. Una variable será discreta si sólo puede tomar determinados valores (ej: número de hermanos, número de aprobados, etc). Una variable será continua si puede tomar todos los valores posibles de un intervalo (ej: altura de una persona, peso, etc). Tablas de frecuencias: Son tablas donde se reflejan los datos obtenidos y las diferentes frecuencias: La frecuencia absoluta ( f i ) es el número de veces que se repite un valor (si están agrupados en intervalos de clase, la frecuencia absoluta del intervalo será el número de veces que aparece un valor cualquiera de ese intervalo).

Transcript of ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La...

Page 1: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 1/26

ESTADÍSTICA DESCRIPTIVA I

1.- DISTRIBUCIONES UNIDIMENSIONALES. CONCEPTOS GENERALES.

La estadística se puede dividir en dos partes:

Estadística descriptiva o deductiva. Estadística inferencial o inductiva.

La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones. Se construyen tablas y se representan gráficos que permiten simplificar en gran medida, la complejidad de todos los datos que intervienen en la distribución. Asimismo se calculan parámetros estadísticos que caracterizan la distribución. En esta parte de la estadística no se hace uso del cálculo de probabilidades, y únicamente se limita a realizar deducciones directamente a partir de los datos y parámetros obtenidos. La estadística inferencial o inductiva plantea y resuelve el problema de establecer previsiones y conclusiones generales sobre una población a partir de los resultados obtenidos de una muestra. Utiliza resultados obtenidos mediante la estadística descriptiva y se apoya fuertemente en el cálculo de probabilidades. La población es el conjunto de todos los elementos, que cumpliendo una condición, deseamos estudiar (por ejemplo: los habitantes de una ciudad, los alumnos de un colegio, las gallinas de una granja, etc.). Un individuo es cada uno de los elementos de la población. Una muestra es cualquier subconjunto de la población (por ejemplo: 100 alumnos del colegio, 1.000 habitantes de una ciudad, 300 gallinas de una granja, etc.). El saber seleccionar una muestra suficientemente representativa de la población a estudiar es fundamental para que los resultados del estudio sean fiables. Sobre cómo seleccionar una muestra existen todo un tratado llamado “Teoría de las muestras”, al cual haremos una aproximación más adelante. Cada una de las propiedades que se pueden estudiar se llama carácter estadístico (por ejemplo: talla, peso, sexo, estado civil, etc). Pueden ser cuantitativos si se pueden medir numéricamente (por ejemplo: la talla, el peso, etc) o cualitativo si no se puede medir numéricamente (por ejemplo: sexo, estado civil, etc). Al conjunto de valores que toma un carácter se le llama variable estadística que podrá ser cualitativa o cuantitativa, dependiendo de si el carácter es cualitativo o cuantitativo, respectivamente. Una variable será discreta si sólo puede tomar determinados valores (ej: número de hermanos, número de aprobados, etc). Una variable será continua si puede tomar todos los valores posibles de un intervalo (ej: altura de una persona, peso, etc). Tablas de frecuencias: Son tablas donde se reflejan los datos obtenidos y las diferentes frecuencias:

La frecuencia absoluta ( fi ) es el número de veces que se repite un valor (si están agrupados en

intervalos de clase, la frecuencia absoluta del intervalo será el número de veces que aparece un valor cualquiera de ese intervalo).

Page 2: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 2/26

La frecuencia relativa (ih ) de un valor es el cociente entre la frecuencia absoluta del valor y el número

total de datos N

fh i

i

La frecuencia absoluta acumulada ( Fi ) de un valor es la suma de todas las frecuencias absolutas

de los valores menores o iguales al valor.

La frecuencia relativa acumulada (iH ) de un valor es la suma de todas las frecuencias relativas de

los valores menores o iguales al valor. Propiedades de la frecuencia relativa:

1 .2

10 .1

n

1=i

i

i

h

h

A continuación vamos a estudiar el tratamiento de la información, es decir, cómo debemos proceder para analizar ordenadamente una muestra. Los pasos a seguir son:

1. Recogida de datos. Consiste en la toma de datos numéricos procedente de la muestra. 2. Ordenación de datos. Una vez recogidos los datos los colocaremos en orden creciente. 3. Agrupación de los datos en clase. En caso de que la variable sea continua o bien discreta pero

con número muy elevado de datos, es necesario agrupar los datos en intervalos, a los cuales llamaremos intervalos de clases. Respecto a cómo agruparlos y qué número de intervalos elegir, podemos decir que no existe una contestación tajante y hay varios criterios para dar respuesta a esta cuestión. Una de las teorías establece que debemos hacer un número de intervalos aproximadamente igual a la raíz cuadrada del número de datos, pero nosotros vamos a seguir otros criterios. Intentaremos hacer un número de intervalos comprendido entre 8 y 12. Llamaremos marca de clase al punto medio del cada intervalo. Una vez elegido el número, es aconsejable escoger los límites de los intervalos, de modo que sean múltiplos, pares, divisibles, etc., para lograr que la marca de clase no nos dé un número fraccionario o con muchos decimales. Esto nos facilitará luego el trabajo de cálculo. También tenemos que lograr que los intervalos sean de la misma amplitud y que el límite superior de uno coincida con el inferior del siguiente. Y por último adoptaremos el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha, esto quiere decir que si un valor de la variable queda justo en el límite de dos intervalos, siempre lo pondremos en el superior.

4. Recuento de frecuencia. Efectuaremos el recuento de los datos obtenidos. 5. Construcción de la tabla. Calcularemos las frecuencias absolutas, relativas, acumuladas,

porcentuales representaciones gráficas y todos aquellos datos que nos hagan falta para el estudio estadístico.

Page 3: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 3/26

Veamos unos ejemplos de tabulación de datos. Ejemplo 1: Un profesor tiene anotadas en su cuaderno las notas de 30 alumnos de una clase. Construir la tabla sabiendo que son las siguientes: 5 3 4 1 2 8 9 8 7 6 6 7 9 8 7 7 1 0 1 5 9 9 8 0 8 8 8 9 5 7

Xi Recuento fi Fi hi Hi pi Pi

0 // 2 2 2/30 2/30 2/30*100 2/30*100

1 /// 3 5 3/30 5/30 3/30*100 5/30*100

2 / 1 6 1/30 6/30 1/30*100 6/30*100

3 / 1 7 1/30 7/30 1/30*100 7/30*100

4 / 1 8 1/30 8/30 1/30*100 8/30*100

5 /// 3 11 3/30 11/30 3/30*100 11/30*100

6 // 2 13 2/30 13/30 2/30*100 13/30*100

7 ///// 5 18 5/30 18/30 5/30*100 18/30*100

8 ///// // 7 25 7/30 25/30 7/30*100 25/30*100

9 ///// 5 30 5/30 30/30 5/30*100 30/30*100

∑ 30 1 100

Ejemplo 2: Construir la tabla estadística de las edades de las personas que acuden a un logopeda a lo largo de un mes, sabiendo que son: 3 2 11 13 4 3 2 4 5 6 7 3 4 5 3 2 5 6 27 15 4 21 12 4 3 6 29 13 6 17 6 13 6 5 12 26

Clases

Marcas de

clases xi

fi Fi hi Hi

[0 5) 2,5 13 13 13/36 13/36

[5 10) 7,5 11 24 11/36 24/36

[10 15) 12,5 6 30 6/36 30/36

[15 20) 17,5 2 32 2/36 32/36

[20 25) 22,5 1 33 1/36 33/36

[25 30) 27,5 3 36 3/36 36/36=1

∑ 36 1

Page 4: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 4/26

2.- DIAGRAMA DE TALLOS Y HOJAS Una moderna técnica de recogida de datos es la que se conoce como diagrama de tallos y hojas Veamos a continuación con un ejemplo en qué consiste. Las puntuaciones obtenidas por 40 alumnos en un test han sido las siguientes: 41, 53, 72, 62, 81, 93, 81, 74, 56, 62, 45, 47, 62, 58, 88, 76, 77, 63, 43, 56, 76, 63, 78, 73, 65, 66, 91, 82, 61, 72, 36, 50, 91, 32, 60, 80, 51, 68, 61, 71. Para construir el diagrama de tallos y hojas, procedemos del siguiente modo:

Paso 1º Se observa entre qué valores están las cifras de las decenas de todos los datos, y se tiene que van de 3 a 9. Tallo 3 4 5 6 7 8 9

Paso 2º Se va leyendo uno a uno cada dato, anotando las cifras de las unidades en la fila correspondientes. Tallo 3 6 2 4 1 5 7 3 5 3 6 8 6 0 1 6 2 2 2 3 3 5 6 1 0 8 1 7 2 4 6 7 6 8 3 2 1 8 1 1 8 2 0 9 3 1 1 Así se obtiene una figura como esta.

Paso 3º Por último se vuelve a escribir la tabla ordenando de menor a mayor las unidades dentro de cada fila. Tallo 3 2 6 4 1 3 5 7 5 0 1 3 6 6 8 6 0 1 1 2 2 2 3 3 5 6 8 7 1 2 2 3 4 6 6 7 8 8 0 1 1 2 8 9 1 1 3 Al final obtenemos el diagrama.

Page 5: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 5/26

Los diagramas de tallos y hojas son, en sí mismos, diagramas de frecuencias, pues basta con trazar una línea poligonal que una los últimos números de cada fila.

Podemos sacar muchas conclusiones a la vista del diagrama:

o Hay dos alumnos con puntuaciones entre 30 y 39, y así sucesivamente. o Se puede observar que es una distribución ligeramente asimétrica a la derecha. o La clase con mayor frecuencia es la de 60-69 o Etc.

3.- GRÁFICOS ESTADÍSTICOS Aun cuando las tablas estadísticas contienen toda la información, es conveniente expresarla mediante gráficos adecuados a la variable, con el fin de resaltar los aspectos más significativos y hacer la distribución más clara y evidente. Diagramas de barras Los diagramas de barras o bastones son especialmente útiles cuando se desea comparar datos cualitativos o cuantitativos de tipo discreto, no agrupados en intervalos. Para trazarlos se representan sobre el eje de abscisas los valores de la variable, y sobre el eje de ordenadas la frecuencia que se vaya a representar; o viceversa. A continuación, se levantan trazos gruesos de longitud igual a la frecuencia correspondiente a cada valor de la variable. Ejemplo.

Xi fi Fi

0 2 2

1 3 5

2 1 6

3 1 7

4 1 8

5 3 11

6 2 13

7 5 18

8 7 25

9 5 30

Page 6: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 6/26

Polígonos de frecuencias Los polígonos de frecuencia son especialmente útiles cuando se desea comparar datos cualitativos o cuantitativos de tipo discreto, no agrupados en intervalos. Se forman siguiendo el mismo procedimiento que para los diagramas de barras, pero no se trazan las barras, sino que se unen los puntos de las frecuencias mediante una línea. Se puede representar sobre el mismo diagrama de barras o incluso sobre un histograma (como veremos más adelante. Ejemplo.

Diagrama de Sectores Los diagramas de sectores representan las distintas modalidades de un carácter mediante sectores circulares. Cada valor viene representado por un sector circular de amplitud proporcional a su frecuencia. Normalmente se utilizan tantos por ciento para reflejar las frecuencias y la amplitud se calcula mediante una simple regla de tres. Ejemplo.

Page 7: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 7/26

Pictogramas Los pictogramas son dibujos alusivos a las distribuciones que se pretenden estudiar y que mediante su forma, tamaño, etc., ofrecen una descripción lo más expresiva posible de la distribución. Son gráficos poco precisos pero fáciles de interpretar a simple vista. Ejemplo.

Cartogramas Se llama cartogramas a los gráficos que se realizan sobre un mapa, señalando sobre determinadas zonas, con distintos colores o rayados lo que se trate de poner de manifiesto. Se suelen utilizar para representar renta per cápita, densidad de población, horas de sol, recursos hídricos, etc. Ejemplo.

Page 8: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 8/26

Histogramas Los histogramas se utilizan para distribuciones de variables agrupadas en intervalos. Se construyen representado en el eje de abscisa los límites de cada clase y en el eje de ordenadas la frecuencia que queramos representar. Luego se levantan los rectángulos correspondientes, con una base igual a las amplitudes de los intervalos y una altura igual a la frecuencia. Ejemplo.

Como se observa, también se puede construir el polígono de frecuencia. Diagramas lineales o series temporales Los diagramas lineales son muy utilizados para mostrar las fluctuaciones de un determinado carácter estadístico con el paso del tiempo. Lo que interesa en el gráfico es la altura de la línea referida a la base del diagrama. Con frecuencia se aprovecha para representar sobre la misma escala varios diagramas lineales. Como por ejemplo ingresos y gastos; nacimientos y defunciones; etc.

Clases

Marcas de

clases xi

fi

[0 5) 2,5 13

[5 10) 7,5 11

[10 15) 12,5 6

[15 20) 17,5 2

[20 25) 22,5 1

[25 30) 27,5 3

∑ 36

Page 9: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 9/26

Pirámides de población Las pirámides de población se utilizan para estudiar conjuntamente la variable edad y el atributo sexo. El gráfico se obtiene representando en la ordenada el grupo de edad, y en la abscisa el sexo. Para la modalidad mujer se toma el semieje positivo, y para la modalidad hombre el semieje negativo. El estudio detallado de las pirámides de población aporta datos sobre aspectos sociológicos ligados a dicha población, cómo por ejemplo, catástrofes, guerras, control de natalidad, desarrollo de la población. Asimismo se pueden realizar previsiones para el futuro, como es el caso del estudio de las necesidades de las futuras pensiones.

Ejemplos de distintos tipos de gráficos.

Page 10: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 10/26

Resumen:

Estadística: Estadística descriptiva. Estadística inferencial. Población. Muestra. Individuo. Variables o carácter estadístico. Variables cualitativas. Variables cuantitativas. V. cuantitativas discretas. V. cuantitativas continuas. Tablas estadísticas. Intervalos o clases. Marcas de clase. Frecuencias absolutas, fi. Frecuencia absoluta acumulada, Fi.

Frecuencia relativa, hi.

Frecuencia relativa acumulada, Hi.

Diagrama de tallos y hojas Gráficos Para variables cualitativas o cuantitativas discretas. Diagramas de barras. Polígonos de frecuencias. Diagramas de sectores. Pictogramas. Para variables cuantitativas continuas. Histogramas. Polígonos de frecuencias (sobre el histograma). Diagramas de sectores. Pictogramas. Otros Cartogramas. Diagramas lineales. Pirámides de población.

Page 11: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 11/26

Ejercicio. Se ha pasado un test de 80 preguntas a 600 personas. El de respuestas correctas se refleja en la siguiente tabla. Se pide:

1. Elaborar la tabla con todas las frecuencias. 2. Representar de todas las formas posibles.

Respuestas

[0 10) [10 20) [20 30) [30 40) [40 50) [50 60) [60 70) [70 80) correctas

Numero de 40 60 75 90 105 85 80 65

personas

Respuestas Marca de

correctas clase xi fi Fi hi Hi pi Pi

[0 10) 5 40 40 0,06667 0,06667 6,6667 6,6667

[10 20) 15 60 100 0,10000 0,16667 10,0000 16,6667

[20 30) 25 75 175 0,12500 0,29167 12,5000 29,1667

[30 40) 35 90 265 0,15000 0,44167 15,0000 44,1667

[40 50) 45 105 370 0,17500 0,61667 17,5000 61,6667

[50 60) 55 85 455 0,14167 0,75833 14,1667 75,8333

[60 70) 65 80 535 0,13333 0,89167 13,3333 89,1667

[70 80) 75 65 600 0,10833 1,00000 10,8333 100,0000

∑ 600 1,00000 100

Page 12: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 12/26

ESTADÍSTICA DESCRIPTIVA II

1.- DISTRIBUCIONES UNIDIMENSIONALES. CÁLCULO DE PARÁMETROS

PARÁMETROS DE CENTRALIZACIÓN En la búsqueda de la concreción y la simplificación, la información recogida en una tabla o gráfica estadística suele resumirse en unos pocos valores que nos informan del comportamiento de todos los individuos del colectivo estudiado. Estos valores, representativos de todos los datos de una distribución, se llaman parámetros o medidas de centralización. MEDIA ARITMÉTICA Media aritmética de una variable estadística es el cociente que resulta de dividir la suma de todos los

valores por el número total de éstos. Se representa por x .

Su cálculo se realiza, según las expresiones que siguen, atendiendo a la presentación de los datos.

Para datos sin frecuencias Si la variable toma los N valores x1, x2,...,xn la media aritmética adopta la expresión:

N

x

N

xxxx

in

...21

Para datos con frecuencias Si la variable toma los valores o marcas de clase x1, x2, xn, siendo f1, f2,.... fn las frecuencias absolutas correspondientes de la distribución, la media aritmética se calcula con la expresión:

N

fx

f

fx

fff

fxfxfxx

ii

i

ii

n

nn

...

...

21

2211

Page 13: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 13/26

Para datos ponderados

La media ponderada se calcula cuando todos los valores de la variable no tienen el mismo “peso”. Su fórmula es análoga a la vista con anterioridad, cambiando las frecuencias fi, por los pesos pi, y, en el denominador, N por la suma de todos los pesos pi, por lo que resulta:

i

ii

n

nn

p

px

ppp

pxpxpxx

...

...

21

2211

Consideraciones sobre la media aritmética.

La media aritmética es el parámetro de centralización más utilizado. Presenta la ventaja de tener en cuenta todos los datos de la distribución, además de resultar muy

sencillo su cálculo. Tiene el inconveniente de que si la distribución posee valores extremos, excepcionalmente raros

y pocos significativos, éstos producen una distorsión sobre el valor de la media. No siempre es posible calcular la media aritmética y, a veces, aunque sea posible calcularla,

carece de significado como sucede en las variables cualitativas o se trata de intervalos abiertos. En estos casos deben utilizarse otras medidas de centralización.

Si se suma una constante a todos los valores de la variable, la media aritmética aumenta en el mismo valor.

Si se multiplican todos los valores de la variable por un mismo número, la media queda multiplicada por el mismo número. MODA

Se denomina moda de una variable estadística al valor de la variable que tiene mayor frecuencia absoluta. Se representa por Mo. La moda de una variable discreta es fácil de calcular, basta buscar el valor de la variable que presenta mayor frecuencia. Puede ocurrir que la moda no sea única, es decir, la distribución puede tener 2, 3 o más modas, recibiendo el nombre de bimodal, trimodal, etc. En el caso de que los datos se encuentren agrupados en intervalos, la clase con mayor frecuencia se denomina clase modal. Puede tomarse como moda la marca de clase de la clase modal. Si se desea mayor precisión en el cálculo de la moda, ésta puede obtenerse mediante la expresión:

DD

DcLM io

Li= Límite inferior del intervalo. C= Amplitud del intervalo.

D=Diferencia entre la frecuencia absoluta del intervalo modal y los vecinos.

Page 14: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 14/26

Cálculo de la moda por el método gráfico. Para las distribuciones que se encuentran agrupadas en intervalos existe un método gráfico muy sencillo que permite obtener la moda con bastante aproximación. Para ello se representa el histograma de frecuencias absolutas, al ser posible en papel milimetrado, con el fin de poder obtener mayor precisión. Seguidamente se unen, con líneas los extremos de la clase modal con las contiguas. La moda viene dada por la abscisa del punto de corte.

Consideraciones sobre la moda.

Puede ocurrir que existan distribuciones que no tengan moda; eso ocurre cuando las frecuencias de todos los datos, o casi todos, son iguales.

Puede ser muy útil cuando se trata de variables cualitativas. En su cálculo no intervienen todos los datos de la distribución. Aun cuando es una medida de centralización, es relativamente frecuente encontrar modas

situadas en los extremos de la distribución. MEDIANA La mediana de una distribución estadística es el valor de la variable, tal que el número de datos menores que él es igual al número de datos mayores que él. Se representa por Me. Si la distribución es de una variable discreta y el número de datos es impar, la mediana es el valor central, y si el número de datos es par, la mediana es la media de los valores centrales. Si la distribución es de una variable continua, el intervalo que contiene a la mediana se denomina clase mediana o intervalo mediano. Puede tomarse como mediana, en una primera aproximación, la marca del intervalo mediano. Si se desea mayor precisión en el cálculo de la mediana, ésta se obtiene, dentro del intervalo mediano, mediante la expresión:

i

i

ief

FN

cLM1

2

Li= Límite inferior del intervalo. C= Amplitud del intervalo. N= Número total de datos Fi-1= Frecuencia absoluta acumulada de la clase anterior a la clase mediana.

Variable discreta:

( 1)/2

e nN impar M X

/2 /2 1 / 2e n nN par M X X

Page 15: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 15/26

fi= Frecuencia absoluta de la clase mediana.

Consideraciones sobre la mediana.

La mediana es particularmente útil en los siguientes casos:

Cuando entre los datos existen valores ostensiblemente extremos.

Cuando los datos están agrupados en intervalos y alguno es abierto.

La mediana depende del orden de los datos y no de su valor.

Cuando en su cálculo, el valor N/2 cae justo en el límite de un intervalo, se hace la media entre la frecuencia de este y del posterior.

PARÁMETROS DE POSICIÓN CUANTILES

La mediana de los valores de una variable estadística divide a la distribución en dos partes iguales. Es decir, la mediana parte la distribución en dos mitades, cada una corresponde al 50% de los datos. Generalizando la idea anterior, se puede pensar en obtener valores que dividan a distribución en diversas partes iguales, dando lugar a los cuantiles. Los más importantes y usados, sobretodos en las ciencias sociales y médicas, son: CUARTILES Se llaman cuartiles a tres valores que dividen la distribución en cuatro partes iguales. Se representan y designan como cuartil primero (Q1), segundo (Q2) y tercero (Q3). Cada parte agrupa, por tanto, al 25%, al 50% y al 75% de los datos de la distribución. Es obvio que el segundo cuartil, por definición, coincide con la mediana. El cálculo de los otros cuartiles sigue las pautas de la mediana y se obtienen a través de las expresiones:

i

i

if

FN

cLQ1

14

DECILES Análogamente, se llaman deciles a nueve valores de la variable que dividen a la distribución en diez partes iguales. Es decir, los deciles agrupan a los datos en diez partes correspondientes cada una con el 10% de la distribución. Se representan por D1, D2, ..., D9 y la expresión que permite calcularlos es:

K=1, 2, 3,...,9

i

i

if

FN

cLQ1

34

3

i

i

ikf

FkN

cLD1

10

Page 16: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 16/26

PERCENTILES De la misma manera, decimos que se llaman percentiles a 99 valores que divide la distribución en 100 partes iguales Se representa por P1, P2, ..., P99 y se calculan a través de la expresión

X=1, 2, 3,...,99

Cálculo gráfico de los cuantiles Para calcular gráficamente los cuantiles de una distribución existe un método muy sencillo que consiste en representar el polígono de frecuencias porcentuales acumuladas (Pi), situando en el eje abscisa la variable discreta o los intervalos, y en el eje de ordenadas los porcentajes correspondientes. Convine realizar la representación en papel milimetrado para mayor precisión. Ejemplo.

i

i

ixf

FxN

cLP1

100

Page 17: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 17/26

PARÁMETROS DE DISPERSIÓN Las medidas de centralización vistas con anterioridad necesitan de otras que las complementen en el estudio de las distribuciones de frecuencias de las variables estadísticas. Estas nuevas medidas, que denominamos parámetros de dispersión, informan de las desviaciones que sufren los datos respecto de los valores centrales, en especial con relación a la media aritmética. Los parámetros de dispersión más usuales son: RECORRIDO Recorrido o rango de una variable estadística es la diferencia entre el mayor y el menor valor de los datos observados. Se representa por R. Así, se tiene: R = Xmax - Xmin

VARIANZA Varianza de una variable estadística es la media aritmética de los cuadrados de las desviaciones de todos los datos o marcas de clase respecto de la media. Se representa por σ2 ó S2

Las expresiones equivalentes que permiten calcular la varianza son:

N

xxf ii

2

2)(

2

2

2 xN

xf ii

Es importante conocer que la varianza es siempre positiva, o nula en caso de que todos los valores de la variable sean iguales.

DESVIACION TIPICA Se denomina desviación típica de una variable estadística a la raíz cuadrada positiva de la varianza. Se representa por σ ó S. Consideraciones sobre la desviación típica La desviación típica es el parámetro de dispersión más utilizado. Si se suma una constante a todos los valores de la variable, la desviación típica no varía. Si se multiplican todos los valores de la variable por un mismo número, la desviación típica

queda multiplicada por el mismo número. No se puede calcular, es obvio, en el

caso de que no se pueda calcular la media.

N

xxf ii

2)(

2

2

xN

xf ii

Page 18: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 18/26

ESTUDIO CONJUNTO DE x y σ

La media aritmética, x , y la desviación típica, σ , son los parámetros estadísticos por antonomasia. La media es la medida central más utilizada y la desviación típica es la medida de dispersión o variabilidad por excelencia. En toda distribución estadística, el estudio del comportamiento conjunto de la media aritmética y la desviación típica nos aporta numerosa información sobre la distribución de frecuencias estudiada. En casi todas las distribuciones estadísticas de comportamiento normal se verifican de forma aproximada los porcentajes descritos a continuación que, referidos a la media y la desviación típica, expresan la distribución de datos. Para una distribución estadística de comportamiento normal, se cumple:

En ( x -σ x +σ) está el 68% del total de individuos.

En ( x -2σ x +2σ) está el 95% del total de individuos.

En ( x -3σ x +3σ) está el 99% del total de individuos.

Coeficiente de variación de Pearson Para comparar el grado de dispersión de dos o más distribuciones no podemos confrontar simplemente las desviaciones típicas, puesto que esas medidas de dispersión vienen afectadas por la escala de la medida representativa de la variable. Es necesario por lo tanto eliminar esa influencia convirtiendo dichas medidas en números abstractos. Para ello utilizaremos el coeficiente de variación de Pearson:

100x

cv

Como sabemos que las medidas de centralización son más representativas cuanto más

concentrada estén, vamos a establecer las siguientes condiciones:

Menos de 30% ALTA concentración, y por lo tanto la media es altamente representativa.

Entre 30% y 45% MEDIA concentración, y por lo tanto la media es medianamente representativa.

Mayor de un 45% BAJA concentración, y por lo tanto la media es poco o muy poco representativa.

El inconveniente que tiene C.V. es que deja de ser útil cuando la media es igual a 0.

Page 19: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 19/26

EJERCICIOS RESUELTOS

1. La estación meteorológica del Roque de los Muchachos registró 88 días de lluvia el pasado año, según muestra la tabla siguiente:

Calcula la precipitación media durante los días de lluvia.

N

fxx

ii ; 523,18

88

1630x

Por tanto, el año pasado la precipitación media durante los días de lluvia fue de 18,523 l/m2.

2. La calificación media que han obtenido los alumnos de Ingeniería Técnica Agrícola de cierta Universidad, en

la asignatura de Estadística durante los cuatro últimos cursos han sido: 5,8; 6,3; 6,7 y 7,2, respectivamente. En el primero de estos cursos se examinaron 180 alumnos, en el segundo 200, en el tercero 275 y en el cuarto 220. ¿Cuál es la calificación media de estos cursos en dicha asignatura?

Nota media Xi

N" de alumnos fi

xifi

5,8 180 1 044 6,3 200 1 260 6,7 275 1 842,5 7,2 220 1 584

Σ 875 5 730,5

Calcularemos la media aritmética ponderada, en la que el número de alumnos son los pesos correspondientes a las calificaciones medias de cada año.

i i

i

x fx

f ; 55,6

875

5,5730x

3. Calcula la moda y la mediana correspondiente a la variable litros/m2 durante los días de lluvia en la estación meteorológica del Roque de los Muchachos, según la distribución citada en el ejercicio 1.

La moda El mayor valor de la frecuencia, 23, corresponde al intervalo [15, 20) que recibe el nombre de intervalo modal. En una primera aproximación se puede tomar la moda como la marca de clase, es decir, Mo=17,5. Para obtener una mayor precisión utilizamos la fórmula:

DD

DcLM io

; 22,17)1823()1923(

1923515

oM

El dato que más se repite es de 17,22 litros/m2

La mediana El intervalo mediano es [15, 20), ya que contiene el dato 88/2=44.

Litros/m2 [0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) [30, 35)

Nº de días 3 7 19 23 18 12 6

Litros/m2 Xi fi Fi

Xifi

[0, 5) 2,5 3 3 7,5

[5, 10) 7,5 7 10 52,5

[10, 15) 12,5 19 29 237,5

[15, 20) 17,5 23 52 402,5

[20, 25) 22,5 18 70 405

[25, 30) 27,5 12 82 330

[30, 35) 32,5 6 88 195

Σ 88 1630

Page 20: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 20/26

i

i

ief

FN

cLM1

2

; 26,1823

292

88

515

eM

El 50% de los días de lluvia se recogieron más de 18,26 Litros/m2 y el otro 50% de los días por debajo.

4. Dadas las siguientes distribuciones:

Los pesos de los toros de lidia de una ganadería se distribuyen con una 5101 x kg y una 251 kg

Los pesos de los perros de una exposición canina se distribuyen con una 192 x kg y una 102 kg.

Determinar cuál de las dos distribuciones está más dispersa. La desviación típica de los pesos de la manada de los toros bravos es superior que la de los perros. Sin embargo, esos 25 kg son poca cosa para el enorme peso de los toros (es decir, los toros de esa manada son muy parecidos en peso), mientras que 10 kg en relación con el peso del perro es mucho (imaginamos que en la exposición canina habrá perros muy dispares: caniches, "salchichas", dogos, mastines...

Comparando los coeficientes de variación: CVtoros=(25/510)100=4,9% CVperros=(10/19)100=52,6%. Con estos parámetros se ve claramente que el peso de los perros de la exposición canina es mucho más disperso que el de los toros de la manada.

5. Una empresa debe cubrir un cierto número de puestos de trabajo de dos tipos A, y B. Se somete a los aspirantes a dos pruebas, ambas puntuables de 0 a 50, diseñadas para valorar sus aptitudes en uno y otro

tipo de trabajo. En la Prueba A, la media de calificaciones ha sido 28Ax , y la desviación típica 4,3A .

En la B han sido, respectivamente, 24Bx y 1,2B . Dígase: ¿Qué tipo de puesto de trabajo asignaríamos

a un aspirante que hubiera obtenido 33 puntos en la prueba A y 28 en la B? En ambos casos se halla por encima de la media. Su puntuación es más alta en la prueba A (33 frente a 28), así como su desviación respecto de la media (+5 frente a +4). No obstante, valorar igual los puntos obtenidos en ambas pruebas puede ser un error de apreciación". En efecto: Las desviaciones típicas indican que los resultados de la prueba B se hallan más agrupados que los de la A. En esas condiciones, "cuatro puntos sobre la media" en la prueba B puede indicar mayor aptitud para el trabajo B, frente a los demás aspirantes, de lo que indican "cinco puntos sobre la media" en la prueba para el trabajo A. Saldremos de dudas calculando e interpretando las puntuaciones típicas del aspirante en ambas pruebas. Son

471,14,3

2833

AZ 905,1

1,2

2428

BZ

Esto significa que su calificación en la prueba A se halla "1,471 desviaciones" sobre la medía y, en la prueba B, "1,905 desviaciones” sobre la media. Por tanto, está más cualificado para ocupar un puesto de trabajo tipo B que un puesto tipo A, si lo comparamos con el resto de los aspirantes.

Page 21: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 21/26

ESTADÍSTICA DESCRIPTIVA III Distribuciones Bidimensionales.

1.- Variables Estadísticas Bidimensionales. Las variables estadísticas bidimensionales se representan por el par (X, Y) donde, X es una variable unidimensional, e Y es otra variable unidimensional. Y por lo tanto la variable estadística bidimensional (X, Y) toma los valores (X1,Y1), (X2, Y2), …. (Xn, Yn). Si representamos estos pares de valores en un sistema de ejes cartesianos, se obtiene un conjunto de puntos sobre un plano al que se llama diagrama de dispersión o nube de puntos. Ejemplo.

Tablas bidimensionales de frecuencias. Existen dos tipos de tablas:

Tablas simples conjunta en la que cada una de las variables y su correspondiente frecuencia, se disponen en columnas del siguiente modo:

X (matemáticas)

Y (física)

fi (nº de alumnos)

3 2 4

4 5 6

5 5 12

6 6 4

6 7 5

7 6 4

7 7 2

8 9 1

10 10 2

Page 22: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 22/26

Tablas de doble entrada en las que se dispone la variable X en fila, en la parte superior, y la variable Y en columna a la izquierda. Posterior mente se añaden las frecuencias en el cuerpo de la tabla. Todo ello de la siguiente forma:

X Y 3 4 5 6 7 8 10

2 4

5 6 12

6 4 4

7 5 2

9 1

10 2

Como se puede observar, las tablas simples se pueden transformar en tablas de doble entrada, y viceversa. Esto es importante saberlo hacer, porque en los cálculos posteriores necesitaremos ambas formas de tablas. Antes de continuar aprenderemos a sacar lo que se denomina “distribuciones marginales” de X e Y. Su cálculo es muy sencillo, partiendo de la tabla de doble entrada se añade una fila y una columna y se va sumando el cuerpo principal de la tabla por filas y columnas. La nueva columna es la distribución marginal de Y, y la nueva fila es la distribución marginal de X.

X Y 3 4 5 6 7 8 10 y∑ f

2 4 4

5 6 12 18

6 4 4 8

7 5 2 7

9 1 1

10 2 2

x∑ f 4 6 12 9 6 1 2 40

Distribución marginal de X Distribución marginal de Y

Y fi

2 4

5 18

6 8

7 7

9 1

10 2

40

X fi

3 4

4 6

5 12

6 9

7 6

8 1

10 2

40

Page 23: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 23/26

Cálculo de parámetros

Tanto con la variable X, como con la variable Y, se pueden realizar todos los cálculos, las representaciones gráficas y sacar las conclusiones que hemos visto en los dos temas anteriores. Hay que tener en cuenta, que muchas veces es importante estudiar cada una de las variables de forma independiente, para conocer su comportamiento individual y luego poder interpretar mejor el comportamiento conjunto. El primer parámetro conjunto que vamos a ver es la covarianza, que viene a ser la varianza conjunta de las variables X e Y. La vamos a definir como la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias respectivas.

La covarianza viene representada por σxy ó Sxy, y su cálculo lo realizaremos mediante la formula:

Más adelante veremos el significado de la varianza, así como su interpretación según su signo. Para su cálculo matemático es preciso partir de la tabla simple conjunta, confeccionando todas las columnas necesarias, como a continuación se muestra:

Sí en el estudio estadístico no se nos exige el cálculo de modas, medianas, percentíles, etc., todos los datos y los parámetros que necesitamos (medias, varianzas y desviaciones típicas) lo podemos obtener de la tabla anterior. Pero si no es el caso, debemos calcular las distribuciones marginales y operar con ellas.

Concepto de correlación

Se llama correlación a la teoría que trata de estudiar “la relación o dependencia” que existe entre las dos variables que intervienen en una distribución bidimensional.

i i i

xy

x y fx y

N

Page 24: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 24/26

La correlación es lineal o curvilínea según el diagrama de dispersión se concentre en torno a una línea recta o curva.

La correlación es positiva o directa cuando a medida que crece una variable la otra también crece, o viceversa.

La correlación es negativa o inversa cuando a medida que crece una variable la otra decrece,

o viceversa.

La correlación es nula cuando no existe ninguna relación entre ambas variables, y se dice que están incorrelacionadas.

La correlación es de tipo funcional si existe una función que satisface todos los valores de la distribución. A continuación representamos todas las posibilidades:

Page 25: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 25/26

Coeficiente de correlación lineal Una vez observado, mediante un diagrama de dispersión, que existe una correlación entre las variables hay que demostrarlo de forma más precisa y objetiva. Nosotros sólo vamos a estudiar la correlación de tipo lineal. Y el procedimiento más frecuente es el coeficiente de correlación de Pearson, que se define mediante la siguiente expresión:

El signo de r viene dado por el signo de la covarianza, ya que las desviaciones típicas son siempre

positivas. Así pues, el signo de la covarianza nos indica el comportamiento de la correlación:

Si la covarianza es positiva la correlación es directa.

Si la covarianza es negativa la correlación es inversa.

Si la covarianza es nula existe incorrelación. Está demostrado que el coeficiente de correlación lineal de Pearson es un número real

comprendido entre -1 y + 1. Veamos a continuación el tipo de dependencia entre las variables X

e Y según el valor de r:

Si r = +1 o r = - 1, todos los valores están sobre la recta y en consecuencia se dice que

existe una dependencia funcional directa o inversa, respectivamente.

Si -1 < r < 0, la correlación es negativa y será tanto más fuerte cuanto más se aproxime

a -1. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos a

considerar que las variables están altamente relacionadas a partir del -0,80.

Si r = 0 las variables están incorrelacionadas y por lo son aleatoriamente independientes.

Si 0 < r < +1, la correlación es positiva y será tanto más fuerte cuanto más se aproxime

a +1. Se dice entonces que existe una relación de dependencia aleatoria. Nosotros vamos

a considerar que las variables están altamente relacionadas a partir del +0,80.

xy

x y

Page 26: ESTADÍSTICA DESCRIPTIVA I - gobiernodecanarias.org · Estadística inferencial o inductiva. La estadística descriptiva o deductiva trata del recuento, ordenación y clasificación

Pg. nº 26/26

Estudio analítico de la regresión lineal Si entre dos variables existe una fuerte correlación, el diagrama de dispersión se concentrará en torno a una recta. Entonces el problema consiste en encontrar la ecuación de la recta que mejor se ajuste a la nube de puntos. Existen varios métodos, siendo el más utilizado el denominado mínimos cuadrados. Consiste en hacer mínima la suma de los cuadrados de la diferencia entre los valores observados experimentalmente y los teóricos que se obtengan de la recta. De la aplicación de este método se deduce que:

La recta de regresión de y sobre x es

La recta de regresión de x sobre y es

Una vez obtenidas las rectas de regresión, o solo una de ellas según haga falta para el estudio, seguiremos operando hasta lograr una expresión del tipo:

y ax b O

x ay b

Estas rectas nos permiten predecir el comportamiento de las variables y con ello podemos sacar conclusiones respecto al futuro. Es conveniente representarlas sobre el diagrama de dispersión para comprobar la bondad del ajuste y que no hemos cometido algún error. No hay que olvidar dos cosas:

Sólo realizaremos el estudio de regresión si existe una alta relación entre las variables, que nosotros hemos establecido en a partir del + 0’80.

No se puede extrapolar a lo loco y fuera de los límites estudiados, pues nada nos garantiza que la serie estadística se siga comportando igual más allá del campo estudiado.

2( )

xy

x

y y x x

2( )

xy

y

x x y y