Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de...

33
Tema 1: Estadística Descriptiva

Transcript of Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de...

Page 1: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Tema 1: Estadística Descriptiva

Page 2: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

1. Conceptos generales.2. Medidas de centralización.3. Medidas de dispersión.4. Medidas de posición.5. Medidas de forma.6. Tipificación.

0

10

20

30

40

50

60

70

80

90

1er trim. 2do trim. 3er trim. 4to trim.

Este

Oeste

Norte

Page 3: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

1. Conceptos generales.

Estadística (“Estado”): parte de las Matemáticas quese encarga de RECOGER y ANALIZAR datos.

Teoría de muestras,Diseño de experimentos

Estadística DescriptivaEstadística Inferencial

Page 4: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Muestra

POBLACION

Razones para tomar muestras: tiempo, dinero, accesibilidad, …

PARADOJICAMENTE, para conocer a la población nohace falta estudiar a TODA la población…

Page 5: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

        EN DOS SEMANAS RECORTA 4 PUNTOS

El PP se sitúa a dos puntos del PSOE en intención de voto, según una encuesta publicada en El PaísEl PP se encuentra a dos puntos del PSOE en intención directa de voto, según un sondeo del Instituto Opina que publica este domingo el diario El País. Agrega el periódico que el PP ha logrado recortar en dos semanas cuatro puntos en intención de voto respecto a los socialistas, quienes tenían un 44 por ciento de intención de voto, frente al 38 por ciento del PP, según la anterior encuesta de Opina, publicada el 25 de septiembre en ése mismo diario.

L D (Agencias) El sondeo publicado este domingo, hecho sobre una muestra de 1.300 entrevistas hechas desde el 4 al 6 de octubre en todo el territorio español, desvela que el PP gana dos puntos y el PSOE los pierde, "con lo que la diferencia se reduce drásticamente y supone la ventaja socialista más reducida desde las elecciones generales"..  Aunque los diarios La Vanguardia y El Periódico de Cataluña recogen otra encuesta que revela que el PSC y CiU mantienen un empate técnico, aunque en los porcentajes de intención de voto el PSC continuaría por delante. En ambas encuestas, tanto el presidente de la Generalidad, Pasqual Maragall, como el líder de la oposición, Artur Mas, mejoran sustancialmente su valoración respecto a encuestas anteriores, aunque Maragall saca 19,3 puntos en la pugna por la presidencia de la Generalidad. Así, la encuesta de La Vanguardia elaborada por el Instituto Noxa entre los días 3 y 6 de octubre a 1.000 entrevistados, otorga al PSC 44 escaños y una intención de voto del 32,5 por ciento, mientras que CiU pasaría de los actuales 46 escaños a 43 y mantendría una intención de voto del 29,2 por ciento. ERC mantendría su estatus de tercera fuerza política con 23 escaños, al igual que el PP, aunque según la encuesta crece la intención de voto respecto a las elecciones de 2003 y alcanza el 12,7 por ciento. ICV-EA también subiría y podría alcanzar los 10 escaños. Por su parte, la encuesta de El Periódico realizada durante los mismos días por la empresa Gesop a 800 entrevistados sitúa a PSC y CiU con un voto estimado del 32 por ciento en ambos casos, aunque la intención de voto directa otorga al PSC un 31,5 por ciento y a CiU un 22,3 por ciento.

Page 6: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

VARIABLE ESTADISTICA

Cuantitativas

Cualitativas

Discretas

Continuas

la cualidad que deseamos estudiaren la población

Page 7: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

• Intención de voto• Número de hijos• Longitud del ala de un pájaro• Número de ejemplares de una especie en un continente.• Tiempo de recuperación de un ecosistema.• Número del despacho de distintos profesores.• …….

Page 8: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Una vez diseñada la muestra, recogemos los datos;después, la información proporcionada por ellos debeORDENARSE

Tablas y gráficas estadísticas

(datos agrupados y no agrupados)

Page 9: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Procedimiento usual para agrupar datos en clases (libro de Susan Milton,pág. 22):1.- El nº de clases se puede aproximar como k=1+3.322 log10n (n tamaño de la muestra; k se redondea hacia abajo, p. ej. 6.82 a 6).

2.- Localizamos el mayor y menor dato, respectivamente. Diferencia entre ambos: RANGO de los datos.

3.- Amplitud mínima de clase: cociente entre el rango y el nº de clases. - Redondeamos por arriba el nº obtenido hasta la precisión de los datos; si el cociente tiene ya esa precisión, la incrementamos en una unidad. - El extremo inferior de la primera clase es el menor de los datos, disminui- do en 0.5 si los datos son enteros, en 0.05 si tienen 1 decimal, en 0.005 si tienen 2 decimales…

(Así ningún dato coincide con un extremo de un intervalo)

4.- Alternativa: intervalos [a,b)

5.- Si hay datos atípicos (outliers), la técnica se modifica (S. Milton, p. 25)

Page 10: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Ejemplo 1:

xi

ni ó %i

17 18 19 21 22

DIAGRAMA DE BARRAS

xi ni fi %i17 2 0,1 1018 10 0,5 5019 4 0,2 2021 3 0,15 1522 1 0,05 5

20 1 100

GRAFICOS ESTADISTICOS

Page 11: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

xi ni fi %i3.75-5.95 4,85 2 0,05 55.95-8.15 7,05 4 0,1 10

8.15-10.35 9,25 10 0,25 2510.35-12.55 11,45 16 0,4 4012.55-14.75 13,65 6 0,15 1514.75-16.95 15,85 2 0,05 5

Total: 62,1 40 1 100

Ejemplo 2:

xi

ni ó %i

3.75 5.95 8.15 10.35….

HISTOGRAMA

Page 12: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

10%

50%

20%

15%

5%

17

18

19

21

22

Ejemplo 1:

xi ni fi %i17 2 0,1 1018 10 0,5 5019 4 0,2 2021 3 0,15 1522 1 0,05 5

20 1 100

DIAGRAMA DE SECTORES

Page 13: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

DIAGRAMA DE TALLO Y HOJAS

Page 14: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

2. Medidas de centralización.

3. Medidas de dispersión o variabilidad.

4. Medidas de posición.

Page 15: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

3. Medidas de dispersión o variabilidad.

La DISPERSION (o variabilidad)de un conjunto de datos es una medida de la distancia entre los datos, y su media.

Poca dispersión = Datos homogéneos = Media muy representativa

Mucha dispersión = Datos heterogéneos = Media poco representativa

Page 16: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Ejemplo 5: En una investigación sobre deficiencias medioambientales encon-tradas en plantas industriales, se seleccionaron aleatoriamente 25 plantas de dos comunidades diferentes. Se obtuvieron los siguientes datos sobre elnúmero de deficiencias encontradas:

Nº deficiencias com. A Frecuencia1 12 33 54 75 56 37 1

Nº deficiencias com. B Frecuencia1 62 43 24 15 26 47 6

La media es 4, en cada comunidad; pero ¿en cuál de ellas la variable es más dispersa?

Page 17: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

1 2 3 4 5 6 7

1 2 3 4 5 6 7

Nº deficiencias com. A Frecuencia1 12 33 54 75 56 37 1

Nº deficiencias com. B Frecuencia1 62 43 24 15 26 47 6

Ejemplo 5: En una investigación sobre deficiencias medioambientales encon-tradas en plantas industriales, se seleccionaron aleatoriamente 25 plantas de dos comunidades diferentes. Se obtuvieron los siguientes datos sobre elnúmero de deficiencias encontradas:

+ disp.

Page 18: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

¿Cómo podemos medir la dispersión?

1.- Rango: dif. entre el mayor y el menor de los datos.

2.- Varianza:

3.- Desviación típica: VS

k

ii

k

ii

n

nxxS

1

1

2

2

Page 19: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Propiedades de la varianza y la desviación típica:

1.- La varianza no puede ser negativa.2.- A igualdad de medias, cuanto mayor sea la dispersión, mayor es la varianza (y la desv. típica).3.- Si dos conjuntos de datos poseen medias similares, es más dispersoaquel que tenga mayor varianza (desv. típica).4.- El recíproco no es necesariamente cierto, porque la varianza (desv. típica) depende también del tamaño de los datos.

Coeficiente de variación (CV)

5.- Interpretación de la desviación típica en fenómenosde medida.

Page 20: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

¿Cómo podemos medir la dispersión?

1.- Rango.2.- Varianza.3.- Desviación típica.4.- Coeficiente de variación:

A mayor CV, mayor dispersión

x

SCV

Page 21: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Ejemplo: Se realiza un experimento para investigar el efecto de una nueva dieta, sobre la ganancia de peso de cachorros durante las primerassemanas de vida.

Gran Danés: ganancia media de 30 libras, desv. típica de 10 libras.Chihuahua: ganancia media de 3 libras, desv. típica de 1’5 libras.

¿Qué grupo posee mayor variabilidad?

Page 22: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

¿Cómo podemos medir la dispersión?

1.- Rango.2.- Varianza.3.- Desviación típica.4.- Coeficiente de variación.5.- Cuasivarianza; cuasidesviación típica.

(Util para estimar la varianza poblacional)

2ss

11

1

2

2

k

ii

k

ii

n

nxxs

Page 23: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

4. Medidas de posición.

Page 24: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

5. Medidas de forma.

N

nxxm

k

ii

ri

r

1

Parámetros que permiten evaluar ciertas características del diagrama de barras/histograma (simetría, apuntamiento).

Momento de orden r con respecto a la media:

Page 25: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Coeficiente de asimetría:

Un conjunto de datos es simétrico, si lo es su histograma/diagrama de barras

1 2 3 4 5 6 7 1 2 3 4 5 6 7

Simetría

Asimetría negativa (a la izqda.) Asimetría positiva (a la dcha.)

x

MoMo

x

Page 26: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Coeficiente de asimetría:

Asimetría negativa (a la izqda.) Asimetría positiva (a la dcha.)

x

MoMo

x

Mayor concentración de datos a la izquierda

Mayor concentración de datos a la derecha

Page 27: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Coeficiente de asimetría:

Coeficiente de asimetría de Fisher:

3

1

3

33

NS

nxx

S

mA

k

iii

F

CAP ó AF>0: Asimetría positiva (a la dcha.)CAP ó AF=0: SimetríaCAP ó AF<0: Asimetría negativa (a la izqda.)

Coeficiente de asimetría de Pearson: S

MoxCAP

(sólo variables con distribución acampanada) Mo: moda

(todo tipo de variables)

Page 28: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Coeficiente de apuntamiento o curtosis:

Previamente: curva normal N(µ,σ) o campana de Gauss

2

2

1

2

1)(

x

exf

Una variable estadística es normal si el polígono de frecuencias (utilizando %) se ajusta a esta curva.

Page 29: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Normal

Leptocúrtica: más apuntada g2>0Mesocúrtica: normal g2=0Platicúrtica: más aplanada g2<0

33

41

4

44

2

NS

nxx

S

mg

k

iii

Coeficiente de apuntamiento o curtosis:

Page 30: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

Aceptamos que un conjunto de datos es “aproximadamente normal”cuando los coeficientes de asimetría y de curtosis tipificadas están entre -2 y 2.

Ligeras correcciones de los coeficientes de asimetría y curtosis dan lugar a los coeficientes de asimetría y

curtosis tipificadas (Statgraphics)

Page 31: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

6. Tipificación.

DDada una variable estadística X, la tipificación de esta variable esotra nueva variable, Z, que se define como

S

xXZ

Características:

• La media de Z es 0; su desviación típica es 1.• El valor de Z se puede entender como una medida de la variación relativa que experimenta el valor X frente a su media.• Es útil para comparar valores correspondientes a variables cuyas medias y desviaciones típicas son diferentes.

Page 32: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

EJEMPLO: Al terminar la carrera, un licenciado en psicología y otro en económicas reciben sendas ofertas de trabajo, con sueldos anuales de 18.000 y 24.000 €. La media de los sueldos de los recién licenciados en psicología es de 16.000€, con una desviación típica de 850€. La media de los sueldos de los recién licenciados en económicas es de 22.000€, con una desviación típica de 1.200€. ¿Cuál de los dos ha tenido una mejor oferta laboral, en relación a los sueldos de su profesión?

Page 33: Tema 1: Estadística Descriptiva. 1.Conceptos generales. 2.Medidas de centralización. 3.Medidas de dispersión. 4.Medidas de posición. 5.Medidas de forma.

EJEMPLO: Al terminar la carrera, un licenciado en psicología y otro en económicas reciben sendas ofertas de trabajo, con sueldos anuales de 18.000 y 24.000 €. La media de los sueldos de los recién licenciados en psicología es de 16.000€, con una desviación típica de 850€. La media de los sueldos de los recién licenciados en económicas es de 22.000€, con una desviación típica de 1.200€. ¿Cuál de los dos ha tenido una mejor oferta laboral, en relación a los sueldos de su profesión?

Solución: Calculamos la variación relativa, en cada caso, con respecto a la media (es decir, tipificamos):

Psicología: (18000-16000)/850=2’35Económicas: (24000-22000)/1200=1’66

Por tanto, el sueldo ofrecido al psicólogo posee mayor variación relativa; puesto que la variación es positiva, ello implica que el sueldo es comparativamente mejor