TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

27
1 TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA 1.1 Introducción: conceptos básicos 1.2 Tablas estadísticas y representaciones gráficas 1.3 Características de variables estadísticas unidimensionales 1.3.1 Características de posición 1.3.2 Características de dispersión 1.3.3 Características de forma 1.4 Análisis exploratorio de datos: gráfico de caja

Transcript of TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

Page 1: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

1

TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

1.1 Introducción: conceptos básicos1.2 Tablas estadísticas y representaciones gráficas1.3 Características de variables estadísticas unidimensionales

1.3.1 Características de posición

1.3.2 Características de dispersión

1.3.3 Características de forma1.4 Análisis exploratorio de datos: gráfico de caja

Page 2: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

2

* Estadística descriptiva: parte de la estadística que se ocupa de las etapas 2 y 3

ESTADÍSTICA: “Estudio de los métodos de recogida y descripción de datos, así como del análisis de esta información”

Población: “Conjunto de elementos a los que se les estudia una característica” Individuo: “Cada uno de los elementos de la población” Muestra: “Subconjunto representativo de la población”

1.1. Introducción : conceptos básicos

Etapas de un estudio estadístico

Individuo, Población, Muestra

1 Recogida de datos2 Ordenación, tabulación y gráficos*3 Descripción de características*4 Análisis formal

Page 3: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

3

Variable estadística (v.e.): ”Característica propia del individuo objeto del estudio estadístico”

Modalidad: “Cada una de las posibilidades o estados diferentes de una variable estadística” Exhaustivas e incompatibles

Variables estadísticas. Modalidades

Ejemplos:- Estatura- Salario- Color del pelo- Nivel de colesterol- Nº de hijos de una familia

Ejemplo: color del pelo:

- castaño- rubio- negro

Page 4: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

4

Cualitativas: Las características no son cuantificables

Cuantitativas: Características cuantificables o numéricas

Discretas: Numéricas numerables

Continuas: Numéricas no numerables

Tipos de variables estadísticas

Ejemplos: Grupo sanguineo Profesión Color del pelo

Ejemplos: Nº de hijos de una familia Nº de nidos de procesionarias por árbol Nº de virus en un cultivo

Ejemplos: Estatura Salario Nivel de colesterol

Page 5: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

5

Frecuencias

1 2

1 2

Absolutas, (nº individuos modalidad i)Absolutas acumuladas, ... Relativas, (proporcion indiv. modalidad i)Relativas acumuladas, ...

i

i i

i i

i i

nN n n n

f n nF f f f

Absolutas, ni

Relativas

fi = ni / n

Relativasacumuladas Fi = Ni / n

Absolutas acumuladas, Ni

Variables discretas

xi ni Ni fi Fi

x1

...xi

...xk

n1

...ni

...nk

N1

...Ni

...Nk

f1

...fi

...fk

F1

...Fi

...Fk

n 1

1.2. Tablas estadísticas y representacionesgráficas

Page 6: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

6

Variables continuas: Intervalos

Intervalo I i x i n i Ni fi Fi

e0 – e1

... e i-1 – ei

... e k -1 – ek

x1

...x i

...xk

n1

...n i

...n k

N1

...Ni

...N k

f1

...fi

...fk

F1

...Fi

...Fk

n 1

Marca de clase xi (punto medio de cada intervalo)

Amplitud ai (distancia entre los extremos) Intervalos cerrados por un extremo y abiertos por otro

Page 7: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

7

V. E. Cualitativas: Gráfico rectangular

20

10

Negro Gris Blanco Rojo Violeta

Gráficos estadísticos

Color Plumaje Nº de Aves ( n i )

Negro 10Gris 14

Blanco 20Rojo 6

Violeta 454

Page 8: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

8

V. E. Cualitativas: Gráfico de sectores

rojo

violetanegro

grisblanco

Color Plumaje

Nº de Aves

n i f i

Grados

Negro 10 0,185 66,6Gris 14 0,259 93,24

Blanco 20 0,37 133,2Rojo 6 0,111 39,96

Violeta 4 0,074 26,6454

Grados de un sector = 360 0 x fi

Page 9: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

9

0

5

10

15

20

25

30

35

2 3 4 5 6

V. E. Discretas: Gráfico de barras

Nº de crías Nº animales: n i f i Fi

2 20 0.20 0.203 30 0.30 0.504 25 0.25 0.755 15 0.15 0.906 10 0.10 1

n = 100

Page 10: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

10

Estatura n i h i = n i / a i

140 – 160 30 1.5

160 – 170 22 2.2

170 – 180 20 2

180 – 190 18 1.8

190 – 200 10 1

100

V. E. Continuas: Histograma

El área de cada rectángulo es proporcional a la frecuencia”

1

1,5

1,8

140 160 170 180 200

hi

190

2.2

2

Page 11: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

11

1

1

ki ik

ii i

i

n x

f xn

x

1.3. Características de variables estadísticas unidimensionales

1.3.1 Características de Posición

Media aritmética

Estatura Nº Personasn i

M. Clase

x i n i x i

140 – 150 20 145 2900150 – 160 100 155 15500160 – 180 80 170 13600180 – 200 10 190 1900

n = 210 33900

339001 161.42210

:

ki i

in x

Median

x

Page 12: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

12

175224453362341

nixi ♦ Ejemplo

Datos en tabla

Datos en serie2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3

Mo = 3

Valor de la variable más frecuente Puede haber más de una moda → Plurimodal

Moda

Variables discretas

Page 13: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

13

1

1 11

i

i ii i

i i i

h hMo e a

h h h h

x i n i h i = n i / a i

140 – 160 30 1.5160 – 170 22 2,2170 – 180 20 2180 – 190 18 1,8190 – 200 10 1

100

Variables continuas

♦ Ejemplo

Observaciones:1. Puede utilizarse la frecuencia relativa2. Si las amplitudes son iguales, la moda se puede obtener directamente con las frecuencias

2.2 1.5160 10 167.777

2.2 1.5 2.2 2Mo

Page 14: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

14

Valor de la variable que ocupa el lugar central en una serie de datos ordenados. El 50% de los elementos de la población tienen un valor de la variable menor o igual que la mediana. El 50% de los elementos de la población tienen un valor de la variable mayor o igual que la mediana.

Nº par de observaciones: 3, 4, 6, 6, 6, 7, 8, 8, 9, 9 → Me = 6 – 7 Indeterminada entre 6 y 7

Mediana

Variables discretas

Datos en serie

xi ni Ni fi Fi2 3 3 0,333 0,3333 1 4 0,111 0,4445 1 5 0,111 0,5556 1 6 0,111 0,6667 2 8 0,222 0,8888 1 9 0,111 0,999

9 1

xi ni Ni fi Fi3 1 1 0,1 0,14 1 2 0,1 0,26 3 5 0,3 0,57 1 6 0,1 0,68 2 8 0,2 0,89 2 10 0,2 1

10 1

Nº impar de observaciones:

2, 2, 2, 3, 5, 6, 7, 7, 8 → Me = 5

Page 15: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

15

Datos en tabla

Variables discretas

n /2 = 14Fi = 0,5

Me = 2

♦ Ejemplo

2843

210

xi

28

35

1064

ni

1

0.8920.714

0.3570.142

Fi

10.107

0.1780.357

0.2140.142

fi

25

20104

Ni

Observación: Si n / 2 coincide con un N i

la mediana está indeterminada entre x i y x i+1

Page 16: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

16

11

1 1

500,5 100 ii

i i i ii i

n NFMe e a e a

f n

0.5 0.45160 10 160 2 1620.25

Me

n/2 = 50Fi = 0,5

Variables continuas

♦ Ejemplo

Observación: Si n/2 coincide con un Ni la mediana es el extremo superior del intervalo que le corresponde

10.900.700.450.15

Fi

0.100.200.250.300.15

fi

10090704515

Ni

100

10180 – 20020170 – 18025160 – 17030150 – 16015140 – 150

niEstatura

Page 17: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

17

Definición: Pk , k: 1,2,...,99, “percentil k”, valor de la variable que deja por debajo, el k% de los valores de la variable

Q1 = P25 Cuartil 1º

Q2 = P50 Cuartil 2º = Me

Q3 = P75 Cuartil 3º

D1 = P10 Decil 1º

D2 = P20 Decil 2º ….

D9 = P90 Decil 9º

Percentiles

1 11 1

100 100i ik i i i i

i i

k kF n NP e a e a

f n

Cálculo para v.e. continuas:

Cálculo para v.e. discretas:Igual que la mediana, cambiando:

50 100 100kn por n

Page 18: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

18

x in i Ni

2 20 203 30 504 44 945 20 1146 10 124

124

Percentil 40, P40 = 3 Percentil 95, P95 = 6

n k /100 =124x25/100 = 31

n k /100 =124x50/100 = 62

n k /100 =124x75/100 = 93

♦ Ejemplos percentiles v.e. discreta

Percentil 50, P50 = 4 = Me = Q2

Percentil 25, P25 = 3 = Q1

Percentil 75, P75 = 4 = Q3

40 124 49,6100 100k n

95 124 117,8100 100

k n

Page 19: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

19

1 11 1

100 100i ik i i i i

i i

k nkF Ne a e a

f nP

75 30.75 0.70 75 70170 10 170 10 172.5

0.20 20QP

400.4 0.15 40 15150 10 150 10 158.33

0.30 30P

40P

75P

♦ Ejemplos percentiles v.e. continua

Tallas ni Ni fi Fi

140-150 15 15 0.15 0.15150-160 30 45 0.30 0.45160-170 25 70 0.25 0.70170-180 20 90 0.20 0.90180-200 10 100 0.10 1

100

Page 20: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

20

Q 3 – Q1

Valor máximo menos valor mínimo de la variable

“Miden la Homogeneidad de las observaciones”

1.3.2. Características de Dispersión

Rango o recorrido

Recorrido intercuartílico

Page 21: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

21

. . C Vx

2

22

22 1 1i

k ki i i

i in x x n x

xn n

Varianza

Desviación típica

Coeficiente de variación

Page 22: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

22

xi ni nixi nixi2

4 20 80 3206 40 240 14408 44 352 2816

10 36 360 360012 22 264 3168

162 1296 11344

2222 1 11344 1296 6.02

162 162

ki i

in x

Var X xn

♦ Ejemplo

2 6.02 2.4535

Page 23: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

23

1

i

k ri

ir

n x x

n

2

2122

i

ki

in x x

rn

1

11 0 i

ki

in x x

rn

Momentos centrales (Respecto a la media)

Page 24: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

24

1.3.3 Características de forma

1 0 Si Distribución sesgada a la derecha►

1 0 Si Distribución simétrica►

1 0 Si Distribución sesgada a la izquierda►

Coeficiente de Sesgo (Asimetría)

31 3

Page 25: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

25

2 0 Si Distribución más aplastada que la distribución Normal

2 0 Si Distribución menos aplastada que la distribución Normal

2 0 Si Distribución igual de aplastada que la distribución Normal

42 4

3

Coeficiente de Curtosis (Aplastamiento)

Page 26: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

26

1.4 Gráfico de caja

Me Q3Q1f1F1mín f2 F2 máx

f1=Q1-1.5(Q3-Q1) frontera interior inferiorf2=Q3+1.5(Q3-Q1) frontera interior superiorF1=Q1-3(Q3-Q1) frontera exterior inferiorF2=Q3+3(Q3-Q1) frontera exterior superior

V.A.I.= Dato más próximo, por exceso, a f1

(valor adyacente inferior)V.A.S.=Dato más proximo, por defecto, a f2

(valor adyacente superior)

Valores atípicos o anómalos: Datos inferiores a f1 ósuperiores a f2 (distinguiéndose)

* o**o

MeQ3Q1v.a.i.anómalos v.a.s anómalos

v.a.i. v.a.s.

Page 27: TEMA 1  DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

27

Ejemplo

Sea la variable estadística “nº de hijos”. Losdatos de 30 familias son los siguientes:

1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4

mín = 0máx = 10Q1 = 1Q3 = 3Me = 2f1 = -2f2 = 6F1 = -5F2 = 9Vai = 0Vas = 5Valores anómalos = 8, 10

0 1 2 3 4 5 6 7 8 9 10

*o

Datos ordenados:

00000011111111222223333444458 10