TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

Post on 12-Jan-2017

157 views 1 download

Transcript of TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

1

TEMA 1 DESCRIPCIÓN DE DATOS: ESTADÍSTICA DESCRIPTIVA

1.1 Introducción: conceptos básicos1.2 Tablas estadísticas y representaciones gráficas1.3 Características de variables estadísticas unidimensionales

1.3.1 Características de posición

1.3.2 Características de dispersión

1.3.3 Características de forma1.4 Análisis exploratorio de datos: gráfico de caja

2

* Estadística descriptiva: parte de la estadística que se ocupa de las etapas 2 y 3

ESTADÍSTICA: “Estudio de los métodos de recogida y descripción de datos, así como del análisis de esta información”

Población: “Conjunto de elementos a los que se les estudia una característica” Individuo: “Cada uno de los elementos de la población” Muestra: “Subconjunto representativo de la población”

1.1. Introducción : conceptos básicos

Etapas de un estudio estadístico

Individuo, Población, Muestra

1 Recogida de datos2 Ordenación, tabulación y gráficos*3 Descripción de características*4 Análisis formal

3

Variable estadística (v.e.): ”Característica propia del individuo objeto del estudio estadístico”

Modalidad: “Cada una de las posibilidades o estados diferentes de una variable estadística” Exhaustivas e incompatibles

Variables estadísticas. Modalidades

Ejemplos:- Estatura- Salario- Color del pelo- Nivel de colesterol- Nº de hijos de una familia

Ejemplo: color del pelo:

- castaño- rubio- negro

4

Cualitativas: Las características no son cuantificables

Cuantitativas: Características cuantificables o numéricas

Discretas: Numéricas numerables

Continuas: Numéricas no numerables

Tipos de variables estadísticas

Ejemplos: Grupo sanguineo Profesión Color del pelo

Ejemplos: Nº de hijos de una familia Nº de nidos de procesionarias por árbol Nº de virus en un cultivo

Ejemplos: Estatura Salario Nivel de colesterol

5

Frecuencias

1 2

1 2

Absolutas, (nº individuos modalidad i)Absolutas acumuladas, ... Relativas, (proporcion indiv. modalidad i)Relativas acumuladas, ...

i

i i

i i

i i

nN n n n

f n nF f f f

Absolutas, ni

Relativas

fi = ni / n

Relativasacumuladas Fi = Ni / n

Absolutas acumuladas, Ni

Variables discretas

xi ni Ni fi Fi

x1

...xi

...xk

n1

...ni

...nk

N1

...Ni

...Nk

f1

...fi

...fk

F1

...Fi

...Fk

n 1

1.2. Tablas estadísticas y representacionesgráficas

6

Variables continuas: Intervalos

Intervalo I i x i n i Ni fi Fi

e0 – e1

... e i-1 – ei

... e k -1 – ek

x1

...x i

...xk

n1

...n i

...n k

N1

...Ni

...N k

f1

...fi

...fk

F1

...Fi

...Fk

n 1

Marca de clase xi (punto medio de cada intervalo)

Amplitud ai (distancia entre los extremos) Intervalos cerrados por un extremo y abiertos por otro

7

V. E. Cualitativas: Gráfico rectangular

20

10

Negro Gris Blanco Rojo Violeta

Gráficos estadísticos

Color Plumaje Nº de Aves ( n i )

Negro 10Gris 14

Blanco 20Rojo 6

Violeta 454

8

V. E. Cualitativas: Gráfico de sectores

rojo

violetanegro

grisblanco

Color Plumaje

Nº de Aves

n i f i

Grados

Negro 10 0,185 66,6Gris 14 0,259 93,24

Blanco 20 0,37 133,2Rojo 6 0,111 39,96

Violeta 4 0,074 26,6454

Grados de un sector = 360 0 x fi

9

0

5

10

15

20

25

30

35

2 3 4 5 6

V. E. Discretas: Gráfico de barras

Nº de crías Nº animales: n i f i Fi

2 20 0.20 0.203 30 0.30 0.504 25 0.25 0.755 15 0.15 0.906 10 0.10 1

n = 100

10

Estatura n i h i = n i / a i

140 – 160 30 1.5

160 – 170 22 2.2

170 – 180 20 2

180 – 190 18 1.8

190 – 200 10 1

100

V. E. Continuas: Histograma

El área de cada rectángulo es proporcional a la frecuencia”

1

1,5

1,8

140 160 170 180 200

hi

190

2.2

2

11

1

1

ki ik

ii i

i

n x

f xn

x

1.3. Características de variables estadísticas unidimensionales

1.3.1 Características de Posición

Media aritmética

Estatura Nº Personasn i

M. Clase

x i n i x i

140 – 150 20 145 2900150 – 160 100 155 15500160 – 180 80 170 13600180 – 200 10 190 1900

n = 210 33900

339001 161.42210

:

ki i

in x

Median

x

12

175224453362341

nixi ♦ Ejemplo

Datos en tabla

Datos en serie2, 2, 3, 3, 3, 3, 5, 6, 7 Mo = 3

Mo = 3

Valor de la variable más frecuente Puede haber más de una moda → Plurimodal

Moda

Variables discretas

13

1

1 11

i

i ii i

i i i

h hMo e a

h h h h

x i n i h i = n i / a i

140 – 160 30 1.5160 – 170 22 2,2170 – 180 20 2180 – 190 18 1,8190 – 200 10 1

100

Variables continuas

♦ Ejemplo

Observaciones:1. Puede utilizarse la frecuencia relativa2. Si las amplitudes son iguales, la moda se puede obtener directamente con las frecuencias

2.2 1.5160 10 167.777

2.2 1.5 2.2 2Mo

14

Valor de la variable que ocupa el lugar central en una serie de datos ordenados. El 50% de los elementos de la población tienen un valor de la variable menor o igual que la mediana. El 50% de los elementos de la población tienen un valor de la variable mayor o igual que la mediana.

Nº par de observaciones: 3, 4, 6, 6, 6, 7, 8, 8, 9, 9 → Me = 6 – 7 Indeterminada entre 6 y 7

Mediana

Variables discretas

Datos en serie

xi ni Ni fi Fi2 3 3 0,333 0,3333 1 4 0,111 0,4445 1 5 0,111 0,5556 1 6 0,111 0,6667 2 8 0,222 0,8888 1 9 0,111 0,999

9 1

xi ni Ni fi Fi3 1 1 0,1 0,14 1 2 0,1 0,26 3 5 0,3 0,57 1 6 0,1 0,68 2 8 0,2 0,89 2 10 0,2 1

10 1

Nº impar de observaciones:

2, 2, 2, 3, 5, 6, 7, 7, 8 → Me = 5

15

Datos en tabla

Variables discretas

n /2 = 14Fi = 0,5

Me = 2

♦ Ejemplo

2843

210

xi

28

35

1064

ni

1

0.8920.714

0.3570.142

Fi

10.107

0.1780.357

0.2140.142

fi

25

20104

Ni

Observación: Si n / 2 coincide con un N i

la mediana está indeterminada entre x i y x i+1

16

11

1 1

500,5 100 ii

i i i ii i

n NFMe e a e a

f n

0.5 0.45160 10 160 2 1620.25

Me

n/2 = 50Fi = 0,5

Variables continuas

♦ Ejemplo

Observación: Si n/2 coincide con un Ni la mediana es el extremo superior del intervalo que le corresponde

10.900.700.450.15

Fi

0.100.200.250.300.15

fi

10090704515

Ni

100

10180 – 20020170 – 18025160 – 17030150 – 16015140 – 150

niEstatura

17

Definición: Pk , k: 1,2,...,99, “percentil k”, valor de la variable que deja por debajo, el k% de los valores de la variable

Q1 = P25 Cuartil 1º

Q2 = P50 Cuartil 2º = Me

Q3 = P75 Cuartil 3º

D1 = P10 Decil 1º

D2 = P20 Decil 2º ….

D9 = P90 Decil 9º

Percentiles

1 11 1

100 100i ik i i i i

i i

k kF n NP e a e a

f n

Cálculo para v.e. continuas:

Cálculo para v.e. discretas:Igual que la mediana, cambiando:

50 100 100kn por n

18

x in i Ni

2 20 203 30 504 44 945 20 1146 10 124

124

Percentil 40, P40 = 3 Percentil 95, P95 = 6

n k /100 =124x25/100 = 31

n k /100 =124x50/100 = 62

n k /100 =124x75/100 = 93

♦ Ejemplos percentiles v.e. discreta

Percentil 50, P50 = 4 = Me = Q2

Percentil 25, P25 = 3 = Q1

Percentil 75, P75 = 4 = Q3

40 124 49,6100 100k n

95 124 117,8100 100

k n

19

1 11 1

100 100i ik i i i i

i i

k nkF Ne a e a

f nP

75 30.75 0.70 75 70170 10 170 10 172.5

0.20 20QP

400.4 0.15 40 15150 10 150 10 158.33

0.30 30P

40P

75P

♦ Ejemplos percentiles v.e. continua

Tallas ni Ni fi Fi

140-150 15 15 0.15 0.15150-160 30 45 0.30 0.45160-170 25 70 0.25 0.70170-180 20 90 0.20 0.90180-200 10 100 0.10 1

100

20

Q 3 – Q1

Valor máximo menos valor mínimo de la variable

“Miden la Homogeneidad de las observaciones”

1.3.2. Características de Dispersión

Rango o recorrido

Recorrido intercuartílico

21

. . C Vx

2

22

22 1 1i

k ki i i

i in x x n x

xn n

Varianza

Desviación típica

Coeficiente de variación

22

xi ni nixi nixi2

4 20 80 3206 40 240 14408 44 352 2816

10 36 360 360012 22 264 3168

162 1296 11344

2222 1 11344 1296 6.02

162 162

ki i

in x

Var X xn

♦ Ejemplo

2 6.02 2.4535

23

1

i

k ri

ir

n x x

n

2

2122

i

ki

in x x

rn

1

11 0 i

ki

in x x

rn

Momentos centrales (Respecto a la media)

24

1.3.3 Características de forma

1 0 Si Distribución sesgada a la derecha►

1 0 Si Distribución simétrica►

1 0 Si Distribución sesgada a la izquierda►

Coeficiente de Sesgo (Asimetría)

31 3

25

2 0 Si Distribución más aplastada que la distribución Normal

2 0 Si Distribución menos aplastada que la distribución Normal

2 0 Si Distribución igual de aplastada que la distribución Normal

42 4

3

Coeficiente de Curtosis (Aplastamiento)

26

1.4 Gráfico de caja

Me Q3Q1f1F1mín f2 F2 máx

f1=Q1-1.5(Q3-Q1) frontera interior inferiorf2=Q3+1.5(Q3-Q1) frontera interior superiorF1=Q1-3(Q3-Q1) frontera exterior inferiorF2=Q3+3(Q3-Q1) frontera exterior superior

V.A.I.= Dato más próximo, por exceso, a f1

(valor adyacente inferior)V.A.S.=Dato más proximo, por defecto, a f2

(valor adyacente superior)

Valores atípicos o anómalos: Datos inferiores a f1 ósuperiores a f2 (distinguiéndose)

* o**o

MeQ3Q1v.a.i.anómalos v.a.s anómalos

v.a.i. v.a.s.

27

Ejemplo

Sea la variable estadística “nº de hijos”. Losdatos de 30 familias son los siguientes:

1,2,0,0,2,4,3,0,1,1,1,2,3,4,8,3,0,1,1,3,2,1,0,4,10,5,1,0,2,4

mín = 0máx = 10Q1 = 1Q3 = 3Me = 2f1 = -2f2 = 6F1 = -5F2 = 9Vai = 0Vas = 5Valores anómalos = 8, 10

0 1 2 3 4 5 6 7 8 9 10

*o

Datos ordenados:

00000011111111222223333444458 10