20121010141000

24
TEMA 03: MEDIDAS ESTADISTICAS 1 Docente: Ms. Selene Yengle Del Castillo

Transcript of 20121010141000

Page 1: 20121010141000

TEMA 03: MEDIDAS

ESTADISTICAS

1

Docente: Ms. Selene Yengle Del Castillo

Page 2: 20121010141000

2

PARÁMETROS Y ESTADÍSTICOS Parámetro: Es una cantidad numérica calculada

sobre una población. Ejm.: Rendimiento académico medio de los alumnos de las universidades de un país.La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).

Estadístico: Es una cantidad numérica calculada sobre una muestra. Ejm.:

El Rendimiento Académico medio de los que estamos en esta aula.Somos una muestra (¿representativa?) de la población. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño.

Page 3: 20121010141000

3

CLASES DE MEDIDAS DE ESTADISTICAS:

Page 4: 20121010141000

UN BREVÍSIMO RESUMEN SOBRE ESTADÍSTICOS

Posición Dividen un conjunto ordenado de datos en grupos con la misma

cantidad de individuos. Cuantiles: percentiles, cuartiles, deciles,...

Centralización Indican valores con respecto a los que los datos parecen

agruparse. Media, mediana y moda

Dispersión Indican la mayor o menor concentración de los datos con

respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza

Forma Asimetría Apuntamiento o curtosis

4

Page 5: 20121010141000

5

MEDIDAS DE TENDENCIA CENTRAL SON AQUELLAS MEDIDAS QUE NOS INDICAN LA POSICIÓN DE UN VALOR RESPECTO A LA VARIABLE Y ADEMÁS NOS INDICA

COMO LOS DATOS TIENDEN A AGRUPARSE. MEDIA ARITMÉTICA (‘mean’).- se representa por: . Es la

media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral.

a)Fórmula para Datos No Agrupados: x1, x2, ..., xn

Ejm: Hallar la Media de los siguientes datos: 2,2, 3, 7 es (2+2+3+7)/4=3,5

La media aritmética es conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Representa el centro de gravedad de los datos.

n

xx

n

ii∑

== 1

x

Page 6: 20121010141000

6

B) FÓRMULA PARA DATOS AGRUPADOS: SI ESTÁ EN INTERVALOS USAR COMO XI LAS MARCAS DE CLASE. SI NO IGNORAR LA COLUMNA DE INTERVALOS.

Intervalos de clase Xi

(Variable)

fi Xifi

L0 – L1 x1 f1 X1f1

L1 – L2 x2 f2 X2f2

... … … …

Lk-1 – Lk xk fk Xkfk

TOTAL n

n

fxx

k

iii∑

== 1

∑=

=k

iiihxx

1

La media aritmética también se puede calcular tomando como ponderaciones a las frecuencias relativas simples (hi);

Page 7: 20121010141000

7

MEDIANA (‘median’).- Se representa por: Me. Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos; de tal manera que el 50% de los datos son menores que el valor mediano y el otro 50% son valores mayores que la mediana.a) Fórmulas para Datos No Agrupados:

a.1) Si el número de datos es impar, se elige la media del dato central y se utiliza la sgte. Fórmula:

Ejm.: Hallar la Mediana de 1, 2, 4,5 ,6 ,6 ,8 es 5a.2)Si el número de datos es par, se elige la media de los

dos datos centrales y se utiliza la sgte. Fórmula:

Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5La Mediana es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. Ejemplo:

E jm.: Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

2

1 valor delPosición

+= nMe

+

= 1

2;

2 valor delPosición

nnMe

Page 8: 20121010141000

8

B) FÓRMULAS PARA DATOS AGRUPADOS: CONSIDEREMOS DOS CASOS:

Caso a: Cuando Fi-1 = n/2; Me = Y’i-1

Caso b: Cuando Fi-1 < n/2;

Caso a: Cuando Fi-1 < n/2; Me = Yi

Caso b: Cuando Fi-1 = n/2; Variable Discreta

Variable Continua

21 ii YY

Me+= −

( )Af

Fn

YMei

i

i

−+=

−1

1-2´

Donde: Fi-1 : Frecuencia absoluta acumulada anterior al intervalo ó posición mediana.Yi : Marca de clase de la posición mediana.Yi-1 : Marca de clase anterior a la posición mediana.A : Amplitud del intervalo de clase.n/2 : Número de datos dividido entre dos.fi : Frecuencia absoluta simple del intervalo ó posición mediana.Y’i-1 : Límite Real Inferior del intervalo mediano.

Page 9: 20121010141000

9

PASOS A SEGUIR EN EL CÁLCULO DE LA MEDIANA: Obtener las frecuencias absolutas acumuladas .

Buscar la mitad de las observaciones, por medio de n/2. Localizar el resultado anterior (n/2) en la columna de las frecuencias

absolutas acumuladas y denominarle Fi-1 . Si no aparece el valor n/2, al valor inmediatamente anterior se denomina F i-1 y al inmediatamente superior se denomina Fi.

Si Fi-1 es menor que n/2 ó igual que n/2, entonces el valor de la mediana será igual aplicando las formulas de los casos antes mencionados.

• MODA (‘mode’).- Se representa por: Mo. Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. También se define como aquel valor de la variable que presenta la mayor frecuencia (absoluta simple) ó el valor que más se repite. La fórmula es: Mo = Yi (igual a la marca de clase de la mayor frecuencia absoluta simple).

Page 10: 20121010141000

10

Moda en datos agrupados en intervalos de clase. Para hallar la moda se procede así:

Se determina el intervalo que contiene a la moda (intervalo de mayor frecuencia)Se aplica la fórmula:

Mo = LRI + A ( donde )21

1

∆+∆∆

11 −−=∆ ii ff12 +−=∆ ii ff

y

El valor más frecuente se denomina fi, el valor inmediatamente anterior fi-1 y el valor inmediatamente superior en posición fi+1.

Page 11: 20121010141000

ESTADÍSTICOS DE POSICIÓN

11

Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α.

Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

Page 12: 20121010141000

ESTADÍSTICOS DE POSICIÓN

12

Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las

observaciones. Por encima queda el 85%

Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75

Page 13: 20121010141000

13

CUARTILES.- DIVIDE A LA MUESTRA EN 4 GRUPOS CON FRECUENCIAS SIMILARES. SE REPRESENTA POR QI, DONDE I=1,2,3. LA FÓRMULA ES LA SIGUIENTE:

( )Af

Fn

iYQi

i

i

i

+=−1

1-

DECILES.- Divide a la muestra en 10 grupos con frecuencias similares. Se representa por Di, donde i=1,2,3,4,5,6,7,8,9. La fórmula es la siguiente:

( )Af

Fn

iYDi

i

i

i

+=−1

1-

10´

PERCENTILES Ó CENTILES.- Divide a la muestra en 100 grupos con frecuencias similares. Se representa por Pi, donde i=1,2,3,…,99. La fórmula es la siguiente:

( )Af

Fn

iYPi

i

i

i

+=−1

1-

100´

Q1 Q2 Q3

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

25% 25% 25% 25%

1% 1%1%1%1% …………………………. 1%

D1 D2 D3 D4 D5 D6 D7 D8 D9

P1 P2 P3 P4 P5 …. P50 ……… P99

Page 14: 20121010141000

14

EJEMPLOS

El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?

Percentil 5

Percentil 5 del peso

Peso al nacer (Kg) de 100 niños

fre

cue

nci

a

1 2 3 4 5

05

10

15

20

25

Page 15: 20121010141000

15

EJEMPLO

Número de años de escolarización

5 ,3 ,3

5 ,3 ,7

6 ,4 1,1

12 ,8 1,9

25 1,7 3,5

68 4,5 8,0

56 3,7 11,7

73 4,8 16,6

85 5,6 22,2

461 30,6 52,8

130 8,6 61,4

175 11,6 73,0

73 4,8 77,9

194 12,9 90,7

43 2,9 93,6

45 3,0 96,6

22 1,5 98,0

30 2,0 100,0

1508 100,0

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Total

Frecuencia PorcentajePorcentajeacumulado

Estadísticos

Número de años de escolarización1508

0

12,90

12,00

12

9,00

11,00

12,00

12,00

12,00

12,00

13,00

14,00

15,00

16,00

16,00

Válidos

Perdidos

N

Media

Mediana

Moda

10

20

25

30

40

50

60

70

75

80

90

Percentiles

≥20%?

≥ 90%?

Page 16: 20121010141000

16

EJEMPLO CON VARIABLE EN INTERVALOS

Peso M. Clase

frec

Fr. acum.

40 – 50 45 5 5

50 – 60 55 10 15

60 – 70 65 21 36

70 - 80 75 11 47

80 - 90 85 5 52

90 - 100

95 3 55

100 – 130

115 3 58

En el histograma se identifica “unidad de área” con “individuo”.

Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase.

La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese masa.

Page 17: 20121010141000

17

EJEMPLO (CONTINUACIÓN)

Peso M. Clase fi Fi

40 – 50 45 5 5

50 – 60 55 10 15

60 – 70 65 21 36

70 - 80 75 11 47

80 - 90 85 5 52

90 - 100 95 3 55

100 – 130 115 3 58

58

( ) 8,76)10(11

365,437010

11

3610058

7570)(

100´

1

175 =−+=

+=

+=−

− Af

Fn

iYP

i

i

i

3,6958

)3(115)10(55)5(45 =+++== ∑

n

fxx i ii

( ) 6,661021

152960)10(

21

15258

60

)(2´1

1

=

−+=

−+=

−+=

− Af

Fn

YMedianai

i

i

Page 18: 20121010141000

18

MEDIDAS DE DISPERSIÓNMiden el grado de dispersión (variabilidad) de los

datos, independientemente de su causa.Amplitud o Rango (‘range’):

Diferencia entre observaciónes extremas.2,1,4,3,8,4. El rango es 8-1=7Es muy sensible a los valores extremos.

Rango intercuartílico (‘interquartile range’):Es la distancia entre primer y tercer cuartil.

Rango intercuartílico = P75 - P25

Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.

No es tan sensible a valores extremos.

150 160 170 180 190

0.00

0.01

0.02

0.03

0.04

0.05

150 160 170 180 190

25% 25% 25% 25%

Mín. P25 P50 P75 Máx.

Rango intercuartílico

Rango

Page 19: 20121010141000

19

Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.

Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. De interpretación difícil

para un principiante. La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la

información geométrica relevante en muchas situaciones donde la energía interna de un sistema depende de la posición de sus partículas. Energía de rotación (vía el coeficiente de inercia): patinadores con

brazos extendidos (dispersos) o recogidos (poco dispersos)

Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles en posición cercana a su posición de equilibrio (poco dispersos)

} agrupadosNoDatosxxn

Si

i )(1 22 ∑ −=

} agrupados Datos )(1

1 22i

ii fxx

nS ∑ −

−=

Page 20: 20121010141000

20

Desviación típica (‘standard deviation’)Es la raíz cuadrada de la varianza

Tiene las misma dimensionalidad (unidades) que la variable. Versión ‘estética’ de la varianza.

Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica.A una distancia de una desv. típica

de la media hay más de la ‘más de la mitad’.

A una distancia de dos desv. típica de la media las tendremos casi todas.

2SS =

20Estadística U.N.C.

Peso recién nacidos en partos gemelares

3.3002.900

2.5002.100

1.7001.300

900500

50

40

30

20

10

0

Desv. típ. = 568,43

Media = 2023

N = 407,00

Page 21: 20121010141000

21

Coeficiente de variación Es la razón entre la desviación típica y la media.

Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”

También se la denomina variabilidad relativa.Es frecuente mostrarla en porcentajes

Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa).

Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos

presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos

o donde el valor 0 sea una cantidad fijada arbitrariamentePor ejemplo 0ºC ≠ 0ºF

Esta Medida de Dispersión es útil para comparar la dispersión entre dos o más distribuciones de variables con diferentes unidades de medida.

( )%100x

SCV =

21Estadística U.N.C.

Page 22: 20121010141000

22

MEDIDAS DE FORMAAsimetría o Sesgo: Se utilizan para medir el grado de deformación de una

distribución de frecuencias tomando como referencia la Distribución Normal.

En las distribuciones SIMÉTRICAS media y mediana coinciden. Si sólo hay una moda también coincide. M(x)=Me=Mo y As=O

La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.Distrib. Asimétrica positiva: M(x)>Me>Mo y As > ODistrib. Asimétrica Negativa: M(x)<Me<Mo y As < O

La media tiende a desplazarse hacia las valores extremos (colas).

Las discrepancias entre las medidas de centralización son indicación de asimetría.

Las fórmulas del Coeficiente de Asimetría (As) son:

22

( )s

MexAs

s

MoxAs

−=

−=

3

Page 23: 20121010141000

23

APUNTAMIENTO O KURTOSISLa kurtosis nos indica el grado de apuntamiento (aplastamiento) o levantamiento de una distribución con respecto a la distribución normal o gaussiana. Es adimensional.Platicúrtica (aplanada): curtosis < 3Mesocúrtica (como la normal): curtosis = 3Leptocúrtica (apuntada): curtosis > 3

Apuntada como la normal

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

-3 -2 -1 0 1 2 3

x± s

68 %

Aplanada

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

0.0 0.2 0.4 0.6 0.8 1.0

x ± s

57 %

Apuntada

-2 -1 0 1 2

0.0

0.2

0.4

0.6

0.8

-2 -1 0 1 2

x± s

82 %

23

En el curso serán de especial interés las mesocúrticas y simétricas (parecidas a la normal).

( ) ( )( ) ( )

n

fxx

n

fxxk

iii

k

iii

smm

s

m

m

mK

∑==

∑=

==

=−

=−

1

2

1

4

224

22

42

2

4

y

:Donde ;

Page 24: 20121010141000

¿QUÉ HEMOS VISTO?

Parámetros Estadísticos y estimadores Clasificación

Posición (cuantiles, percentiles,...) Diagramas de cajas

Medidas de centralización: Media, mediana y moda Diferenciar sus propiedades.

Medidas de dispersión con unidades: rango, rango intercuartílico, varianza, desv.

típica sin unidades: coeficiente de variación

¿Qué usamos para comparar dispersión de dos poblaciones? Asimetría

positiva negativa

¿Podemos observar asimetría sin mirar la gráfica? ¿Cómo me gustan los datos?

Medidas de apuntamiento (curtosis) ¿Cómo me gustan los datos?

24