20121010141000
-
Upload
brayan-calderon -
Category
Documents
-
view
348 -
download
0
Transcript of 20121010141000
TEMA 03: MEDIDAS
ESTADISTICAS
1
Docente: Ms. Selene Yengle Del Castillo
2
PARÁMETROS Y ESTADÍSTICOS Parámetro: Es una cantidad numérica calculada
sobre una población. Ejm.: Rendimiento académico medio de los alumnos de las universidades de un país.La idea es resumir toda la información que hay en la población en unos pocos números (parámetros).
Estadístico: Es una cantidad numérica calculada sobre una muestra. Ejm.:
El Rendimiento Académico medio de los que estamos en esta aula.Somos una muestra (¿representativa?) de la población. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador.
Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a *TODA* la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño.
3
CLASES DE MEDIDAS DE ESTADISTICAS:
UN BREVÍSIMO RESUMEN SOBRE ESTADÍSTICOS
Posición Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos. Cuantiles: percentiles, cuartiles, deciles,...
Centralización Indican valores con respecto a los que los datos parecen
agruparse. Media, mediana y moda
Dispersión Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización. Desviación típica, coeficiente de variación, rango, varianza
Forma Asimetría Apuntamiento o curtosis
4
5
MEDIDAS DE TENDENCIA CENTRAL SON AQUELLAS MEDIDAS QUE NOS INDICAN LA POSICIÓN DE UN VALOR RESPECTO A LA VARIABLE Y ADEMÁS NOS INDICA
COMO LOS DATOS TIENDEN A AGRUPARSE. MEDIA ARITMÉTICA (‘mean’).- se representa por: . Es la
media aritmética (promedio) de los valores de una variable. Suma de los valores dividido por el tamaño muestral.
a)Fórmula para Datos No Agrupados: x1, x2, ..., xn
Ejm: Hallar la Media de los siguientes datos: 2,2, 3, 7 es (2+2+3+7)/4=3,5
La media aritmética es conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Representa el centro de gravedad de los datos.
n
xx
n
ii∑
== 1
x
6
B) FÓRMULA PARA DATOS AGRUPADOS: SI ESTÁ EN INTERVALOS USAR COMO XI LAS MARCAS DE CLASE. SI NO IGNORAR LA COLUMNA DE INTERVALOS.
Intervalos de clase Xi
(Variable)
fi Xifi
L0 – L1 x1 f1 X1f1
L1 – L2 x2 f2 X2f2
... … … …
Lk-1 – Lk xk fk Xkfk
TOTAL n
n
fxx
k
iii∑
== 1
∑=
=k
iiihxx
1
La media aritmética también se puede calcular tomando como ponderaciones a las frecuencias relativas simples (hi);
7
MEDIANA (‘median’).- Se representa por: Me. Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos; de tal manera que el 50% de los datos son menores que el valor mediano y el otro 50% son valores mayores que la mediana.a) Fórmulas para Datos No Agrupados:
a.1) Si el número de datos es impar, se elige la media del dato central y se utiliza la sgte. Fórmula:
Ejm.: Hallar la Mediana de 1, 2, 4,5 ,6 ,6 ,8 es 5a.2)Si el número de datos es par, se elige la media de los
dos datos centrales y se utiliza la sgte. Fórmula:
Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5La Mediana es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. Ejemplo:
E jm.: Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!
2
1 valor delPosición
+= nMe
+
= 1
2;
2 valor delPosición
nnMe
8
B) FÓRMULAS PARA DATOS AGRUPADOS: CONSIDEREMOS DOS CASOS:
Caso a: Cuando Fi-1 = n/2; Me = Y’i-1
Caso b: Cuando Fi-1 < n/2;
Caso a: Cuando Fi-1 < n/2; Me = Yi
Caso b: Cuando Fi-1 = n/2; Variable Discreta
Variable Continua
21 ii YY
Me+= −
( )Af
Fn
YMei
i
i
−+=
−1
1-2´
Donde: Fi-1 : Frecuencia absoluta acumulada anterior al intervalo ó posición mediana.Yi : Marca de clase de la posición mediana.Yi-1 : Marca de clase anterior a la posición mediana.A : Amplitud del intervalo de clase.n/2 : Número de datos dividido entre dos.fi : Frecuencia absoluta simple del intervalo ó posición mediana.Y’i-1 : Límite Real Inferior del intervalo mediano.
9
PASOS A SEGUIR EN EL CÁLCULO DE LA MEDIANA: Obtener las frecuencias absolutas acumuladas .
Buscar la mitad de las observaciones, por medio de n/2. Localizar el resultado anterior (n/2) en la columna de las frecuencias
absolutas acumuladas y denominarle Fi-1 . Si no aparece el valor n/2, al valor inmediatamente anterior se denomina F i-1 y al inmediatamente superior se denomina Fi.
Si Fi-1 es menor que n/2 ó igual que n/2, entonces el valor de la mediana será igual aplicando las formulas de los casos antes mencionados.
• MODA (‘mode’).- Se representa por: Mo. Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. También se define como aquel valor de la variable que presenta la mayor frecuencia (absoluta simple) ó el valor que más se repite. La fórmula es: Mo = Yi (igual a la marca de clase de la mayor frecuencia absoluta simple).
10
Moda en datos agrupados en intervalos de clase. Para hallar la moda se procede así:
Se determina el intervalo que contiene a la moda (intervalo de mayor frecuencia)Se aplica la fórmula:
Mo = LRI + A ( donde )21
1
∆+∆∆
11 −−=∆ ii ff12 +−=∆ ii ff
y
El valor más frecuente se denomina fi, el valor inmediatamente anterior fi-1 y el valor inmediatamente superior en posición fi+1.
ESTADÍSTICOS DE POSICIÓN
11
Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α.
Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
ESTADÍSTICOS DE POSICIÓN
12
Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las
observaciones. Por encima queda el 85%
Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Cuantil 0,25 Segundo cuartil = Percentil 50 = Cuantil 0,5 = mediana Tercer cuartil = Percentil 75 = cuantil 0,75
13
CUARTILES.- DIVIDE A LA MUESTRA EN 4 GRUPOS CON FRECUENCIAS SIMILARES. SE REPRESENTA POR QI, DONDE I=1,2,3. LA FÓRMULA ES LA SIGUIENTE:
( )Af
Fn
iYQi
i
i
i
−
+=−1
1-
4´
DECILES.- Divide a la muestra en 10 grupos con frecuencias similares. Se representa por Di, donde i=1,2,3,4,5,6,7,8,9. La fórmula es la siguiente:
( )Af
Fn
iYDi
i
i
i
−
+=−1
1-
10´
PERCENTILES Ó CENTILES.- Divide a la muestra en 100 grupos con frecuencias similares. Se representa por Pi, donde i=1,2,3,…,99. La fórmula es la siguiente:
( )Af
Fn
iYPi
i
i
i
−
+=−1
1-
100´
Q1 Q2 Q3
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
25% 25% 25% 25%
1% 1%1%1%1% …………………………. 1%
D1 D2 D3 D4 D5 D6 D7 D8 D9
P1 P2 P3 P4 P5 …. P50 ……… P99
14
EJEMPLOS
El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué peso se considera “demasiado bajo”?
Percentil 5
Percentil 5 del peso
Peso al nacer (Kg) de 100 niños
fre
cue
nci
a
1 2 3 4 5
05
10
15
20
25
15
EJEMPLO
Número de años de escolarización
5 ,3 ,3
5 ,3 ,7
6 ,4 1,1
12 ,8 1,9
25 1,7 3,5
68 4,5 8,0
56 3,7 11,7
73 4,8 16,6
85 5,6 22,2
461 30,6 52,8
130 8,6 61,4
175 11,6 73,0
73 4,8 77,9
194 12,9 90,7
43 2,9 93,6
45 3,0 96,6
22 1,5 98,0
30 2,0 100,0
1508 100,0
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Total
Frecuencia PorcentajePorcentajeacumulado
Estadísticos
Número de años de escolarización1508
0
12,90
12,00
12
9,00
11,00
12,00
12,00
12,00
12,00
13,00
14,00
15,00
16,00
16,00
Válidos
Perdidos
N
Media
Mediana
Moda
10
20
25
30
40
50
60
70
75
80
90
Percentiles
≥20%?
≥ 90%?
16
EJEMPLO CON VARIABLE EN INTERVALOS
Peso M. Clase
frec
Fr. acum.
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100
95 3 55
100 – 130
115 3 58
En el histograma se identifica “unidad de área” con “individuo”.
Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase.
La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma “estaría en equilibrio” si tuviese masa.
17
EJEMPLO (CONTINUACIÓN)
Peso M. Clase fi Fi
40 – 50 45 5 5
50 – 60 55 10 15
60 – 70 65 21 36
70 - 80 75 11 47
80 - 90 85 5 52
90 - 100 95 3 55
100 – 130 115 3 58
58
( ) 8,76)10(11
365,437010
11
3610058
7570)(
100´
1
175 =−+=
−
+=
−
+=−
− Af
Fn
iYP
i
i
i
3,6958
)3(115)10(55)5(45 =+++== ∑
n
fxx i ii
( ) 6,661021
152960)10(
21
15258
60
)(2´1
1
=
−+=
−+=
−+=
−
− Af
Fn
YMedianai
i
i
18
MEDIDAS DE DISPERSIÓNMiden el grado de dispersión (variabilidad) de los
datos, independientemente de su causa.Amplitud o Rango (‘range’):
Diferencia entre observaciónes extremas.2,1,4,3,8,4. El rango es 8-1=7Es muy sensible a los valores extremos.
Rango intercuartílico (‘interquartile range’):Es la distancia entre primer y tercer cuartil.
Rango intercuartílico = P75 - P25
Parecida al rango, pero eliminando las observaciones más extremas inferiores y superiores.
No es tan sensible a valores extremos.
150 160 170 180 190
0.00
0.01
0.02
0.03
0.04
0.05
150 160 170 180 190
25% 25% 25% 25%
Mín. P25 P50 P75 Máx.
Rango intercuartílico
Rango
19
Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. De interpretación difícil
para un principiante. La expresión es fea, pero de gran belleza ‘natural’ (físicamente). Contiene la
información geométrica relevante en muchas situaciones donde la energía interna de un sistema depende de la posición de sus partículas. Energía de rotación (vía el coeficiente de inercia): patinadores con
brazos extendidos (dispersos) o recogidos (poco dispersos)
Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles en posición cercana a su posición de equilibrio (poco dispersos)
} agrupadosNoDatosxxn
Si
i )(1 22 ∑ −=
} agrupados Datos )(1
1 22i
ii fxx
nS ∑ −
−=
20
Desviación típica (‘standard deviation’)Es la raíz cuadrada de la varianza
Tiene las misma dimensionalidad (unidades) que la variable. Versión ‘estética’ de la varianza.
Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica.A una distancia de una desv. típica
de la media hay más de la ‘más de la mitad’.
A una distancia de dos desv. típica de la media las tendremos casi todas.
2SS =
20Estadística U.N.C.
Peso recién nacidos en partos gemelares
3.3002.900
2.5002.100
1.7001.300
900500
50
40
30
20
10
0
Desv. típ. = 568,43
Media = 2023
N = 407,00
21
Coeficiente de variación Es la razón entre la desviación típica y la media.
Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media”
También se la denomina variabilidad relativa.Es frecuente mostrarla en porcentajes
Si la media es 80 y la desviación típica 20 entonces CV=20/80=0,25=25% (variabilidad relativa).
Es una cantidad adimensional. Interesante para comparar la variabilidad de diferentes variables.Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura. No debe usarse cuando la variable presenta valores negativos
o donde el valor 0 sea una cantidad fijada arbitrariamentePor ejemplo 0ºC ≠ 0ºF
Esta Medida de Dispersión es útil para comparar la dispersión entre dos o más distribuciones de variables con diferentes unidades de medida.
( )%100x
SCV =
21Estadística U.N.C.
22
MEDIDAS DE FORMAAsimetría o Sesgo: Se utilizan para medir el grado de deformación de una
distribución de frecuencias tomando como referencia la Distribución Normal.
En las distribuciones SIMÉTRICAS media y mediana coinciden. Si sólo hay una moda también coincide. M(x)=Me=Mo y As=O
La asimetría es positiva o negativa en función de a qué lado se encuentra la cola de la distribución.Distrib. Asimétrica positiva: M(x)>Me>Mo y As > ODistrib. Asimétrica Negativa: M(x)<Me<Mo y As < O
La media tiende a desplazarse hacia las valores extremos (colas).
Las discrepancias entre las medidas de centralización son indicación de asimetría.
Las fórmulas del Coeficiente de Asimetría (As) son:
22
( )s
MexAs
s
MoxAs
−=
−=
3
23
APUNTAMIENTO O KURTOSISLa kurtosis nos indica el grado de apuntamiento (aplastamiento) o levantamiento de una distribución con respecto a la distribución normal o gaussiana. Es adimensional.Platicúrtica (aplanada): curtosis < 3Mesocúrtica (como la normal): curtosis = 3Leptocúrtica (apuntada): curtosis > 3
Apuntada como la normal
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
-3 -2 -1 0 1 2 3
x± s
68 %
Aplanada
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
0.0 0.2 0.4 0.6 0.8 1.0
x ± s
57 %
Apuntada
-2 -1 0 1 2
0.0
0.2
0.4
0.6
0.8
-2 -1 0 1 2
x± s
82 %
23
En el curso serán de especial interés las mesocúrticas y simétricas (parecidas a la normal).
( ) ( )( ) ( )
n
fxx
n
fxxk
iii
k
iii
smm
s
m
m
mK
∑==
∑=
==
=−
=−
1
2
1
4
224
22
42
2
4
y
:Donde ;
¿QUÉ HEMOS VISTO?
Parámetros Estadísticos y estimadores Clasificación
Posición (cuantiles, percentiles,...) Diagramas de cajas
Medidas de centralización: Media, mediana y moda Diferenciar sus propiedades.
Medidas de dispersión con unidades: rango, rango intercuartílico, varianza, desv.
típica sin unidades: coeficiente de variación
¿Qué usamos para comparar dispersión de dos poblaciones? Asimetría
positiva negativa
¿Podemos observar asimetría sin mirar la gráfica? ¿Cómo me gustan los datos?
Medidas de apuntamiento (curtosis) ¿Cómo me gustan los datos?
24