Conceptos básicos
2
• Población: es el conjunto sobre el qu,e estamos interesados en obtener conclusiones (hacer inferencia). - Normalmente es demasiado grande para
poder abarcarlo.
• Muestra: es un su'bconjunto de la po'blación al que tenemos acceso y so'bre el que realmente haoemos las obs,ervacion,es (medicio·nes) - De'bería ser "representativo'' - Esta formado por miembros
"seleccionados" de la población (individuos, unidades experimentales).
Conceptos básicos cont.
3
• Muestra Aleatoria: es u.na mu.estra ·bien representativa d.e la población. Se considera que cad_a elemento de la población ha tenid.o la misma oportunid.ad d.e formar parte d.e la mu_estra. Las conclu_siones basadas en u_na muestra aleatoria son confia'bles.
9'
9': población
M: muestra
Conceptos básicos cont.
4
• Variable: una V{1ri,1ble es una característica obs,ervable q1;1e varía entre loS' diferentes individttos de una po'blación. La información que ,disponemos ,de c,ada in,dividuo es resumida en variables.
• Dato: ,es un valor p,articular de la variable
• En los it1dividt1os de la.población cl1ile11a, de t1110 a otro es variable: - El grupo sa11gt1Í11eo
• {A, B, AB, O} - St1 11ivel de felicidad "declarado"
• {Deprimido, ...... , Mt1y Feliz} - El 1TÚ1nero de hijos
• {0,1,2,3, ... } - La altt1ra
• { 1.62 , 1. 7 4, ... }
Conceptos básicos cont.
5
• Parámetro: Es una cantidad numérica calculada so'bre una población.
- La altura media de los individuos de U'll r pa1s.
- La idea es resumir toda la información que hay en la po.blación en unos pocos ·números (parámetros).
, • Estadístico: ldem (cambiar po'blación por muestra).
-La altura media de los que estamos e11 este aula.
m
•Somos una mu,estra (¿representativa?) de la población.
-Si un estadístico se usa para aproximar un parán1etro también s,e le suele llamar estimador.
Conceptos básicos cont.
6
• Censo: es un listad,o de una o más características de todos los elementos de una población. Los cens,os po'blacionales se hacen cada 1 O años a nivel mundial.
• Encuesta: Es un listado de una o más características de todos los elementos de una muestra.
Definición de Estadística
La estadística es la Ciencia de la
7
sistematización, recogida, ordenación y presentación de los datos referentes a un fenó1neno que presenta "Variabilidad o incertidu1nbre para su estudio 1netódico, con objeto de
deducir las leyes que rigen esos fenó1nenos
é)1>• y poder hacer previsiones sobre los 1nis1nos to1nar e(e~ decisiones u obtener conclusiones.
"~~
División de la Estadística
8
• Estadistica Descriptiva: Conjunto de técnicas y 1nétodos que son usados para recolectar, organizar, y presentar en fonna de tablas y gráficas infonnación nu1nérica. Ta1nbién se incl11yen aquí el cálculo de 1nedidas estadísticas de centralidad y de variabilidad.
• Estadistica Inferencia): Conjunto de técnicas y 1nétodos que son usados para sacar conclusiones generales acerca de una pob ación usando datos de una 1nuestra to1nada de ella.
Gráfica del Análisis Estadístico
9
Estad1.Jica ~ Interenreial
I
P,01 , lac· o,,, 1
P'airámetrio
_ ~uesb:a Es · adís tic o
·. ·1 ·uestreo E .·. tadí· ti1co
Pasos en un estudio estadístico
10
• Plantear· hipótesis s.·obre una población: • Los fumadores tienen "más ausencias" laborales
que los no fumadores. • ¿En q11é sentido? ¿Mayor níunero? ¿Tiempo medio?
• Decidir qu,é datos r·e•C·oger ( diseñ·o de experimentos) - Qué indiv'iduos pertenecerán a estudio (muestras).
• Fu1nadores y no fu1nadores en edad laboral. • Criterios de exclusió11: ¿Có1no se eligen?
¿Descarta1nos los que padecen enfer1nedades crónicas?
- Qué d:'ltos recoger de los 1nis1nos (variables). • ú1nero de ausencias. • Tiempo de duración de cada ausencia. • ¿Sexo? ¿Sector laboral? ¿Otros factores?
Pasos en un estudio estadístico cont.
11
• Recoger los datos (muestreo):
- De qué fonna recolecto la inforn1ación.
• Describir (resumir) los datos obtenidos:
• Tien1po tnedio de ausencia en futnadores y no fun1adores (estadísticos)
• % de ausencias por fun1adores y sexo (frecuencias) gráficos, ...
• Realizar una inferencia sobre la población:
• Los fun1adores están de ausencia al n1enos 1 O días/ año 1nis de n1edia que los no fu1nadores.
• Cuantificar la confianza en la inferencia:
1'livel de confianza del 95%
,Significación del contraste: valor-p = 2% ¿?
Técnicas de Muestreo
12
a) lVIuestreo Aleatorio. Se usa cuando a cada elemento de la población se le quiere dar la misma oportunidad de ser elegido en la n1uestra.
b) Muestreo Estratificado . Se usa cuando se conoce de antemano que la población está dividida en e tratos, que son equivalentes a categorías y los cuales por lo general no son de igual tamaño. Luego de cada estrato e saca una n1uestra aleatoria, usuahnente proporcional al tamaño del
e trato.
e) lVIuestreo por conglomerados ("Clusters"). En e te caso la población e divide en grupos llamado conglon1erados. Luego se elige al azar un
cierto nún1ero de ello y todos los elementos de los conglon1erados elegidos forman la muestra.
d) Muest1~eo Sistemático. Se usa cuando lo datos de la población están ordenados en forn1a numérica. La primera observación es elegida al azar de entre los primero elen1entos de la población ·~y7 las siguientes observacione · on elegidas guardando la n1isma distancia entre si.
Tipo de Variables
13
• Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número (no se pueden hacer operaciones algebraicas con ellos)
01ninales: Si sus valores no se pueden ordenar • Sexo. Gn1po Sanguíneo. Religión. acionalidad. Fu1nar (Sí/No)
Ordinales : Si sus valores se pueden ordenar • :tvkjoría a un tJatanliento. Grado de satisfacción. Intensidad del dolor
• Cuantitativas o Numéricas Si sus valores son nu1néricos (tiene sentido hacer operaciones algebraicas con ellos)
Discretas: Si toma valores enteros • Número de hijos. Nú1nero de ciganillos, Nu1n. de '"cu1npkaños"
Continuas: Si entre dos valores son posibles infinitos valores intermedios. • Altura, · ngreso fanriliar. Dosis de 1nedica nento ad1ninistrado. edad .... --
Tipo de variables cont.Ejemplos:
• Es buena idea codificarlas variables como números para poder procesarlascon facilidad en un computador.
• Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos.
–Género (Cualitativa : Códigos arbitrarios)
1 : Hombre
2 : Mujer
–Raza (Cualitativa: Códigos arbitrarios)
1 : Blanca
2 : Negra, ...
–Felicidad Ordinal: Respetar un orden al codificar.
1 : Muy feliz
2 : Bastante feliz
3 : No demasiado feliz
• Se pueden asignar códigos a respuestas especiales como
0 : No sabe
99 : No contesta...
14
Ejemplo: Tipo de variables cont.
15
E11 u11 progra1na para la detecció11 de l1iperte11sión e11 t111a muestra de 30 hombres e11 edades e11tre 30 y 40 años, la distribución de la presió11 diastólica (1níniina) e111n1n Hg fue la sigtliente:
70 85 85 75 65 90 110 95 910
60 75 80 120 85 95 90 70 100
80 90 95 90 95 110 1100 85 810
La variable en estudlio es :
Presi,ón diastólica (m1edida en mm de Hg)
una variable numérica ,continua.
70
65
75
Tabla de Frecuencias
16
• Exponen la información recogida e:n la muestra de m,anera intelige:nte:
- Frec11e11cias absol11tas : Co11ta.bilizan ,el número de individ11os de cada. 1nodalidad.
,
- Frec11encias relativas (porcentajes unitarios) : Idem, ¡Jero di,ridido p,or el total, n,o,rmaliza.das.
- Frec11e11cias ac-11muladas absol11tas y relativas : A,c11n1.ulan las fr,ec11e11cias absolutas y relativ,.as. S,011 especial1nente í1tiles para calcular cuantiles ( como, , rer,emos más adelante).
Tabla de Frecuencias cont.
17
Ordenamos los datos en forma creciente:
La amplitud total A = 120 –60
Número de clases: K = 301/2 = 5.48. Aprox. 6 clases
Extensión del intervalo: H = A/ K = 60/6 = 10
En este caso, entonces, la tabla de frecuencias tendrá
aproximadamente 6 clases de amplitud 10 unidades en
cada clase.
-
60 65 65 70 70 70 75 75 75 ,so ... -- _,__ -- -- -- -t- -- - -- -
80 ,so ,85 ,85 85 ,85 90 90 90 90
90 95 95 95 95 1
100 100 110 110 1
120
Tabla de Frecuencias cont.
18
Variable
60 -70
70 -ao ,810 910 - .
90 -100
1001 ,. 10
11 10 ... , 1120
120 -1301
total
Frecuencia Absoluta
3
6
7
9
2
2
1
310
Frecuencia Absoluta Acumulada
3
9 -
16
25
27
2,9
,3,Q
Frecuencia R,elatíva
0,,1
Q12
-02.3,
0.3
o 07
0.07
0.03
1.0
Frecuencia Re:liativa A(umulada
01,.1
01,.,3
0.5,3 7 0,.83
0.910
Oi.'97
'11.0i01
Histograma de la distribución de
presión diastólica en mm de Hg
según las frecuencias absolutas:
19
f
60 70 80 90 100 110 120 130 1m 1m de Hlg
20
,Gr,á.fi,cos p,ar,a v.aria'bles ,c.u.,ali tati v,as
• Diagramas de barras - Alturas proporcionales a
la frecuencias ( abs .. o re).) - Se pueden aplicar tan1bién
a , aria.bles discretas
• Diagramas de sectores (tartas, polares) - El área de cac.ia sector es
proporcional a su frecuencia (abs. o reL)
¿Su vida es excitante o a>unida?
-'81' ... ja IF8B1
88 1.0
Gráficos para variables cualitativas cont.
21
• Pictogramas - Fáciles de
entender. - Cada 111odalidad
deh••··e., '.s·-er., · ' ' ' ' . '' ' ' "-- ' ....
proporcional a la frecuencia.
lf ow we aarne tn sehaol
ea1t
laike ~~~~
walk llllllll . ....
nurnbe..- c.f ehild..-ea.
22
Gráfico1s difer 1encial1es para v,ariables nu1néricas
Son diferentes en fiinción de que las variab]es sean discretas o continuas. \ Talen con free .. abso]utas o relativas.
Diagramas barras pa1~a variables discretas • Se deja un espacio entre ba1Tas para
indicar los valliores que no son posibles
Histogramas para v. continuas • El área que hay ba~o del histograma
entre dos puntos cualesquiera indica llia cantidad (porcentaje o frecuencia de individuos en el intervalo ..
;;:o
100
375
255
215
1127
N(ime ro de hijos
Edad del em:ueS'lado
Diagramas Integrales
23
s
3
1
• Cada uno de los anteriores diagra.1nas tiene su correspondie11te diagrama integral. Se realizan a partir de las fiecuencias acumuladas . Indican, para cada valor de la varia.ble, la cantidad (frecuencia) de individuos qt1e poseen un valor inferior o igual al 1nis1no.
frecuencias 4 n.
1 Diagramas diferenciales
absolutas frecuencias
3
12 absolutas ... 2
acumuladas g
1 o 2 4 6 8 10
1 2 3 4 12 Nr
10 frecuencias 4
5/12 relativas 8
6 Diagrama acumulado
3/12 1 4
1/12 :1 2 3 4 2
1 1 2 3 4 o 2 4 6 8 10
Estadísticos
25
• Po ici "n (Basados en el orden)
Dividen un conjunto ordenado de dato . en gn1po con la n1isnia
cantidad de indi . iduo ·. • Cuantile percentil cua11ile decile ...
• C ntralización
Indican alores con r p cto a lo. que lo . dato · parecen agrupar ,e. • Media. mediana y moda
,. Di ·persión
Indican la n1a -or o 111enor conc,entracion de- ]o . dato con re pecto
a la n1 dida d centralización. • De iación e tándar. co fi ient de ariación rango
. ananza
• arma
A ·in1etría
punta1niento o curto, i
26
Centraliza e ión
• Añaden unos cuantos cas,os particulares a las 1nedid,as de posición. Son 1nedidas que 'buscan posiciones (valor1es) con respecto a los que los datos 1nuestran tendencia a agniparse.
• Media: 1es la 1ne,dia arit1nétic,a (pro1ne,dio) ,de los valores ,de un,a v,aria'ble. S,u1na ,de los v,alor,es ,dividido por el ta1naño 1nuestral. ,_ Me,dia de {2, 2, 3, 7} es (2+2+3+7)/4 = 3.5 ,_ Convenie11te cuan,do los ,datos se 1concentran
si1nétricainente con respe 1cto ,a ese v,alor. Muy sensible a valores extr1e1nos.
,_ Centr,o ,de gr,ave,da,d ,de los ,datos.
27
Centralización • Median,a: es un valor que ,divide ,a las
o·bserva.ciones ,en ,dos gru.pos ,con el 1nis1no nfun,ero ,de in,dividuos (perc,entil 5:0). Sj el nfunero ,de ,datos es p,ar, se elige la 1ne,dia de los ,dos ,d,atos centrales. ,_ Me,diana ,de 1, 2, 4, 5, 6, 6, 8 es 5: ,_ Me,diana ,de 1, 2, 4, 5, 6, 6, 8, 9 es (5·+6)/2 == 5.5 ,_ Es ,conveniente cuan,do los ,datos son
,asi1nétricos. No es sensible a v,alores extre1nos. • Mediana de 1, 2, 4 , 5 , 6, 6, 800 es 5. ¡La media es
117.7!
• Moda: es el/los valor/es ,don,de la ,distribución ,de frecuencia ,alcanza un 1náximo.
28
76
Peso
lJnímodal
m
Media centro de masas
1 o
o •
10
Mediana
•
Altura mediana
f .
1 o
1
1 11}
1
3
29
Asim,etría ,o s,esg,o
• U na distribución e , ,imétrica i la nntad izquierda de u di tribución e , la imagen e pecular de u nntad derecha.
• En las distribuciones ünétricas inedia y mediana coinciden. Si sólo hay una moda también coincide ..
• La a imetría e , po iti, a o negativa en función ,de a qué lado ,e encuentia la cola de la di tribución.
• La inedia tiende a desplazaI ,e hacia la , valores extreinos (colas) ..
• La "", discrepancia , entre las inedida , de centralización on indicación de asimeu·ía.
.Aslm. Neptiva
Cola
j
Aaim.. Ptoaimla Col•
j
ª" ·············,- - ····· ·············································· ·· ·························· 60 ... , .............. ~
Medla111 Med.ia
30
5' ...
2(1 .. \ 30 _,.. .... --.... ·· .•...... ,
100
30
Apuntamiento o 1curtosis (kurtosis)
• La curtosis nos indica el grado de apuntamiento (aplastan1iento) de una distribución con respecto a la distribución normal o gaussiana. E adin1ensional.
• Platicúrtica: curtosis < O • Mesocúrtica : curtosis == O • Leptocúrtica:: curto is > O
Plaroic.úrlica Meso,cúr · ca
Los g1ráfiicos poseen la 1miism,a 1medii,a y desviiaciión típiica., pero diiferente 1grado de apuntamiiento o curtosiis.
411IO - -------~
0 .11.,,- - - - - - - -3 27 37
16 32 4'2 · 2 62 72 82 92 0,2 38
Le,p ocúrtica
31
Medidas de dispersión
•,Mide11 ,el ,grado, d,e dis¡Jersión (variabilidad)
de los datos, i11dep,endientemente de su cat1sa.
•Amplitud o Rango ( ran.g,e'): ····~. L.a .diferen•cia ,entre las .,... ·• .. .. , ..... .
obs·er\1acio11es extremas. •r••~ ,_
' • ··~ ... ~. ·-,, .....
40~------~
30
20
10
o
'••· • ....
2 1,4 3,.§.,4. El rango ,es 8-·1=7 ······:·.~·:.-:.-:, .. ,=.:,¡.·•"'·-······-.. _---•III Es 1nuy sen ible a los valore "', ......... ••···················· .. •· ················ 0
extremos. . ... ........................................... .. ............. .
• Rango intercuartílico ('inter,quartile rang,e'): Es la di tancia entre el primer y tercer cuartil.
., Rango intercuartHico = P75 - P25
Parecida al rango pero eliminando la , observacione , más extremas inferior,es y superior,e \.
o e , tan ,ensible a valore , extremos.
Desv. típ. = 11 .6
1/ledl a = 70, o
M= 90 ,DO
PESO
32
Fr
1 ----------·
0.75-
0.2 5 _,______ __
o
P25 Ql
Ps:o Q2
Recorrido o rango ii ntercu artH ioo
P75 Q3
inediana
X
Concepto de Variabilidad
33
► El co,ncepto de vari'abillidad está installado, en el centr,o de lla e,stad ística com1,o discipllina. , ya que a través de sus
herram1i,entas po,de,m1,os cuantificar, ente,nder, y expl icar las difere,ntes fuentes d,e var iabi lli'dad en el pro,blle,1ma que, no,s h,e1mo,s pro,pu,est,o estudiar.
► Nada que no, tenga variabi'll idad po,drfa ser de interés en este, co,ntexto,, ya que ell ,estudiar un so,lo, ,objeto, ,o un s,oll,o
individuo, ser ía sufic iente para dar respuesta a t ,odas
nuestras preguntas.
Vari alb i I i dad En tre-S,u j eto,s: ► Ej: Los el ientes t 1iienen ,oom p,orta1m1ientos,, hábitos de ,c0i1m¡pras ,
caracter1ísti,ca:s y gustos, d i:sti1111t0i:s .. U na for m1a de v1is,ual izar la vari1ab i1lli dad es obs,,ervando com1,o se distr1ibuyen lllos d ii1entes ,en ,cuanto a c,omipor tam1ient,o, hábitos de ,c0i1m¡pras, caracter1ístiicas y gustos dist1ii11to,s ..
Conceptos de Variabilidad cont.
34
► Variabil idad lntra-Sujeto,s: ► Ej: Los m1ismos clientes pueden cambiar a través del tie1m1po. Los
ciudadanos con derecho a voto en un país.,, pueden camlb~ar sus preferencias,, especiall1m1ente a días de una eleociión .. Esto puede ser más iintenso en aquellos ind ividuos m1ás iindecisos.Tam1bién es relevante me11c rn onar que elll instru1m1ento 1m1ismo y cóm10 fue diseñado, puede alterar llas respuestas de los i ndiviid 1Jos. Tam1bién es I lamada variiiabilidadl por error de m1ed ición según sea el caso ..
► Variabil i'dad Mu,estral: ► Se introduce al estudiar una muestra de la población. En
muchas investigaciones de mercad,o al ,estudiar una p,oblación objetivo mediante una encuesta, debemos hac,erlo a través de una 1muestra.
Conceptos de Variabilidad cont.
35
► Supongamos que h,emos tomado una mu,estra r,epr,es,entativa de la población, ,es decir, que ha sid 10 ,elegida aleatoriam,ente d,e ella. En es,e escenario, l1os resultados del análisis de la ,encuesta en nu,estra muestra arr1ojarán valores distintos, cuantificabl,emente distintos, a los valor,es qu,e arrojarían ,en otra mu,estra d,e la misma población. Incluso usando ,el mismo m,ecanismo o esquema de muestr,e10. A esta fu,ent,e d,e variabilidad la llamamos variabilidad muestral, y ,es el tema central de la inferencia estadísti 1ca.
Conceptos de Variabilidad cont.
36
A B e D E F G 11 64 66, 46, 71 66 73 61
2 75, 58: 90 73 85 75 44 3 64 76, 73, 50 5,9 54 74 4 84 65, 41 73 57 73 6,91 5, 73 5,91 63, 66, 48 6.Q 56 6 791 75, 9,3, 45, 72 6,0 78 7 63 73, 75, 49' 6,1 41 70 8 711 42 45, 71 6,2: 38 79 9 1 76 44 72: 66, 64 491 6.Q
110 5,11 50 73, 78: 58 76 53,
1111 49' 63, 68: 6,2: 71 6,7 6.Q 112 5,11 63, 5,91 67 33, 62 6,1
113 65, 38: 40 80 63, 5,7 67 114 68 76, 81 65, 50 79 42 115, 491 63, 72: 62: 62: 53, 8:6 116 84 5,91 40 57 67 48 54 117 60 67 70 4A 5,2: 68 76 118, 68, 47 591 73, 63 6,1 5,91
1191 63 63, 72: 95, 6,1 6,1 8:6 20 33 5,2 63, 691 5,1 53, 54
Conceptos de Variabilidad cont.
37
• La 1m1edi'a de estos 31.50 datos es 61.9, llo q¡1Ue corresponde a la 1media pobllac~onall
■ s·· · ~1 c-·a·· [lc-u lla, 1m· o· ,1s,: e· 11 p· .:·1k"' ·o• 1me· ·d l'1•·0· · d1 e· lla--· 1m· ue· ·s·· :tira, d~ e· •a, 1ma. ·· n""·o· 1 o·· .· . .. . . .. .. 11 .· . ·. i : 1 . 11 . . . ..· . ·. . 11 ·. · . .. .. ·. ·. IL .. I . · 1 J . · · ,
obtene1mos 631.7
■ AII repetir 40 veces ell expe1ri1mento se obtienen [los s~guientes res u llt adlos ~
63 7 624 56.5 66.9 61.7 55.7 67 4 58.9 62 7 59 6 6 70.1 58.8 59.6 57 3 59.3 59 O 606 61 6 65.8 65.2 57.91 531 6 65 O 59 5 571 66 31 57.2 66 2 57 7 680 65 O 65 3 65 fi 57 8 63.1 60 1 660 59 8 60 fi
Conceptos de Variabilidad cont.
38
$-•
•
o (1) - • ·-"'O (l)
E fJ- • e • c.
g_
a) -U'),
• m- • 1
40 m1uestra.s de tama.ño 1 O •
•
• • • • •
• • •
• • • • • • • •
• • • • •
1 1 1
30
Muestra
• • •
•
•
•
•
• •
1
. o
Conceptos de Variabilidad cont.
39
~-
,(D -
,o_ (,O
m-
•
•
•
40 muestras die tam1año 30,
• • •
•
•
•
111
20
Muestra
• • •
1
30
•
• •
•
1
,40
Conceptos de Variabilidad cont.
40
40 muestras, 1de tamaño 1 oo
$-
• • _,e •• • ~ • • • • • • • ,Q) N e (e :e (J) """1.-----.---------------...il-~ -------..Z....--II ,e • • • • "- . . . ~ . . .
• • •
• • • • • • • • • •
• fB-
11 11 1 1 1
o iO 20 30 Oi
Mues a
Distribución de Frecuencias
41
Variable
X n
• • •
X ~
• • •
XK
Frecuencia Absoluta
n 1
• • •
nk
• • •
nK
Frecuencia Absoluta Acumulada
~ -11]
• • •
¡
N,.= ¿ni • • •
N-N K
Frecuencia Relativa
1\-~ • • •
n h.=-lt
• • •
J _11K 1x--
N
Frecuencia Relativa Acumulada
~=h.
• • •
¡
-=L~ • • •
H K=
Distribución de Frecuencias cont.
42
Intervalo
[!,-½[ • • .
[L_-4 J • • •
[4-4i[
Marca de Clase
• • •
e_
• • •
c.
Frecuencia Absoluta
1
• • •
n
• • •
n¡.:
Frecuencia Absoluta Acumulada
~ l = 111
• • •
,-= ¿11. . -
• • •
--K
Frecuencia Frecuencia Relativa Relativa
Acumulada
h = n1 H=} 1
• • • • • .
h. =!!_: H_=¿j . -
• • • • • •
11¡.: h¡.:=- H¡.:=l
Medidas de Resumen de Centralización cont.
44
► Med1iana:
0 En un conjunto de datos ordenados de ImenoI a n1ayo , la med iana corresponde al dato centra .. Aquel] que deja un S10%, de lla 1in forrnación bajo él y e ot o, 50% es mayor ,o, ~gual.
xu .. . ····:.·· -1 , x(.. ) . . ..... , xc.· : , '¡¡ ~ J es lla muestr a ordenada:
1 X.. + x . ( ~/ ) .,/ (r,~/ +l)
11
)¡fe·.· - < ·'. V.l ~· .. - .
/ - ·/ -
2
X .,/ +l , ( -' )
·• st n ,es p1ar
ili ..
si n e·s 1mp1ar
Medidas de Resumen de Centralización cont.
45
► Mediana:
ª En datos agrupados la mediana puede ser estimada como:
Donde:
L,,.,, = Límite inferior de la clase de la mediana
A = Amplitud de la Clase
hme = Frecuencia Relativa de la clase de la mediana
Hm,,= Frecuencia Relativa acumulada de la clase que precede a la mediana.
Medidas de Resumen de Centralización cont.
46
► Moda:
0 Es aquel valor observado que tienen mayor frecuencia.
0 En datos a1grupados se puede considerar como mo1da a la rnarca die clase de ~a cate1goría con Imayor frecuencia.
0 1Cuando dlo1s vallores 1ocurren con la misn1a frecuencia y ésta es la más alta, a1mbos valores son 1modasJ por lo que el conjunto de datos es Bimo1dal.
0 1Cuando n ingún val 1or se repite se diice que no1 lha·y· moda.
Medidas de Resumen de Centralización cont.
• La media es sensible a la presencia de datos
extremos.
• La mediana es muy útil cuando la distribución de la
variable es poco simétrica.
47
/ Valor Extremo
X
Medidas de Resumen de Dispersión
49
► Varianza:
Cuantifica la dispersión de los datos con respecto a la media. Se obtiene como la media de las desviaciones cuadráticas de cada dato con respecto a la media.
Medidas de Resumen de Dispersión cont.
50
► Desviación Estándar
Es la raíz cuadrada de la varianza. Es la más usada de las medidas de dispersión.
Medidas de Resumen de Dispersión cont.
51
/ "\ I \\
I
/ \ \ \ \
► En di stribu cio nes 1elat iivame nte simétri cas Rª ecidas a la distribución no rmal , se cump le que
\ 68% \
apro,x i r11adar11e nte e 1 68% 1de lo,s in d iv•iiduo,s della p 10,b llac ión se sitúa entre lla r11ed ia _ un a desv•iació n est ándar.
\ \"''---
- -.x-s x· .x+s
Medidas de Resumen de Dispersión cont.
52
/
/ //
¡ ¡
/ /
/ ,,.l
/
/ \ \
\ \
\ \
95% \ \
► En d istr ibucio,nes re I ati v·ar11e nte simétricas parecida.s a la d istribuc ión nor mal , se cur11plle que ap roximadame nte ell 95'%, de los iindiiv iduos
\
d e la pobllació n se sitúa entre la media + 2' d esviació,n estándar
\ '·
x +2s
Medidas de Resumen de Dispersión cont.
53
-~\ I . I \
/ \
/ \ / \
/ 99% \ / .
i \ /~ ,,..,-" ,,..,~
x·
► En d istribu ciones rellativam ent e simétri cas parecidas a. lla distribuc ión no rmal se cump le que ap ro,x imadarnente el '99% de llo,s i1ndividuos de 1a. po,blac ión se sitúa entre la med ia ·- 3 desviaciones est ánd ar.
Medidas de Resumen de Dispersión cont.
54
Esta aproximación no funciona en distribuciones asimétrica como la distribución de los ■
ingresos.
Medidas de Resumen de Dispersión cont.
55
► Coeficiente de Variación:
Describe la desviación estándar relativa a la media, sirve para comparar la variación en diferentes poblaciones. Se calcula de la siguiente forma:
s CV=-
x
56
• Coef1cie11te de variación ,. Es la razón entre la des,riació11 típ,ica y la 111edia.. (~V
ivlide la de· .viación típ,ica en forma de X qué tamaño tiene con respecto a. la inedia' ,
Tarnbién se la denomina variabilidad relativa . Es fr,ecuente mostrarla ,en porcentaillies
• Si ~a media es 80 y ~a de viac.ión típica 20 entonce CV 20/80=0 25 25% ( variabilidad relativa)
,. Es una cantida,d adimensionaL Interesante para coirnparar la variab,ilidad de diferentes variables.
Si el p,eso tiene CV=30% y la altura tiene CV=1 0% los indi iduos presentan más dispersión en peso que en al tura ..
,. No deb,e usarse cuando la , ,ariable presenta valores negativos o, ,donde el valo,r O sea una cantidad fij .a,da arb,itraria1nente - Por ej emplo 0ºC +- 0ºF
Medidas de Resumen de Dispersión cont.
57
✓ El error est ándar m ide la vari abiirdad esperada del promed io rnuestral co I1110
est in1ación de lla media polbllacionall.
"' ""
SE1M = ~ ~ Depende de n -vn
~ij -a....-:•~ ,--.--~.------7 d: ..
""
.. u,
1
o
. . }
1
ID ' 3l1
. .
1
,i¡¡,
~
fS
.. r.o
1 &l
fí..
al
el
Dl
o
., .. al
.. .. li!t
"' .,
111
., "'
o
·o m
<>
<> . . • . .. . ' . .
tD
40m
o . . . . . .
estras .. e tamah. 30
. • • <> • • .
<> . . .. . . . ,. . • . <> .
21)
r .a
estras de tamano 1100
. . • . . . ❖ . • . . . • • . . ~ . • .
• . .
:::.o. ID
1, tsa1ra
Medidas basadas en el Orden (Posición)
58
□ Mediana
□ Percentiles
\ □ Deciles
□ Cuartiles
□ Mínimo
□ Máximo
Percentil 10%
Estadísticos de Posición
59
• Se d,efine el cuantil d,e orden a coITio un valor d,e la varia'ble por d,e-bajo d,el cual se encuentra u.na frecuencia acuITiulad.a a.
• Casos particulares son los percentiles, cuartiles, d,eciles, quintiles, ...
Estadísticos de Posición cont.
60
• Percentil de orden k = cuantil de orden k/100 - La mediana es ,el percentil 50.
- El perc,entil de orden 15 deja p,or de·baj,o al 15% de las o·bserv.aciones. Por enci1na qu,eda. ,el 85%.
• Cuartiles: Dividen a la llluestra en 4 grupos con frecu.encias silllilares. - Pri1ner cuartil = Percentil 25 = ,Cua.ntil 0.25.
- S,egu11do cuartil = P,ercentil 5,0 = Cuantil 0.5 =
mediana.
- Tercer cu,artil = Percentil 75 = cuantil 0.75.
Estadísticos de Posición cont.
61
Ejeniplo : El 5% de lo recién 11acido · tie·ne un p _ o ,d masiado bajo. ¿Qu, ·' p S·O s co·nsid ra 'd 1nasiado, bajo'?
• P'ercentil 5 o cuantil 0.05.
· Qué p,e o ,e, · t1perad,o ólo por ,el 2-5% de lo in,dividt10 ·?
• Perc ntil 75.
El col st, rol , di tribt1y, i1n, 'tricam 11t n la población. s.e co11 id,era patológico· los valores extremo· .
1 90º¾ . ,de ·10· · ·- d·v·d110.. ,o,. - n•o·· -ale, · 1 ·· t ·-e q11é . . o __ 1n _ 1 1 _ __ n 1n _ . n _1 __ _
valor · . , , :ncu ·ntran los individuos normal · .? • ntre el perc ntil 5 y l 95 .
¿Entr qu ' valor s , 11cu, ntran la mita,d d · lo in,dividt10 má normale · de una po·blación?
• ntre el cuartil 1 y 3 °.
Estadísticos de Posición cont.
Son valores de la variable que dividen a
la muestra en partes de igual porcentaje.
Los percentiles separan la muestra en
grupos de 1% cada uno (son 99).
• Cuartiles: agrupan 25% c/u (son 3).
• Quintiles: agrupan 20% c/u (son 4).
• Deciles: agrupan 10% c/u (son 9).
62
Estadísticos de Posición cont.
Se calculan de la siguiente forma:
Ordenar de menor a mayor los n datos.
Obtener D = n * k /100
a) Si D es entero, entonces el percentil kcorresponde al valor medio de lasobservaciones ubicadas en las posicionesD y D+1.
b) Si D no es un entero, el percentil kcorresponde a la observación ubicada en laposición entera siguiente, es decir, [D+1]
63
Estadísticos de Posición cont.EjemploDeterminar los percentiles 25 y 60 de lossiguientes datos: 3, 5, 5, 8, 12, 15, 21, 23, 25, 26,29, 35P25 D= 12 x 25 /100 = 3resulta un entero, por tanto el P25 corresponde alpromedio de las observaciones en las posiciones3º y 4º, es decir, P25= (5+8)/2 = 6.5P60 D = 12 x 60 / 100 = 7.2Dado que no es un entero, nos “movemos” alentero siguiente.Es decir, P60 = 23 (observación en la 8ª posición)
64
Estadísticos de Posición cont.
65
► En1 datos agrupados e K-esimo percentil p1u1ede ser estimado como:
P. L :4 ( le H ) 1 = ··_ . ·+-- ·-- - ... ··' .. k P- J·•·• ·· 10:··· o. Pt - 1 .· ~ .. · .. ·
.P
L = Lmn11ite inferior de lla clas del percenti ll k-ésir110., ~~-
A = A1m1p llitu d 1de lla Cllase
hP:,__ = F1recu,enciia R,ellativa. de la. clase del pe1rcent:ill llk-ésii1rno
H = Firecu,enciia R,ellativa. acumula.da de lla clase qu,e JJire[.edle al pe1rcentiill p.__
k - és imo.
Box-plot (Caja con bigotes)
66
o . o ~
o Ln ~ " . .,
e o M
e U")
. N
o o N
e U)
-
-
-
-
-
-
1 :rvfáxi1110
3 1er Cl1artil
• 1vf1edian1a
1 l 1er C·uartil
1 1 1 1 1 1 1
\,ÍÍ11]1Il0 1 1
Box-plot cont.
Un gráfico asociado a los cuartiles es el box-plot: en un eje se
ubican los siguientes 5 números extraídos de una muestra:
mínimo, cuartil 1, cuartil 2, cuartil 3 y máximo.
67
Una regla para determinar si un dato es anómalo (outlier) es:
• Si un dato es < Q1 – 1.5(Q3-Q1)
• Si un dato es > Q3 + 1.5(Q3-Q1)
01 02' I
0 3 max
\ •
l--------- l---------1---------1---------1--------- I--------- I
68
Nlive-les de Hb e·n 6·1 adulltos nor1male-s
~ 110 112 112 118 119 120 120 120 125 126 127 128 130 132 1 133 133 134 1 135 138 138 138 142 144 145 146 148 148 148 149 149 150 150 150 15] 15]
1
]53 ]53 154 154 154 154 155 156 156 158 158 160 1 160 160 163 164
~ 165 166
168 168 1 o 1 2 172 176
Un resumen de esta serie en 5 val,ores
Min=105 ; Max=179; Q1=133 ;Q3=158 :; Q2=Me= 149
R,ecorrido iI1tercuartil
Min Max
1 1
Q1 Me Q3
105 133 149 158 179
Estadísticos de Forma: Asimetría y Curtosis
Momentos de una distribución
• Los momentos de una distribución son medidas obtenidas a partir de
todos sus datos y de sus frecuencias absolutas. Estas medidas
caracterizan de tal forma a las distribuciones que si los momentos de
dos distribuciones son iguales, diremos que las distribuciones son
iguales. Podemos decir que dos distribuciones son más semejantes
cuanto mayor sea el número de sus momentos que coinciden.
• Se define el momento de orden h respecto al origen de una
variable estadística como:
70
• Es inmediato observar que, para h=1, a1 es la media de la
distribución.
- . n , h n, , n, °" x·.·.•. ·1, ni ah - x1 - + x2 - + ... + x ~ N N N i= N
Estadísticos de Forma cont.
• Se define el momento central de orden h o momentorespecto a la media aritmética de orden h como:
• Es inmediato observar que m2 = S2
• Relaciones entre los momentos:
1.
71
( ) Jn 1 ( - \ h In ( - ) In r ( - , In . 1m = 1 x . - X - + X - x, -N + ... + 1 x r - X ---!:... = L x i - X 1
N N 1~ N
- 2
n12 == 0 2 - X
Estadísticos de Forma cont.Forma de una distribución
Cuando dos distribuciones coinciden en sus medidas deposición y dispersión, no tenemos datos analíticos para ver sison distintas. Una forma de compararlas es mediante su forma.Bastará con comparar la forma de sus histogramas o diagramasde barras para ver si se distribuyen o no de igual manera.
Para efectuar este estudio de la forma en una sola variable,hemos de tener como referencia una distribución modelo.Como convenio, se toma para la comparación la distribuciónnormal de media 0 y varianza 1. En particular, esconveniente estudiar si la variable en cuestión está más omenos apuntada que la Normal. Y si es más o menos simétricaque ésta, para lo que se definen los conceptos de Asimetría yCurtosis, y sus correspondientes formas de medida.
72
La asimetría y su medida
• El objetivo de la medida de la asimetría es, sinnecesidad de dibujar la distribución defrecuencias, estudiar la deformación horizontal delos valores de la variable respecto al valor centralde la media. Las medidas de forma pretendenestudiar la concentración de la variable hacia unode sus extremos.
• Una distribución es simétrica cuando a la derechay a la izquierda de la media existe el mismonúmero de valores, equidistantes dos a dos de lamedia, y además con la misma frecuencia.
73
La asimetría y su medida cont.
74
Una d istribución es Sim1étrica1 si x = Me = Mo
En caso contrario , decimos que la d istribución es Asimétrica , y ento nces puede ser de dos tipos:
Asimétrica a 1-a izquierda. Es el caso en que M.o > M.e > ~
Curva Asimétrica a la izquierda -
Asi1m,étrica ,a l,a dle-recha. Es e l ca1so en que Mo <Me < x
Curva1 Asim1étrica a llo derecha
La asimetría y su medida cont.Coeficiente de asimetría de Fisher
• En una distribución simétrica los valores se sitúan en torno a
la media aritmética de forma simétrica. El coeficiente de
asimetría de Fisher se basa en la relación entre las distancias a
la media y la desviación típica.
75
En 1una dis ribució,n .s~métrica x = M,e = Mo y m3 = O. Por eso, defne co1mo:
¿(X¡ - x) n¡ i=l
N _ m3 -----s s
• Si g 1 > O, la d 'is ri lbución es asimétrica positiva o a la derecha1. • Si g 1 = 01 la dis rilbu ció,n ,es s'im,é ri c ,a1. • Si g 1 < O, la d 'is ri lbució,n ,es ,asimétrica ne·gatiVa o a l,a1 izqu~erda.
La asimetría y su medida cont.Coeficiente de asimetría de Pearson
• Se basa en el hecho de que en una distribución simétrica, la
media coincide con la moda. A partir de este dato se define el
coeficiente de asimetría de Pearson como:
76
x -Mo A - s
S. A O I di . t .. b . ' . ' .. ·t·· 1 d h • ,1 P > 1, a -1s. n -.,ucI10,n ,es as1me nea pos1 1va ,o, a a - erec -,a . • S1 Ar - O, la dlis.tnb,uc11ó,n ,es s:imé r ica. • Si Ap < O, la dli'strib,ució,n ,es asi1 é rica neg,at'iva1 o a la ¡·zq¡uierda ..
Es e, coe ic i,ente no, e,s. muy b ueno para medir asimet 'as lev,es ...
La curtosis y su medida• El concepto de curtosis o apuntamiento de una distribución
surge al comparar la forma de dicha distribución con la forma
de la distribución Normal. De esta forma, clasificaremos las
distribuciones según sean más o menos apuntadas que la
distribución Normal.
• Coeficiente de Curtosis de Fischer
El coeficiente de curtosis o apuntamiento de Fischer
pretende comparar la curva de una distribución con la curva de
la variable Normal, en función de la cantidad de valores
extremos e la distribución. Basándose en el dato de que en una
distribución normal se verifica que:
77
La curtosis y su medida cont.
78
Se define el coeficiente de curtosis de Fisher como:
• Si g2 = 0, la distribución es Mesocúrtica: Al igual que en la
asimetría es bastante difícil encontrar un coeficiente de curtosis
de cero, por lo que se suelen aceptar los valores cercanos ( 0.5
aprox.).
• Si g2 > 0, la distribución es Leptocúrtica
• Si g2 < 0, la distribución es Platicúrtica
r -
L i(x¡ - x }4 ni i= l
Top Related