EstadisticaBasica.pdf

90
ESTADÍSTICA BÀSICA Curs 2000-2001 Francesc Carmona Alexandre Sánchez Departament d'Estadística UNIVERSITAT DE BARCELONA Sèrie de Quaderns Docents del Departament d'Estadística, Núm. 11 Barcelona, 31 d’octubre de 2000

Transcript of EstadisticaBasica.pdf

  • ESTADSTICA BSICA

    Curs 2000-2001

    Francesc CarmonaAlexandre Snchez

    Departament d'Estadstica

    UNIVERSITAT DE BARCELONA

    Srie de Quaderns Docents del Departament d'Estadstica, Nm. 11

    Barcelona, 31 doctubre de 2000

  • 2

  • 3

    NDEX

    1 INTRODUCCI...............................................................................................................................................5

    1.1 EL CONCEPTE DESTADSTICA .....................................................................................................................71.2 ALGUNES DEFINICIONS BSIQUES...............................................................................................................81.3 VARIABLES ESTADSTIQUES.........................................................................................................................81.4 ESCALES DE MESURA.....................................................................................................................................91.5 EL MOSTRATGE ..............................................................................................................................................9

    1.5.1 Conceptes fonamentals en el mostratge.........................................................................................91.5.2 Procs de mostratge........................................................................................................................ 101.5.3 Procediments del mostratge.......................................................................................................... 10

    1.6 LES DADES: SRIES ESTADSTIQUES..........................................................................................................151.7 LESTADSTICA EN LA INVESTIGACI DE MERCATS....................................................................15

    1.7.1 Tipus de disseny pels estudis de mercats..................................................................................... 161.7.2 Les fonts dinformaci.................................................................................................................... 161.7.3 Tipus denquestes............................................................................................................................ 171.7.4 Relaci entre la naturalesa de la investigaci i els tipus dinformaci................................. 18

    1.8 EXERCICIS .................................................................................................................................................19

    2 ORGANITZACI DE DADES UNIVARIANTS................................................................................. 21

    2.1 INTRODUCCI ...............................................................................................................................................232.2 DADES DISCRETES........................................................................................................................................232.3 ATRIBUTS......................................................................................................................................................272.4 DADES CONTNUES......................................................................................................................................292.5 DADES AGRUPADES.....................................................................................................................................302.6 SRIES CRONOLGIQUES............................................................................................................................342.7 EXERCICIS .................................................................................................................................................36

    3 ESTADSTICS ............................................................................................................................................... 39

    3.1 MESURES DE POSICI, DE DISPERSI I DE FORMA...................................................................................413.1.1 Mesures de posici.......................................................................................................................... 413.1.2 Mesures de dispersi ...................................................................................................................... 423.1.3 Mesures de forma ............................................................................................................................ 42

    3.2 MESURES DE TENDNCIA CENTRAL ..........................................................................................................433.3 MESURES DE DISPERSI..............................................................................................................................453.4 MESURES DE FORMA ...................................................................................................................................46

    3.4.1 Mesures dasimetria........................................................................................................................ 463.4.2 Mesures de kurtosi .......................................................................................................................... 46

    3.5 DIAGRAMA DE TIJA I FULLES......................................................................................................................483.6 PERCENTILS..................................................................................................................................................493.7 ESTADSTICS DORDRE................................................................................................................................50

    3.7.1 Estadstics de centralitat................................................................................................................ 513.7.2 Estadstic de dispersi (rang interquartilic) .............................................................................. 513.7.3 Estadstic dasimetria ..................................................................................................................... 513.7.4 Valors atpics (outliers) .................................................................................................................. 513.7.5 Distribuci normal.......................................................................................................................... 51

    3.8 GRFICS BASATS EN ESTADSTICS DORDRE............................................................................................523.8.1 Sumari dels 5 nmeros................................................................................................................... 523.8.2 Diagrama de caixa (Boxplot)........................................................................................................ 533.8.3 Diagrama de tija i fulles................................................................................................................. 54

    3.9 EXERCICIS .................................................................................................................................................55

    4 DESCRIPCI DE DADES BIVARIANTS ............................................................................................ 59

    4.1 DADES BIVARIANTS.....................................................................................................................................614.2 TAULES CREUADES......................................................................................................................................62

    4.2.1 Construcci duna taula a partir de les dades originals.......................................................... 634.2.2 Recodificaci de variables............................................................................................................. 64

    4.3 REPRESENTACIONS GRFIQUES PER A DADES BIVARIANTS...................................................................66

  • 4

    4.4 CARACTERSTIQUES NUMRIQUES PER A DADES BIVARIANTS..............................................................684.4.1 Mesures per a dades quantitatives no agrupades...................................................................... 684.4.2 Mesures d'associaci per a taules creuades............................................................................... 694.4.3 Mesures d'associaci basades en l'estadstic khi-quadrat ....................................................... 704.4.4 Mesures d'associaci basades en la reducci proporcional de l'error. ................................ 704.4.5 Mesures d'associaci per a variables mesurades en escala ordinal...................................... 71

    4.5 INTERPRETACI DE TAULES DE TABULACI CREUADA ..........................................................................714.5.1 s de percentatges.......................................................................................................................... 714.5.2 Elaboraci de les relacions........................................................................................................... 72

    5 INTRODUCCI A LA REGRESSI ..................................................................................................... 75

    5.1 INTRODUCCI ...............................................................................................................................................775.2 LA REGRESSI SIMPLE.................................................................................................................................785.3 EL MTODE DELS MNIMS QUADRATS.......................................................................................................785.4 PREDICCIONS................................................................................................................................................815.5 MESURES DE LAJUST ..................................................................................................................................81

    5.5.1 Descomposici de la variabilitat.................................................................................................. 825.5.2 Coeficient de determinaci ............................................................................................................ 82

    5.6 CLCULS DE REGRESSI AMB CALCULADORA ........................................................................................835.7 EXERCICIS .................................................................................................................................................86

    BIBLIOGRAFIA...................................................................................................................................................... 89

  • 5

    1 Introducci

  • 6

  • 7

    1.1 El concepte dEstadstica

    Quan ens enfrontem per primer cop a lestudi de lEstadstica ho fem amb una ideaprvia, i sovint equivocada, del que anem a tractar. Suposem que li preguntem a unapersona que passa pel carrer:

    - Sap de que tracta lEstadstica?

    No costa res imaginar lentrevistat que contesta:

    - s clar, lestadstica tracta de

    No est gens clar per, qu s el que respondr a continuaci.Per uns lEstadstica fa referncia a les dades amb qu es treballa, les taules i grficsamb qu ens bombardegen tots els mitjans de comunicaci.Altres veuran en lEstadstica aquesta eina, mig mgica mig maligna, de que es valen elspoltics per provar coses com que tots hem guanyat, menys lEstadstica, ja que lesenquestes han fallat totes.

    Si amb pacincia mirem dagrupar les respostes, deixant de banda les de carcteranecdtic, podrem formar a grans trets dos grans grups de respostes :Les que consideren lestadstica com una collecci de fets i dades resumides i

    classificades dacord a un determinat criteri. Per referir-nos a aquesta accepci esreserva el terme destadstica. Una estadstica s una collecci de dades classificadasegons un criteri determinat.

    Les que veuen en lEstadstica un mtode per tractar i analitzar la informacicontinguda en les dades.

    Ser en aquesta darrera accepci en que ens basarem en aquest curs, i que consideralEstadstica com un instrument dedicat a la recollecci, organitzaci i anlisidobservacions o dades numriques. Tampoc cal oblidar que lEstadstica, a ms dunmtode, s una branca de la cincia ntimament lligada amb les matemtiques, queestudia lleis i fenmens que depenen de latzar.

    Centrant-nos en el concepte dEstadstica com un mtode podem distingir duesorientacions en la seva prctica que ens permeten distingir entre Estadstica Descriptivai Estadstica Inferencial

    LEstadstica descriptiva proporciona mtodes per ordenar, agrupar, classificar i representar les dades.caracterstiques numriques que permeten resumir les dades amb la intenci de

    condensar la informaci amb la mxima claredat i la mnima prdua.

    La Inferncia Estadstica s un conjunt de tcniques que permeten induir objectivamentconclusions sobre tot un collectiu (poblaci) a partir dun coneixement parcialdaquest (mostra). Pretn establir un model general a partir dun conjunt petit dedades.

  • 8

    1.2 Algunes definicions bsiques

    Al descriure la funci de lEstadstica han aparegut alguns termes que, si b podenresultar familiars, tenen un significat molt precs en aquest context. Per aquest motiu,comenarem per definir amb precisi alguns dels termes que emprarem sovint daraendavant.

    Individu : s la unitat ms simple subjecte a observaci i registre de dades. Potcorrespondre o no a un individu fsic com una persona o una pea. Per exemple,en un estudi per determinar si les empreses tenen un servei propi de missatgerslindividu seria lempresa.

    Poblaci : s el conjunt de referncia (real o hipottic) de tots els individus sobre elsque volem estudiar un cert fenomen i amb alguna caracterstica comobservable. Es delimita en funci de propietats dels individus. Un cop ms elsentit estadstic no sempre coincideix amb el sentit usual de la paraula. La midade la poblaci s el nmero dindividus que la formen. Distingim entrepoblacions finites i infinites.

    Mostra : s un subconjunt dindividus observats que vol ser representatiu de lapoblaci a estudi. Valors mostrals sn els valors numrics observats per alsdiferents individus de la mostra. Mida mostral s el nmero dindividusseleccionats per a la mostra.Parlarem dun cens quan la mida de la mostra coincideix prcticament amb la dela poblaci.

    Variable : s una caracterstica numrica o atribut observada sobre els individus.

    1.3 Variables estadstiques

    Ja sha definit ms amunt el significat de variable. En la prctica de lEstadstica resultade gran importncia el tipus de variable amb que es treballa, aix com lescala en que esmesura aquesta. Aix condiciona el tipus dinformaci que aporta i els tipus danlisiqu podem fer sobre ella..

    El suport duna variable s el conjunt de valors que pot prendre a priori, s a dir abansque lhaguem mesurat. Per exemple, si comptem el nombre de vehicles de transportduna companyia el seu suport seran els enters positius i el zero, per no pot prendrevalors negatius.

    Dacord amb el tipus de suport, les variables es classifiquen en:

    Quantitatives : sn aquelles que prenen valors numrics. Poden serDiscretes : prenen valors numrics en un conjunt finit o numerable.

    Exemples: nm. de germans, nm. de cares fins que surti creu, unitats venudes, ...Contnues : prenen valors numrics en un conjunt infinit no numerable.

    Exemples: temps que dura un procs, pes en kg duna persona, longitud en mmduna fulla, ...

  • 9

    Qualitatives: sanomenen aix perqu es refereixen a qualitats dels objectes estudiats(estat civil, sexe, color, marca...) i prenen valors que no sn numrics. Tambsanomenen atributs.

    1.4 Escales de mesura

    Una idea molt lligada al tipus de variable, i tamb de gran importncia a lhora dedecidir com sanalitzen les dades s la de lescala, s a dir, la forma en que es mesura oquantifica la informaci.

    Les variables qualitatives es poden mesurar en escales nominals o ordinals. Lesquantitatives en escales dinterval o de quocient. La taula segent resumeix elsprincipals tipus descales i les seves caracterstiques.

    VARIABLES ESCALA CARACTERSTIQUES EXEMPLESQualitatives Nominal Categories no numriques sense

    cap relaci dordre.Estat civil, Sexe, Grupsanguini, Marca,Color

    Qualitatives Ordinal Els valors sn categories nonumriques amb una relacidordre.

    Nivell dEstudisClasse socialCategoria (Hotel)

    Quantitatives Interval Existeix una unitat numricaconstant. Noms podemcomparar valors per la difernciaentre ells

    Talles de roba,Talla de sabates,Temperatura en CComparaci : Trestalles ms

    Quantitatives Quocient Com lanterior, per amb un zeroabsolut. Podem comparar valorsper quocient (doble, meitat)

    N de fills, sou, edat.Comparaci : A gua-nya el doble que B

    1.5 El mostratge

    Excepte en la investigaci de laboratori o en el cas que una poblaci sigui prou petita,ens veiem obligats a treballar amb mostres extretes duna poblaci.La caracterstica ms important daquestes mostres ha de ser, juntament amb la sevarepresentativitat, que garanteixi que els resultats obtinguts sobre ella siguingeneralitzables, inferibles a tota la poblaci. Es dedueix doncs, fcilment, la importnciaduna correcta extracci de la mostra, que dara endavant anomenarem mostratge.

    1.5.1 Conceptes fonamentals en el mostratgeEls conceptes fonamentals en el mostratge sn:

    Element mostral: Un element s cada una de les unitats bsiques sobre les que es volobtenir informaci.

    Poblaci: Una poblaci o univers, com tamb sanomena, s el conjunt de tots elselements definits abans de la selecci de la mostra. La poblaci sha de definiren termes de (a) elements, (b) unitats de mostratge, (c) abast i (d) temps.

  • 10

    Unitat mostral: Una unitat mostral s la unitat bsica que est disponible per serseleccionada en alguna fase del mostratge. Cont els elements de la poblaci quepoden formar part de la mostra.Exemple:En un estudi sobre la prctica desports a laire lliure:- Lelement s cada persona entre 18 i 45 anys que practica esport a laire lliure.- Les unitats mostrals poden ser estadis, camps desport, circuits de jogging, etc.

    Abast: Labast s la regi geogrfica objecte destudi.Temps : El temps s el perode temporal de lestudi i, habitualment, coincideix amb el

    de recollida de la mostra.Marc mostral: El marc s la llista que cont tots els elements de la poblaci, sense

    repeticions i sense elements aliens a aquesta.Exemple:Si volem fer un estudi entre la gent en edat de votar, el cens i el marc nocoincideixen. Caldria eliminar del cens tots els individus amb menys de 18 anys.

    Poblaci en estudi: Una poblaci en estudi s el conjunt delements del qual sagafa lamostra. Sovint, les dificultats dordre prctic fan que la mostra real sagafi dunapoblaci una mica diferent de la que es defineix a priori. En el marc mostralfalten elements de la poblaci.Exemple:Fem una enquesta telefnica i a la llista de socis dun club falten els telfonsdalguns.

    1.5.2 Procs de mostratgeAmb els conceptes del mostratge que acabem de definir, podem descriure de formageneral els passos per seleccionar una mostra.

    Pas 1. Definici de la poblaci. Aix inclou els elements, unitats de mostratge, abast itemps.

    Pas 2. Identificaci del marc mostral del qual se seleccionar la mostra.Pas 3. Decisi sobre la mida de la mostra. En aquest pas es determina el nmero

    delements que sinclouran a la mostra. s un problema difcil de decidir quanuna mostra s massa gran o massa petita.

    Pas 4. Selecci dun procediment especfic mitjanant el qual es determinar lamostra. Exactament, es tracta de prendre la decisi respecte a quins elementsde la poblaci sinclouran a la mostra.

    Pas 5. Selecci fsica de la mostra basant-se en el procediment escollit en el pas 4.

    1.5.3 Procediments del mostratge

    Existeixen molts i diferents procediments pels quals els investigadors poden seleccionarles seves mostres, per inicialment podem diferenciar dues menes de mostratge:

    Probabilstic. On tots els elements de la poblaci tenen una probabilitat coneguda deser seleccionats per a la mostra. La selecci es fa amb regles de decisimatemtiques que no permeten cap mena de discreci a linvestigador oentrevistador de camp. Es pot dur a terme si es disposa dun marc mostral quepermeti sortejar laparici dels elements a la mostra.

  • 11

    Observem que diem una probabilitat coneguda i no una probabilitat igual. Elmostratge probabilstic amb igualtat doportunitats per a tots els elements s nomsun cas particular que rep el nom de mostratge aleatori simple.Lavantatge dels mtodes de mostratge probabilstic s que tenen una base terica enla teoria de mostres i lestadstica matemtica, a partir de les quals podem calcular elgrau fins el que el valor de la mostra por diferir del valor de la poblaci dinters.Aquesta diferncia sanomena error mostral. Aix podem acotar lerror mostral oavaluar la precisi de les estimacions.Linconvenient principal daquests mtodes s el seu cost. Tamb cal destacar ladificultat de disposar dun marc mostral acurat.

    No probabilstic. On la selecci dun element de la poblaci per a que formi part de lamostra es basa, en part, en el criteri de linvestigador o de lentrevistador de camp.No existeix probabilitat coneguda sobre la oportunitat de selecci de cada elementparticular de la poblaci. En conseqncia, no podem calcular lerror mostral i noconeixem si els valors estimats calculats amb la mostra sn exactes o no.El cost i les dificultats de disseny sn ms reduts que amb els mtodesprobabilstics. Poden donar bons resultats, per tamb poden produir errors que,ams, sn difcils dacotar i que no sempre seliminen augmentant la mida de lamostra.

    MTODES NO PROBABILSTICS

    Mostres per conveninciaCom el seu nom indica, sagafaran unitats mostrals que ens facilitin la seva mesura,que siguin accessibles. Aix redueix els costos del mostratge, per la mostraescollida no sol ser massa representativa i per tant les estimacions dels parmetrespoden ser ben diferents dels seus valors poblacionals reals. A ms a ms no spossible mesurar la precisi de les estimacions o acotar lerror coms.Permet aconseguir informaci rpida i bruta, adient per a estudis exploratoris.Exemples:(1) Sollicitar la opini de persones que transiten per un centre comercial.(2) Utilitzar un grup proper a linvestigador per a fer una enquesta o consulta.(3) Entrevistes a gent del carrer per a un canal de televisi.

    Mostratge per criteriLinvestigador determina els elements que sinclouran en lestudi en base al seucriteri, s a dir, escull els individus que creu que proporcionen les unitats msrepresentatives. Si el criteri s bo, les mostres seran ms representatives que en elmostratge per convenincia, per tampoc podem acotar lerror mostral o mesurar laprecisi.Exemple:Si shan descollir ciutats per fer proves dun nou producte, una elecci a latzarpodria donar ciutats massa petites o poc representatives. Linvestigador potseleccionar les que creu ms adients.

    Mostres compostes d'unitats-tipusLa poblaci estudiada es descomposa en grups homogenis i s'agafa una nica unitat-tipus dins de cada grup.

  • 12

    Exemple:Per estudiar unes determinades caracterstiques dels autombils, dividim la poblacide turismes en grups o categories com (a) utilitaris, (b) familiars, (c) gran-turisme,(d) monovolums, etc. i escollim un vehicle de cada grup que analitzarem enprofunditat.

    Mtode de les quotesLobjectiu s reproduir, a escala, la poblaci en la mostra. Es fixen unesdeterminades proporcions o quotes que del total de la mostra corresponen a unitatsd'unes determinades caracterstiques de control. Les unitats sescullen lliurementper de forma que hi apareguin els percentatges fixats de cada caracterstica o grupespecfic de poblaci.Aquestes caracterstiques poden ser el sexe, classe dedat, nivell destudis, etc.Aquest mtode s similar al mostratge aleatori estratificat, on tamb es considera lapoblaci dividida en estrats i on sagafa un nombre dindividus dacord amb el pesde cada estrat en la poblaci. Ara b, mentre que en el mostratge aleatori estratificatsagafen els individus a latzar dins de cada estrat, aqu es poden escollir perconvenincia, la qual cosa, si b ho fa ms rpid i barat, tamb pot induir errors,biaixos i minves de representativitat. En tot cas, s el procediment ms utilitzat eninvestigaci comercial.Si les quotes fan referncia a ms duna caracterstica, la selecci dels individus potno ser tan senzilla com sembla a primera vista, ja que cal verificar que compleixinsimultniament vries condicions. En aquest cas parlarem de quotes creuades. Si persimplicitat sagafa cada quota per separat parlarem de quotes marginals.Exemple:Suposem que considerem les segents caracterstiques:

    1. Sexe 2 categories Home/Dona2. Nivell destudis 3 categories Primaris/Medis/Superiors3. Grups dedat 5 categories [0,18), [18-30), [30-45), [45-65), [65,)

    Si volem entrevistar 25 persones per dur a terme un estudi dintenci de compra,entre majors de 18 anys, podem fer-ho, per quotes marginals, fent servir el fullsegent:

    Caracterstica n dentrevistestotals: 25

    Entrevistesrealitzades

    SexeHomeDona

    1312

    1234567....131234567...12

    Edat18-3030-4545-65>65

    7846

    1234567123456781234123456

    Nivell dEstudisPrimarisMitjans

    Superiors

    10105

    123456789101234567891012345

  • 13

    Les quotes creuades requereixen que lenquestador combini simultniament els trescriteris. Per exemple, en una mostra de 190 persones on sassignessin les mateixesquotes que en lestudi dabans, per simultniament, tindrem:

    Home DonaEdat P M S P M S18-30 15 10 5 15 10 530-45 15 10 5 15 10 545-65 9 6 3 9 6 3>65 8 4 2 8 4 8

    Mostratge per rutes aleatriesL'entrevistador ha de seguir un cam determinat a latzar en la selecci de la mostra.Aquest procediment, si est ben dissenyat, s prcticament aleatori.Normalment sutilitza en combinaci amb el mostratge per quotes.Exemple:En una enquesta electoral lentrevistador segueix un carrer i escull a latzar unnmero, un pis i una porta per seleccionar lindividu que contestar lenquesta.

    Bola de neuAquest mtode consisteix en escollir una petita sotsmostra, per algun dels mtodesanteriors, per a continuaci demanar a cada component que suggereixen altrescomponents, que haurien de ser inclosos en la mostra.El mtode t lavantatge de lespecificitat, motiu pel qual, si la poblaci no snombrosa o est molt especialitzada, es facilita molt la selecci dels individus en lamostra.s un bon mtode per estudis exploratoris i quan s'entrevisten experts o poblacionsmarginals.Exemple:En un estudi sobre drogues, entrevistem a un grup redut de drogoaddictes i aquestsens remeten als seus coneguts.

    MTODES PROBABILSTICS O ALEATORIS

    Mostratge aleatori simpleLa caracterstica daquest mostratge s que totes les unitats tenen en un momentdonat la mateixa probabilitat de passar a formar part de la mostra. Pot fer-se ambreemplaament o sense.En el mostratge aleatori simple amb reemplaament totes les unitats de la poblacitenen la mateixa probabilitat de ser seleccionades per formar part de la mostra.Aquesta probabilitat no varia a mida que sefectua el mostratge, ja que un individupot, tericament, ser seleccionat ms duna vegada.En el mostratge aleatori simple sense reemplaament, si la poblaci s finita, laprobabilitat que sesculli una unitat s la mateixa per a totes les unitats que resten encada extracci i depn de les que s'han escollit anteriorment per formar part de lamostra.

  • 14

    Per seleccionar una mostra per aquest mtode duna poblaci finita sacostumen autilitzar taules de nmeros aleatoris.A la prctica, si la mida de la poblaci s gran amb relaci a la mida de la mostra, sindiferent realitzar el mostratge amb o sense reemplaament, per lanlisi resultams simple quan suposem reemplaament.Exemple:Una enquesta electoral basada en el cens duna ciutat gran.Si la poblaci s petita considerarem el mostratge sense reemplaament si no volemque un individu pugui aparixer ms dun cop en la mostra.Exemple:Una enquesta sobre el socis dun club amb menys de 1000 carnets.

    Mostratge aleatori estratificatEl mostratge aleatori simple sha dutilitzar quan els elements de la poblaci snhomogenis respecte a la caracterstica a estudiar, s a dir, quan no coneixem a prioriquins elements de la poblaci tindran valors alts o petits. Quan disposemdinformaci sobre la poblaci que influeix en la caracterstica que estudiem, convconsiderar-la per seleccionar la mostra.Exemple:En les enquestes dopini sabem que les respostes sn diferents en funci del sexe,edat, professi, etc.Ens interessa que la mostra tingui una composici anloga a la poblaci. Aix, lapoblaci mare es divideix en classes o estrats homogenis i dins de cadasc dells esfa un mostratge aleatori simple. La mostra sagafa assignant un nmero o quota demembres a cada estrat, de manera que la mostra garanteixi una presencia adequadade cada estrat. Aix saconsegueix dividint la mida total de la mostra (a)proporcionalment a la mida relativa de cada estrat en la poblaci (afixaciproporcional) o (b) proporcionalment a la variabilitat de lestrat (afixaci ptima).

    Mostratge per conglomeratsQuan la selecci individual dels elements que componen la mostra s molt costosa,el problema es facilita escollint aleatriament uns quants grups, s a dir, la unitat demostratge s un grup amb molts elements que sanomenen conglomerats.Per poder aplicar aquest sistema, cal que la poblaci estigui dividida en grups senseintersecci per poder escollir una mostra daquests i estudiar-ne tots els componentso una mostra aleatria simple.Es divideix la poblaci en conglomerats i seleccionem com unitats mostrals totes lesunitats d'una mostra de conglomerats. Cal que cada conglomerat estigui constitutper unitats elementals heterognies respecte a la variable que ens interessa. Si saix, el mostratge resulta tan eficient com el mostratge aleatori simple, en cascontrari lerror pot augmentar.Sovint els conglomerats corresponen a rees o zones geogrfiques ben definides(provncies, pobles, illes de cases,...). En aquest cas el mostratge tamb rep el nomde mostratge per rees.

    Mostratge per etapes o polietpicEl sorteig es fa en dues o ms etapes. Primer s'extreu un cert nombre deconglomerats, es fa una nova selecci de conglomerats dins de cadasc d'ells i aixsuccessivament.

  • 15

    Mostratge aleatori sistemticSi la poblaci presenta un ordre total, no relacionat amb les variables o caracters-tiques estudiades, podem escollir una unitat a l'atzar entre les k primeres i a partird'aquesta de k en k.

    1.6 Les dades: Sries estadstiques

    Les dades sn el resultat de mesurar les variables estadstiques sobre els individus de lamostra. En conseqncia, una classificaci de les dades reflectir clarament la de lesvariables que mesurem. Hi ha per, un punt de vista que no sha tingut en compte alclassificar les variables, i s el de linstant o interval de temps en que es recullen.

    En funci de la importncia del temps en el nostre estudi parlarem de:

    Dades instantnies. Sn dades, agrupades o no, recollides en un instant o interval detemps fixat. Tamb podem considerar aqu les dades a on el temps no t massaimportncia. A partir de les dades instantnies es solen elaborar les sries defreqncies que reben aquest nom perqu hom les fa comptant les vegades queapareix cada valor, o que cada valor cau dins dun interval, per sense fixar-se enquin moment apareix cada valor. Per exemple. tirem un dau 25 cops i obtenim elsresultats segents:

    1 2 5 4 3 1 3 6 4 4 3 1 4 2 3 6 4 6 3 5 6 1 2 3 6Si els ordenem i comptem quants cops ha aparegut cada puntuaci obtenim la sriesegent:

    Puntuaci 1 2 3 4 5 6Freqncia 4 3 6 5 2 5

    Dades cronolgiques. A cada valor de la srie li correspon linstant del temps en quesha mesurat o, simplement, un interval de temps.Exemple:

    any 1995 1996 1997 1998vendes 24,5 25,8 32,6 36,9

    El tractament de sries cronolgiques pressuposa generalment uns intervals de tempsfixes.

    1.7 LEstadstica en la INVESTIGACI DE MERCATS

    Un dels camps principals daplicaci de lEstadstica s en la investigaci comercial. Enaquest context apareixen alguns termes i conceptes, que des de la generalitat de lEsta-dstica, adquireixen un significat particular. Alguns dells es presenten a continuaci.

  • 16

    1.7.1 Tipus de disseny pels estudis de mercats

    Estudis exploratorisServeixen per plantejar hiptesis per a la investigaci, descobrir idees o fetsrellevants i apuntar solucions o explicacions. Sn una fase preliminar opreparatria dels altres tipus destudis ja que permeten la identificaci delsproblemes i la seva formulaci ms precisa.

    Estudis descriptiusEl seu principal objectiu s descriure les caracterstiques duna determinadasituaci (comercial, del mercat o de lentorn) amb lanlisi de diferents variablesi obtenir apreciacions sobre el seu comportament, en especial el graudassociaci entre aquestes variables.

    Estudis explicatius o causalsOrientats a investigar les relacions causa-efecte dun model no determinista,permeten precisar i controlar els efectes a partir duna causa coneguda.

    1.7.2 Les fonts dinformaci

    Les dades primries sn les que sobtenen de forma especfica per a la investigaci quees vol dur a terme. Solen ser adients per costoses dobtenir.Es poden obtenir de dues formes bsiques : per observaci o per comunicaci.

    Les dades secundries, sn aquelles que ja estan disponibles. Aquestes darreres podenser internes o externes.

    DADES EXTERNES

    Socio-econmiques i demogrfiques.Actituts i opinions.Coneixement o informaci.Intencions.Motivacions:

    Necessitats funcionals.Necessitats simbliques.Necessitats vivencials.

    Conductes.

    DADES INTERNES

    Vendes.Consumidors.Productes.Preus.Comunicaci.Equip comercial.

  • 17

    Estudis quantitatius

    Estudis qualitatius

    1.7.3 Tipus denquestes

    Postal Telefnica Entrevistapersonal

    Complexitat de lainformaci

    Mitjana Escassa Elevada

    Disponibilitat de lainformaci

    no disponibleimmediatament

    disponibleimmediatament

    disponibleimmediatament

    Tempsdisponible

    Molt Poc Mitj

    Recursos quedisposem(financers/fsics)

    Escassos Mitjans Molts

    Taxa de respostes Escasses Moderades Altes

    ENQUESTES Personal.Postal.Telefnica.

    OMNIBUS

    PANELS Detallistes.Consumidors.Audincia TV.

    ENTREVISTES EN PROFUNDITAT

    DINMICA DE GRUP

  • 18

    1.7.4 Relaci entre la naturalesa de la investigaci i els tipus dinformaci

    Recursos disponiblesescassos

    Recursos disponiblesimportants

    Exploratria Informacions secundries.Panel dexperts.

    Informacions secundries.Panel dexperts ampliat.Entrevista de grup.Observaci.

    Descriptiva Informacions secundries.Enquesta.

    Informacions secundries.Enquesta ampliada.Observaci.

    Explicativa Informacions secundries.Panel dexperts.Enquesta.

    Informacions secundries.Experimentaci.Observaci.Panel dexperts.Entrevista de grup.Enquesta ampliada.

  • 19

    1.8 EXERCICIS

    En els segents exercicis, tracteu didentificar per cada cas:

    la poblaci de refernciaels individus observatsles variables mesurades, tot especificant

    tipus de variable (contnua, discreta, atributs)recorregut de la variable

    mostra, mida mostral i valors mostrals, si s possible precisar-los.

    1. Volem conixer el nombre de germans que tenen els alumnes duna determinadaescola. Noms fem la consulta a la nostra classe, dins lhorari de la nostraassignatura, el dia davui i tot preguntant als assistents quants germans tenen.

    2. Volem conixer la facturaci bruta i el nombre dempleats de lempresa IBEMEspanya, empresa dinformtica, en els darrers 10 anys. Lempresa t una antiguitatde 99 anys.

    3. Lindicador de la borsa russa la darrera setmana ha estat:

    Divendres Dilluns Dimarts Dimecres Dijous Divendres244,26 241,38 239,10 241,96 244,26 245,55

    4. La companyia ALEPH vol saber com es concentren les vendes entre els seus clients.Per fer-ho, els classifica segons llurs compres estiguin entre 0 i 5 milions, entre 5 i10, entre 10 i 20 o ms milions. Obtenen el segent resultat:

    0-5 5-10 10-15 15-20 >208 12 50 32 4

    5. a) La OMS (Organitzaci Mundial de la Salut) realitz una estadstica sobre 30.000nens d'arreu el mn on s'estudi el pes i la talla corporal a lany dedat.b) En un segon estudi, la OMS recopil el percentatge de mortalitat infantil de 70pasos i la seva renda per cpita.

    6. Un alumne afeccionat al futbol comptabilitza els gols que va marcant el seu jugadorpreferit a cada partit de la lliga i al llarg de tota la temporada.

    7. Per encrrec de lempresa STAT S.A. fem una selecci de personal altamentqualificat en mtodes quantitatius. Desprs de publicar un anunci als diaris msimportants es reben els curricula. El cap de personal vol conixer quants sn homes iquants dones, si estan casats i les aspiracions econmiques que tenen

  • 20

  • 21

    2 Organitzaci de dades univariants

  • 22

  • 23

    2.1 Introducci

    Una srie estadstica s un conjunt dobservacions o mesures efectuades sobre unamostra duna poblaci, dacord a una o ms variables.Colloquialment, el terme srie estadstica es coneix per una estadstica.

    El resultat duna srie estadstica es presenta sota dos formats:

    en forma de taula en forma de grfic

    La seva presentaci depn del tipus de variable a consideraci.

    Dins de les sries estadstiques, en un primer nivell, podem distingir entre:

    Sries simples i sries agrupades: les mesures shan pres en un sol instant de temps.Sn sries instantnies.Exemple: enquesta sobre el nmero de germans.

    Sries cronolgiques: on les mesures shan pres en diferents instants de temps.Exemple: facturaci de lempresa STAT S.A.

    2.2 Dades discretes

    A un grup de 20 estudiants duna classe duna determinada escola sels ha preguntatquants germans i germanes tenen, amb el segent resultat:

    valors freq.0 41 52 63 34 15 1Total = 20

    A la primera columna estan els diferents valors observats, ordenats del ms petit al msgran. A la segona, quantes vegades sha observat cada un daquests valors. Aquestsegon nombre s la freqncia absoluta daparicions.

    Si una srie estadstica correspon a una variable discreta amb recorregut limitat es diuque s de dades de tipus II.Noteu que no es realitza cap agrupaci, sn les observacions les que es presentenrepetides.

  • 24

    xi ni Ni fi fi% Fi Fi%

    0 4 4 0,20 20% 0,20 20%1 5 9 0,25 25% 0,45 45%

    2 6 15 0,30 30% 0,75 75%

    3 3 18 0,15 15% 0,90 90%

    4 1 19 0,05 5% 0,95 95%

    5 1 20 0,05 5% 1,00 100%

    Totals 20 1,00 100%

    on xi sn els valors observatsni les freqncies absolutesNi les freqncies absolutes acumuladesfi les freqncies relativesfi% les freqncies relatives percentualsFi les freqncies relatives acumulades iFi% les freqncies relatives acumulades percentuals

    Donat un valor a, les freqncies acumulades ajuden a quantificar els individus queverifiquen la condici

    X ms petit o igual que a

    Representaci grfica

    1. Diagrama de varetesUna forma molt usual de representar dades discretes s dibuixar els punts en ungrfic cartesi, amb lalada de la freqncia absoluta i unint-los amb el eixdabscisses per una lnia.

    2. Diagrama de barresLa base de les barres s constant, damplada arbitrria, per fixa per a tots elsvalors. Lalada correspon a la freqncia absoluta dels valors observats.

    3. PictogramesEs repeteix una determinada figura o smbol de forma proporcional a la freqnciade cada valor observat. Sn utilitzats sovint en mitjans de comunicaci,propaganda, etc.

    4. Diagrama de barres compostesEn les seves diferents opcions (apilades, aparellades, mltiples) sn adients percomparar grficament dues o ms sries.

  • 25

    Diagrama de barres

    0

    1

    2

    3

    4

    5

    6

    7

    0 1 2 3 4 5

    nm. de germans

    freq

    . ab

    s.

    Diagrama de varetes

    0

    1

    2

    3

    4

    5

    6

    7

    0 1 2 3 4 5

    nm. de germans

    freq

    . ab

    s.

  • 26

    0 1 2 3 4 50

    1

    2

    3

    4

    5

    6

    fre

    q.

    ab

    s.

    nm. de germans

    Diagrama de barres 3D

    Pictograma

    0

    1

    2

    3

    4

    5

    n

    m.

    de

    ge

    rma

    ns

    freq. abs.

  • 27

    2.3 Atributs

    Les dades de tipus IV corresponen a estudis estadstics on la variable observadaqualifica atributs. La forma natural de descriure aquestes dades s classificar-les encategories o classes definides dacord a aquests atributs, comptabilitzant per cada unade les diferents categories, quantes observacions posseeixen latribut que les defineix.

    Veiem un exemple:Una marca dimportaci de cotxes treu al mercat un nou model. Daquest model, senfabriquen quatre colors: Gris marengo, Vermell, Blau metallitzat i Blanc. Desprs demig any de vendes, i de cara a la segona tanda de fabricaci, demana les dades de vendaals seus distribudors amb aquest resultat:

    color Marengo Blau Vermell Blancunitats 230 170 80 40

    La variable mesurada s qualitativa, sobserven atributs, concretament els colors delsindividus (els cotxes venuts). Hem dividit la poblaci (tots els cotxes venuts) en quatrecategories excloents, definides pel color.

    Les quatre quantitats (230, 170, 80 i 40) sanomenen freqncia absoluta de lacategoria, de forma totalment equivalent a la freqncia dun valor discret en el cas deles dades de tipus II o la duna classe en les de tipus III.

    s important recordar que donada una variable qualitativa qualsevol, les diferentscategories han dsser excloents per parlar de freqncia absoluta. En cas contraripodrem assignar una mateixa observaci a dues categories.

    Definida la freqncia absoluta duna classe, podem estendre les definicions que fiemabans de freqncies acumulades, relatives i percentuals a les classes.

    Amb lexemple del color dels cotxes:

    color ni Ni fi fi% Fi Fi%

    Marengo 230 230 0,44 44% 0,44 44%Blau 170 400 0,33 33% 0,77 77%

    Vermell 80 480 0,15 15% 0,91 91%

    Blanc 40 520 0,07 7% 1,00 100%

    Totals 520 1,00 100%

    Encara que, en aquest cas, les freqncies acumulades no tenen gaire sentit, ja que laacumulaci es fa amb un ordre arbitrari.

  • 28

    Representaci grfica

    De forma semblant a les dades de tipus II, podem representar les dades de tipus IV ambels segents diagrames:

    Diagrama de barres

    Malgrat que per dades descala nominal s estrictament correcte, no s gaireaconsellable utilitzar els diagrames de barres per aquest tipus de dades. La ra s queinconscientment sassocia la presncia de leix horitzontal a algun tipus dordre entre elsatributs. En tot cas, es recomana ordenar els atributs en funci de les freqnciesabsolutes, de major a menor. En aquest cas el diagrama de barres sanomena diagramade Pareto.Si la escala de la variable observada s ordinal, no hi ha cap inconvenient.

    Per representar dades nominals, el ms adient s representar-les amb un diagrama desectors.

    Diagrama de sectors

    Tamb conegut com diagrama de pasts per traducci literal de langls piechart.Donat un cercle de radi arbitrari, a cada valor es fa correspondre una porci dreamarcada per un determinat angle, que s proporcional a la seva freqncia relativa.Lrea total sn 360.

    Diagrama de sectors

    Marengo44%

    Metallitzat33%

    Vermell15%

    Blanc8%

  • 29

    2.4 Dades contnues

    Si una srie estadstica s la duna variable contnua i la mostra s de mida moderada,direm que es tracta de dades de tipus I.

    Sn sries on, per el petit nombre de dades de la mostra, no cal agrupar les dades.

    A efectes grfics les possibilitats clssiques sn limitades i aquest tipus de dades no espoden tabular.

    Exemple:En un control de qualitat duna refineria de sucre, sha mesurat el pes de 15 caixes depaquets de sucre. Cada caixa cont 25 paquets que, en principi, han de ser dun quilo.Les observacions sn:

    caixa pes caixa pes caixa pes

    1 25,2 6 24,9 11 24,92 24,9 7 24,9 12 24,7

    3 25,1 8 24,7 13 25,2

    4 25,0 9 25,0 14 25,0

    5 24,9 10 25,0 15 25,0

    La poblaci estudiada s el conjunt de caixes del magatzem.La mostra sn les 15 caixes observades i els valors mostrals el pes daquestes.La variable s contnua.

    Important! Cada observaci t anotada de forma individual el seu corresponent valor.Preneu nota que en cap cas hem agrupat les observacions.

    Un diagrama fora adequat, que estudiarem ms endavant, s el anomenat de tija i fulles(stem-leaf display). Per a dades ms nombroses tamb pot ser til el grfic anomenat decaixa (box-plot).

  • 30

    2.5 Dades agrupades

    Per a les sries estadstiques de variables quantitatives contnues amb un recorregutfora ampli, lobservaci dels valors mostrals individuals quasi b no proporciona capinformaci. Cal agrupar aquestes dades en intervals, tamb anomenats classes.De les dades aix agrupades em direm dades de tipus III.

    Aquesta agrupaci s tamb vlida per a variables discretes amb, com a mnim, unadotzena de valors observats diferents.

    Forma dagrupar les dades:

    Una classe agrupa sota una mateixa etiqueta un o ms valors possibles de lavariable.

    Llavors, es comptabilitzen quantes observacions estan incloses dins daquestaclasse, s a dir, sanota la freqncia absoluta de la classe.

    De la mateixa manera que en les dades qualitatives, les categories construdesmitjanant les classes han dsser excloents.

    Veiem el segent exemple:Per encrrec del gerent de lempresa STAT S.A. es vol estudiar el perfil dels sous netsmensuals dels treballadors de lempresa, inclosos els directius. En total hi ha 61persones. Algunes de les dades, en pessetes, sn les segents:

    67.723, 78.750, 123.997, 254.010, 78.750, 72.900,......, 220.900, 427.901, 89.900

    Una forma usual de procedir s classificar els sous en categories formant, per exemple,les 8 categories segents:

    Interval Freqncia50-100 17100-150 19150-200 13200-250 7250-300 3300-350 1350-400 0400-450 1

    Total: 61

    Si parlem en general, es consideren, com en les dades de tipus II, els conceptes defreqncia absoluta, relativa i percentual, que ara aniran referides a categoriesconstrudes mitjanant classes.Les classes poden incloure ms dun valor possible. Freqentment sempra una marcade classe per designar a la classe sencera, que acostuma a coincidir amb el valor centralde linterval.

  • 31

    A lhora de construir la taula existeix un problema: Quantes classes formem i de quinamanera establim els intervals?

    Procediment sistemtic de construcci

    1. Determineu el mnim i el mxim dels valors observats per tal de calcular el recorreguto rang de variaci de les dades, s a dir:

    rang de variaci = valor ms gran - valor ms petit

    2. Decidiu el nombre dintervals i la seva amplada.Per aix, una regla emprica pot ser fer al voltant de 15 intervals, mai ms de 30 nimenys de 6, normalment sutilitzen entre 7 i 20.Encara que no s obligatori, s aconsellable que lamplada sigui per tots igual. Enaquest cas, lamplada es calcula simplement com

    amplada = rang de variaci / nombre dintervals

    3. Calculeu els extrems dels intervals, tamb anomenats fronteres de classe, totrecordant que els intervals sempre han de ser excloents. En aquest sentit, hi ha unanorma generalment acceptada de forma que els intervals adjacents sn semioberts, s adir, lextrem inferior no pertany a linterval.s aconsellable que les marques no coincideixin amb cap dels valors observats.

    4. Calculeu les marques de classe de cada interval:

    marca = (valor ms gran de linterval + valor ms petit) / 2

    5. Construu la taula de freqncies.

    El punt 2 s molt problemtic. Un criteri addicional que pot ajudar a lhora de construirels intervals s escollir-ne un nombre tal que per un 90% de les classes hi hagin com amnim 5 representants.Daltra banda, diversos autors han proposat frmules per calcular el nmero dintervalsen funci de la mida de la mostra:

    nmero de classes = 45,2 n

    n10log10 Dixon and Kronmal (1965)

    n2 si n < 50 Velleman (1976)

    n2log1+ si sn 2= Sturges (1926)

  • 32

    Histogrames

    Un histograma consisteix en un conjunt de rectangles juxtaposats amb les segentscaracterstiques:

    Les bases dels rectangles es recolzen sobre leix horitzontal. Aquest eix tuna escala adequada i uniforme.

    El punt central de cada base coincideix amb la marca de classe.

    Lamplada de cada rectangle s igual a lamplada de linterval corresponent.

    Lrea s proporcional a la freqncia absoluta de la classe.

    Quan lamplada s igual per a totes les classes, el que facilita molt la comprensi de larepresentaci, el costum s agafar lalada del rectangle exactament igual a lafreqncia absoluta de la classe. En cas contrari, tindrem que ajustar les alades dacordal punt 4. Per exemple, podem dibuixar lalada que resulta al dividir la freqnciaabsoluta per la longitud de linterval.

    Polgons de freqncies

    Es basa en unir els punts definits per la marca de classe de cada interval com primeracoordenada i com segona la seva corresponent freqncia de classe.

    Tamb pot obtenir-se unint els punts mitjos situats a la part superior de les barres delhistograma.

    Es poden representar tamb polgons de freqncies acumulades, en lloc de lesabsolutes.

    Ja sha comentat abans la utilitat de les freqncies acumulades: permeten respondrefcilment preguntes de la forma quantes observacions verifiquen sser ms petites queun cert valor?

  • 33

    En el exemple dels sous mensuals nets de lempresa STAT S.A. podem fer aquestsgrfics:

    0

    5

    10

    15

    20

    Histograma

    Polgon de freqncies

    0

    5

    10

    15

    20

    75 125 175 225 275 325 375 425

    Polgon de freq. acumulades

    0

    10

    20

    30

    40

    50

    60

    70

    75 125 175 225 275 325 375 425

  • 34

    2.6 Sries cronolgiques

    Una srie cronolgica s aquella on les dades shan mesurat en diferents unitats detemps.

    La variable observada en la srie tant pot ser quantitativa (discreta o contnua) comqualitativa.

    Des del punt de vista matemtic, sestudia la variable X com una funci del temps:

    X= F(t)

    Considerem el segent exemple:

    En lempresa STAT S.A. shan facturat en els sis darrers anys les segents quantitats(en milions de PTA):

    Any 1993 1994 1995 1996 1997 1998

    Fact. 278,3 267,4 287,2 292,3 299,2 303,1

    Aqu la unitat de temps s lany, per en general no t per qu ser aix. Altres unitatsvlides poden ser: biennis, triennis, quinquennis, lustres o segles, o b trimestres,mesos, dies, hores o segons.

    La forma ms usual de representaci grfica s fora simple:

    En el pla, leix horitzontal indicar el temps (s molt important explicitar la unitatde temps)Leix vertical indica el valor de la variable observada.

    Amb aquesta representaci podem optar per:

    Diagrama de lnies (millor)Diagrama de barres

  • 35

    Amb lexemple anterior obtenim els grfics:

    Diagrama de lnies per a sries cronolgiques

    240

    250

    260

    270

    280

    290

    300

    310

    1993 1994 1995 1996 1997 1998 Any

    Fac

    tura

    ci

    Barres per a sries cronolgiques

    240

    250

    260

    270

    280

    290

    300

    310

    1993 1994 1995 1996 1997 1998 Any

    Fac

    tura

    ci

    El diagrama de lnies s un grfic molt similar a un polgon de freqncies, per noshan de confondre, els tipus de dades que representen lun i laltre sn totalmentdiferents.

    Lestudi de les sries cronolgiques es mereix una atenci especial. s molt importantlanlisi del comportament al llarg del temps, que pot tenir dos components:

    Tendncies a llarg termini: que poden ser creixents o decreixents. Perexemple, en la srie de lempresa STAT S.A. la tendncia s creixent.

    Moviments cclics, tamb anomenats oscillacions. Poden ser peridics (cadames, cada any, etc.)

  • 36

    2.7 EXERCICIS

    1. Es pregunta a una mostra de persones quantes vegades ha vist les darreres sissetmanes un determinat programa de televisi que semet setmanalment. Les dadessn les segents:

    nm. de vegades 0 1 2 3 4 5 6nm. dindividus 3 5 7 9 6 7 4

    Construeix una taula estadstica on apareguin les freqncies absolutes, les freq.relatives i les freq. relatives acumulades de la variable nombre de vegades que havist el programa, aix com el diagrama de barres corresponent a les freq. absolutes.

    2. Enquestades 50 persones pel seu temps despera (en minuts) en una parada dautobs,sobtingueren els segents resultats:

    2 4 8 1 0 10 9 9 7 2 5 64 2 7 1 6 3 8 10 3 0 6 101 5 2 5 1 3 1 3 6 8 5 44 6 3 6 0 7 9 3 2 7 8 07 7

    Construeix una taula estadstica on apareguin les freq. absolutes, les relatives i lesacumulades tant relatives com absolutes. Construu els diagrames de barres i devaretes per a les freq. absolutes.

    3. Una empresa que desitja treure al mercat una modalitat nova de joguina didcticadirigida a nens en edat pre-escolar, efectua un sondeig sobre una mostra de 30nens/es dedat pre-escolar tot preguntant als pares quantes joguines didctiques t elseu fill. Els resultats sn:

    6 3 6 1 5 2 5 2 1 1 6 34 2 4 5 3 2 4 3 6 6 2 42 5 5 4 2 1

    Tabuleu i representeu de la forma ms adient una grfica que resumeixi les dades.Quin s el percentatge de nens amb com a mnim 3 joguines?

    4. El nombre de dies de treball perduts per malaltia durant un determinat trimestre pels35 treballadors/es duna cadena de muntatge sn els segents:

    2 1 0 1 1 3 0 0 2 7 5 01 3 0 0 4 1 2 4 0 5 3 06 0 4 0 2 6 2 3 0 1 1

    Tabuleu i representeu de la forma ms adient una grfica que resumeixi les dades.Quin s el percentatge de treballadors amb 4 o ms absncies?

  • 37

    5.Amb les dades proporcionades amb la taula segent, completa la srie de freqnciesabsolutes ni, absolutes acumulades Ni, relatives fi i relatives acumulades Fi:

    xi ni Ni fi Fi10 2 2 0,05 0,0513 4 6 0,10 0,15

    16 16 0,40

    19 15

    22 6 37 0,15 0,925

    25 1

    6. Investigats els preus per habitaci de 50 hotels duna ciutat, shan obtingut elssegents resultats (en milers de PTA):

    7 3 5 4 5 7 4 7,5 8 5 5 7,53 7 10 15 5 7,5 12 8 4 5 3 510 3 4 5 7 5 3 4 7 4 7 54 7 10 7,5 7 8 7,5 7 7,5 8 7 128 14

    Representeu la distribuci dels preus:a) Agrupats en una srie de freqnciesb) Agrupats en sis intervals digual amplada

    7. Les dades que es detallen tot seguit corresponen als litres de combustible gastats pelsvehicles de transport duna determinada empresa al llarg duna setmana:

    35 30 12 46 49 54 56 59 60 70 67 7593 18 32 44 46 50 55 58 21 60 72 6777 36 45 47 73 69 24 63 74 65 77 5641 80 52 65 103 45 48 56 58 74 80 7124 54 48 39 44 88 54 70 74 71 28 4568

    Tabuleu i representeu la distribuci de freqncies de la forma ms adient.

  • 38

    8. Els desplaaments dels operaris/es duna factoria per tal darribar al seu lloc detreball ha estat:

    Km ms d1 ms de 15 ms de 30 ms de 45 ms de 60 ms de 75nm. oper. 91 30 13 6 5 4

    Tabuleu i representeu la distribuci de freqncies de la forma ms adient.Quants operaris/es realitzen un desplaament comprs entre 30 i 60 km?

    9. Classificades les provncies de tot lestat pel nombre dhabitants (dades de 1986),sobtingueren els segents resultats:

    nm. dhabitants nm. de provncies

    1-100.000 3100.000-250.000 8

    250.000-500.000 16

    500.000-750.000 10

    750.000-1.000.000 4

    1.000.000-2.000.000 8

    2.000.000-3.000.000 1

    3.000.000-4.000.000 0

    4.000.000-5.000.000 2

    Dibuixeu lhistograma corresponent i amb les marques de classe adequades.

  • 3 Estadstics

  • 40

  • 41

    3.1 Mesures de posici, de dispersi i de forma

    Un cop hem recollit i ordenat les dades, el pas segent consisteix en caracteritzar-lesdalguna manera, s a dir, buscar mesures que ens permetin, a travs seu:

    - Descriure de forma condensada les dades recollides.- Diferenciar la poblaci a la que pertany la mostra daltres poblacions similars.

    Per fer-ho ens basem principalment en tres tipus de mesures:

    - Mesures de posici- Mesures de dispersi- Mesures de forma

    Aquestes mesures seran funci dels valors mostrals i sanomenen estadstics.

    3.1.1 Mesures de posici

    En trobem de dues menes :

    Mesures de tendncia central

    Es basen en lobtenci dun valor que es troba, en algun sentit, en una posici centradarespecte les dades.

    Les mesures de tendncia central que tenen major inters sn:

    Mitjana aritmtica.Valor mig de les dades.

    Mediana.s el valor central de les dades, s a dir, un nmero tal que la meitat de les dadessn inferiors i laltra meitat sn superiors.

    Moda.s el valor (o valors) ms freqent.

    Tamb es poden calcular altres mitjanes com la mitjana ponderada o la geomtrica.

    Altres mesures de posici

    El valor que busquem es troba en una posici qualsevol dinters per a nosaltres. Perexemple, el valor sota del qual es troba el 95% de les dades.

    Les mesures de posici que estudiarem sn:

    - Els percentils. - Altres quantils (decils, quartils,...).

  • 42

    3.1.2 Mesures de dispersi

    Mesuren la dispersi de les dades respecte dalgun punt, normalment duna mesura detendncia central com la mitjana aritmtica.

    Les ms importants a retenir sn:

    La varincia.Valor mitj de les desviacions (al quadrat) de les dades respecte a la sevamitjana.

    La desviaci tpica.s l'arrel quadrada de l'anterior.

    Coeficient de variaci.s el quocient entre la desviaci tpica i la mitjana.

    Altres.El Rang s la diferncia entre el mnim i el mxim.El Rang interquartlic s la diferncia entre els quartils superior i inferior.

    3.1.3 Mesures de forma

    Ens donen alguna orientaci sobre la forma de la representaci grfica.

    Mesures dasimetria

    Indiquen en quin grau la corba (el polgon de freqncies o lhistograma) es simtrica ono.

    Coeficient d'asimetria. Quan val 0 les dades sn simtriques, quan s positiu la cuasuperior t ms rea que la inferior i el contrari en cas de que sigui negatiu.

    Mesures dapuntament

    Indiquen qu tan apuntada (punxeguda) s una corba (tot comparant-la, habitualment,amb la distribuci de densitat Normal ).

    La ms usual s el Coeficient de kurtosi o apuntament. Indica qu tan apuntada s ladistribuci de les nostres dades en relaci a la llei Normal. Per a la normal val 0. Quanel coeficient s inferior a 0 la corba s plana i quan s superior la corba s moltapuntada.

  • 43

    3.2 Mesures de tendncia central

    Mitjana aritmtica

    La mesura ms com del centre dunes dades s el valor mig dels seus valors o mitjanaaritmtica.Si nxxx ,,, 21 K sn les n observacions, la seva mitjana s

    nxxx

    x n+++

    =L21

    o de forma ms compacte

    =

    =n

    iixn

    x1

    1

    La taula resum dels estadstics mostra com es calcula la mitjana en els casos de dadesagrupades.

    Mediana

    Una altra forma de descriure el centre dunes dades s utilitzar el seu valor central. Lamediana s un nmero tal que la meitat de les dades sn inferiors i laltra meitat snsuperiors.Per tal de calcular-la sordenen totes les dades de forma creixent.Si el nmero dobservacions s imparell, la mediana s lobservaci central de la llistaordenada. La posici central s la nmero 2/)1( +n des del comenament de la llista ilobservaci que es trobi en aquesta posici s la mediana.Si el nmero dobservacions n s parell, aleshores la mediana s la mitjana de les duesobservacions centrals de la llista ordenada. Ser doncs, la mitjana de les observacionsque es trobin en les posicions 2/n i 1)2/( +n des del comenament de la llistaordenada.La taula resum dels estadstics mostra el clcul especialment delicat de la mediana en elcas de dades tipus III.

    Comparaci entre la mitjana i la mediana

    s possible que hi hagi una diferncia molt notable entre la mitjana i la mediana dunesdades. De vegades, uns pocs valors extrems a un costat de les dades poden arrossegar lamitjana de forma prou important, mentre que la mediana resta quasi invariable davant lapresncia o absncia daquests valors atpics. Aquesta propietat de ser robustes s laprincipal caracterstica de tots els estadstics dordre, com la mediana, que estudiaremms endavant. Aix no vol dir que la mediana sigui sempre millor que la mitjana, el queconv s oferir les dues mesures, conjuntament amb un grfic.La mitjana i la mediana de un conjunt de dades amb distribuci simtrica estan molt aprop. Si la distribuci s exactament simtrica, sn iguals. En una distribuciasimtrica, la mitjana queda desplaada cap a la cua ms llarga. Moltes de les variableseconmiques o de poblaci sn asimtriques a la dreta, hi ha molts valors petits i unspocs de grans. Els pocs valors grans tiren de la mitjana, de forma que est per sobre dela mediana. En aquests casos cal donar la mediana com mesura central.

  • 44

    Mesures de tendncia central

    Estadstic Sries tipus I Sries tipus II Sries tipus IIIMitjana aritmtica

    xn

    xn ii

    n

    ==1

    1

    xn

    x nn jj

    k

    j==

    11

    xn

    x nn jj

    k

    j==

    11

    ~

    Mediana

    Si n s imparell, Me x mn

    m= =+

    ( ) on 1

    2Si n s parell,

    Mex x

    mnm m=

    +=+( ) ( )1

    2 2 on

    Si j s lintervalmedi,

    La

    nn

    Njj

    jj +

    1 12

    Moda

    El valor x j amb

    major freqnciaabsoluta

    Si j s lintervalmodal,

    L ah

    h hj jj

    j j

    +

    ++

    +11

    1 1

    Mitjana ponderadax p

    x p

    p

    i ii

    n

    ii

    n=

    =

    1

    1

    x p n

    p

    j j jj

    k

    jj

    k=

    =

    1

    1

    ~x p n

    p

    j j jj

    k

    jj

    k=

    =

    1

    1

    Mitjanageomtrica

    xgx x xNn 1 2L x x xn n k

    nn k1 2

    1 2 L ~ ~ ~x x xn n knn k

    1 21 2 L

    Mitjana harmnicaxh

    1 1 1

    1x n xh ii

    n

    == 1 1 1

    1x n xn

    h jj

    k

    j==

    1 1 11x n x

    nh jj

    k

    j==

    ~ Mitjana quadrtica

    xq1 2

    1nxi

    i

    n

    = 1 2

    1nx nj

    j

    k

    j=

    1 21n

    x njj

    k

    j~

    =

    Sries tipus I: Els valors observats sn x x xn1 2, , ,K . La mida de la mostra n .Sries tipus II: Els valors observats sn x x xk1 2, , ,K , amb les freqncies absolutes

    n n nk1 2, , ,K . La mida de la mostra s n n n nk= + + +1 2 L . Les freqnciesacumulades sn N N N k1 2, , ,K .

    Sries tipus III: Els intervals sn ( ] ( ] ( ]L L L L L Lk k0 1 1 2 1, , , , , ,K . Les marques declasse sindiquen amb ~ , ~ , , ~x x xk1 2 K , i les freqncies amb la mateixa notaci que perles sries tipus II. Lamplada de la classe s a L Lj j j= 1 i lalada h n aj j j= .

    En tots els casos, x x x n( ) ( ) ( ), , ,1 2 K s la mostra ordenada de forma creixent. Per a les

    sries tipus II, amb els valors repetits tantes vegades com indiqui la freqncia absolutade cadasc.

  • 45

    3.3 Mesures de dispersi

    Rang o recorregut

    La forma ms simple dindicar la dispersi dunes dades s calcular el seu rang orecorregut, s a dir, la diferncia entre les observacions mxima i mnima.

    Varincia

    La varincia 2s dun conjunt dobservacions s la mitjana dels quadrats de lesdesviacions de les observacions respecte a la seva mitjana. La frmula s la segent:

    n

    xxxxxxs n

    222

    212 )()()( +++=

    L

    o, duna forma ms simple,

    =

    =n

    ii xxn

    s1

    22 )(1

    La desviaci tpica s, tamb anomenada desviaci estndard, s larrel quadradapositiva de la varincia 2s .La desviaci tpica t les mateixes unitats que les observacions, mentre que la varinciaest mesurada en unitats al quadrat.

    El coeficient de variaci s el quocient de la desviaci tpica i la mitjana, expressat entan per cent. s una mesura adimensional i, per tant, permet la comparaci de lesdispersions de conjunts de valors amb diferents unitats.

    Varincia corregida

    s molt fcil comprovar que la suma de les desviacions s sempre zero:

    =

    =n

    ii xx

    1

    0)(

    de forma que la ltima desviaci es pot calcular quan es coneixen les altres 1n .Noms 1n de les desviacions poden variar lliurement i, per aix el nmero 1nsanomena graus de llibertat de la varincia o de la desviaci tpica. Per aquest motiu,donada una mostra dobservacions, s millor calcular la varincia corregida:

    =

    =n

    ii xxn

    s1

    22 )(1

    1

    o la desviaci tpica corregida s .Moltes calculadores ofereixen el clcul de les varincies i desviacions tpiquescorregides o no. Per a una mostra anotarem els valors corregits.En tot cas, tan s com s , mesuren la dispersi respecte a la mitjana. Sutilitzaran nomsquan escollim la mitjana com mesura de centre.Si no hi ha dispersi, 0 =s . Aix passa nicament quan totes les observacions tenen elmateix valor. Al contrari, 0 >s i quan ms disperses estiguin les observacions respectea la seva mitjana, ms gran es fa.

  • 46

    Com passava amb la mitjana, tamb s est fortament influenciada per les observacionsextremes. Unes poques observacions atpiques poden fer que s sigui molt gran. Msendavant, en aquest mateix captol, proposarem mesures de dispersi ms robustes, comel rang interquartlic.

    En general, utilitzarem x i s noms per distribucions simtriques i, particularment,quan les dades provenen duna distribuci normal. En tot cas, s obvi, que de vegades hiha males interpretacions perqu dos nmeros no poden resumir b un conjunt de dades.Recordeu dacompanyar els estadstics amb un o ms grfics.

    3.4 Mesures de forma

    3.4.1 Mesures dasimetria

    En un conjunt simtric de dades de tipus III, el estadstic ( )x xi nin =

    3

    1 s zero. Amb

    dades asimtriques aquesta suma creixer. Una mesura adimensional dasimetria s:

    Estadstic Sries tipus I Sries tipus II Sries tipus III

    Coeficientdasimetria

    ( )1 31

    3

    nx x

    s

    i ni

    n

    = ( )1 3

    13

    nx x n

    s

    j n jj

    k

    =

    ( )13

    13

    nx x n

    s

    j n jj

    k~

    =

    Una altra mesura dasimetria menys utilitzada s el coeficient dasimetria de Pearson:

    ( )3 x Mes

    n

    Aquest coeficient resulta de la relaci emprica 3( )x Me x Mon n = que es verificaper a dades unimodals i en forma de campana.

    3.4.2 Mesures de kurtosi

    Estadstic Sries tipus I Sries tipus II Sries tipus III

    Coeficientde kurtosi

    ( )1 41

    4

    nx x

    s

    i ni

    n

    = ( )

    1 4

    14

    nx x n

    s

    j n jj

    k

    =

    ( )1 41

    4

    nx x n

    s

    j n jj

    k~

    =

    Donat que aquest coeficient val 3 per a la distribuci Normal, alguns autors i programesdordinador defineixen el coeficient dapuntament com

    m

    s44

    3

    on m4 s el moment centrat de quart ordre, s a dir, el numerador dels estadsticsdefinits a la taula anterior.

  • 47

    Mesures de dispersi

    Estadstic Sries tipus I Sries tipus II Sries tipus IIIRang R x xn= ( ) ( )1 R L Lk= 0

    Varincia( )s

    nx xi n

    i

    n2 2

    1

    1=

    =

    = =

    1 21

    2

    nx xi

    i

    n

    n

    ( )sn

    x x nj n jj

    k2 2

    1

    1= =

    = =

    1 21

    2

    nx n xj j

    j

    k

    n

    ( )sn

    x x nj n jj

    k2 2

    1

    1= =

    ~

    = =

    1 21

    2

    nx n xj j

    j

    k

    n~

    Desviacitpica

    s s= 2

    Desviacitpica

    corregida

    $sn

    ns=

    12

    Coeficientde variaci CV

    sxn

    = 100

    Mitjana deles

    desviacionsabsolutes

    1

    1nx xi n

    i

    n

    = 1

    1nx x nj n

    j

    k

    j =

    11n

    x x nj nj

    k

    j~

    =

    Medianade les

    desviacionsabsolutes

    { }Me x Mei { }Me x Mei( )

    Sries tipus I: Els valors observats sn x x xn1 2, , ,K . La mida de la mostra n .Sries tipus II: Els valors observats sn x x xk1 2, , ,K , amb les freqncies absolutesn n nk1 2, , ,K . La mida de la mostra s n n n nk= + + +1 2 L . Les freqncies acumuladessn N N N k1 2, , ,K .

    Sries tipus III: Els intervals sn ( ] ( ] ( ]L L L L L Lk k0 1 1 2 1, , , , , ,K . Les marques declasse sindiquen amb ~ , ~ , , ~x x xk1 2 K , i les freqncies amb la mateixa notaci que per lessries tipus II. Lamplada de la classe s a L Lj j j= 1 i lalada h n aj j j= .En tots els casos, x x x n( ) ( ) ( ), , ,1 2 K s la mostra ordenada de forma creixent. Per a les

    sries tipus II, amb els valors repetits tantes vegades com indiqui la freqncia absolutade cadasc.

  • 48

    3.5 Diagrama de tija i fulles

    Es tracta dun procediment semi-grfic per tal de presentar la informaci per a sries dedades quantitatives, que s especialment til quan la mida de la mostra no sexcessivament gran, s el diagrama de tija i fulles de Tukey. T lavantatge de ser moltmenys arbitrari que un histograma i molt ms senzill en la seva construcci. Elprocediment s el segent:

    a) Arrodonim les dades observades a dues o tres xifres significatives.b) Disposem aquestes xifres en una taula amb dues columnes separades per una lniavertical:

    b1) A la primera columna posarem la primera o dues primeres xifres que formenla tija.b2) A la segona columna escriurem les fulles o ltimes xifres, repetides tantesvegades com apareguin a les dades.b3) Cada tija defineix una classe i sescriu una sola vegada. El nmero de fulless la freqncia absoluta de la classe. Malgrat aix i quan el nmero de dades sprou gran, podem definir varies classes per una mateixa tija, simplementagrupant les fulles dalguna forma, per exemple aix:{0,1},{2,3},{4,5},{6,7},{8,9}.

    c) El grfic es completa afegint les freqncies acumulades des dels extrems i cap a lamediana, que sassenyala amb un parntesi en la freqncia absoluta de la classe que lacont.Encara que el concepte de valor atpic el definirem ms endavant, volem assenyalar queels valors atpics no sinclouen en el grfic.

    Exemple:

    Considerem el segent conjunt de dades tipus III,

    53,0 70,2 84,3 55,3 78,5 63,5 71,4 53,4 82,5 67,3 69,5 73,055,7 85,8 95,4 51,1 74,4 54,1 77,8 52,4 69,1 53.5 64,3 82,755,7 70,5 87,5 50,7 72,3 59,5

    El grfic de tija i fulles corresponent s aquest

    n=30depths (unit=1)

    11 5 01233345559(5) 6 3479914 7 001234786 8 224571 9 5

    Els principals avantatges daquest tipus de grfic sn:

    La informaci original prcticament es conserva i es pot reproduir.Les dades queden ordenades.Podem observar simetries, amplades, concentracions i errors de les dades.s un mtode robust.

  • 49

    3.6 Percentils

    El concepte de percentil pot definir-se en dos sentits diferents.Primer podem considerar que es vol calcular el percentil dun valor x, s a dir, elpercentatge dobservacions que tenen un valor inferior a x.Daltra banda, podem buscar el percentil 30, per exemple, si es vol trobar el valor x(observat o no) tal que el 30% de les observacions sn inferiors a ell.

    En el primer sentit, el percentil duna observaci x es calcula aix:

    (nmero dobservacions inferiors o iguals a x)100n

    En el segon, el percentil p es calcula aix:

    a) Primer calcularem pn

    100

    b) El resultat anterior ens indica en quina observaci o entre quines observacions(farem la mitjana entre les dues) es troba el percentil p, si considerem lesobservacions ordenades de menor a major.

    La idea de la mediana com valor que parteix les dades per la meitat fa que coincideixiamb el percentil 50. De forma semblant, si definim els quartils com els valors queparteixen la mostra en quatre parts, obtenim els percentils 25, 50 i 75, i el segon quartils la mediana. Aix podem tamb definir els decils D D D1 2 9, , ,K com els percentils 10,20,...,90.

    Per tot aix, i si volem que les definicions de mediana i quartils que hem fet en apartatsanteriors coincideixin amb els percentils corresponents, la regla per calcular percentilsque hem enunciat no s prou acurada. Hem de calcular el percentil p a partir de lamostra ordenada. La posici ideal del percentil p es calcula ms acuradament amb lessegents formes alternatives:

    i) np

    10012

    +

    ii) ( )np+ 1

    100

    iii) np+

    +13 100

    13

    Aix, aquests valors ens indiquen la posici en la mostra ordenada o entre quinesposicions (farem la mitjana dels dos) tenim el percentil p.

  • 50

    3.7 Estadstics dordre

    La mediana forma part dun conjunt destadstics, genricament sanomenen Estadsticsdordre, que extrauen la informaci de la posici de la dada en la mostra ordenada i nodel valor concret de la dada. Daquesta forma saconsegueixen estadstics ms robustos,s a dir, menys sensibles a valors mostrals extrems. Anem a explicar la teoria i primeresaplicacions daquests estadstics dordre.

    Donada una srie de dades, resultat dun mostratge aleatori simple,

    1x 2x ... nx

    es defineix la mostra ordenada com:

    )1(x )2(x ... )(nx

    on cada un dels valors rep el nom destadstic d'ordre.

    La llista de valors:

    1 2 ... n

    rep el nom de rang creixent, i la llista en sentit oposat:

    n n-1 ... 1

    de rang decreixent.

    Es verifica que:rang creixent + rang decreixent = n + 1

    Tamb es defineix la profunditat dun estadstic dordre com:

    profunditat ( x i( ) ) = mn{ rang creixent ( )(ix ), rang decreixent ( )(ix )}= mn{ i, n-i+1 }

    Per exemple:

    prof. de la mediana = 2

    1+n

    +==

    ==+

    2 mediana ,2 si

    mediana ,12 si

    )1()(

    )(

    kk

    k

    xxkn

    xkn

    prof. dels extrems = 1 Mn. = )1(x Mx. = )(nx

    prof. dels quartils = [ ]

    21mediana la de prof. +

    on [x] s el enter ms gran que no excedeix x i els quartils sn el quartil inferior 1Q i elquartil superior Q3 . La mediana pot ser Me o 2Q .

  • 51

    Tamb podem definir d'altres estadstics d'ordre com els octaus en la forma

    prof. dels octaus [ ]= +prof. dels quartils 12

    Sobre els estadstics dordre tamb podem definir i calcular mesures de tendnciacentral, de dispersi i de forma.

    3.7.1 Estadstics de centralitat

    mediana Me=

    trimediana = 31 41

    21

    + 41

    QMeQ +

    3.7.2 Estadstic de dispersi (rang interquartilic)

    dispersi = (quartil superior) - (quartil inferior) Qd = 3Q - 1Q

    3.7.3 Estadstic dasimetria

    Coeficient de biaix interquartilic

    ( ) ( )13

    1223

    QQQQQQ

    BQ

    = on MeQ =2

    3.7.4 Valors atpics (outliers)

    Els estadstics dordre abans definits permeten fixar les barreres fora de les queconsiderarem els valors com valors atpics (en angls outliers) o fora del normal:

    Qd ________|____________|_________|_____________|________

    QdQ 5'11 1Q 3Q QdQ 5'13 +

    Tot valor per sota de QdQ 5'11 o per sobre de QdQ 5'13 + s un valor atpic.

    3.7.5 Distribuci normalEn el cas duna variable amb distribuci de probabilitat normal, de mitjana idesviaci estndard , els valors dels principals estadstics dordre sn:

  • 52

    QdQ 5'11 = 698,2

    1Q = 6745,0Mediana = Me = 2Q =

    3Q = 6745,0+

    QdQ 5'13 + = 698,2+

    Per entendre millor el que sn els valors atpics, podem calcular la probabilitat de servalor atpic en el cas duna variable aleatria amb distribuci normal:

    P[valor atpic] = 0,00698

    s a dir, en una poblaci normal 7 de cada 1000 individus sn atpics, segons ladefinici que hem donat.

    Daltra banda, la comparaci del rang interquartlic amb el valor exacte de la llei normalens proporciona una altra mesura de dispersi anomenada pseudovarincia:

    pseudosigma = 1,349

    ilicinterquart rang

    pseudovarincia = ( pseudosigma ) 2

    3.8 Grfics basats en estadstics dordre

    3.8.1 Sumari dels 5 nmeros

    # nProf. de la mediana mediana

    Prof. dels quartils quartil inf. quartil sup.

    1 extrem inf. extrem sup.

    No es tracta exactament dun grfic, per la disposici daquests cinc estadstics enspermet una primera aproximaci a la centralitat, dispersi i rang dels valors de lamostra.

  • 53

    Exemple:

    Amb les dades de la pgina 48, el sumari dels cinc nmeros s el segent

    # 3015,5 69,3

    8 55,3 77,8

    1 50,7 95,4

    3.8.2 Diagrama de caixa (Boxplot)

    x

    1P 1Q Me 3Q 2P O

    En aquest diagrama representem una caixa dalada arbitraria i de llargada fixada perels quartils.Encara que QdQ 5'11 i QdQ 5'13 + sn els punts de tall per considerar un valor comatpic (outlier), en el diagrama de caixa els punts P dibuixats sn els valors observatsms llunyans que no sn atpics.Els valors atpics es marquen amb un senyal, en aquest cas una creu.

    El diagrama de caixa mostra les segents caracterstiques de les dades:localitzaci medianadispersi rang interquartilicasimetria posicions relatives de la mediana i els quartils.cues lnies fins a P1 i P2valors atpics (outliers)

    A ms, aquests grfics sn robustos, propietat que hereten dels estadstics dordre. Aixsignifica que sn relativament resistents en front de petites modificacions de les dadesmostrals.

  • 54

    Exemple:

    Per a les dades de la pgina 48, els valors dels estadstics dordre que intervenen en eldiagrama de caixa sn

    3,69=Me 3,551 =Q 8,772 =Q7,501 =P ja que 55,215,225,13,555'11 == QdQ4,952 =P ja que 55,1115,225,18,775'12 =+=+ QdQ

    En aquest cas no hi ha valors atpics.

    3.8.3 Diagrama de tija i fullesEl diagrama de tija i fulles que hem explicat en un apartat anterior, cont algunselements dels estadstics dordre. En concret, la profunditat del major valor de cadaclasse, excepte la classe que cont la mediana que sassenyala amb parntesis sobre lafreqncia daquesta classe.Els valors atpics sexclouen daquesta representaci.

    Exemple:

    n=30depths (unit=1)

    11 5 01233345559(5) 6 3479914 7 001234786 8 224571 9 5

  • 55

    3.9 EXERCICIS

    1. En set moments diferents del dia sobserva el nombre de clients que havia en unsupermercat. Les dades sn: 2, 5, 7, 3, 4, 9. Calculeu:a) Les mitjanes aritmtica, geomtrica, quadrtica i harmnica.b) La mediana i la moda.

    2. Calculeu el recorregut, la mitjana aritmtica, la moda i la mediana de les dades delssegents exercicis:

    a) Exercici 1 del tema 2 b) Exercici 2 del tema 2c) Exercici 3 del tema 2 d) Exercici 5 del tema 2e) Exercici 6 del tema 2 f) Exercici 7 del tema 2

    3. Calculeu el recorregut, la mitjana aritmtica, la moda i la mediana de les dades delexercici 9 del tema 2 i amb la taula de 9 intervals presentada. Agrupeu posteriormentles dades en noms 5 intervals: 1-106, 106-2106, 2106-3106, 3106-4106, 4106-5106, i repetiu el clcul de la mitjana. Quina de les dues mitjanes s ms acurada?

    4. Per tal de conixer la potencialitat de compra duna determinada rea metropolitana,sha mostrejat la renda per cpita i sha obtingut una taula que resumeix les dades.Malauradament, un error informtic ha destrut les dades originals i de la taula nomses conserva una fotocpia en molt mal estat. s possible reconstruir lestudi ambella?La taula s la segent:

    (Li-1,Li] ni Ni fi Fi ~x i ai hi20 - 50 2 2 35.000? - 60 8 0,04

    60 - ? 0,12 10.000

    0,13 75.000

    44 0,0022

    100 - ? 119 0,001

    ? - 150 0,11

    150 - ? 171

    ? - 250 188 50.000

    ? - 850 12 200 550.000

    on (Li-1,Li] sn els extrems inferior i superior de linterval de la classe i(en milers de pessetes)

    ni les freqncies absolutesNi les freqncies absolutes acumuladesfi les freqncies relativesFi les freqncies relatives acumulades

    ix~ les marques de classeai lamplada de lintervalhi lalada de la classe i

  • 56

    Completa la taula, calculeu els valors de la mitjana, la moda, la mediana, el primerquartil i els percentils 40 i 99.

    5. En 1798, el cientfic angls Henry Cavendish determin la densitat de la Terra ambmolta precisi. Quan es fan mesures complicades, es aconsellable repetir loperacivaries vegades i treballar amb la mitjana de totes elles. Cavendish repet la sevamesura 29 vegades. Aqu sn els resultats que va obtenir (en aquestes dades ladensitat de la Terra sexpressa com un mltiple de la densitat de laigua):

    5,50 5,61 4,88 5,07 5,26 5,55 5,36 5,29 5,58 5,655,57 5,53 5,62 5,29 5,44 5,34 5,79 5,10 5,27 5,395,42 5,47 5,63 5,34 5,46 5,30 5,75 5,68 5,85

    Representeu grficament les dades de la manera que considereu ms convenient. Laforma de la distribuci, permet utilitzar x i s per descriure-la? Trobeu x i s .Amb tot el que acabeu de fer, quina s la vostra estimaci de la densitat de la Terra apartir daquestes mesures?

    6. Les tres factories duna indstria han produt el darrer any el segent nombre demotocicletes, detallat per trimestres:

    Factoria 1 Factoria 2 Factoria 3

    Trimestre 1 600 650 550Trimestre 2 750 1200 900

    Trimestre 3 850 1250 1050

    Trimestre 4 400 800 650

    a) Representeu grficament la taula anterior de la forma ms adient.b) Obteniu la producci mitjana trimestral de cada factoria i de tota la indstria.c) Calculeu la producci mitjana diria de cada factoria i de tota la indstria, sitenim en compte que va haver respectivament 68, 78, 54 i 74 dies laborables pertrimestre.

    7. Les segents taules recullen el nombre de peces defectuoses trobades per dos equipsen els controls de qualitat efectuats sobre mostres de mida estndard, durant unasetmana:

    Peces defectuoses 0 1 2 3 4 5

    Controls Equip A 2 7 15 4 2 1efectuats Equip B 2 5 8 8 5 2

    Calculeu la moda i la mediana de les sries per separat i conjuntament.Representeu les dades de la forma ms adient.

  • 57

    8. La taula segent detalla la distribuci corresponent al capital invertit per 420empreses de la construcci:

    Capital (milions de PTA) nombre dempreses

    menys de 5 12de 5 a 13 66

    de 13 a 20 212

    de 20 a 30 84

    de 30 a 50 30

    de 50 a 100 14

    ms de 100 2

    Utilitzeu com a marca de classe del primer i darrer interval 4 i 165 respectivament icalculeu la mitjana aritmtica, la moda i la mediana.Representeu tamb lhistograma de freqncies.

  • 58

  • 59

    4 Descripci de dades bivariants

  • 60

  • 61

    4.1 Dades bivariants

    Tot el que s'ha vist fins ara fa referncia a l'anlisi estadstica d'una sola variable. Sovint,per, se n'observa ms d'una alhora (edat, sexe, marques, hbits, actituds,...) i interessa, nonoms descriure-les per separat, sin poder respondre qestions del tipus:

    - Existeix alguna relaci entre les variables o les caracterstiques?- En cas d'existir, qu tan forta s?- Es pot predir una variable a partir de l'altra?

    L'anlisi de dades bidimensionals o bivariants es duu a terme mitjanant un esquemasemblant al de les dades univariants, s a dir, es consideren la tabulaci, la representacigrfica i les caracterstiques numriques.

    En aquest captol presentarem els procediments danlisi de dades que sn apropiats pera les relacions bivariants. La tcnica apropiada depn del nivell de lescala de lesvariables involucrades i del desig de linvestigador dobtenir un estadstic descriptiu.Tamb tractarem alguns temes relacionats amb la interpretaci de les taules de tabulacicreuada.

    Com hem dit, els procediments danlisi de dades bivariants depenen essencialment deltipus descala de les variables. La segent figura resumeix la descriptiva de lanlisibivariant:

    Procediments bivariants

    Quina slescala de

    lesvariables?

    Regressi simpleCoeficient de

    determinaci 2RCoeficient decorrelaci r

    Tabulaci creuadaCoeficient de

    correlaci per rangsGamma

    Tau

    Tabulaci creuadaCoeficient decontingncia

    Lambda

    Dues variablesnominals

    Dues variablesdinterval

    Dues variablesordinals

  • 62

    Quan es consideren dues variables descala per interval, encara que la presentaci de lesdades sigui amb una taula, no s una taula de freqncies prpiament dites, sin queconsisteix simplement en l'enumeraci de les parelles de punts; cada fila representa unindividu i cada columna una variable mesurada sobre ell. Per exemple, si s'estudia l'aladai el pes dels nadons en un hospital, les dades s'organitzen en una taula d'aquesta mena:

    Nen Alada (cm) Pes (g)

    Joan Prez 47 3100

    Anna Rius 52 3800

    Pere Ruiz 50 3300

    ... ... ...

    Aquest tipus de dades normalment no sagrupen en classes i directament es podenrepresentar en forma de diagrames de dispersi o scatterplots. Quan les dades snplenament aleatries, fruit duna mostra aleatria simple, podem estudiar el grau dedependncia o independncia lineal amb el coeficient de correlaci. Quan existeix unarelaci causal i el principal objectiu s la predicci de valors duna variable en funci delaltra, una tcnica per estudiar la relaci entre les variables s la regressi, en particular laregressi simple, que mereix tot el captol segent.

    Aix doncs, com aix ho estudiarem ms endavant, ara tractarem la tabulaci de dades.

    4.2 Taules creuades

    Quan es considera la variaci conjunta de dues variables amb escala nominal u ordinal, sesol agrupar les observacions en una taula de freqncies bivariants on es presenta ladistribuci de freqncies corresponent a les parelles de valors o categories de les duesvariables. Els valors (per variables discretes), les categories (en el cas de variablesqualitatives) o els intervals de variaci (en variables quantitatives on es fa agrupaci) d'unade les variables es disposen en la primera fila de la taula i els de l'altra en la primeracolumna. Aix proporciona les anomenades taules creuades com la que presentem acontinuaci:

    Classe socialUtilitza A Alta Mitjana-Alta Mitja.-Baixa Baixa TotalS 164 203 114 6 487No 163 406 752 192 151Total 327 609 866 198 2000

    En aquesta taula es relacionen dues variables qualitatives, classe social, i possessi dundeterminat b com un autombil o una tarja de crdit.

    Destaquem que una variable quantitativa amb escala per interval, si agrupem els valorsen classes o intervals, t el mateix tractament que una variable amb escala ordinal.

  • 63

    4.2.1 Construcci duna taula a partir de les dades originals

    Un aspecte que no t res a veure amb lanlisi, per que s de gran importncia prctica,s la construcci de la taula de doble entrada a partir de la base de dades original, ja quesi sha de fer a ma pot ser una feina molt feixuga.

    La majoria dels programes estadstics disposen duna opci anomenada

    CROSSTABULATION

    o TABULACI CREUADA que permet construir una taula de freqncies, com les queja hem vist, a partir dunes dades originals encolumnades amb laspecte segent :

    REGIO EDAT SEXE CLASSOC ESTUDIS A B C COMPT.1 4 1 3 4 2 1 1 12 1 1 3 4 2 2 2 11 1 1 2 3 2 2 2 1

    Si es vol fer amb EXCEL, es pot fer de manera molt senzilla amb lopci Tablasdinmicas, que permet creuar dues o ms variables i presentar una taula resum. Ara b,si es vol fer amb EXCEL conv afegir una nova columna fictcia que contingui un 1 acada cella, ja que quan es fa la tabulaci dinmica cal utilitzar una variable per comptarel nmero de valors de cada combinaci que apareix. En concret, per construir la taulade lexemple de la relaci entre Classe social i s del servei A crearem una variablefictcia plena de 1 que anomenarem Comptador i definirem la taula dinmica de laforma segent:

    1. Indicarem que volem fer la taula a partir de les dades del full

  • 64

    2. Per defecte el programa selecciona tot el full i agafa com nom de les variables les dela primera fila

    3. Definirem quines variables van a les files o columnes de la taula i posarem la variableComptador en la part central (Datos).

    4. Al prmer Terminar el programa generar la taula que busquem :

    Suma deCOMPTADOR

    CLASESOCIAL

    A 1 2 3 4 TOTAL1 164 203 114 6 4872 163 406 752 192 1513TOTAL 327 609 866 198 2000

    4.2.2 Recodificaci de variables

    Si una o ambdues variables no estan codificades, cal fer-ho abans de fer la tabulacicreuada.

  • 65

    Amb el paquet estadstic STATGRAPHICS es fa servir l'opci 6. Recode Data del menP. Categorical data analysis. Al entrar en aquesta opci el programa demana la variableque es vol recodificar, el criteri per als extrems dels intervals i opcionalment el nom d'unvector que contingui els lmits dels intervals en els quals es vol basar la recodif