Variables numèriques

download Variables numèriques

If you can't read please download the document

description

Variables numèriques. Taules de freqüències: sense agrupar en intervals agrupant les dades en intervals Descriptius de posició: - de dispersió: la moda ■ el rang - PowerPoint PPT Presentation

Transcript of Variables numèriques

  • Variables numriquesTaules de freqncies: sense agrupar en intervals agrupant les dades en intervals

    Descriptius de posici: - de dispersi: la moda el rang la mediana i els percentils el rang inter-quartil la mitjana la varincia la desviaci tpica

    Grfiques: diagrama de caixa, histograma i polgon de freqncies, ogiva de freqncies acumulades

    La forma de les distribucions: asimetria i curtosi

    Un exemple de variable numrica discreta: estudi complert

    Un exemple de variable numrica contnua: estudi complert

  • Taules de freqncies per a variables numriquesConsisteixen en un resum dels valors que pren la variable qualitativa, amb el recompte del nombre daparicions per a cada valor, els seus percentatges i els percentatges acumulats. Distingirem dos casos:

    Si la variable pren pocs valors diferents: taula de freqncies amb tots els valors

    Si la variable pren molts valors diferents: dades agrupades en intervals. Els intervals poden ser digual o de distinta amplitud.Quan hi ha intervals, cal tenir present: lamplitud, el punt mitj, etcSi els intervals sn de diferent amplitud, cal calcular les altures

  • notes

    notes

    Exemple: Variable notes matemtiques a les PAU. Pag. 21Si volgussim fernosaltres la taula, haurem dobtenir les freq. Relatives. Vegeu lexercici segent.Obtenim un resum satisfactori de les dades Variables amb pocs valors diferents: no cal agrupar en ntervals

  • Variables amb pocs valors diferents: no cal agrupar en intervalsExercici 1: completeu la taula de freqncies

    xinotesnifreq. absolutafi freq. relativapi%Nifreq. acumuladaFifreq. relativa acumuladaPi% acumulat,04,019 4 ,54,019 8 1,09,042 17 1,512,056 29 2,09,042 38 2,517,079 55 3,023,107 ,364 3,513,061 ,425 4,017,079 ,505 4,517,079 ,584 5,014,065 ,650 5,59,042 ,692 6,010 ,738 6,511 ,790 7,012 ,846 7,57 ,879 8,08 ,916 8,56 ,944 9,05 ,967 9,54 ,986 10,03 1,000100,02142141100

  • Exemple: Variable edat poblaci de Catalunya Pag. 22Si posssim totes les edats, el resum no seria satisfactori: taula massa llarga !!Agrupar en intervals implica perdre informaci[0,5) Variables amb molts valors diferents: agrupar en intervals

  • Dades agrupades en intervals. Pag. 23 intervals (enganxats) amplitud punt mitj o marca de classeEncara perdem ms informaci!El darrer interval no sabem on acabaFreq. absolutes%Freq. acumu-lades% acumulatsAmplitud o longitudPunt mitj o marca de classeEl darrer punt mitj s desconegut. Lhem determinat per coherncia amb els altresIntervals enganxats

  • Quants intervals conv considerar i de quina amplitud?Si no tenim cap altre criteri: pag. 25

  • Exercici 2: Agrupeu les segents dades en intervalsCalculeu el nombre dintervals:Calculeu lamplitud dels intervals:Completeu la taula segent:

  • Freqncies duna variable numricaSense agrupar en intervals:edats

    Avantatges: no hem perdut informaci; tots els clculs dels descriptius seran exactes

    Inconvenients: poc resumit; les freqncies sn molt baixes, hi ha molts valors diferents

  • Descriptius de posici: dades sense agrupar en intervalsEls resultats sn exactes, doncs tenim tota la informaci Moda: Hi ha massa modes (la freqncia ms alta s 2). La moda no s representativa, no en donem cap valor.Mediana: s el valor 56.5 ats que hi ha un % acumulat igual al 50%, cal fer la mitjana entre aquest valor i el segent. Md=56.5. Recordem que la mediana s el centil 50.Centils o percentils: El percentil o centil 40 s el valor 53, doncs li correspon el primer percentatge acumulat que supera el 40%: C40= 53 El percentil o centil 75, que s el tercer quartil, s el valor 65: C75= Q3= 65 que t el primer percentatge acumulat que supera el 75% El percentil o centil 25, que s el primer quartil, s un valor entre 43 i 45, ats que el valor 43 t un percentatge acumulat igual al 25%. LSPSS fa la mitjana ponderada entre aquests dos valors: 0.75 x 43 + 0.25 x 45 = 43.5 C25= Q1= 43.5 Qu signifiquen? Que el centil 40 sigui 53, vol dir que com a mnim el 40% de les dones daquest grup tenen 53 anys o menys.

  • La mitjana aritmticas la suma de totes les observacions dividida pel nombre total dobservacions.Si les tenim agrupades en freqncies, cal multiplicar cada valor per la seva freqncia, sumar i dividir pel nombre total dobservacions.

  • Clcul de la mitjana per a les dades amb freqnciesEl clcul s exacte, tenim tota la informaci.

    Aquesta taula NO la fa lSPSS

  • Descriptius de dispersi: dades sense agrupar en intervalsEls resultats sn exactes, doncs tenim tota la informaci

    Les mesures de la dispersi de les dades acompanyen les caracterstiques de posici. Quan menor s la dispersi, ms homognies sn les dades i ms concentrades entorn de les caracterstiques de posici central, i per tant, ms representatives sn aquestes. Sn apropiades per a variables numriques (les variables amb una escala ordinal prou fina es poden considerar numriques)

    Rang, recorregut o amplitud: Distncia entre el mxim i el mnim; s el recorregut del 100% de les dadesR= Max Min= 89-12 = 77 (edat de 40 dones)fcil de calcularpoc sensible i representativa: noms hi intervenen 2 observacions

    Rang inter-quartil: Distncia entre els quartils tercer i primer; s el recorregut del 50% de dades centralsRI= Q3 Q1 = 65- 43.5 = 21.5 (edat de 40 dones)no tant fcil de calcular: necessita els quartilsms sensible i representativa: hi intervenen les posicions de totes les dades Varincia i desviaci tpica (pag. Segent)

  • La varincia pag 50

  • Interpretaci i clcul de la varincia pag 51

  • La desviaci tpica pag 52

    s larrel quadrada de la varinciaT les mateixes unitats que la variable, mentre que la varincia les t al quadratDues desviacions tpiques ms enll de la mitjana cobreixen com a mnim el 75% de les observacions. Si la forma s normal, cobreixen el 95.5% de les observacions

  • Resum de descriptius de posici i de dispersi, amb lSPSSlSpss noms calcula la varincia i desviaci tpica mostralsEdats de 40 dones

  • El coeficient de variaci pag 53s una mesura de la dispersi en relaci a la mitjanas un coeficient estndard (sense unitats)Permet comparar les dispersions de dues variables no necessriament mesurades en les mateixes unitats

    Si s superior al 100% vol dir que la desviaci tpica s superior a la mitjanaNoms s per a variables positives

  • Clcul del CVl clcul no el fa lSPSS directament, cal fer una petita operaci

    Per aquest ordre, X2, X3 i X1 sn les variables amb ms dispersi relativa a la mitjana, i per tant, les que discriminen ms entre els pasos

  • Grfiques per a variables numriques: diagrama de caixa

  • Grfiques per a variables numriques: histogramaCorrespon al segent agrupament amb intervals:

  • Per a les dades dedat agrupades en 6 intervals: podem calcular aproximadament (!) els descriptius

  • Grfiques per a variables numriques: histogramaLes rees sn proporcionals a les freqncies dels intervals. Pag. 30Cas dintervals digual amplitud: base= amplitud, altura = freqncia Exemple: Variable evf (esperana de vida femenina). Casos: pasos. Sense ponderar Ponderant per poblaci

    Punts mitjansAmplitud 5Intervals enganxats

  • Grfiques per a variables numriques: histograma i polgon pg 31El polgon es fa unint les bases superiors dels rectangles rea sota el polgon = rea sota lhistograma

  • Grfiques per a variables numriques: ogiva de freqncies acumulades pg 31 ogiva de freq. acumulades ogiva de % acumulats Mateix aspecte, noms canvia lescalaTrams amb ms pendent: notes ms freqents

  • Variables numriques: dades agrupades en intervals de diferent amplitud

    Les rees de lhistograma han de ser sempre proporcionals a les freqncies dels intervals.

    Cal calcular: base= amplitud, altura = freqncia/amplitud

    Variable: notes, agrupades en intervals de diferent amplitud

  • Histograma, amb intervals de diferent amplitud Pag. 32

    Grfica errnia: lrea no s proporcional a la freqncia. Es magnifiquen els intervals gransSembla que aprovin molt pocs!Grfica correcta lrea s proporcional a la freqncia.Aprova un 41.6% dels estudiants

  • Descriptius: cas dintervals de diferent amplitudSn aproximats perqu tenim dades agrupades en intervals (tant si els intervals sn digual com de distinta amplitud).

    Tots els descriptius de posici (excepte la moda) i de dispersi es calculen de la mateixa manera que si els intervals fossin digual amplitud.

    La moda es calcula tenint en compte la mxima altura:

    Linterval modal s el que t mxima altura, s a dir, mxima freqncia per unitat damplitud.

    La moda (aproximada) s el punt mitj daquest interval.