Suport Curs Statistica Univariata 2015

download Suport Curs Statistica Univariata 2015

of 49

Transcript of Suport Curs Statistica Univariata 2015

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    1/49

     

    1

    Cursul nr 1.Introducere în statistică socială 

    Ce este statistica socială? 

      Sociologia= știință care studiază societatea omenească și legile ei. Știință care seocupă cu studiul descrierii structurii și fiziologiei societății, al relațiilor interumane în

    cadrul grupurilor sociale, precum și al instituțiilor din societatea dată   Ştiinţele sociale îşi propun în general să descrie realitatea socială şi să o explice,

    realizând predicţii  asupra posibilelor evoluţii ulterioare ale fenomenelor, structuriisociale etc.

    Cum stabilim legități (construim teorii)? -experimente

    -ancheta sociologică pe bază de chestionar  (cvasiexperiment)

    Pentru a prelucra datele din ancheta pe bază de chestionar  este nevoie de metode statistice.Statistica socială oferă instrumente de investigaţie şi de analiză care servesc celor trei

    mari obiective: descrierea, explicaţia şi predicţia.

    1.  Descrierea datelor: care este starea de sănătate a populației din România; care estesituația în România d.p.d.v. al divorțialității/natalității?2.  Explicarea datelor: care sunt factorii la nivel macro cu impact asupra stării desănătate a populațieie din România?(sistemul de sănătate, nivelul de dezvoltare a societății);care sunt factorii la nivel macro care determină creșterea/scăderea divorțialității/natalității? 

    Exemple implicații practice: construirea de teorii, realizarea unor măsuri pentru ainterveni (politici publice)

    3.  R ealizarea de predicţii asupra populaţiei, generalizarea datelor la nivel de

     populaţie; (acest lucru se realizează doar atunci când  se lucrează cu anchetă sociologică pe bază de eșantion și se dorește estimarea datelor la nivelul întregii populații de referințe);Exemple implicații practice: identificarea exactă a potențialilor alegători, identificarea

    exactă a numărului de apartamente care ar trebui construite etc. Prin urmare, statistica socială este preocupată de culegerea datelor și de analiza și

    interpretarea datelor. Trebuie însă subliniat faptul că statistica socială reprezintă un simpluinstrument care deserveşte aceste scopuri. Nu este o ramură a matematicii (nu avem axiome,nu se fac demonstrații, de aceeea pentru scopuri similare vom avea mai multe tipuri deindicatori)

    În concluzie,  Statistica socială este o știință care are drept obiect stabilirea regulilor de

    culegere, prelucrarea și interpretare a datelor. Cu alte cuvinte, cu ajutorul statisticii sociale, pe de o parte vom învăța cum să proiectăm și să realizăm o cercetare la standarde cât mai aproape de rigorile științifice, iar pede altă parte cum să analizăm datele  (să descriem, să găsim explicații sau cum să facem

     predicții la nivelul populației. Metodele statistice necesare analizei datelor, pot fi utilizate atât pe date rezultate în urma unor anchete sociologice pe bază de chestionar, analiză de conținutcantitativă, fie pe date la nivel macro (indicatori baze de date oficiale). Chiar și atunci când nusuntem în ipostaza de a realiza cercetări științifice, cunoștințele dobândite în cadrul acestuicurs ne vor fi utile pentru a avea abilitatea de citi și înțelege rezultatele cercetărilor întreprinsede alte persoane.

    Exemple de programe pentru prelucrarea datelor în științe sociale: SPSS, Excel, SAS,

    AMOS, RData. Programul cel mai utilizat în România este SPSS (Software Package forSocial Sciense). Nu e nevoie să avem cunoştinţe avansate pentru a înţelege acest program.

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    2/49

     

    2

    Concepte de bază în statistica socială 

    Subiect, repondent, individ Orice persoană care răspunde la chestionar  Populație Toate persoanele din care a fost extras eșantionul Item Orice întrebare din chestionar.Variabilă  Seria de numere reprezentată de răspunsurile o întrebare din

    chestionar.statistică descriptivă  -un set de metode pentru descrierea datelor: tabele, grafice

    exprimate în procente sau frecvenţe (număr de cazuri), indicatoristatistici precum media, mediana, modul, indicatori de dispersie etc

    statistică deductivă sauinferenţială 

    Forme:

    1.estimarea parametrilor populației pornind de la observaţiile făcute pe un eşantion, dacă sunt îndeplinite condiţiile de reprezentativitatecare să permită o astfel de operaţie;Ex1: estimăm procentul celor care votează la nivelul unui județ,estimăm procentul vârstnicilor care sunt implicați în voluntariat

    Atunci când extragem un eşantion lucrăm cu diferite erori şi trebuiesă fie reprezentativ; ce înseamnă reprezentativ?Exemplu de eşantion nereprezentativ şi sondajele politice 

    2. testarea unor ipoteze

    -

    Ex2:identificăm o serie de factori cu impact asupra stării de sănătatea populației, deci atunci când testăm o serie de ipoteze științifice Ex3: r ealizăm comparații între datele obținute pe diferite populații -dorim să vedem dacă există diferenţe privind mulţumirea faţă de

    sănătate între persoanele din diferite judeţe sau medii de rezidenţă -dacă există diferenţe dintre romii din Garcini şi romii din altecomunităţi -dacă există diferenţă între persoanele cu boli mentale care suntinstituţionalizaţi şi care nu sunt 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    3/49

     

    3

    Cursul nr 2. Etapele unui proiect de cercetare

    Care sunt pașii unei cercetări până ajungem la analiza datelor cu ajutorul metodelorstatistice? (ancheta pe bază de chestionar) 

    EXEMPLU1. Definirea temei de cercetare: voluntariatul în rândul persoanelor vârstnice 2. Definire obiectivelor de cercetare

    2.1. Identificarea atitudinii persoanelor vârstnice față de voluntariat  

    2.1.1. Identificarea gradului de implicare a vârtsnicilor în voluntariat 

    2.1.2. Identificarea factorilor care diminuează implicarea vârstnicilor față devoluntariat

    2.1.3. Identificarea atitudinii persooanelor față de comportamentele deîntrajutorare 3. Documentarea

    3.1.De unde mă informez? 3.1.1 De la specialiști 

      Din cărți de specialitate   Articole din reviste de specialitate (ilustrare)

      Studii /rapoarte de cercetare realizate de alte persoane (surse credibile)

    Ce urmăresc? 

      Cum au studiat alții această tematică   Indicii pentru alegerea metodei de cercetare

      Indicii pentru dimensiuni/indicatori din instrument (chestionar)

      Teorii utilizate care explică termenul nostru cheie (comportamentul de întrajutorare)  

    Limite/obstacole/probleme întâmpinate Exemplu: bazele de date internaționale-de pe portalExemplu-Rapoarte Fundația Soros 

    3.1.2 De la publicul țintă (ex.persoanele vârstnice-cercetare exploratorie)3.1.3.. De la clientul nostru

    3.1.3 De la alte publicuri co-interesați de tematică (ex.instituțiile publice/private deasistență socială din Brașov) 4. Tipul de cercetare

    4.1 descriptivă 4.2 explicativă 

    4.3. predictivă  Nu sunt disjuncte5. Ipoteze doar pt 4.2Ex1: Realizăm o cercetare legată de starea de sănătate a populației.Din alte studii

    reiese faptul că emoțiile pozitive sau rețeaua social sunt factori, Nu știm dacă e adevărat și pe publicul nostru țintă (persoane vârstnice). Testăm aceste bănuieli (ipoteze științific) 6*. Definirea termenilor (definiție terminologică sau operaționalizarea conceptelor) 7. Definim universul cercetării și stabilim caracteristicilor eșantionului 

      cercetare exhaustivă/cercetări selective

    De ce sunt selective?

    1. fie populaţia este prea mare şi nu o putem acoperi

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    4/49

     

    4

    2. fie sunt cercetări pe o temă delicată unde nu poţi aplica chestionare decât pe eşantion devoluntari

    Exemple cercetări exhaustive: angajaţii unei companii/instituții Exemple cercetări selective: profesorii din licee, cercetări pe persoane cu dizabilităţi,cercetări pe persoane dependente de droguri/bolnavi de cancer  

    Exemplu-Rapoarte Fundația Soros 

    8*.Realizarea instrumentului de cercetare (chestionar)

    Exemplu-Rapoarte Fundația Soros 

    9.Culegerea datelor

    10.Prelucrarea datelor

      Se introduce datele în SPSS (este doar unul din programele de prelucrare)   Se analizează datele cu ajutorul metodelor statistice

    11. Redactarea raportului de cerceare 

     

    Se descrie tema, se stabilește dacă ipotezele se confirmă sau nu și soluțiile practice pentru problemele studiate (acolo unde este cercetare aplicativă) Exemplu-Rapoarte Fundația Soros 

    CURS 3. Măsurarea în sociologie (științele socio-umane)

     Pentru a putea realiza punctul 6* și 8* din schema etapelor unei cercetări, trebuie să

    înțelegem ce înseamnă a măsura. Punctele 6, 8, 9 și 10 sunt etape ce fac parte din procesul

    de măsurare a variabilelor. Etapele 7, 9, 10, 11 țin de obiectul statisticii sociale 

    1. Ce reprezintă măsurarea în sociologie (științe socio-umane)?

      A măsura înseamnă a descrie și este legat deci de cercetările descriptive   Există două tipuri de măsurare

    a. Măsurare din ochi b. Măsurare instrumentală (științifică) 

    a. Măsurarea din ochi

      în primul rând a măsura este a DENUMI un obiect/o stare/un comportament/uneveniment, dacă nu denumim nu putem măsura, dacă denumim prost măsurăm prost

    ..ex. asta e pisică, ăsta e câine…   ..vrem să vedem care este situația persoanelor vârstnice din punct de

    vedere al singurătății..Cum denumim acest lucru? Starea civilă? 

    Statusul marital al persoanei? Rețea socială ) 

      Vrem să vedem care este situația persoanelor vârstnice d.p.d.v. al

    educației..Cum denumim? Nivel de educație?  Nivel de studii?(anii de

     școală finalizați) 

      Vrem să vedem cât de bine trăiesc persoanele vârstnice..Cum

    denumesc asta? Bunăstarea? Venituri? Bogăție? 

      denumim variațiile de principiu a ceea ce am denumit..ex câinele ăsta e mai mare, ăsta

    mediu, ăsta mai mic, sau e mai puterninc, asa si asa, deloc etc   care sunt ipostazele posibile pentru ceea ce am denumit?

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    5/49

     

    5

      Atribuim cifre variațiilor de principiu/ipostazelor  o  Aceste cifre se atribuie după niște reguli-din Teoria nivelelor de măsurareo  Aceast lucru se face de regulă atunci când transpunem variabilele în

    instrumentul de cercetare (în cazul nostru, chestionarul; doar despre acestinstrument discutăm în anul I, deoarece în special pentru datele culese cu acestinstrument vorbim de analiză cu ajutorul metodelor statistice.

      Creem contextele și modalitățile prin care putem număra câte obiecte/evenimente seaflă în fiecare variantă/ipostază 

       Numărăm efectiv cât obiecte/evenimente avem în fiecare ipostază 

    C ând vorbim despre măsurare din ochi?  Vorbim despre măsurare din ochi atunci când suntem în una din situațiile următoare:   a1.Propria noastră minte ne spune ceva despre denumirea și variația de principiu a

    unei variabile

      a2.Clientul cercetării noastre ne spune ceva despre o variabilă 

     

    a3.Subiecții cercetării noastre ne spun ceva despre o variabilă   a4.Persoanele care formează publicurile interesate de cercetarea noastră ne spun ceva

    despre o variabilă 

    Măsurări simple 

      implicarea în activități de voluntariat (formal)   motivele neimplicării în activități de voluntariat (bani, timp, sănătate, nu știu unde etc)   satisfacția față de activitățile de voluntariat întreprinse   timpul alocat activităților de voluntariat 

    Exemple chestionar_viata_de_familie

    Exemplu vârsta măsurată ordinal/interval/raport 

    Măsurări complexe (avem nevoie de un număr mai mare de indicatori) -operaționlizareaconceptului

      satisfacția față de FSC –o putem măsura simplu-ordina/interval

      satisfacția față de FSC (-o putem măsura complex-se dau note dar nu se știe ce aevaluat fiecare student/studentă, ecercițiu cu studenții..la ce s-a gândit fiecare când aevaluat, putem stabili variațiile de principiu și atribui numere sau mergem și mai fin laindicatori)

    o  Aspecte materiale (spații, tehnologie etc) 

    Procesul de învățământ (planuri de invățământ, discipline opționale/facultative,conținutul disciplinelor, practică, activități științifice, oportunități de afirmare profesională- burse, erasmus,manifestari științifice, sprijin financiar etc) 

    o  Profesori (prezența la curs/seminar, stilul de predare, pregătirea profesionalăetc)

    o  Colegi (stilul de relaționare, de învățare) 

      atitudinea față de voluntariato  Componenta cognitivă? o

     

    Componenta afectivă? o  Componenta comportamentală? 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    6/49

     

    6

    Stabiliți denumirea, variațiile de principiu și atribuiți numere 

    Exemple chestionar viata_de_familie

    b. Măsurarea instrumentală   Ii dăm o denumire terminologică, identificăm un termen dintr -o teorie (punctul 6 din

    etape)  Ex..știm la nivelul simțului comun că bogăția nu se suprapune neapărat

     peste gradul de cultură a unei persoane..cum denumesc combinațiaasta?...status social? ..clasă socială?.... 

      Determinăm variantele în care variabila respectivă se poate manifesta (variația de principiu) (punctul 6 din etape)

      Atribuim cifre variațiilor de principiu/ipostazelor    Aceste cifre se atribuie după niște reguli-din Teoria nivelelor de măsurare   Aceast lucru se face de regulă atunci când transpunem variabilele în

    instrumentul de cercetare (în cazul nostru, chestionarul; doar despre acest

    instrument discutăm în anul I, deoarece în special pentru datele culese cu acestinstrument vorbim de analiză cu ajutorul metodelor statistice.  Creem contextele și modalitățile prin care putem număra câte obiecte/evenimente se

    află în fiecare variantă/ipostază    Numărăm efectiv cât obiecte/evenimente avem în fiecare ipostază 

    c. Măsurarea din ochi versus măsurarea științifică (instrumentală)   Măsurarea din ochi nu este un substitute al măsurării instrumentale, ci doar o etapă

     premergătoare măsurării instrumentale o  Pe baza iformațiilor obținute reușim să dăm un nume variabilei respective

      Ex. Sunt situații (cele mai multe) când nu este o operație ușoarădenumirea și avem nevoie de această etapă premergătoare..performanțeșcolare, comportamente de întrajutorare, voluntariat formal/informal 

      Identificăm variațiile de principiu, setul de ipostaze  Atribuim cifre ipostazelor conform unor reguli de atribuire

     Atenție! În anul I facem doar măsurare din ochi  

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    7/49

     

    7

    CURS 4. Definirea universului cercetării și stabilirea caracteristiciloreșantionului 

    1. Definirea universului cercetării și stabilirea caracteristicilor eșantionului (punctul 7

    din schema privind etapele de cercetare)1.1. Universul cercetării 

    Ex.persoanele vârstnice din municipiul Brașov/județul Brașov/zonele urbane din județul Brașov 1.2. Caracteristicile eșantionului 1.2.1. Cercetarea exhaustivă 

      Pornind de la obiectivul menționat în schema privind etapele de cercetare – ce tip decercetare este potrivită (atitudinea persoanelor vârstnice față de voluntariat)?

    1.2.2. Cercetare selectivă 

     Princi piul de bază ale eșantionării 

    Presupoziţia  care stă  la baza eşantionării  este că  analiza unui eşantion din  populaţia cadru conduce la rezultate similare cu acelea obţinute prin investigarea întregii  populaţii, cucondiţia respectării unor condiţii statistice şi teoretice de asigurare a reprezentativităţii.

    Cum definim reprezentativitatea unui eșantion? 

    Reprezentativitatea este o noţiune relativă. Nu se poate vorbi dereprezentativitate/nereprezentativitate, ci de mai mult/mai puţin reprezentativ. 

    Reprezentativitatea nu poate fi stabilită în general ci doar prin raportare la o serie devariabile. Aceste variabile ar putea fi: sex, vârstă, educaţie, ocupaţie, naţionalitate etc. Cu cât

    luăm în calcul mai multe variabile cu atât eşantionul are un grad mai ridicat dereprezentativitate.

    Un eşantion are o reprezentativitate în raport cu vârsta, altă reprezentativitate în raportcu sexul ş.a.m.d. Se poate afirma că un eșantion este reprezentativ în raport cu variabila sex,dacă el respectă structura pe sex a populației cadru1.

    Folosirea expresiei de “eșantion reprezentativ” este corectă doar   dacă el estereprezentativ pe toate caracteristicile studiate.

    Ex. Dorim să proiectăm un eșantion pentru studiul mai sus menționat (persoanele vârstnicedin municipiul Brașov). Acest eșantion va trebui să respecte structura populației vârstnice dinmunicipiul Brașov după sex (cel puțin). Tabelul 4.1: Structura eșantionului în funcție de structura populației în funcție de sex 

    Structura populației cadru înfuncție de variabila sex

    Structura teoretică aeșantionului în funcție devariabila sex

    Masculin 40%  Identică cu cea la nivelul

     populației Feminin 60%

    Total 100%

    1 Datele referitoare la populația cadru (universul cercetării) pot fi iobținute de la INSSE (tempo on-line) sau de

    la Direcțiile Județene de Statistică 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    8/49

     

    8

    Condiții pentru respectarea reprezentativității 

    Asigurarea reprezentativităţii eşantionului presupune respectarea următoarelor treicondiţii în ceea ce priveşte selecţia subiecţilor: 

    1.  Includerea în eşantion a subiecţilor fără a acorda vreo preferinţă unora dintre ei,

    fiecare fiind selectat după criterii aleatoare, după principiul hazardului combinaţional,având o probabilitate cunoscută şi diferită de zero (echireprezentarea). 2.

      Eşantionul trebuie să fie suficient de mare (de ordinul sutelor) pentru a permiteredarea caracteristicilor principale ale populaţiei originare şi, pe această bază,obţinerea unor indicatori cu un grad mare de fidelitate.

    3.  Unităţile incluse în eşantion trebuie să fie independente una de alta. 

    Pentru a realiza cercetări selective se utilizează instrumente specifice. Apar într -unasemenea context mai multe probleme:

      estimarea erorii produse prin colectarea unei valori pe eşantion în loc să o

    calculăm pe întreaga populaţie; E   evaluarea încrederii pe care putem să o acordăm valorilor pe eşantion ca

    reprezentând valori similare pentru populaţia întreagă (prin aplicarea testelorde semnificaţie). P

    “Reprezentativitatea unui eşantion este cuplul [E, P].”  Nu putem ameliora simultan şi

     precizia estimării şi siguranţa acesteia. 

    Ce informații trebuie să precizez la această etapă din cadrul proiectului?  

    a.Volumul eșantionului (câte persoane voi intervieva?)

     p= procentul din populaţia cadru care posedă o caracteristică q = 100-p

    P=99% t=2,58

    P=95% t=1,96

    P=90% t=1,68

    2

    2

     E 

     xpxqt n  

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    9/49

     

    9

    Tabelul 4.2: Relația dintre n, E și P  p=procentul persoanelor

    vârstnice care au oatitudine favorabilăvoluntariatului formal

    Eroarea de

    eșantionare Volumul

    eșantionului P=probabilitatea

    de garantare a

    rezultatelor

    (datelor ce

    rezultă în urmaanalizelor)

    Ex.1 p=10%, q=90% E=3% n=384 persoane

    P=95%Ex2. p=10%, q=90% E=2%, n=864 persoane

    Ex3. p=q=50%, E=3%, n=1067

     persoane

    Ex4. p=q=50%, E=2%, n=2401

     persoane

     p=procentul persoanelor

    vârstnice care au oatitudine favorabilăvoluntariatului formal

    Eroarea de

    eșantionare Volumul

    eșantionului P=probabilitatea

    de garantare a

    rezultatelor

    (datelor cerezultă în urmaanalizelor)

    Ex.1p=10%, q=90% E=3% n=665persoane

    P=99%Ex2. p=10%, q=90% E=2%, n=1498persoane

    Ex3. p=q=50%, E=3%, n=1849persoane

    Ex4. p=q=50%, E=2%, n=4160persoane

    Cum decidem volumul eșantionului? 

    Din punct de vedere formal, pentru determinarea mărimii eşantionului se face un

    arbitraj între diverşi factori. Factori de ordin statistic  P, probabilitatea de garantare a rezultatelor

      E, eroare de eșantionare   R, reprezentativitatea eșantionului 

    o  Cu toate că o creştere a eşantionului va mări precizia rezultatelor, ea nu vaelimina şi nici nu va reduce influenţa distorsiunii din procedura de selecţie. Deaceea, măsurarea eşantionului în sine nu este suficientă pentru a asigurasuccesul cercetării. 

    o  Reprezentativitatea atinge destul de repede un nivel suficient de ridicat, aşaîncât o creştere suplimentară a numărului de indivizi în eşantion nu mai aduce

    un spor notabil de reprezentativitate

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    10/49

     

    10

    Figura 4.1:Relația dintre reprezentativitatea eșantionului și volumul eșantionului 

     Factori de ordin administrativ (de organizare a culegerii datelor)

      Modalitatea de analiză a datelor (subeșantioane reprezentative) ex. Analiza atitudinii p.v. pe gen

       Non-răspunsurile (profilul celor care fac voluntariat)  Se vor lua în calcul resurse de bani, timp, oameni 

    b.Metoda de eșantionare  (cum vor fi aleși subiecții la nivel teoretic) și caracteristicileeșantionului 

    b.1. Eșantionarea teoretică de principiu

    Se descrie metoda de eșantionare și se specifică   caracteristicile eșantionului astfelîncât să fie reprezentativ după cel puțin o variabilă-Există două categorii de metode de eșantionare 1. metode de eșantionare aleatorii (probabiliste) 2. metode de eșantionare nealeatorii (neprobabiliste) 

    Comparații 1. metode de eșantionare aleatorii(probabiliste)

    2. metode de eșantionare nealeatorii(neprobabiliste)

      Se pot face inferențe statistice lanivelul populației din care a fostextras

      Datele caracterizează doar eșantionulde persoane intervievate

     

    Se pot generaliza datele. Concluziilesunt legități pentru populația din carea fost extras

     

     Nu se pot generaliza datele.Concluziile sunt posibile tendințe 

    b.2. Eșantionarea practică (efectivă) Eșantionul scos din teren nu se pliază exact pe cel proiectat. Trebuie testată

    reprezentativitatea lui în funcție de variabilele luate în calcul pentru proiectarea eșantionului.Uneori este nevoie de ponderări ale eșantionului. 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    11/49

     

    11

    CURS 5. Metode de eșantionare probabiliste 5. Metode de eșantionare probabiliste 5.1.Eșantionarea aleatorie5.2.Eșantioanarea sistematica 5.3.Eșantionarea stratificată 

    5.4.Eșantionarea multistadială 5.5.Eșantionarea multifazică 5.6.Eșantioanarea cluster  5.7.Eșantioane fixe panel 

    5.1. Eșantionarea aleatorie Informații de care avem nevoie pentru a aplica acest tip de eșantionare 

      O listă cu populația de referință (cadru) Procedee:

      Procedeul bilei revenite

      Procedeul bilei nerevenite

    5.2.Eșantioanarea sistematică Informații de care avem nevoie pentru a aplica acest tip de eșantionare 

      O listă cu populația de referință (cadru) Se stabilește un pas mecanic K  5.3.Eșantionarea stratificată Procedee:

    a)  Eșantionarea stratificată proportional  b)  Eșantionarea stratificată neproporțional c)  Eșantionarea stratificată optimă 

    a.Eșantionarea stratificată proportional Etape:

    1. se stabilește populația de referință 2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați,

     județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de proporția volumului

     populației din acel strat raportat la volumul întregii populații de referință 4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)Exemplu.  Dorim să realizăm o cercetare pe tema fertilității la nivelul județului Brașov.Scopul este de a întreprinde politici demografice de creștere a natalității.   Presupunem n

    (volumul eșantionului)=2000 persoane2

     1. se stabilește populația de referință (populația cu vârsta între 15-49 de sex feminin din

     județul Brașov, Tab 3, coloana 3)2. se stabilesc straturile populației (I categorie de straturi-vârsta (Tab 3, coloana 1), a II-acategorie de straturi-mediul de rezidență (Tab 3, coloana 3, 4))3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de proporția volumului

     populației din acel strat raportat la volumul întregii populații de referință, pentru fiecarecategorie de strat în parte (Tab 3, coloana 5, Tab 4 coloana 5, 6)4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/sau șanse aproximativ egale- vezi5.1 sau 5.2)

    2 aceast a cifră a fost rotunjită pentru ușurința în calcule  

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    12/49

     

    12

    Pentru acest punct este nevoie de o listă cu cu populația de referință (persoane de sex feminindin mediul urban cu vârsta 15-44 ani și cu persoanele de sex feminin din mediul rural cuvârsta 15-44 ani)

    Tabelul 5.1: Eșantionarea stratificată  proporțional-după volumul populației de sex

    feminin din județul Brașov-prima categorie de straturi (categoriile de vârstă) Eșantionare stratificată  proproțional 

    Straturile

    (categorii de

    vârstă-femei)Rate fertilitate

    20123 

    Ni (volumul populației desex feminin pe prima

    categorie de straturi-

    vârsta)4 

    pi(repartizarea

    volumului

     populației pe prima

    categorie de

    straturi)

    ni (repartizarea

    volumului

    eșantionului pefiecare strat în

     parte-din

     prima

    categorie)

    1 2 3 4 5

    15-19 ani 35 13341 9,9% 199

    20-24 ani 64 17292 12,9% 258

    25-29 ani 83 25430 19% 379

    30-34 ani 59 26707 19,9% 398

    35-39 ani 25 27777 20,7% 414

    40-44 ani 4 23619 17,6% 352

    45-49 ani 0,2

    TOTAL 134166 100% 2000

    Tabelul 5.2: Eșantionarea stratificată proporțional-după volumul populației din județul

    Brașov-a doua categorie de straturi (mediul de rezidență) Eșantionare stratificată proporțional 

    I categoriede straturi-

    vârsta 

    ni (repartizare

    avolumuluieșantionului pe fiecare

    strat în parte-prima

    categorie

    de straturi)

     p j (repartizarea volumului populației de sex feminin pe adoua categorie de straturi-mediul de rezidență)5 

    ni (repartizarea volumului eșantionului pefiecare strat în parte-din a doua categorie)

    urban rural urban rural

    1 2 3 4 5 6

    15-19 ani 199 63,8% 36,2% 127 72

    20-24 ani 258 68,7% 31,3% 177 81

    25-29 ani 379 74,3% 25,7% 282 97

    30-34 ani 398 77,1% 22,9% 307 91

    35-39 ani 414 76,4% 23,6% 316 98

    40-44 ani 352 73,7% 26,3% 260 92

    TOTAL 2000 73,7% 26,3%- 1469 531

    3 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)4 idem 5 ibidem 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    13/49

     

    13

    b.Eșantionarea stratificată neproporțional -nu ține cont de structura populației în funcțe de volum ci de alte criterii mai relevante pentrucercetare

    Etape:

    1. se stabilește populația de referință 

    2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați, județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul din acel strat raportat la total4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)Exemplu. Pentru cercetarea mai sus menționată despre fertilitatea în județul Brașov, mai util

     pentru cercetare este eșantionarea stratificată neproporțional. Este mai util să ținem cont demărimea ratei de fertilitate pe fiecare categorie de vârstă.  Presupunem n (volumuleșantionului)=2000 persoane6 1. se stabilește populația de referință (populația cu vârsta între 15-49 de sex feminin din

     județul Brașov, Tab 5, coloana 1)2. se stabilesc straturile populației (I categorie de straturi-vârsta  (Tab 5, coloana 1), a II-acategorie de straturi-mediul de rezidență (Tab 5, coloana 1)) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul (ratele de fertilitate,Tab 5, coloana 3,4, Tab 6 coloana 5,6)4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/sau șanse aproximativ egale- vezi5.1 sau 5.2)

    Pentru acest punct este nevoie de o listă cu cu populația de referință (persoane de sex feminindin mediul urban cu vârsta 15-44 ani și cu persoanele de sex feminin din mediul rural cuvârsta 15-44 ani)

    Tabelul 5.3: Eșantionare stratificată neproporțională- județul Brasov-prima categorie destraturi

    esantionare stratificata neproproțională 

    Categorii de

    vârstă Rate fertilitate

    2012

     pi (ponderea ratei de fertilitate

    în suma ratelor de fertilitate)

    ni(volumul eșantionuluiîn funcție de pi,coloana 3)

    1 2 3 4

    15-19 ani 35 0,130 259

    20-24 ani 64 0,237 47425-29 ani 83 0,307 615

    30-34 ani 59 0,219 437

    35-39 ani 25 0,093 185

    40-44 ani 4 0,015 30

    45-49 ani 0,2

    TOTAL 270 1 2000

    6 Aceasta cifră a fost rotunjită pentru ușurința în calcule 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    14/49

     

    14

    Tabelul 5.4:  Eșantionare stratificată neproporțională- județul Brasov-a doua categoriede straturi

    esantionare stratificata neproproțională 

    Categorii de

    vârstă 

    ni(volumul

    eșantionului în

    funcție deratele de

    fertilitate pe

    categorii de

    vârstă)

     p j (repartizarea ponderei ratelor de fertilitate pe a doua categorie de straturi-mediul de

    rezidență)7 

    ni(volumul

    eșantionului înfuncție de pi, coloana3,4)

    urban8  rural urban rural

    1 2 3 4 5 6

    15-19 ani 259 0,258 0,742 67 192

    20-24 ani 474 0,307 0,693 146 328

    25-29 ani 615 0,437 0,563 269 346

    30-34 ani 437 0,508 0,492 222 21535-39 ani 185 0,556 0,444 103 82

    40-44 ani 30 0,466 0,534 14 16

    TOTAL 2000 - - 2000

    Cum diferă volumul eșantionului în funcție de cele două tipuri de eșantionare? 1. La eșantionarea stratificată proporțională ar trebui să se intervieveze un număr mare defemei cu vârsta  peste 35 de ani și în număr mult mai mare din urban 2. la eșantionarea stratificată neproporțională ar trebui să se intervieveze mai puține femei cuvârsta peste 35 de ani și mai multe cu vârsta 20 -35 ani, DAR mai multe din mediul rural

    (pentru că acolo este rata de fertilitate mai mare) Dacă dorim să vedem care sunt motivele pentru care cele care dau naștere la copii facacest lucru, atunci acest tip de eșantionare (al doilea) este mai potrivit. Dacă dor im să

    văd em de ce femeile din urban nu doresc să dea  naștere la copii, probabil primul tip

    de eșantionare este mai potrivit (pentru ca ține cont de ponderea populației din urban)  

    Prin urmare ce metodă de eșantionare  folosim?  Cea care corespunde cel mai bineobiectivului cercetării noastre, dar și costurilor  de timp și bani.

    c.Eșantionarea stratificată optimă 

    -ține cont atât de volumul populației de referință pe fiecare strat în parte dar și de variația uneivariabile pe fiecare strat în parte Etape:

    1. se stabilește populația de referință 2. se stabilesc straturile populației (care de regulă sunt grupări naturale, ex licee, facultați,

     județe etc) 3. se stabilește volumul eșantionului pe fiecare strat în parte în funcție de importanța variabileiluate în calcul din acel strat raportat la total4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectatealeator (adică au aceeași șansă de a fi extrase în eșantion/o șansă similară- vezi 5.1 sau 5.2)

    7 ibidem

    8 ratele de fertilitate au fost luat separat urban/rural pe fiecare categorie de vârstă a populației de sex feminin. Datele sunt reale, preluate de pe

    http://statistici.insse.ro/(Tempo-Online) 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    15/49

     

    15

    Exemplu. Dorim să realizăm o cercetare privind bunăstarea populației României. Vom utilizaaceastă metodă de eșantionare deoarece ține cont atât de volumul populației pe fiecare strat în

     parte dar și de gradul de eterogenitate în ce privește veniturile (Tab 7, coloana 4). Se știefaptul că cu cât o populație este mai eterogenă  d.p.d.v.d a unei variabile de interes pentrucercetare cu atât volumul eșantionului ar trebui să fie mai mare, pentru a surprinde diferitele

    categorii de persoane.

    Tabelul 5.5: Eșantionarea stratificată optimă-macroregiuni România 

    esantionare stratificată optimă 

    Straturi

     Ni 

    (volumul

     populației pe fiecare

    macroregi

    une)9 

     pi%

    (ponde

    rea

    volum

    ului

     popula

    ției pefiecare

    strat în parte)

    Deviatiastandard a

    veniturilor

    σi10 

     Ni* σi(deviatia

    standard)

     pi% din

     Ni*σi ni=n* Ni*σi /suma Ni*σi 

    1 2 3 4 5 6 7

    Macroregi

    unea unu 4950475 25% 705 3490084875 43% 880

    Macroregi

    unea doi 5792920 29% 405 2346132600 29% 591

    Macroregiunea trei 5379697 27% 300 1613909100 20% 407

    Macroregi

    unea patru 3862722 19% 125 482840250 6% 122

    Total19985814 100% 7932966825 100%

    5.4.Eșantionarea multistadială -nu e de sine stătătoare -se combină cu stratificată -diferite tipuri de unități de eșantionare sunt analizate în diferite etape 

    Ex. Eșantionarea bistadială stratificată, unde în primul stadiu au fost selectate facultățile care participă la studiu, iar în al doilea stadiu au fost selectate programele de studiu.5.5.Eșantionarea multifazică -același tip de unități de eșantionare sunt analizate în etape diferite cu instrumente diferite 5.6.Eșantioanarea cluster - presupune existența unor grupări naturale (regiuni istorice, macroregiuni, județe ect) 1. grupările naturale sunt diferite între ele și trebuie să luăm în eșantion din toate grupărilenaturale

    9 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)

    10 Date fictive 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    16/49

     

    16

    2. se consideră că unitățile de eșantionare din cadrul grupărilor naturale sunt omogene d.p.d.val unei variabile importante pentru studiu, astfel încât nu contează prea mult modul deselectare a unităților5.7.Eșantioane fixe panel -cercetarea se realizează pe aceleași persoane la un interval de timp 

    Curs 6. Metode de eșantionare neprobabiliste6.1. Eșantionare la întâmplare 6.2. Eșantioane de voluntari6.3. Eșantionarea dirijată 6.4. Eșantionare pe cote

    a. cote simpleEtape:

    1. se stabilește populația de referință 

    2. se stabilesc cotele  populației (care de regulă sunt raportate la variabila sex și vârstă, dar poate fi orice altă variabilă socio-demografică; poate fi o singură cotă sau mai multe) 3. se stabilește volumul eșantionului pe fiecare cotă în parte în funcție de ponderea volumului

     populației pe fiecare cotă în parte 4.unitățile (persoanele, clasele, grupele, gospodăriile) care vor fi intervievate vor fi selectateîntâmplător, dar pentru a se asigura condiții apropiate de reprezentativitatea unui eșantion suntstabilite niște criterii obiective (aceasta este diferența majoră față de eșantionareastratificată)

     Notă. Dacă sunt respectate condiții stricte pentru selectarea indivizilor aceasta metodă de

    eșantionare se apropie cel mai mult de metodele de eșantionare probabiliste.  

    Exemplu. Tema cercetării: Atitudinea față de persoanele cu disabilități. Populația dereferință: persoanele din municipiul Brașov  cu vârsta 15-64 ani (date reale). Volumuleșantionului n=2000 persoane

    Tabelul 6.1: Eșantionarea pe cote simple în funcție de sex-municipiul Brașov Sex Ni   (volumul

     populației municipiului

    Brașov) 

     pi  (ponderea

     populației pecele două ccote)

    ni 

    (repartizarea

    volumului

    eșantionului pe fiecare

    cotă în parte)1 2 3 4

    Masculin 103155 48% 960

    Feminin 111023 52% 1040

    Total 214178 100% 2000

    11 Datele sunt reale, preluate de pe http://statistici.insse.ro/(Tempo-Online)

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    17/49

     

    17

    Tabelul 6.2: Eșantionarea pe cote simple în funcție de vârstă-municipiul Brașov 

    Vârsta 

     Ni   (volumul

     populației municipiului

    Brașov) 

     pi  (ponderea

     populației pecele două ccote)

    ni 

    (repartizarea

    volumului

    eșantionului

     pe fiecarecotă în parte) 

    1 2 3 4

    15-19 ani 9158 4,3% 86

    20-29 ani 37641 17,6% 351

    30-39 ani 54916 25,6% 513

    40-49 ani 43773 20,4% 409

    50-59 ani 46292 21,6% 432

    60-64 ani 22398 10,5% 209

    TOTAL 214178 100% 2000

    b. cote combinate

    Tabelul 6.3: Eșantionarea pe cote combinate  în funcție de sex și vârstă-date la nivelulpopulației din municipiul Brașov 

    Gen

    Vârsta  masculin feminin Total15-19 ani 4616 4542 9158

    20-29 ani 18795 18846 37641

    30-39 ani 27415 27501 54916

    40-49 ani 20900 22873 4377350-59 ani 20667 25625 46292

    60-64 ani 10762 11636 22398

    Total 103155 111023 214178

    Tabelul 6.4: Eșantionarea pe cote combinate  în funcție de sex și vârstă-date la niveluleșantionului pentru populația din municipiul Brașov 

    Date reale-

    municipiul

    Brașov 

    Gen Ni *volumul

    eșantionului) 

    Vârsta  masculin feminin masculin feminin TOTAL15-19 ani 4,5% 4,1% 43 43 86

    20-29 ani 18,2% 17% 175 177 351

    30-39 ani 26,6% 24,8% 255 258 513

    40-49 ani 20,3% 20,6% 195 214 409

    50-59 ani 20% 23,1% 192 240 432

    60-64 ani 10,4% 10,5% 100 109 209

    TOTAL 100% 100% 960 1040 2000

    Care este diferența dintre eșantionarea stratificată proproțională și cea pe cote? 

    12 idem 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    18/49

     

    18

    Figura 6.1: Diferențe dintre metoda de eșantionare stratificată și cea pecote

    Cum stabilim ce metode de eșantionare folosim? 1. Dacă avem tim p și bani și avem acces la date referitoare la populația de referință (listă cutoate unitățile de eșantionare) atunci vom apela la metodele de eșantionare probabiliste(aleatorie/sistematică/stratificată) 2. Dacă avem timp și bani și avem acces la date referitoare la populația de referință (doar dategenerale legate de structura pe sex, vârstă etc) atunci vom apela la metodele de eșantionareneprobabiliste (pe cote)

    3. Dacă nu sunt suficiente resurse de timp și bani dar avem ceva date referitoare la populațiade referință putem apela la eșantionar ea cluster.4. Dacă nu putem avea acces la populația de referință (tema cercetării este delicate) sau nusunt resurse de bani, vom apela la eșantionarea neprobabilista (dirijată, la întâmplare, devoluntari)

    Exerciții1.   Dorim să realiz ăm o cercetare pe tema  divorțialității 

    a. 

    Ce metodă de eșantionare ați folosit? b.  De ce ați ales această metodă de eșantionare ?c.  De ce informații aveți nevoie pentru a putea realiza această metodă de

    eșantionare? Aveți acces la aceste informații?2.

     

     Dorim să realizăm o cercetare privind relaț ii le de cuplu, doar pe cuplur il e caretr ăiesc î n  uniune consensuală?

    a.  Ce metodă de eșantionare ați folosit? b.  De ce ați ales această metodă de eșantionare ?c.  De ce informații aveți nevoie pentru a putea realiza această metodă de

    eșantionare? Aveți acces la aceste informații?

    esantionare stratificata

    versus eșantionare pecote

    eșantionare stratificatăproporțională 

    PRIMULSTRAT

    AL DOILEA STRAT (face

    parte din primul strat)

    unitatea de

    eșantionarea este selectată aleator 

    eșantionarepe cote

    cote simple

    gencategorii

    vârstă 

    cotecombinate

    gen vârstă 

    unitatea de eșantionare nu este selectată aleator 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    19/49

     

    19

    CURS 7.METODE DE ESANTIONARE NEPROBABILISTE-EXERCIȚII 

    Esantionare pe cote

    a.  simple

    Tema cercetării: Atitudinea față de persoanele cu disabilități Populația de referință: persoanele din municipiul Brașov (date reale) 

    n=2000 persoaneSex Persoane

    15-64 ani

    Ni volumul

    populației Pi-procente ni

    Masculin 103155 48% 960

    Feminin 111023 52% 1040

    Total 214178 100% 2000

    Vârsta Ni volumul

    populației Pi-procente ni

    15-19 ani 9158 4,3% 86

    20-29 ani37641 17,6% 351

    30-39 ani 54916 25,6% 513

    40-49 ani 43773 20,4% 409

    50-59 ani 46292 21,6% 432

    60-64 ani 22398 10,5% 209

    TOTAL 214178 100% 2000

    b. combinate

    Date reale-municipiul

    Brașov Gen

    Vârsta  masculin feminin TOTAL

    15-19 ani 4616 4542 9158

    20-29 ani 18795 18846 37641

    30-39 ani 27415 27501 54916

    40-49 ani 20900 22873 43773

    50-59 ani 20667 25625 46292

    60-64 ani 10762 11636 22398

    TOTAL 103155 111023 214178

    Date privind numărulde chestionare ce

    trebuie realizate

    Gen

    Vârsta  masculin feminin TOTAL

    15-19 ani 86

    20-29 ani 351

    30-39 ani 513

    40-49 ani 409

    50-59 ani 432

    60-64 ani 209

    TOTAL 960 1040 2000

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    20/49

     

    20

    Date reale-

    municipiul

    Brașov 

    Gen ni *volumul eșantionului) 

    Vârsta  masculin feminin masculin feminin TOTAL

    15-19 ani4,5% 4,1% 43 43 86

    20-29 ani18,2% 17% 175 177 351

    30-39 ani26,6% 24,8% 255 258 513

    40-49 ani20,3% 20,6% 195 214 409

    50-59 ani20% 23,1% 192 240 432

    60-64 ani10,4% 10,5% 100 109 209

    TOTAL 100% 100% 960 1040 2000

    Care este diferența dintre eșantionarea proproțională și cea pe cote simple?

    Figura 7.1. Diferențe dintre eșantionarea proporțională și cea pe cote 

    Exercitii3.  Dorim sa realizam o cercetare pe tema divortialitatii 

    a.  Ce metoda de esantionare ati folosi?

    b.  De ce ati ales aceasta metoda ?

    c. 

    De ce informatii aveti nevoie pentru a putea realiza aceasta esantionare? Avem acces

    la aceste informatii?

    4.  Dorim sa realizam o cercetare privind relatiile de cuplu, doar pe cuplurile care traiesc in 

    uniune consensuala?

    a.  Ce metoda de esantionare ati folosi?

    b.  De ce ati ales aceasta metoda ?

    c. 

    De ce informatii aveti nevoie pentru a putea realiza aceasta esantionare? Avem accesla aceste informatii?

    esantionarestratificata versus

    eșantionare pecote

    eșantionarestratificată

    proporțională 

    PRIMUL STRAT

    AL DOILEA STRAT(face parte dinprimul strat)

    eșantionare pecote

    cote simple

    gen categorii vârstă 

    cote combinate

    gen vârstă 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    21/49

     

    21

    Curs 8. Culegerea datelor

    1. Aspectice practice ale eșantionării După ce am proiectat teoretic un eșantion, cum facem în mod practic pe teren să

    selectăm persoanele care urmează să fie intervievate? Atunci când aplicăm o metodă de eșantionare care necesită o listă cu populația cadru,

    lucruri sunt simple. Vor fi intervievate acele persoane care au fost selectate din listă. Cum se procedează însă atunci când nu există o listă cu populația cadru? 

    Pasul 1. Alegerea zonelor/localităților/cartierelor Metoda areolară/pe zone 

    Se va lua zona vizată pentru cercetare și va fi împărțită în zone care vor deveniobiecte de selecție aleatorie simplă sau stratificată. În cazul zonelor alese se poate proceda laun nou stadiu de selecție sau dacă unitățile sunt mici pot fi intervievate toate persoaneleincluse aici.

    Ex1. Municipiul Brașov (se va lua harta și se va împărți orașul pe cartiere/puncte devotare)

    Ex2. Județul Brașov (se va lua harta și se va împărți județul pe zone (urban/rural)/localități/cartiere/străzi 

    Pasul 2. Alegerea punctelor de sondaj (gospodăriilor) Metoda itinerarelor (random route)

    Ex. Se pot trage la sorț un număr de străzi/a unei adrese de pe fiecare stradă. O datăaleasă prima adresă, operatorul de interviu va primi instrucțiuni de selectarea a următoareloradrese de pe stradă Pasul 3. Alegerea persoanei de intervievatEste indicat de a lăsa cât mai puțin la latitudinea opratorului modul de selectare a persoanelor.Se pot da fie doar cote și atunci el are o marjă destul de mare de a selecta indivizii, fie se potda scheme complexe se selectare a persaonelor. (vezi Rotariu Traian și Iluț Petru, Ancheta

    sociologică și sondajul de opinie, Ed Polirom, Iași, 2006, 185-187)Ex.primul care și-a sărbătorit cel mai recent ziua de naștere, scheme mai complexe 

    2.Managementul cercetării Plan de acțiune-Diagrama GanttPreîntâmpinarea și diminuarea diferitelor tipuri de erori 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    22/49

     

    22

     Exemplu. Planificarea activităților pentru o cercetare cantitativă (anchetă pe bază de chestionar) ACTIVITATEA LUNA

    I 2 3 4

    săptămâna  săptămâna  săptămâna  săptămâna 

    1 2 3 4 1 2 3 4 1 2 3 4 1 2

    1. ntâlnire cu beneficiarii prestației sociologice(pentru clarificarea obiectivelor cercetării șiaspectelor financiare)

    2. Documentarea3. Stabilirea metodologiei de lucru (metoda, tehnica,

     procedeul, volumul eșantionului/metoda deeșantionare) 3. Realizarea instrumentului/instrumentelor

    cercetării 4. Selectarea operatorilor de teren

    5. Pretestarea instrumentului/instrumentelor

    cercetării 6. Culegerea datelor din teren

    7. Realizarea bazei de date/bazelor de date

    8. Realizarea raportului de cercetare 

    9. Prezentarea raportului de cercetare 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    23/49

     

    23

    3. Tipuri de erori (ce se referă la managementul eșantionării) a. Erori întâmplătoare (ex. Operatorul a notat greșit vârsta) 

    Eroarea finală (la nivel de grup) se  numește eroare netă. Dacă numărul persoanelorintervievate este mare atunci această eroare netă tinde către zero. b. Erori sistematice

    La nivelul respondentuluio  La nivelul operatorului

    o  La nivelul celui care realizează instrumentul cercetării (chestionarul)b.1. Erori intenționate Modalități de a preveni erorile intenționate 

    La nivelul respondentului Întrebări de control  Instruire, experiență La nivelul operatorului Verificarea muncii de teren

    La nivelul celui care

    realizează instrumentul

    cercetării (chestionarul)

    Controlul și sancționarea firmeide cercetare de către clientul

    cercetării b.2. Erori neintenționate 

    b.2.1.Erori legate de construirea chestionarului

      Erori datorate formulării întrebărilor 

    o  Limbajul

    o  Conținutul

      Ex1. Două întrebări în aceeaiași propoziție (În ce măsură sunteți mulțumit

    de conținutul procesului de învățământ și de dotările tehnice din

    Facultatea de Sociologie și Comunicare?) 

      Ex2.răspunsuri dezirabile (Sunteți de acord ca statul să intervină în

    protejarea mediului înconjurător? control Cât la sută din venitul dvs ați fidispus se mearga la taxe pentru mediu?)(nr7)

      Erori generate de numărul și ordinea întrebărilor 

    o  Numărul întrebărilor (durata interviului este prea mare, un număr mare de

     întrebări măsurate pe aceeași scală) 

    o  Ordinea

       Întrebări dificile 

      Contaminarea răspunsurilor 

      Erori generate de forma de răspuns 

    o  Se sugerează variante de răspuns când de fapt el nu are o opinie 

     Întrebările deschise (Ce părere aveți despre construirea Aeroportului din

    Ghimbav? sau Sunteti de acord cu construirea Aeroportului din Ghimbav?)

    o  Ordinea variantelor de răspuns (efectul cap de listă) 

      Erori produse de construcția grafică a chestionarului (greu de completat) 

    b.2.2.Erori datorate operatorilor de interviu

      Trăsături de personalitate (calitatea rețelei de operatori)

      Corelația dintre tema cercetării și atitudinea respondentului față de tema 

      Anticipațiile operatorului 

    o  Anticipațiile de structură-atitudine

    Anticipații de rol o  Anticipații de probabilitate 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    24/49

     

    24

    b.2.3.Erori datorate respondenților 

      Dezirabilitatea socială 

      Limitele memoriei umane

      Procesarea și interpretarea informației (nu înțeleg, nu sunt atenți etc) 

    Curs 9_10. Analiza datelor

    Etape premergătoare analizei datelor. Cu alte cuvinte ce avem de făcut după am adunatdatele din teren?

    9.1. Realizarea unei baze de date-selectarea chestionarelor valide-numerotarea chestionarelor-realizarea unui cap de tabel (care să conțină și numărul chestionarelor)-completarea bazei de date

    9.2. Verificarea și corectarea bazelor de date -Frecvențe simple-Find_Replace (vezi laborator)9.3. Verificarea reprezentativității eșantionului (dacă am utilizat metode de eșantionare

     probabiliste sau neprobabiliste pe cote) Avem următoarele situații? Putem considera că este respectată structura populației în funcție de sex,vârstă sau naționalitate dacă am lucrat cu o eroare de +/-2%?

    Tabelul nr.9.1: Structura populaţie şi a eşantionului în funcţie de sex 

    Structura populaţiei municipiuluiBraşov după sex

    Structura eşantionului dupa sex

    masculin 47.2% 44%

    feminin 52.8% 56%

    Total 100% 100%

    Tabelul nr.9.2: Structura populaţie şi a eşantionului în funcţie de vârstă 

    Structura populaţiei municipiului Braşovdupă vârsta 

    Structura eşantionului după vârstă

    18-24 ani 14.1% 14.4%

    25-29 ani 11.2% 12.2%

    30-34 ani 9.4% 11.6%

    35-39 ani 9.0% 8.7%

    40-44 ani 7.6% 7.3%

    45-49 ani 8.9% 7.5%

    50-54 ani 11.2% 10.9%

    55-59 ani 8.6% 7.4% peste 60 ani 19.9% 20%

    Total 100% 100%

    Tabelul nr.9.3: Structura populaţie şi a eşantionului în funcţie de naţionalitate 

    Structura populaţiei municipiului Braşovdupă naţionalitate 

    Structura eşantionului după naţionalitate 

    roman 90.7% 92.5%

    maghiari 8.1% 6.9%

    rromi 0.3% 0%

    germani 0.6% 0.3%

    alta 0.3% 0.3%

    Total 100% 100%

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    25/49

     

    25

    9.4. Ce facem dacă eșantionul nu respectă structura populației? -ponderarea eșantionului 

    Tabelul nr.9.2: Ponderarea eșantionului în funcție de sex 

    Structura populaţiei municipiuluiBraşov după sex

    Structura eşantionului dupasex

    Variabila de ponderare

    masculin 47.2% 44% 1.07 (47,2%/44%)

    feminin 52.8% 56% 0,94 (52,8%/56%)

    Total 100% 100%

    -toate analizele in SPPSS se fac în funcție de variabila ponderată (această variabilă se introduce laDATA/ WEIGHT CASES)

    9.5. analiză univariată a datelor 9.6. analiză bivariată 9.7. analiză multivariată 9.8 raportul de cercetare

    9.5.Analiza univariată a datelor-descrierea datelor Fiecare variabilă este analizată separat. 

    a. Tabele de frecvențe ți grafice cu o singură variabilă (pentru varibile măsurate pe scală nominalsau ordinal )

    Tabele de frecvențe 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    26/49

     

    26

    Grafice

    De unde se fac și tabelele de frecvențe 

    SAU DIN

    b. Indicatori de poziţie (media, mediana, modul)(pentru variaile măsurate pe scală deinterval sau raport)

    Redau printr-o singură valoare numerică nivelul general al seriei.b1. Media- Se adună scorurile și se împart la numărul total de scoruri sau la numărul total de

     frecvențe relative (formula 2)-valoarea medie

     Notație:

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    27/49

     

    27

     Notă:  Media, modul se poat utiliza și pentru variabile ordinale 

    Medie aritmetică simplă 

    n

     x

     x

    n

    i

    i   1  

    Dacă utilizăm frecvenţe formula devine:

    Medie ponderata

    n

     xk 

     x

     s

    i

    ii   1   unde s = numărul de categorii/clase; ki = frecvenţa 

    Cele două formule prezentate sunt echivalente.În practică, însă, unii utilizatori comit eroarea de a considera că formula 2 este o medie

     ponderată. Însă, media ponderată apare atunci când se încalcă principiul democraţiei statistice carespune în esenţă că fiecare individ statistic contează cât oricare alt individ. Eroarea apare atunci cândfrecvenţele sunt considerate ponderi. 

    Trebuie să reţinem încă un aspect deosebit de important: media nu este o valoare mijlocie;media poate fi foarte departe de mijlocul intervalului de valori.

    Exemplu 1.Media-(formula 1). Care este nivelul mediu de pregătire al studenților din grupa

    1 de la programul de studiu Sociologie la disciplina Statistică socială univariată? Presupunem că avem 10 studenţi în grupă care au următoarele note la Statitică socialăunivariată:xi :4,8,5,7,6,9,5,4,10,9

    ̅=6,7Interpretare:  Studenții din grupa 1 au în medie nota 6,7. Deci,  gradul lor de cunoștințe este

    unul de nivel mediu la această disciplină. 

    Exemplu 2.Media-(formula 2). Aceeași serie de date – formula 1 

    Aceleași note ale studenţilor le punem în tabele cu frecvențe xi:4,8,5,7,6,9,5,4,10,9Nota-xi  Frecevenţa k i 

    4 2

    5 2

    6 1

    7 1

    8 1

    9 2

    10 1

    n=10-numărul de note (numărul de k i)̅ =6,7Interpretare:  idem exemplu 1

    Media: Formula 1

    Media: Formula 2-

     

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    28/49

     

    28

    Exemplu 3.Media-(formula 2). Presupunem că avem un student care a luat următoarele notela cele 7 discipline dintr-un semestru. Fiecare disciplină are un număr de credite. Care este mediastudentului pe semestru? 

    Nota-xi  Creditele k i 

    4 5

    5 3

    6 4

    7 5

    8 5

    9 4

    10 4

    Total n=30

    n=30-numărul de credite (numărul de k i)̅=7

    Interpretare: Studentul are media 7 pe primul semestru.b2. Modul -valo area cea mai des întâlnită 

     Notație: MoExemplu 4.Modul. Cât de des merg (câte zile pe luna) studenţii la bibliotecă din grupa 1de la

     programul de studii Sociologie. Presupunem că avem n=10 studenți în grupă care au mers astfel la bibliotecă... 

     Nr zile xi:1, 0, 5, 7, 5, 4, 5, 2,3, 4,Mo=5Interpretare: Cei mai mulți studenți au mers 5 zile pe săptămână. 

    Exemplu 5.Modul. Luăm același exemplu cu notele studentilor din grupa 1 la Statistica

    sociala: xi: 4,8,5,7,6,9,5,4,10,9Mo=4, 5, 9Interpretare: în acest caz nu avem o singură valoare modală, și atunci vom spune că cei mai

    mulți studenți au luat nota 4, 5 sau 9. b3. Mediana- valoarea care împarte seria în două părți egale 

     Notație:  Me

    Exemplu 6.Mediana. Notele studentilor din grupa 1 la Statistica sociala

    Presu punem că avem 10 studenţi în grupă xi: 4,8,5,7,6,9,5,4,10,9

    Seria ordonată.xi:  4,4, 5, 5, 6, 7, 8, 9, 9, 10Me=(6+7)/2=6,5 (suma celor două valori de la mijloc) Interpretare : 50% dintre studenți au luat note până în 6,5 iar 50% peste 6,5. 

    Exemplu 7.Mediana. Cât de des merg (câte zile pe luna) studenţii la bibliotecă din grupa 1 xi:  1, 0, 5, 7, 5, 4, 5, 2,3,

    Seria ordonată: xi 0, 1, 2, 3, 4, 5, 5, 5, 7Me=4 (valoarea de la mijloc)Interpretare : 50% dintre studenți au mers la bibliotecă până în 4 zile pe lună, iar 50% peste 4

    zile pe lună 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    29/49

     

    29

    Exemplu 8.Modul. Presupunem că avem 80 de studenți de la programul de Asistență socială care au luat

    următorele note la disciplina Statistică socială univariată. Nota-xi  –nota studenților din anul I

    AS

    Frecevenţa k i 

    4 10

    5 25

    6 8

    7 15

    8 10

    9 7

    10 5

    Total 80

    Mo= 5

    ̅= 6,38Me=6.03

    Formula 3. Relația dintre cei trei indicatori. Mo = Me –  3 (  x -Me)

    Cum decidem când folosim unul din indicatori? Dacă seria este omogenă, putem utiliza media, dacă seria este eterogenă folosim mediana sau

    modulul.Cum vedem dacă o serie este omogenă sau nu? 

    Abaterea standard, coeficientul de variație. 

    c. Indicatori de dispersieIndicatorii de dispersie reflectă gradul de inegalitate între indivizi (omogenitate/eterogenitate).Indicatorii de dispersie reprezintă măsura în care indivizii se dispersează pe scala de valori; măsoarăinegalităţile dintre indivizi (ex. veniturile –   indicatorul de dispersie relevă imediat inegalităţileexistente)

    c1.Amplitudinea – distanța dintre cea mai mare valoare și cea mai mică, arată cât de mare e variațiascorurilor  

     Notație: A Formula 4. Amplitudinea. A = xmax  –  xmin

    Exemplu 9. Amplitudinea

    Presupunem că avem 80 de studenți de la programul de Asistență socială car e au luat

    următorele note la disciplina Statistică socială univariată. Nota-xi  –nota studenților din anul I

    AS

    Frecevenţa k i 

    4 10

    5 25

    6 8

    7 15

    8 10

    9 7

    10 5

    Total 80

    A=10-4=6

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    30/49

     

    30

    C2. Abaterea standard (deviația standard) -Măsoară gradul de eterogenitate sau de dispersie faţăde medie. Cu cât are o valoare mai mare cu atât seria este mai eterogenă.

     Notație: (sigma)   

    Exemplu 10.Abaterea standard-serie simplă Presupunem că avem o serie cu banii pe care i-au cheltuit un grup de studenţi într -o săptămână,

     pe produse de birotică (euro). În grup sunt 20 de studenți. Dorim să aflăm cât de împrăștiate suntvalorile față de medie. Cu alte cuvinte, studentii pot fi considerați un grup omogen sau eterogen ?

    Formula 5. Abaterea standard-serie simplă 

    Formula 6. Abaterea standard –serie cu frecvențe 

    n

     x xk i

    n

    i

    i

    2

    1

    )(  

        

    Exemplu 10. Abaterea standard-(formula 5)

    Xi : 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60 

    Formula 5. ̅=22,9   =15,69

    Cum interpretăm? E mare sau mică această dispersie? În lipsa unui standard e greu pentru unîncepător să estimeze dacă grupul este omogen sau nu. 

    Exemplu 11. Abaterea standard-(formula 6)

    Nota-xi  –nota studenților din anul I

    AS

    Frecevenţa k i 

    4 10

    5 25

    6 8

    7 15

    8 10

    9 7

    10 5

    Total 80

    Formula 6.   =1.77, ̅=6.38

    Cum interpretăm? E mare sau mică această dispersie? În lipsa unui standard e greu pentru un

    începător să estimeze dacă grupul este omogen sau nu. Cum interpretăm prin raportare la celalalt exemplu? Nu putem.

    Este mai ușor noțiunea de deviaţie standard dacă este vizualizată. Figura de mai sus conţinedouă seturi de curbe de frecvenţa. Care dintre curbele din figura au deviaţie standard mai mare? Dintrecurba A şi B, distribuţia valorilor din curba A este mai eterogenă, are o deviaţie standard mai mare dela medie. Dintre curba C şi D, distribuţia valorilor din curba C este mai eterogenă şi are o deviaţiestandard mai mare.

    n

     x xi

    n

    i

    2

    1

    )(  

      

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    31/49

     

    31

    Figura nr.8.1. Curbe de distribuție ale valorilor

    C3.Coeficientul de variaţie-Este un indicator care indică gradul de omogenitate/eterogenitate a unei

    serii de date. Se exprimă în procente. Dacă ν este mai mic decât 35-40%, atunci seria este omogenă iarmedia sa este reprezentativă,

     Notație: v 

    Formula 7. Coeficientul de variație x

    v

      

    *100%

    Exemplu 12. Coeficientul de variație ̅=6.38

    v=1.77/6.38= 0.2774= 27.74%I nterpretare : Coeficientul este mai mic de 40% deci seria este omogenă și media este reprezentativă 

    Exercițiu. Avem o medie a cheltuielilor firmelor cu serviciile de comunicaţii electronice de 2056 ronşi o abatere standard de 1158. Este media cheltuielor reprezentativă pentru toate firmele din Braşov?

      Varianţa 2    

    Denumită şi dispersie, se defineşte ca fiind pătratul mediu al abaterilor valorilor observate de lamedia lor. Varianţa este un index matematic al gradului în care scorurile deviază de la medie (sausunt în varianţă cu ea). O varianţă mică indică faptul că majoritatea scorurilor distribuţiei se aşeazădestul de aproape de medie; dacă este mare, atunci scorurile sunt împrăştiate mult. Deci, varianţaeste direct proporţională cu gradul de dispersie. Pentru a calcula varianţa unei distribuţii, mediaeste scăzută din fiecare scor. Diferenţa se ridică la pătrat, apoi se împarte suma pătratelor la n

    Formula 8. Varianța-serie simplă 

    2   =

    n

     x xi

    n

    i

    2

    1

    )(    

    Exemplu 13. Varianţa (formula 8) Luăm acelaşi exemplu de mai sus cu preţurile produselor achiziţionate de un grup de studenţi,

    de data aceasta la un grup mai mare de 20 persoane.Xi : 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60

    n=20

     x =22.9

    σ2 = ((2-22.9)2 + (4-22.9)2 + (6-22.9)2 +......+ (60-22.9)2 )/20 = 246.34

    AB

    C

    D

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    32/49

     

    32

    I nterpretare : Această valoare e greu de interpretat în lipsa unui referențial. Este folosită maidegrabă pentru calculul altor indicatori. 

    Formula 9. Varianța-serie cu frecvențe 

    2   =

    n

     x xk i

    n

    i

    i

    2

    1

    )(    

    Exemplu 14. Varianţa – (formula 9)

    Nota-xi  – nota studentilordin anul I AS

    Frecevenţa k i 

    4 10

    5 25

    6 8

    7 15

    8 10

    9 710 5

    Total 80

     x =6.382

       = (( 10*(4-6.38)2 + 25*(5-6.38)2 +9*(6-6.38)2 +...+5*(10-6.38)2)/80=1.77

    d.Mărimi multiple 

    d.1.Cuartilele

    Sunt trei cuartile ce împart seria de date în patru părţi egale.

      Cuartila inferioară este prima cuartilă în ordine ascendentă de aranjare a datelor . Se noteazăcu Q1 şi ne arată pânâ la ce valoare sunt distribuite primele 25% din valori. 

      Cuartila mijlocie, reprezintă jumătatea seriei şi este identică cu mediana, cuartila putând ficalculată în acelaşi mod ca şi aceasta. Se notează cu Q2 (Q2=Me) şi ne arată până la cevaloare sunt distribuite primele 50% din valori.

      Cuartila superioară reprezintă trei sferturi în ordine ascendentă a datelor. Se notează cu Q3 şine arată până la ce valoare sunt distribuite primele 75% din valori. 

      Ultima cuartilă, Q4, reprezintă ultima valoare din serie. Deoarece seria este ordonatăcrescător, această cuartilă reprezintă valoarea maximă din seria de date. 

    Pentru calcularea cuartilelor trebuie parcurşi doi paşi :1.  se calculează mai întâi poziţia în seria de date a respectivei cuartile ;

    2.  se calculează valoarea efectivă a cuartilei. 

    Exemplu 15. Cuartilele-serie simplă. Notele studentilor din grupa 1 la Statistică socială 

    Presupunem că avem n=10 studenţi în grupă xi: 4,8,5,7,6,9,5,4,10,9

    Seria ordonată xi: 4,4, 5, 5, 6, 7, 8, 9, 9, 10Q1 - cuartila inferioară

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    33/49

     

    33

    1.Poziţia va fi egalã cu: (n+1)/4=(10+1)/4= 2.75≈3Aceasta cuartilă va fi al treilea număr al seriei. Aceasta înseamnă că 5 este cuartila inferioară. Q1==5

    I nterpretare:  25% dintre studenți au luat note până la valoarea de 3 restul au luat peste 3. 

    Q3 - cuartila superioară Poziţia cuartilei superioare se obţine în mod asemănător, cu excepţia faptului că este vorba de

    trei sferturi, deci vom multiplica poziţia cuartilei inferioare cu 3. Poziţia cuartilei superioare va fi egalăcu: 3×(n +1)/4 = 8.25≈8

    Reprezintă al optulea număr din secvenţă. Aceasta înseamnă că Q3=9 I nterpretare:  75% dintre studenți au luat note până la valoarea de 9 restul au luat peste 9. 

    Q2=Me- mediana

    Poziţia medianei va fi egalã cu: 2×(n +1 )/4 = 5.5≈(între 6 și 7) Me= 6,5

    I nterpretare:  50% dintre studenți au luat note până la valoarea de 6.5 restul au luat peste 6.5. Prin cunoaşterea cuartilelor obţinem o imagine mai clară despre cum se distribuie datele seriei. 

    Exemplu 15. Cuartilele-serie cu frecvențe. Notele studenților de la programul de studiu Asistență socială la disciplina Statitică Socială, suntredate mai jos....

    Nota-xi  – nota studentilordin anul I AS

    Frecevenţa k i 

    4 10

    5 25

    6 8

    7 15

    8 10

    9 7

    10 5

    Total 80

    Tabelul de mai sus este transformat în acest tabel Nota-xi  – nota studentilor

    din anul I AS

    Frecevenţa k i 

    4-5 35

    6-7 23

    8-10 22

    Total 80

    Poziţia Q1= (80+1)/4=20, 25≈20Este a 20 valoare din serie, se afla în primul interval a 20-a valoareQ1=4+(1:35)*15=4,57

    Interpretare??

    Poziţia lui Q3= 3* (80+1)/4=60,75≈ 61 Este a 61 valoarea, se afla în al treilea interval a 3-a valoareQ3=8+ (1:22)*3=8,13

    Interpretare??

    d.2.Decilele

    Sunt 9 decile care împart seria de date în 10 părţi egale.

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    34/49

     

    34

       D1, este  prima decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 10% din valori. 

       D2, este a doua decilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 20% din valori. 

      …………………………………………………………………………………………………………… 

     

     D5, reprezintă jumătatea seriei şi este identică cu mediana, și cu Q2 şi ne arată până la cevaloare sunt distribuite primele 50% din valori.  Ultima decilă, D9,, reprezintă ultima valoare din serie. Deoarece seria este ordonată crescător,

    această decilă reprezintă valoarea maximă din seria de date. 

    Exemplu 16. Decile- serie de date simplă Luăm acelaşi exemplu menționat mai sus cu preţurile produselor achiziţionate de un grup de

    studenţi, de data aceasta un grup mai mare de 20 persoane. 

    xi: 2, 4, 6, 8, 10, 12, 14, 20, 22, 24, 25, 25, 26, 29, 30, 33, 38, 45, 50, 60 Poziţia decilelor se calculează ca şi poziţia cuartilelor excepţie făcând împărţirea la 4. De data

    aceasta pentru a calcula poziţia decilelor, se va face împărţirea la 10 Poziţia decilei a şasea D6, va fi egală cu 6× (n+1) : 10 =12, 6 13D6=26 ronInterpretare: 60% dintre studenţi au achiziţionat produse până în 26ron, deoarece valoarea a

    treisprezecea din serie este 26 ron.

    Exemplu 17.Decile-serie de date cu frecvenţe. 

    Nota-xi – nota studentilordin anul I AS

    Frecevenţa ki

    4-5 35

    6-7 23

    8-10 22

    Total 80

    Dorim să calculăm decila a patra, D4. Poziţia va fi egală cu: 4× (80 +1) : 10 = 32,4. Itemul 32 va reprezenta decila a patra. Aceasta

    va fi cuprinsă în intervalul 4-5 ani . Prin urmare valoarea decilei a a patra va fi D4 = 4+ (1 : 35) ×32=4.91.

    Interpretare: 40% dintre persoane au note pânâ în 4.9 ani, restul peste 4.9 ani. 

    d.3.Centilele

    Sunt 99 centile care împart seria de date în 100 părţi egale.

      C1, este prima centilă în ordine ascendentă de aranjare a datelor . Ne arată pânâ la ce valoaresunt distribuite primele 1% din valori. 

      C20, este a douăzecea decilă în ordine ascendentă de aranjare a datelor .  Ne arată pânâ la ce

    valoare sunt distribuite primele 20% din valori. C20=D2   …………………………………………………………………………………………………………… 

      C50, reprezintă jumătatea seriei şi este identică cu mediana, și cu D5 sau Q2 şi ne arată pânăla ce valoare sunt distribuite primele 50% din valori.

      Ultima decilă, C99,, reprezintă ultima valoare din serie. Deoarece seria este ordonatăcrescător, această decilă reprezintă valoarea maximă din seria de date. 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    35/49

     

    35

    Centilele

    Sunt 100 de centile ce împart şirul de date în 100 de părţi egale. Poziţia oricărei centile seobţine în mod asemănător cu aflarea poziţiei cuartilelor sau a decilelor. De exemplu, poziţia celei de-atreizeci şi cincea centile este : 35 × (n +1) : 100 unde n este numărul de itemi (valori). 

    Exemplu 18. Centile- serie cu frecevenţe 

    vârsta  frecvenţa k i între 15 – 25 ani  30

    între 25 – 35 ani 76între 35 – 45 ani 38între 45 – 55 ani 10între 55 – 65 ani 5TOTAL (n) 159

    . Poziţia oricărei centile se obţine în mod asemănător cu aflarea poziţiei cuartilelor sau adecilelor. De exemplu, poziţia celei de-a treizeci şi cincea centile este  : 35 × (n +1) : 100 unde n estenumărul de itemi (valori).

    Pentru exemplul anterior axându-ne pe vârsta angajaţilor, de exemplu, poziţia în serie a celeide-a optzecea centile este : 80 × (159 +1) : 100 = 128. Aceasta va fi în intervalul 35-45 de ani şi este adouăzeci şi doua vârstă din interval, după totalul de 106 angajaţi distribuiţi în primele două intervale.Aceasta înseamnă că a optzecea centilă a vârstei este: 

    P80= 35 + (10 : 38) × 22= 40,8 aniInterpretare:  80% dintre persoane au vârsta până în 40,8 ani restul peste 40,8 ani.. 

    Toți acești indicatori se fac din SPSS de la meniul.... 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    36/49

     

    36

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    37/49

     

    37

    e. Distribuția normală a scorurilor unei serii ordonate crescător 

    e1. Ce reprezintă distribuția normală? 

    Distribuția normală este un model teoretic, unde scorurile nu se abat mai mult de 3σ (deviațiistandard de la medie. Mai mult de atât media, mediana și modul se află to ate la mijloculcurbei. Cele două jumătați sunt perfect simetrice. 

    În cazul distribuţiilor asimetrice 

    e2. Cum putem afla dacă variabila are sau nu o distribuție normală? 

    e2.1 Metode graf ice

      Histograma

      Boxplot

    Histograma

     Se face în SPSS din meniul… 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    38/49

     

    38

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    39/49

     

    39

    Boxplot Se face în SPSS în 

     Această variabilă are sau nu distribuția normală? Dacă nu putem aprecia facem și altă metodă grafică, cum ar fi BOXPLOT 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    40/49

     

    40

    Linia boldată este mediana și ar trebuie să fie la jumătatea cutiei ca varibila să aibă distribuțienormală.I nterpretare: În cazul de față, linia nu este la mijlocul cutiei, deci variabila nu are distribuție normală. Ne putem verifica și cu indicatorii formei distribuției 

    Mustata-valoarea maximă pe care au dat-o subiecții 

    Mustata-valoarea minimă pe care au dat-o subiecții 

    mediana

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    41/49

     

    41

    e2.2Indicatori ai formei distribuţiei  

    Oblicitatea (Skewnees)

     Ne arată înclinarea dacă este > 0 –  cocoaşa este deplasată spre stânga; dacă este 0 –  cocoaşă înaltă; lectocurtică;  b < 0 –   platicurtică. 

    Cu cât aceşti indicatori au valori mai depărtate de valoarea zero cu atât distribuţia variabilei seabate mai mult la stânga sau la dreapta sau este mai plată sau mai ascuţită. Cu cât valorile acestorindicatori sunt mai apropiate de valoare zeroa cu atât distribuţia variabilei este mai aproaee dedistribuţia normală, fiind simetrică faţă de medie(media=medina=modul) 

    In SPSSS se fac din meniul...EXPLORE..fără sa bifăm nimic se face automat tabelul de mai jos...

    Cum intepretăm valorile cindicatorilor formei distribuției? Curba este mai ascuțită decât cea normală. Ce înseamnă acest lucru? Curva este deplasată ușor spre stânga. Ce înseamnă acest lucru? 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    42/49

     

    42

    e2.3. Teste-Kolmogorov Smirnov

    Graficele ne ajută să ilustrăm distribuția valorilor, dar uneori nu putem aprecia fosrte bine dacă acelevariabile au sau nu distribuție normală. De aceea este nevoie de teste, care ne vor spune cu siguranță,dacă putem considera că o variabilă are sau nu distribuție normală Termeni utilizați în testarea ipotezelor 

     

    P=95%probabilitatea de garantare a rezultatelor (probbilitatea de a a avea dreptatea atuncicând respingem/acceptăm ipoteza de nul) 

      α=5% probabilitatea de a greși atunci când acceptăm sau respingem ipoteza de nul 

      Ipotezele testului. Acestea diferă de la test la test

    o  H0=ipoteza de nul

    o  H1=ipoteza alternativă 

      Modalități de validare a ipotezei de nul sau alternative 

    o  fiecare test are o modalitate proprie

    o  există o modalitate general valabilă la toate testele 

    Se compara pcalculat

    (cel din SPPS-de la rubric Sig) cu valoarea lui p (teoretic)Lucrăm de obicei cu P=95% atunci p va fi 0.05. Deci pcalculat se va compara cu 0.05.Dacă este mai mic se respinge H0. Dacă e mai mare de 0,05 se va accepta H0.

    Cum se face în SPSS Testul Kolmogorov Smirnov? Tot din meniul EXPLORE..

    Orice test are o ipoteză de nul(H0) și una alternativă (H1)H0: distribuția variabilei d2 nu diferă de distribuția normal (teoretică) H1: distribuția variabilei d2 diferă de distribuția normal (teoretică) 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    43/49

     

    43

    Cum vedem care ipoteză o acceptăm?  Ne uităm la  pcalculat(Sig.). dacă e mai mic de 0.05 se respinge H0, dacă e mai mare se acceptă H0. Încazul de față este 0.000 este mai mic de 0.05, deci se respinge H0. Cu alte cuvinte, variabila d2 nu are odistribuție normal. 

    Curs 11_Analiza bivariată a datelor 11.1 Analiza variabilelor măsurate pe scală nominal/ordinal 

    11.1.1 Grafice cu două variabile 11.1.2 Tabele cu două variabile (cu procente pe linie/coloană/total) 

    11.1.3 Teste de asociere- 

      Testul χ 2 

    Valoarea testului  2 se calculează în modul următor: 

    Formula 1. Testul2

     

    asteptate

    asteptateobservate

     F 

     F  F    22

      )(    

    Frecvenţele aşteptate sunt calculate în ipoteza independenţei între variabile, folosindformula (I) discutată anterior (pentru prima căsuţă aceasta devine P

    11=P

    +1*P

    1+sau F

    11= F

    +1*F

    1+/nr.

    total de subiecţi). Se porneşte, deci, de la distribuţia marginală şi se calculează valorile aşteptate pentrufiecare căsuţă în parte, după formula de mai sus. 

    Ipoteza de nul a acestui test presupune inexistenţa unei relaţii de asociere dintre cele douăvariabile analizate.

    Ipoteza alternativă  presupune existenţa unei asociere dintre cele două variabile. 

    În SPSS pentru a obţine aceste valori precum şi valoarea testului 2 se selectează din meniuANALYZE/DESCRIPTIVES STATISTICS/CROSSTABS, se introduce variabila pe linie şi cea  pecoloană, apoi din opţiunea Statistics se bifează Chi-square, iar din Cells/ Counts  se alege Observed(frecvenţele observate) şi Expected  (cele aşteptate).

    Rezultatele din fişierul Outuput sunt prezentate mai jos. 

    Cât de mulţumit(a) sunteţi de sănătatea dvs.?.

    TotalDeloc

    mulţumit  Nu preamulţumit 

    Destul demulţumit 

    Foartemulţumit 

    Sex masculin Count 100 252 482 161 995

    ExpectedCount

    136,4 285,7 436,5 136,4 995,0

    feminin Count 174 322 395 113 1004

    ExpectedCount

    137,6 288,3 440,5 137,6 1004,0

    Total Count 274 574 877 274 1999

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    44/49

     

    44

    Cât de mulţumit(a) sunteţi de sănătatea dvs.?.

    TotalDeloc

    mulţumit  Nu preamulţumit 

    Destul demulţumit 

    Foartemulţumit 

    Sex masculin Count 100 252 482 161 995

    ExpectedCount

    136,4 285,7 436,5 136,4 995,0

    feminin Count 174 322 395 113 1004

    ExpectedCount

    137,6 288,3 440,5 137,6 1004,0

    Total Count 274 574 877 274 1999

    ExpectedCount

    274,0 574,0 877,0 274,0 1999,0

    În acest tabel 136,4 reprezintă frecvenţa aşteptată pentru căsuţa (1,1) care este egală cu

     produsul frecvenţelor marginale pe primul rând şi prima coloană împărţit la numărul total de subiecţi(274*995/1999), iar celelalte valori se calculează similar. 

    Chi-Square Tests 

    Value dfAsymp. Sig. (2-

    sided)

    Pearson Chi-Square 45,522a  3 ,000

    Likelihood Ratio 45,850 3 ,000

    Linear-by-LinearAssociation

    43,368 1 ,000

     N of Valid Cases 1999

    a. 0 cells (,0%) have expected count less than 5. The minimumexpected count is 136,38.

    Valoarea calculată a testului 2 se compară cu cea critică care depinde de numărul de grade delibertate. Numărul de grade de libertate gl= (r-1)*(c-1), unde r=nr. de rânduri, c=nr. de coloane. 

    Decizia se poate lua în două moduri:

    1)  Se compară valoarea calculată a lui 2 cu cea critică pentru numărul de grade de libertate, si dacă

    2 calculat> 2 critic (care se ia din tabele standarde) atunci se respinge ipoteza de nul.

    2)  Alternativ dacă nivelul de semnificaţie (p sau Sig. cum este notat în SPSS) calculat este mai mic

    decât 0,05 se respinge ipoteza de nul a independenţei dintre variabile (cu o probabilitate de eroarede 0,05).

    Pentru tabelul anterior 2 =45,52, iar p=0,095. Fie comparăm p cu 0,05 sau valoarea  2  cu cea critică pentru 1 grad de libertate care este 3,8, concluzia la care ajungem este că respingem ipoteza de nul aindependenţei dintre variabile. Cu alte cuvinte există o relaţie de asociere între cele două variabile. 

      Valoarea reziduală standardizată şi ajustată 

    Această măsură se calculează pentru fiecare căsuţă a tabelului pe baza formulei de calcul atestului

    2. Reziduul standardizat şi ajustat are avantajul că ne permite identificarea relaţiilor deasociere chiar dacă ele nu caracterizează tabelul în ansamblu, ci numai două valori particulare alevariabilelor.

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    45/49

     

    45

    Formula 2. Valoarea reziduală ajustată și standardizată 

     Fasteptate

     Fasteptate Fobservate I 

     

     

    Dacă pentru o celulă a tabelului valoarea reziduală standardizată ajustată este în afaraintervalului [-1.96;+1.96] atunci cu o probabilitate de eroare de 5% se poate susţine că frecvenţa

    observată este semnificativ mai mare decât cea aşteptată în cazul independenţei între variabile, deci se presu pune că există o asociere între aceste două valori ale variabilelor. Dacă valoarea rezidualăajustată se află în interiorul intervalului se acceptă H0.

    Pentru cazul anterior valorile sunt următoarele: 

    Adjusted Residual

    Cât de mulţumit(a) sunteţi de sănătatea dvs.? 

    Delocmulţumit 

     Nu preamulţumit 

    Destul demulţumit 

    Foartemulţumit 

    Sexulrespondentului masculin -4,7 -3,3 4,1 3,2feminin 4,7 3,3 -4,1 -3,2

    Aceste valori se obţin în SPSS din ANALYZE/DESCRIPTIVESSTATISTICS/CROSSTABS/CELLS, apoi se selectează Residuals şi se bifează Adj. Standardized .

    Interpretare. Deducem deci că există o asociere pozitivă între persoanele de sex masculin şimulţumirea faţă de sănătate şi persoanele de sex feminin şi nemulţumirea faţă de sănătate

    În SPSS TESTUL χ 2  se face din....

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    46/49

     

    46

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    47/49

     

    47

    Iar valoarea reziduală ajustată și standardizată din... 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    48/49

     

    48

    11.2. Analiza variabilelor măsurate la nivel de interval sau raport 

    11.2.1.Grafice realizate între variabile măsurate la nivel de interval sau raport Graficele realizate pe două variabile cantitative sunt cele de tip SCATTER/DOT din meniul

    CHART BUILDER.

    Am luat ca exemplu două variabile cantitative din Barometrul de opinie publică octombrie2007, vârsta şi număr hectare pământ pe gospodărie.

    Interpretare. Se observă că persoanele care au peste 5 hectare de pământ au vârste peste 40de ani.

    11.2.2.Coeficienţi de asociere  între variabile măsurate la nivel de interval sau raport Coeficientul r a lui Pearson  se foloseşte pentru a testa relaţiile dintre două variabile

    cantitative.

     y x

    n

    i

    ii

    n

     y y x x

    r     

      1

    ))((

    ,

    unde, xi, yi reprezintă valorile celor două variabile, 

     x ,  y , reprezintă mediile celor două variabile  N, volumul eşantionului iar σx, σy repezintă deviaţiile standard a celor două variabile. 

    Acest coeficient are valori în intervalul [-1;+1] şi cu cât valoarea coeficientului este maidepărtată de valoare de zero cu atât există o relaţie mai puternică între cele două variabile. 

  • 8/16/2019 Suport Curs Statistica Univariata 2015

    49/49

     

    În SPSS se realizează acest coeficient din meniulANALYZE/DESCRIPTIVES/STATISTICS/ CROSSTABS iar aici se va bifa opţiuneaCORRELATIONS. Pentru exemplificare, am luat variabilele  prop1da şi vârsta din baza de date din

    Barometrul de opinie publică octombrie 2007, care măsoară numărul de hectare deţinute de o persoanăşi respectiv vârsta persoanei. 

    Symmetric Measures 

    ValueAsymp.

    Std. Error a Approx. T

     b 

    Approx. Sig.

    Interval byInterval

    Pearson's R ,083 ,034 2,313 ,021c 

    Ordinal byOrdinal

    SpearmanCorrelation

    ,160 ,035 4,536 ,000c 

     N of Valid Cases 782

    a. Not assuming the null hypothesis.

     b. Using the asymptotic standard error assuming the null hypothesis.

    c. Based on normal approximation.

    Interpretare. Valoarea coeficientului este r=0.083 iar probabilitatea de testare a coeficientuluieste p=0.021. Deoarece aceasta este mai mică decât 0,05 rezultă că acest coeficient este semnificativ,deşi are o valoare apropiată de zero. Prin urmare putem spune că există o relaţie directă între vârstă şinumărul de hectare deţinute, dar destul de slabă ca intensitate. Deoarece coeficientul este pozitiv, putem a precia că o dată cu creşterea vârstei poate creşte şi numărul de hectare de pământ deţinute.