Apostila Estatistica3

download Apostila Estatistica3

of 55

Transcript of Apostila Estatistica3

  • 8/9/2019 Apostila Estatistica3

    1/55

    UNIVERSIDADE FEDERAL DE SANTA CATARINA

    CENTRO DE CINCIAS DA SADE

    DEPARTAMENTO DE SADE PBLICA

    ESTATSTICADESCRITIVA

    MARIA CRISTINA MARINO CALVO

    FLORIANPOLIS

    2004

  • 8/9/2019 Apostila Estatistica3

    2/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 2

    SUMRIO

    1. NOES DE BIOESTATSTICA ................................................................................... 03

    2.AMOSTRAGEM............................................................................................................... 07

    3 APURAO E APRESENTAO DOS DADOS: APRESENTAO TABULAR.......... 09

    4. APURAO E APRESENTAO DOS DADOS: APRESENTAO GRFICA.......... 13

    5. ANLISE DESCRITIVA DE VARIVEIS QUANTITATIVAS:

    MEDIDAS DE POSIO OU TENDNCIA CENTRAL .................................................. 18

    6. ANLISE DESCRITIVA DE VARIVEIS QUANTITATIVAS:

    MEDIDAS DE DISPERSO........................................................................................... 26

    7. NOES DE PROBABILIDADE.................................................................................... 30

    8. DISTRIBUIO BINOMIAL............................................................................................ 32

    9. DISTRIBUIO NORMAL.............................................................................................. 34

    10. ESTIMATIVA POPULACIONAL................................................................................... 37

    11. CORRELAO LINEAR .............................................................................................. 41

    12. REGRESSO LINEAR................................................................................................. 46

    BIBLIOGRAFIA................................................................................................................... 41

    ANEXOS............................................................................................................................. 42

    EXERCCIOS PROPOSTOS.............................................................................................. 44

  • 8/9/2019 Apostila Estatistica3

    3/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 3

    1. NOES DE BIOESTATSTICA

    A cincia busca a verdade descrevendo o universo e estabelecendo princpios geraispara explicar os fenmenos do universo. Para tanto deve valer-se do pensamento cientfico,que se estabelece ao nvel de uma linguagem terica de conceitos e hipteses. As hiptesesprecisam ser comprovadas, quando se faz necessria a utilizao de instrumentosoperacionais que explicitaro os procedimentos usados para observao e mensurao dofenmeno. So as hipteses estatsticas.

    A passagem da hiptese terica para a hiptese estatstica poderia ser assimexemplificada: Determinado investigador estudar a veracidade da hiptese: "Os indivduosgordos comem mais que os indivduos magros".

    Esta hiptese encerra alguns conceitos, como: gordo, magro e comer mais. Qualquerque seja o entendimento destes conceitos tericos, para se operacionalizar a comprovaodesta hiptese o investigador dever estabelecer a maneira de medir gordo, magro e comer

    mais. Ou seja, como observar e medir gordo, magro e comer mais?Uma traduo operacional destes conceitos pode ser de que gordo o indivduo que

    apresente peso acima da faixa de normalidade no ndice de massa corporal (IMC), e magro oindivduo que apresente peso abaixo dessa faixa. Comer mais seria traduzido como consumirmais calorias do que o definido como necessrio pela tabela de ingesto diria de calorias deacordo com o perfil de atividades do indivduo.

    Desta forma, a hiptese cientfica poderia ser enunciada como uma hiptese estatsticada seguinte forma: "Os indivduos que apresentam peso acima da faixa de normalidade doIMC, ingerem mais calorias (medidas pela tabela de ingesto diria), do que os indivduos queapresentam peso abaixo da faixa de normalidade do IMC".

    Se esta hiptese referir-se a poucos indivduos basta verificar se verdade para estes

    indivduos e a questo estar resolvida. No entanto, para a cincia no ter muita utilidade talobservao.

    Em cincia buscam-se hipteses mais gerais, referentes a parmetros populacionais.Para tanto, sero elaborados planos de coleta e anlise de dados que testaro a hiptese. Osdados sero coletados e analisados atravs de tcnicas estatsticas adequadas e, atravs deuma inferncia indutiva, aceita-se a veracidade ou falsidade da hiptese estatstica e,conseqentemente, de sua hiptese cientfica correspondente.

    Esquematicamente:

    Observa-se determinado fenmeno e elabora-se uma hiptese cientfica que procuraestabelecer a relao entre seres e atributos;

    A partir da hiptese cientfica se deduz (inferncia dedutiva) uma hiptese estatstica

    que permita explicar o fenmeno observado dentro de uma estrutura universal ecoerente, incorporada ao conjunto de conhecimentos atuais;

    Com a hiptese estatstica se deduzem (inferncia dedutiva) as conseqncias lgicasquanto ao que deve ser esperado empiricamente com relao populao;

    So estabelecidas as regras de deciso para aceitao ou no aceitao da hiptese;

    A hiptese ser verificada quanto a sua veracidade ou falsidade atravs do estudo docomportamento do fenmeno, com coleta de dados e anlise dos resultados atravs detcnicas estatsticas adequadas definidas previamente;

    De acordo com o definido como regra de deciso, induz-se (inferncia indutiva), a partirdos resultados e com base na teoria das probabilidades, a veracidade ou falsidade dahiptese estatstica e a veracidade cientfica correspondente.

  • 8/9/2019 Apostila Estatistica3

    4/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 4

    A inferncia indutiva ter tanto mais significado quanto mais rigoroso for odelineamento da coleta de dados e quanto mais apropriada for a anlise estatstica destesdados. As falhas nestas fases podem implicar em que os valores encontrados no reflitamadequadamente os parmetros correspondentes. A inferncia da hiptese estatstica para acientfica ser tanto melhor quanto mais adequada tenha sido a formulao dos conceitos

    tericos.Uma concluso indutiva bem confirmada provisoriamente aceita como verdade,

    tornando-se um princpio. Ser ajustada com a aquisio de novos conhecimentos, somandoexperincias que a regulem, e permitindo o contnuo ajuste do modelo realidade do universo.

    Ao verificar a provvel verdade de uma hiptese, a Estatstica fornece, em basesprobabilsticas, o risco de errar ao aceitar ou rejeitar uma hiptese. Constitui-se em uminstrumento dos mais poderosos para o pesquisador na busca da verdade, e o principalinstrumento para generalizar concluses a partir de experimentos particulares.

    OBSERVAO DO FENMENO

    HIPTESE CIENTFICA

    HIPTESE ESTATSTICA

    CONSEQUNCIASLGICAS

    (regras para aceitao dahiptese)

    PENSAMENTODEDUTIVO

    VERIFICAR HIPTESE

    HIPTESE

    ESTATSTICAVERDADEIRA

    HIPTESEESTATSTICA

    FALSA

    PENSAMENTO INDUTIVO

    VERDADE CIENTFICACORRESPONDENTE VERDADE PROVISRIA

    1.1 - BREVE HISTRICO

    Na antiguidade a estatstica era utilizada com finalidade econmico-administrativa,coletando dados populacionais, registro de colheitas, cheias do Nilo, e outros fatos ligados afenmenos naturais, caracterizando a estatstica como auxiliar da administrao pblica.

    O aparecimento do Estado Moderno (sculo XVII) e o estabelecimento de conceitos deestado, governo, nao e povo, trouxeram a idia de que a riqueza de uma nao seu povo,aliada ao dado objetivo de que o poder poltico o poder do exrcito. Torna-se necessriocontar o povo e o exrcito, ou seja, o Estado. A medida utilizada a "estatstica". Eraconsiderada, portanto, uma cincia que descrevia a situao do Estado.

    Com a evoluo da Teoria das Probabilidades a estatstica pode evoluir para a situao

    de uma cincia independente, com objetivos e mtodos prprios. A constatao da

  • 8/9/2019 Apostila Estatistica3

    5/55

  • 8/9/2019 Apostila Estatistica3

    6/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 6

    Os elementos da populao sero observados segundo a indagao que tenhamos, ouseja, segundo a caracterstica daquilo que objeto de estudo. Esta caracterstica denominada varivel.

    As variveis possuem naturezas diversas, que definem o tipo de descrio e anliseestatstica possveis para cada uma delas. Podem ser:

    No-paramtricas: estaremos interessados na distribuio das observaes em cadauma das categorias ou modalidades desta varivel.

    Paramtricas: as observaes so mensurveis ou contveis. As variveis quantitativaspodem ser nomeadas, ordenadas e pode-se dizer qual o valor da diferena entre asobservaes.

    As variveis no-paramtricas so subdivididas em:

    Escala nominal quando cada categoria da varivel recebe um nome e no hhierarquia entre elas. Ex: sexo, cor de olhos, profisso, religio. Para essas variveisno se poder estabelecer operaes matemticas, ou seja, os indivduos do sexomasculino com olhos castanhos no podem ser somados aos indivduos do sexo

    masculino com olhos azuis para estabelecer uma mdia de indivduos do sexomasculino com olhos castanho-azulados.

    Escala ordinal - quando alm da classificao em uma determinada categoria, pode-se estabelecer uma graduao entre elas. Ex: nvel de escolaridade, nvel scio-econmico. Para essas variveis valem apenas as operaes de maior que e menorque.

    As variveis paramtricas so subdivididas em:

    Escala intervalar: quando sei qual a exata diferena entre as observaes, mas noexiste um zero real. Ex.: a diferena entre 10oC e 30oC a mesma que entre 70oC e90oC, ou seja, 20oC. Mas no posso dizer que 10oC 1/3 do calor de 30oC.

    Escala de razes: quando possvel fixar um zero de forma no arbitrria, poderei

    aplicar todas as operaes aritmticas. Ex: Idade dos indivduos. Posso dizer queum indivduo de 60 anos tem o dobro da idade de um indivduo de 30 anos.

    A principal diferenciao para variveis em escala de razes quanto a serem:

    Contnuas: quando no se obtm um valor exato, mas sim aproximado. Os valorespossveis esto no conjunto dos nmeros reais, podendo haver valores fracionrios.Ex: peso, altura, concentrao de flor na gua. No existe um instrumento demedida preciso o suficiente para determinar o valor exato, sendo mensurveis.

    Discretas: quando enumerveis ou contveis. Os valores possveis esto noconjunto de nmeros inteiros. Ex: nmero de filhos, nmero de carros, nmero debitos. possvel definir o nmero exato de ocorrncias, sendo contveis.

    Quanto s variveis, convm ainda lembrar que de uma escala de determinado nvelpode-se passar para um nvel anterior, com o risco de se perder a preciso da informao; ocontrrio no possvel. Ex: Quando tenho a renda individual de uma populao estou em umaescala de razo, podendo realizar todas as operaes aritmticas. Posso transformar estainformao em escala ordinal, classificando os indivduos em renda baixa, mdia e alta, quandoj no poderei realizar as mesmas operaes. Se a informao for coletada na escala ordinal(alta, mdia, baixa), no ser possvel definir a renda mdia individual.

  • 8/9/2019 Apostila Estatistica3

    7/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 7

    2 - AMOSTRAGEM

    A pesquisa deve tirar concluses abrangentes, mas nem sempre possvel estudar apopulao total de interesse. A amostragem consiste em determinar na populao total quaisos elementos que iremos investigar e que fornecero informao estimada para a totalidadepopulacional.

    As vantagens do levantamento por amostragem so: custo menor; menor tempo deestudo; objetivos amplos; e exatido.

    Raramente o pesquisador estuda todo o universo de interesse em uma investigao.As pesquisas so conduzidas com um nmero menor de elementos tirados da populao deinteresse (amostra), que permitir chegar a concluses generalizadas para a totalidadepopulacional de onde a amostra foi extrada.

    2.1 - DEFINIES

    Censo: coleta de dados de todos os elementos que constituem a populao ou universode estudo.

    Populao ou universo: conjunto de elementos sobre o qual desejamos pesquisar. Podeser finita (quando o tamanho total conhecido e relativamente pequeno), e infinita(quando o tamanho total desconhecido e grande).

    Amostragem: normas e procedimentos utilizados para extrair de uma populao definidauma frao que seja representativa do grupo todo.

    Amostra: frao representativa da populao, sobre a qual se pode fazer inferncia para

    a totalidade. Elementos: componentes da amostra e da populao.

    2.2 - TIPOS DE AMOSTRAGEM

    2.2.1 - No Probabilstica

    Esse tipo de amostragem pode prejudicar a possibilidade de generalizaes (validadeexterna) de um estudo, fazendo com que no seja representativo em relao populao.Seus resultados so vlidos para aquele estudo determinado, no permitindo generalizaespara outras situaes semelhantes. Tipos:

    por voluntrios: os elementos amostrais so voluntrios para a pesquisa. Bastanteempregada em experimentos com medicamentos e tcnicas mdicas.

    intencional: o pesquisador escolhe os elementos amostrais. Ex: Entrevistar os ex-secretrios de sade para pesquisa de polticas de sade.

    por acesso mais fcil: os elementos so escolhidos por estarem mais prximos ouem melhores condies de acesso. Ex: Aplicar questionrio na populao da zonarural mais prxima do centro.

    2.2.2 - Probabilstica

    A amostragem probabilstica quando cada elemento na populao tem umaprobabilidade conhecida e diferente de zero de pertencer amostra. usada alguma forma de

    sorteio. Permite generalizaes para a totalidade da populao.

  • 8/9/2019 Apostila Estatistica3

    8/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 8

    a) Amostragem casual simples:

    Tambm denominada aleatria, consiste em sorteio dos elementos amostrais napopulao, todos com igual probabilidade de pertencer amostra. Sendo N o nmerototal de elementos da populao e n o nmero total de elementos da amostra, aprobabilidade de cada elemento pertencer amostra ser (n/N). a mais simples deser obtida, mas sua aplicao restringe-se investigao de caractersticas distribudashomogeneamente na populao.

    b) Amostragem sistemtica:

    Para populaes finitas; os elementos so escolhidos por um sistema, utilizando suaordenao natural (pronturios, quarteires, alunos, etc.). Define-se a quantidadek=(N/n) onde k recebe o nome de intervalo de amostragem. A seguir deve sersorteado o incio do sistema, a partir do qual sero definidos os elementos amostrais acada intervalo k. Exemplo: Em 1500 alunos de uma escola sero sorteados 150 paracompor a amostra de um estudo. Estando esses alunos ordenados em listas depresena, ser definido o intervalo de sorteio: 1500 150 = 10. Sorteia-se um nmeroentre 1 e 10 para dar incio composio da amostra, 3, por exemplo. As unidades

    amostrais sero: 3 - 13 (3+10) - 23 (3+20) - 33 (3+30) ..... 1493 (3+1490).c) Amostragem estratificada:

    Para populaes com caractersticas heterogneas que podem comprometer asconcluses se no forem consideradas na composio da amostra. A populao dividida em grupos homogneos denominados estratos e a amostra ser sorteada emcada um deles. O tamanho da amostra em cada estrato ser definido pela varincia dacaracterstica a ser estudada, ou atravs da definio de um percentual nos estratos.Neste caso, a amostra ter a representao proporcional de todos os estratos, e chamada amostra com partilha proporcional.

  • 8/9/2019 Apostila Estatistica3

    9/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 9

    3 - APURAO E APRESENTAO DOS DADOS:APRESENTAO TABULAR

    3.1 - APURAO DOS DADOS

    A apurao dos dados tem por finalidade conhecer a freqncia de elementos dapopulao em cada uma das modalidades de cada varivel de interesse.

    Aps a coleta de dados, os mesmos so apurados de acordo com os valores de umaou mais variveis, estabelecendo uma distribuio de freqncias. Chama-se, portanto,distribuio de freqncias correspondncia entre categorias ou valores possveis de umavarivel e as freqncias respectivas. Exemplo:

    TABELA 1: Nmero de alunos, segundo sexo, no 2ano do Curso de Odontologia da UMES - SoBernardo - 1992.

    SEXO(varivel)

    No de alunos(freqncia)

    masculino 41

    feminino 52

    TOTAL 93

    Fonte: Administrao Geral da UMES, 1992.

    Neste exemplo temos uma distribuio unidimensional ou univariada, pois se refere a

    apenas uma varivel (sexo).Podemos ter uma distribuio bidimensional ou bivariada, referindo-se a duas

    variveis. Exemplo:

    TABELA 2: Nmero de escolares examinados,segundo idade e sexo, na Escola Estadual X -Diadema - 1992.

    Sexo (varivel)Idade (anos)

    (varivel) Masc. Fem.Total

    7 50 47 97

    8 35 34 699 36 41 77

    10 53 53 106

    11 33 30 63

    12 46 46 92

    Total 253 251 504

    Fonte: DOPSP/UMESP - 1992.

  • 8/9/2019 Apostila Estatistica3

    10/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 10

    3.2 - DEFINIO DE CLASSES

    Existem situaes em que uma varivel apresenta-se naturalmente em classes, comono caso de sexo - masculino ou feminino, estado civil - solteiro, casado, vivo, divorciado,profisso dentista, mdico, enfermeiro, nmero de filhos 1, 2, 3. J as variveis contnuaspodem apresentar inmeras modalidades, por exemplo, peso e altura. Nestes casos pode serinteressante o estabelecimento de distribuio em classes em lugar de estabelecer umadistribuio com todas as modalidades.

    Alguns cuidados devem ser tomados ao estabelecer classes, quais sejam:

    as classes devem ser mutuamente exclusivas, para que no haja dvida na localizaodos valores da varivel na distribuio;

    o elemento deve estar includo em uma nica classe;

    todos os elementos devem ter onde ser classificados;

    os valores reunidos passam a assumir o valor mdio do intervalo de classe, portanto,quanto maior for o intervalo de classe, maiores sero as possibilidades de distoro.Deve-se procurar uma amplitude pequena nas classes, sem estabelecer um nmeromuito grande de classes;

    a amplitude das classes pode variar, desde que mantenham os aspectos relevantes dadistribuio. comum o estabelecimento de classes de diferentes amplitudes no casode idade.

    TABELA 3: Nmero de alunos da faculdade X,segundo sexo e altura, So Paulo, 1987.

    SexoAltura (metros)

    masc. fem.Total

    1,45 - 1,55 1 3 4

    1,55 - 1,65 1 10 11

    1,65 - 1,75 8 5 13

    1,75 - 1,85 12 2 14

    Total 22 20 42

    Fonte: Y

    As classes terminam e comeam com o mesmo valor quando a varivel contnua,sendo o smbolo entre os valores o que define at onde cada classe vai. Por exemplo, se abarra vertical est do lado do 1,45 na primeira linha da tabela 3, significa que 1,45 est nestaclasse. J o valor 1,55 est sem a barra vertical na primeira linha e com a barra vertical nasegunda, indicando que o valor 1,55 est na segunda classe e no na primeira.

    As variveis discretas tambm podem ser colocadas em intervalos de classe. Nestecaso, a notao pode ser diferente. Como os valores so exatos, as classes podem comear eterminar sem que o valor se repita na classe seguinte. Assim:

  • 8/9/2019 Apostila Estatistica3

    11/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 11

    TABELA 3a: Nmero de alunos da faculdade X,segundo sexo e nmero de irmos, So Paulo, 1987.

    SexoNmero deirmos

    masc. fem.

    Total

    0 a 1 1 3 4

    2 a 3 1 10 11

    4 a 5 8 5 13

    5 a 6 12 2 14

    Total 22 20 42

    Neste exemplo, na primeira classe esto os alunos que tm 0 e 1 irmos, na segundaos alunos que tm 2 e 3 irmos, e assim, sucessivamente.

    3.3 - CARACTERSTICAS DE UMA TABELA

    Uma tabela deve ser explicativa, sem necessidade de consulta ao texto para entend-la. Para tanto, os componentes essenciais so o ttulo, corpo da tabela, cabealho e colunaindicadora.

    O ttulo a indicao anterior a tabela, e deve ser preciso, claro e resumido, indicando oque est sendo tabulado, quais as variveis que esto sendo consideradas, o local e adata em que o fato foi observado.

    O corpo da tabela o conjunto de linhas e colunas onde so colocadas as informaes,e cada clula o cruzamento de uma linha com uma coluna, indicando a freqnciacom que a categoria foi observada.

    O cabealho onde se define a categoria de cada coluna e a coluna indicadora ondese define a categoria de cada linha.

    (TTULO): TABELA 3: Nmero de alunos da faculdade X, segundo sexoe altura, So Paulo, 1987.

    sexoAltura (metros)

    masc. fem.Total

    CABEALHO

    1,45 - 1,55 1 3 4

    1,55 - 1,65 1 10 11 CORPO

    1,65 - 1,75 8 5 13 DA

    1,75 - 1,85 12 2 14 TABELA

    Total 22 20 42

    Fonte: Y

    Uma questo de forma que melhora a apresentao dos dados colocar na colunaindicadora a varivel com maior nmero de categorias e usar o cabealho para colocar varivelapenas em tabelas com mais que uma varivel. Nas tabelas unidimensionais a varivel deveser colocada na coluna indicadora.

    COLUNA INDICADORA

  • 8/9/2019 Apostila Estatistica3

    12/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 12

    A tabela possui, ainda, alguns elementos complementares, que so a fonte, que ficaabaixo da tabela e indica a entidade responsvel pela organizao dos dados ou fornecedorados dados, e notas, que podem ser colocadas no rodap da tabela para esclarecer questesgerais.

    Nenhuma casa da tabela deve ficar em branco, devendo apresentar sempre umnmero ou sinal. Usa-se o hfen (-) para representar valores nulos, reticncia (...) quando nose dispe de dado, interrogao (?) quando se tem dvida quanto ao valor numrico, e zero (0)quando o valor numrico muito pequeno para ser expresso na unidade utilizada. Essadiferenciao para valores nulos (hfen) e muito pequenos (zero) muito importante naconstruo de tabelas.

    As casas decimais, quando utilizadas, devem ser uniformes em todas as clulas damesma coluna e as regras matemticas de aproximao devem ser obedecidas. Quandotemos vrias tabelas em uma publicao, elas devem estar numeradas em ordem crescente deacordo com o aparecimento.

    As tabelas devem ser fechadas por linhas horizontais no alto e embaixo, no sendofechadas direita e esquerda. Os totais e subtotais devem ser destacados e quando existem

    duas variveis devem estar presentes os totais de cada uma delas: um na ltima linha e outrona ltima coluna.

    As variveis contnuas devem ter a unidade de medida especificada no ttulo ou nacoluna e cabealho da tabela.

    As tabelas podem apresentar, alm das freqncias absolutas, as freqnciasrelativas. Para obter a freqncia relativa de uma categoria, divide-se a freqncia dessacategoria pela soma das freqncias, multiplicando-se o resultado por cem (porcentagem).

    TABELA 4: Nmero e porcentagem de alunos, segundo sexo,no Curso de Odontologia da Metodista - So Bernardo - 1992.

    SEXO

    (varivel)

    No de alunos

    (freqncia absoluta)

    %

    (freqncia relativa)

    masculino 160 40

    feminino 240 60

    TOTAL 400 100

    Fonte: Administrao Geral da Universidade Metodista de So Paulo, 1992.

    3.4 - PLANILHA ELETRNICA PARA CONSTRUIR TABELAS:

    Os aplicativos mais utilizados em computadores possuem planilhas eletrnicas que

    permitem a incluso dos dados e de pois a construo de tabelas. Usando o Excell comoexemplo, os dados do levantamento devem ser digitados na forma de lista, com os elementosda amostra nas linhas e as variveis nas colunas. Aps completado o banco de dados, tabelaspodem ser construdas utilizando o recurso de tabela dinmica.

    Na barra de ferramenta do Excell, na parte superior, no item "dados", selecionar o item"relatrio de tabela dinmica" e seguir as orientaes do programa. Tenha calma e leias todasas instrues que o programa oferece. Se tiver dvidas, o "help" do programa poder auxiliar.

    As tabelas construdas com esse recurso so fixas, e vinculadas planilha digitada.Para fazer alteraes nos resultados, mudar a forma ou agrupar categorias, por exemplo, sernecessrio copiar a tabela dinmica e "colar especial" (do item editar) "valores" (sub-item docolar especial).

    A prtica trar o aperfeioamento!

  • 8/9/2019 Apostila Estatistica3

    13/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 13

    4 - APURAO E APRESENTAO DOS DADOS:APRESENTAO GRFICA

    4.1 - CARACTERSTICAS DE UM GRFICO

    Os dados coletados e apurados podem tambm ser apresentados em forma de figuras,em geral grficos ou diagramas. Os grficos devem ser auto-explicativos, de fcilcompreenso, sem comentrios inseridos, de aparncia agradvel, que chame a ateno doleitor e inspirem confiana.

    Existem normas nacionais para construo de grficos, devendo apresentar ttulo eescala. Por escala entende-se que os valores apresentados devem obedecer mesma escalaem todo o grfico, sendo que os valores expressos pelas figuras sejam proporcionalmente

    iguais aos reais. Por exemplo, se devo apresentar os valores 10, 20 e 40 em um grfico, estesdevem estar expressos de forma que, na figura, 40 seja o dobro de 20 e 20 seja o dobro de 10.

    O tamanho do grfico deve ser adequado publicao a que se destina. O grficodeve possuir um ttulo; as escalas devem crescer da esquerda para a direita e de baixo paracima. A escala adotada no deve desfigurar os fatos ou as relaes que se deseja destacar.

    Os grficos podem ser cartogramas ou diagramas. Os cartogramas so mapasgeogrficos ou topogrficos, muito utilizados em epidemiologia para observar o aparecimentode certos agravos.

    FIGURA 1: Municpios com vigilncia sanitria dos teores deflor no Estado de So Paulo. 1994.

    Os diagramas so grficos em que as freqncias so representadas pela mensuraode uma figura geomtrica. Assim, temos:

    Diagrama de ordenadas: a medida utilizada o comprimento, e

    Diagrama de barras, histograma e setores de crculo: a medida utilizada a rea ousuperfcie da figura.

    Na representao de um diagrama deve ser levada em conta a natureza da varivel -paramtica contnua, paramtrica discreta ou no-paramtrica.

  • 8/9/2019 Apostila Estatistica3

    14/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 14

    4.2 - REPRESENTAO GRFICA DE VARIVEL NO-PARAMTRICA E PARAMTRICA DISCRETA

    A partir dos dados de uma tabela (TABELA 1), existem vrias possibilidades derepresentao das freqncias.

    TABELA 1: Nmero de alunos, segundo sexo, no 6semestre do Curso de Medicina da UFSC - Florianpolis -1996.

    Sexo No de alunos

    Masculino 40

    Feminino 50

    Total 90

    Fonte: Administrao geral da UFSC, 1996.

    a) Diagrama de ordenadas: Sobre uma reta de sustentao, a partir de pontoseqidistantes na mesma, so construdas perpendiculares cujos comprimentos soproporcionais s freqncias observadas. Exemplo: Grfico 1.

    GRFICO1:Nmero de alunos, segundosexo, no 6 semestre do Curso de

    Medicina da UFSC - Florianpolis - 1996.

    0

    10

    20

    30

    40

    50

    60

    masc fem

    Neste exemplo, coincidentemente, as freqncias de cada categoria masculino efeminino aparecem na escala do grfico, mas isso no obrigatrio. Poderia ocorrer dasfreqncias serem 42 para masculino e 53 para feminino e a escala continuaria com osmesmos valores indicativos; apenas a linha correspondente a cada freqncia seria um poucomaior. O valor exato da freqncia no deve ser acrescentado escala do grfico.

    b) Diagrama de barras: A mesma distribuio poderia ser representada por meio de umdiagrama que levasse em conta a rea da figura geomtrica. No diagrama de barrasso construdos retngulos em intervalos apropriados com reas proporcionais sfreqncias das categorias da varivel observada. Lembrando que a rea do retngulo o produto da base pela altura, se fixarmos o mesmo tamanho de base para os vrios

  • 8/9/2019 Apostila Estatistica3

    15/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 15

    retngulos, poderemos constru-los com alturas proporcionais s freqncias. Exemplo:Grfico 1a.

    GRFICO1a: Nmero de alunos, segundo

    sexo, no 6 semestre do Curso de Medicinada UFSC - Florianpolis - 1996.

    010

    20

    30

    40

    50

    60

    masc fem

    c) Diagrama de setores de crculo: A rea correspondente a cada categoria da variveldeve obedecer proporo da freqncia observada. Assim, no mesmo exemplo,temos:

    360 = 90

    x = 50 x = 200 (sexo feminino)360 = 90

    x = 40 x = 160 (sexo masculino)

    Como pode ser verificado no Grfico 1b.

    GRFICO1b: Nmero de alunos, segundosexo, no 6 semestre do Curso de Medicina

    da UFSC - Florianpolis - 1996.

    femmasc

    Fonte: Administrao geral da UFSC, 1996.

  • 8/9/2019 Apostila Estatistica3

    16/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 16

    4.3 - REPRESENTAO GRFICA DE VARIVEL PARAMTRICACONTNUA

    Nas distribuies de variveis paramtricas necessrio se distinguir quando ela discreta e quando contnua. Quando a varivel discreta utiliza-se o mesmo tipo de grficoque para as variveis no-paramtricas. Quando contnua, os grficos mais utilizados so opolgono de freqncias e o histograma.

    a) Para construir opolgono de freqncias, admite-se que as freqncias das classesesto concentradas no ponto mdio dos intervalos que as definem. Localizados essespontos, eles so unidos entre si por retas, e o primeiro e ltimo pontos so ligados aoeixo das abscissas na metade das classes hipotticas imediatamente anterior aprimeira e posterior ltima, definindo a rea total delimitada, correspondente a 100%da distribuio. As reas parciais sero proporcionais freqncia de cada classe.

    b) O histograma um diagrama de barras justapostas. Lembrar que as reas das

    barras devem ser proporcionais s freqncias. Na construo de um grfico defreqncias em intervalos de classe, se as classes forem de mesma amplitude, bastaconstruir bases iguais e alturas proporcionais s freqncias.

    Exemplo para amplitudes de classe iguais:

    TABELA 2: Nmero de casos de linfomas nosexo masculino, segundo idade. Brasil, 1975.

    Idade em anos No

    0 - 10 90

    10 - 20 12020 - 30 90

    30 - 40 100

    40 - 50 80

    50 - 60 90

    60 - 70 80

    Total 650

    Fonte: Ministrio da Sade, Brasil, 1978.

    GRFICO 2: Nmero de casos de linfomas,sexo masculino, segundo idade. Brasil,1975. (Polgono de freqncias)

    0

    20

    40

    60

    80

    100

    120

    140

    0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70

    idade (anos)

    Fonte: Ministrios da Sade, Brasil, 1978.

    GRFICO 2a: Nmero de casos de linfomas, sexomasculino, segundo idade. Brasil, 1975. (Histograma)

    0

    20

    40

    60

    80

    100

    120

    140

    0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 50 50 |- 60 60 |- 70

    idade (anos)

  • 8/9/2019 Apostila Estatistica3

    17/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 17

    Se as amplitudes das classes forem diferentes, precisamos fazer um ajuste dasfreqncias, caso contrrio a rea no ser proporcional freqncia com que ocorre avarivel. O ajuste feito dividindo-se o nmero de casos de cada classe pela amplitude darespectiva classe, obtendo-se um nmero de casos por intervalo de classe.

    Exemplo para amplitudes de classe diferentes:

    TABELA 3: Nmero de casos de linfomas, sexofeminino, segundo a idade. Brasil, 1975.

    Idade em anos No Amplitude do intervaloCasos/ano

    (freqncia ajustada)

    0 - 5 15 5 anos 15/5 = 3

    5 - 20 60 15 anos 60/15 = 4

    20 - 50 150 30 anos 150/30 = 5

    50 - 65 75 15 anos 75/15 = 5

    65 - 100 70 35 anos 70/35 = 2

    Total 370

    GRFICO 3: Nmero de casos de linfomas, sexofeminino, segundo a idade. Brasil, 1975.

    0

    1

    2

    3

    4

    5

    6

    5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100idade (anos)

    casos/anos

    de

    idade

    4.4 - APLICATIVOS GRFICOS:

    Os programas de edio de texto (word) e de planilhas eletrnicas (excell) ofereceminstrumentos para construo digital de grficos. Na barra de ferramentas, no item "inserir", hum sub-item para "grfico", que abre uma janela com vrias opes de figuras.

    Cabe alertar que o programa far qualquer grfico solicitado, independentemente desua correta indicao estatstica. Ento, o usurio responsvel pela correta seleo do tipode grfico de acordo com a(s) varivel(is) a serem apresentadas.

    Os histogramas no so construdos pelo padro do programa, sendo necessria ainstalao de suplementos para sua elaborao automtica. Os polgonos de frequncia so oschamados "grficos de linha". Observar sempre se os intervalos de classe esto definidos demaneira adequada.

    So muitas opes de formas e cores, e preciso exercitar para aproveitar todos osrecursos grficos desses programas.

  • 8/9/2019 Apostila Estatistica3

    18/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 18

    5 - ANLISE DESCRITIVA DE VARIVEIS PARAMTRICAS:MEDIDAS DE POSIO OU TENDNCIA CENTRAL

    Aps a coleta de dados, os mesmos so apurados de acordo com os valores de umaou mais variveis, estabelecendo uma distribuio de freqncias, atravs de grfico ou tabela.

    Exemplo:

    TABELA 1: Nmero de escolares examinadossegundo idade1 e sexo na Escola Estadual PauloFreire - Diadema - 1992.

    SexoIdade(anos) masculino feminino

    Total

    7 50 40 908 30 40 70

    9 30 40 7010 50 60 11011 40 30 7012 50 40 90

    Total 250 250 500

    GRFICO 1: Nmero de escolares examinados segundoidade2 e sexo na Escola Estadual Paulo Freire - Diadema- 1992.

    0

    10

    20

    30

    40

    50

    60

    n

    7 8 9 10 11 12

    idade (anos)

    masc. fem.

    Fonte: IMES/DOPS/1992

    1Idade neste exemplo est sendo utilizada como varivel discreta, representando categoriasseparadas, embora a natureza da varivel seja contnua. Essa alterao deve-se natureza doproblema analisado, onde cada ano a mais de idade interfere no valor da varivel.2

    Idem nota anterior. Por isso o grfico pode ser barras separadas indicado para variveisdiscretas mas no para variveis contnuas.

  • 8/9/2019 Apostila Estatistica3

    19/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 19

    O problema que se apresenta em conexo com estas distribuies o de analis-laspara descrever as suas caractersticas mais importantes. Assim, embora no possamosconhecer os valores individuais, temos alguma idia a respeito do conjunto estudado.

    O mtodo usual de anlise de uma distribuio de freqncias de uma varivelquantitativa X consiste em definir as medidas de tendncia central e as medidas devariabilidade ou disperso.

    As medidas de posio ou tendncia central visam determinar o centro da distribuio.So medidas de tendncia central a mdia aritmtica, a mediana, a moda, a mdia geomtricae a mdia harmnica.

    Trataremos aqui de trs destas medidas: mediana, moda, e mdia aritmtica. Estaltima de maior interesse para os dados que, mais freqentemente, so trabalhados na rea.

    5.1 - MDIA ARITMTICA

    Dada uma distribuio de freqncias, chama-se de mdia aritmtica a soma de todosos valores da varivel, dividida pela freqncia total.

    Exemplo:

    TABELA 2: Funcionrios da receita federal segundovalor de salrio (em nmero de salrios mnimos) -Braslia, 1994.

    Valor de salrio (SM) freqncia

    2 304 106 510 5

    Total 50Fonte: dados hipotticos

    A mdia ser calculada atravs da SOMATRIA do produto VALOR DE SALRIO XFREQUNCIA, dividida pela FREQUNCIA TOTAL.

    Ou seja:

    [(2x30)+(4x10)+(6x5)+(10x5)] 50 = [60+40+30+50] 50 =

    180 50 = 3,6 salrios mnimos por funcionrio

    Esse valor expressa que o valor mdio de salrio por funcionrio da receita federal emBraslia 3,6 salrios mnimos por funcionrio. Ou: os funcionrios da receita federal deBraslia apresentam uma mdia salarial de 3,6 salrios mnimos por funcionrio.

    No mesmo exemplo da Tabela 2, se um dos funcionrios fosse promovido e passassede 10 salrios para 100 salrios, ou seja, se tivssemos um nico valor de salrio igual a 100(cem salrios mnimos):

    TABELA 2a:

    Valor de salrio (SM) freqncia

    2 304 106 510 4100 1

    Total 50

  • 8/9/2019 Apostila Estatistica3

    20/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 20

    O clculo da mdia seria:

    [(2x30)+(4x10)+(6x5)+(10x4)+(1x100)] 50 = [60+40+30+40+100] 50 =

    270 50 = 5,4 salrios mnimos por funcionrio

    A introduo de um nico valor muito alto aumentou a mdia em 50%.So caractersticas da mdia:

    o valor que as observaes teriam se fossem todas iguais.

    da mesma natureza que a varivel considerada, devendo ser acompanhada daunidade de medida da varivel.

    Sempre existe, e admite um nico valor.

    influenciada, e atrada, por valores aberrantes, como j foi demonstrado no exemplodas tabelas 2 e 2a.

    Dessa caracterstica decorre a necessidade de cuidado ao analisar a mdia de umavarivel quando temos valores aberrantes, ou seja, muito altos ou muito baixos quandocomparados aos demais valores da distribuio.

    Analisando as seguintes distribuies:

    TABELA A: Distribuio de faltas dosalunos do 3 semestre de medicina.

    N faltas f0 401 102 -3 104 40Total 100

    Mdia = (40x0) + (10x1) + (0x2) + (10x3)+

    (40x4) = 200/100 = 2

    TABELA B: Distribuio de faltas dosalunos do 3 semestre de medicina.

    N faltas f0 301 -2 403 -4 30Total 100

    Mdia = (30x0) + (0x1) + (40x2) + (0x3)+(30x4) = 200/100 = 2

    TABELA C: Distribuio de faltas dosalunos do 3 semestre de medicina.

    N faltas F0 101 202 403 204 10Total 100

    Mdia = (10x0) + (20x1) + (40x2) + (20x3)+

    (10x4) = 200/100 = 2

    TABELA D: Distribuio de faltas dosalunos do 3 semestre de medicina.N faltas F0 501 -2 -3 -4 50Total 100

    Mdia = (50x0) + (0x1) + (0x2) + (0x3)+(50x4) = 200/100 = 2

    Perceba a distribuio diversificada das faltas verificadas, apesar das mdias iguais: 2faltas por aluno nas quatro situaes.

    O conhecimento da mdia de uma varivel no permite identificar como os valoresesto distribudos no grupo de indivduos, ou seja, quanto os valores esto dispersos emrelao mdia. Essa discusso ser complementada no prximo captulo.

  • 8/9/2019 Apostila Estatistica3

    21/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 21

    5.2 - MEDIANA

    5.2.1 - Varivel Discreta:

    Dada uma distribuio de freqncias em ordem crescente ou decrescente de

    magnitude, a mediana definida como sendo igual ao valor que ocupar o posto central nesseconjunto, ou seja, o valor da varivel que deixa 50% das observaes abaixo e 50% dasobservaes acima desse valor.

    Exemplo: Os dentes de 7 crianas foram examinados, e foram contados os dentescariados em cada uma delas, com os seguintes resultados: 3, 2, 5, 2, 3, 9, 7. Dispondo osvalores em ordem crescente temos: 2, 2, 3, 3, 5, 7, 9. O posto central o quarto, ocupado pelovalor 3, ento dizemos que a mediana desse conjunto 3.

    Quando o nmero de observaes (n) mpar, sempre existe um posto central e noh problema em estabelecer a mediana, que ser igual ao valor que estiver no posto (n + 1)/2.

    Se as observaes estiverem dispostas em uma tabela de freqncias, temos:

    TABELA 4: Nmero de pacientes segundo nmero de

    filhos. UBS Vinicius de Moraes, 1990.No de filhos No de

    pacientesfreqnciaacumulada

    0 10 101 20 302 33 633 15 784 5 83

    Total 83

    Fonte: Y

    O posto mediano (83 + 1)/2 corresponde a 42. O posto 42 est localizado aps afrequncia acumulada 30, da segunda linha, entre as observaes acumuladas at o total de63, da terceira linha. Ento, a mediana de filhos 2 filhos por paciente.

    Quando n par, existem dois valores centrais, sendo estabelecido por conveno quea mediana a mdia dos valores que ocupam os dois postos centrais - n/2 e (n+2)/2.

    Corresponde, portanto a:valor do posto n/2 + valor do posto (n+2)/2

    2

    Exemplo: No conjunto dos valores 21, 25, 26, 30, 32, 33 os valores centrais so 26 e30. A mediana ser (26 + 30)/2, que igual a 28.

    Em uma tabela de freqncias temos:

    TABELA 5: Nmero de pacientes segundo nmerode filhos. UBS Tom Jobim, 1990.

    No defilhos

    No depacientes

    freqnciaacumulada

    0 10 101 12 222 5 273 20 474 7 54

    Total 54

  • 8/9/2019 Apostila Estatistica3

    22/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 22

    Os dois postos centrais so 54/2 e 56/2, 27 e 28 respectivamente. O posto 27corresponde a 2 filhos e o 28 corresponde a 3 filhos. Nesse caso a mediana ser (2 + 3)/2, que igual a 2,5 filhos por paciente.

    5.2.2. Varivel contnua:

    Para variveis contnuas determina-se o valor que divide a freqncia total n em duaspartes iguais, independentemente de n ser par ou mpar. Como normalmente as variveiscontnuas so apresentadas em intervalos de classe, temos:

    TABELA 6: Nmero de alunos da classesegundo peso. Classe de 1992.

    peso (kg) No alunos freqnciaacumulada

    50 - 55 10 10

    55 - 60 15 25

    60 - 70 13 38

    70-75 2 40

    Total 40

    A mediana estar no posto 40/2, que igual a 20. O posto 20 est includo na classede 55 /- 60 kg. Neste caso imagino que os 15 indivduos desta classe esto distribudos deforma idntica nos 5 kg. ento, tenho 5 kg para 15 indivduos e procuro o valor correspondentea 10 indivduos - j tenho 10 indivduos at o incio desta classe, faltando 10 para chegar aosvinte da mediana. Se 15 indivduos tm 5 kg, 10 indivduos tm 3,33 kg. A mediana ser 55 +3,33, igual a 58,3 kg por aluno.

    Se fosse um nmero mpar de elementos, o clculo seria o mesmo:

    TABELA 7: Nmero de alunos da classesegundo peso. Classe de 1992.

    peso (kg) No alunos freqnciaacumulada

    50 - 55 10 10

    55 - 60 15 25

    60 - 70 13 38

    70-75 3 41

    Total 41

    A mediana estar no posto 41/2, que igual a 20,5. O posto 20,5 est includo naclasse de 55 |- 60 kg. Neste caso imagino que os 15 indivduos desta classe esto distribudosde forma idntica nos 5 kg. Ento, tenho 5 kg para 15 indivduos e procuro o valorcorrespondente a 10,5 indivduos - j tenho 10 indivduos at o incio desta classe, faltando10,5 para chegar aos vinte da mediana. Se 15 indivduos tm 5 kg, 10,5 indivduos tm 3,5 kg.A mediana ser 55 + 3,5, igual a 58,5 kg por aluno.

    Indivduos 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

    Peso adicional 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33 0,33

    O indivduo 11 comeou com 55 kg e ganhou 0,33 kg (55,33). O indivduo 12 comeoucom 55,33 kg e ganhou mais 0,33 kg (55,66), e assim sucessivamente, at chegar ao indivduo20,5.

  • 8/9/2019 Apostila Estatistica3

    23/55

  • 8/9/2019 Apostila Estatistica3

    24/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 24

    TABELA 8: Nmero de alunos segundo idade. Classe de 1992.

    Idade(anos)

    Caso 1

    No alunos

    Caso 2

    No alunos

    Caso 3

    No alunos

    19 15 15 1520 20 20 15

    21 30 20 15

    22 10 20 15

    23 15 15 15

    Total 90 90 90

    A moda 21anos de idade

    Existem trsmodas: 20,

    21, e 22anos.

    No h moda

    So caractersticas da moda:

    da mesma natureza que a varivel.

    Nem sempre existe e nem sempre nica, existindo distribuies multi-modais - quandoh mais que um valor modal.

    Pode ser utilizada para varivel qualitativa.

    5.4 - DEFINIO DAS MEDIDAS A PARTIR DE APLICATIVOS:

    Atualmente as medidas de posio e de tendncia central podem ser facilmentedetectadas a partir de programas estatsticos ou planilhas eletrnicas.

    Utilizando o excell como exemplo, aps a digitao do banco de dados em umaplanilha, obedecendo a adequada incluso dos valores observados - elementos nas linhas evariveis nas colunas - essas medidas podem aferidas usando as funes de clculo daplanilha.

    Na barra de ferramentas do excell comum a existncia de um atalho de "funo",representado por "fx". Esse atalho abre uma janela com vrias opes de clculos na planilha.Escolhido o clculo desejado, uma janela de orientao vai indicar os prximos passos.

    Como exemplo, para clculo da mdia de altura valores de 100 indivduos, teremos:

    - Na planilha devero estar colocados os 100 valores de altura dos indivduos,um valor em cada linha.

    - Supondo que a primeira linha das colunas tenha sido usada para indicar avarivel de cada coluna, teremos na A1 "nome", na A2 "altura", e assim pordiante, para todas as variveis.

    - Na segunda linha estaro os valores das variveis. Na A2 estar o nome doprimeiro indivduo e na B2 o valor da sua altura. Na A3 estar o nome dosegundo indivduo e na B3 estar sua altura. E assim por diante.

    - Para calcular a mdia devemos estar na planilha e teclar na tecla de funo ( fx)e selecionar "estatstica" na janela da esquerda. Entre as funes estatsticasque aparecem, selecionar "mdia".

    - A descrio de cada uma das medidas da janela aparece na parte inferior da

    mesma. Leia com ateno para saber se a medida que deseja utilizar.

  • 8/9/2019 Apostila Estatistica3

    25/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 25

    - Ao selecionar "mdia", uma outra janela se abre, solicitando que informe dequais dados deseja a mdia. Ento, se a mdia desejada da altura dos 100indivduos, nesse espao dever ser definido o intervalo deles na planilha -B2:B101. A forma de indicar esse intervalo destacar esse espao na planilha.

    - Tecle enter para finalizar o procedimento.

    - Na clula onde o cursor estava no incio da operao aparecer o valor damdia.

    - aconselhvel deixar o cursor no final da planilha, embaixo da coluna sobre aqual se deseja calcular a medida.

  • 8/9/2019 Apostila Estatistica3

    26/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 26

    6 - ANLISE DESCRITIVA DE VARIVEIS PARAMTRICAS:MEDIDAS DE DISPERSO

    Se quatro distribuies de faltas possurem a mesma mdia por indivduo, possoconcluir que a situao de absentesmo nesses locais a mesma? Evidentemente que no.Pelos exemplos A, B, C e D podemos verificar que a mdia a mesma, embora na situao A40% dos indivduos estejam com 2 faltas e na situao D 50% dos indivduos estejam com 4faltas.

    TABELA A: Distribuio de faltas dos alunosdo 3 semestre de medicina.

    N faltas f

    0 10

    1 202 403 204 10

    Total 100

    TABELA B: Distribuio de faltas dos alunosdo 3 semestre de medicina.

    N faltas f

    0 30

    1 -2 403 -4 30

    Total 100

    TABELA C: Distribuio de faltas dosalunos do 3 semestre de medicina.

    N faltas f

    0 40

    1 102 -3 104 40

    Total 100

    TABELA D: Distribuio de faltas dosalunos do 3 semestre de medicina.

    N faltas f

    0 50

    1 -2 -3 -4 50

    Total 100

    0

    10

    20

    30

    40

    50

    0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4 esp 0 1 2 3 4

    Pela figura acima pode-se perceber a distribuio diversificada dos valores, apesar depossurem mdias iguais a 2 faltas por aluno nas quatro situaes.

    TABELA A TABELA B TABELA C TABELA D

  • 8/9/2019 Apostila Estatistica3

    27/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 27

    O conhecimento da mdia de uma varivel no permite identificar como os valoresesto distribudos no grupo de indivduos, ou seja, quanto os valores esto dispersos emrelao mdia.

    Dessa forma, as medidas de disperso visam, a partir da mdia, descobrir como osvalores esto dispersos ao seu redor.

    Partindo do fato de que a mdia aritmtica o valor que todas as observaes teriamse fossem iguais entre si, podemos dizer que o valor que todas as observaes teriam se nohouvesse variabilidade. Da resulta que o desvio (diferena) de cada observao para a mdiaaritmtica representa o quanto as observaes variam com relao mdia.

    Definem-se, portanto, medidas de variabilidade baseadas nestes desvios.

    6.1 DESVIO EM RELAO MDIA:

    a distncia entre cada valor da distribuio e a mdia da mesma distribuio.

    Exemplo: Distribuio de notas na primeira avaliao de bioestatstica:0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9, 10, 10.

    Tabela correspondente: Clculo do desvio:Notas freqncia Notas x desvio F

    3 3 (3 - 6) (-3 X 3) -94 4 (4 - 6) (-2 X 4) -85 3 (5 - 6) (-1 X 3) -36 2 (6 - 6) (0 X 2) 07 2 (7 - 6) (1 X 2) 28 2 (8 - 6) (2 X 2) 49 2 (9 - 6) (3 X 2) 6

    10 2 (10 - 6) (4 X 2) 8

    Total 20 SOMA DOS DESVIOS 0

    Mdia: (3x3)+(4x4)+(3x5)+(2x6)+(2x7)+(2x8)+(2x9)+(2x10) = 120 = 6,020 20

    A soma dos desvios de uma distribuio sempre igual a zero; por isso o desviosimples no usado como medida de disperso de uma distribuio.

    6.2 VARINCIA - S2 OU 2:

    A soma dos desvios sempre igual a zero. Ento, os valores dos desvios so elevados

    ao quadrado, e a soma desses valores dividida pela freqncia total de elementos. Avarincia, portanto, a mdia dos quadrados dos desvios contados a partir da mdiaaritmtica.

    = somatria xi= cada valor da varivel

    x = mdia aritmtica da distribuio fi= freqncia do valor xi

    N = freqncia total s2 ou 2 = varincia

    Para dados amostrais:

    s2 = (xi-x)2.fi

    N-1

    Para dados populacionais

    2 = (xi-x)2.fi

    N

  • 8/9/2019 Apostila Estatistica3

    28/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 28

    O resultado dado ao quadrado.

    Tomando os mesmos exemplos A, B, C e D:

    TABELA A

    faltas fi xi-x (xi-x).fi

    0 10 -2 4x10 401 20 -1 1x20 202 40 0 0x40 03 20 1 1x20 204 10 2 4x10 40

    Total 100 120

    mdia (x) = 2 faltas/aluno

    s = 1,2 faltas/aluno

    TABELA B:Faltas fi xi-x (xi-x).fi

    0 30 -2 4x30 1201 - -1 1x0 02 40 0 0x40 03 - 1 1x0 04 30 2 4x30 120

    Total 100 240

    mdia (x) = 2 faltas/aluno

    s = 2,4 faltas/aluno

    TABELA C:

    Faltas fi xi-x (xi-x).fi

    0 40 -2 4x40 1601 10 -1 1x10 102 - 0 0x0 03 10 1 1x10 104 40 2 4x40 160

    Total 100 340

    mdia (x) = 2 faltas/ aluno

    s = 3,4 faltas/aluno

    TABELA D:faltas fi xi-x (xi-x).fi

    0 50 -2 4x50 2001 - -1 1x0 02 - 0 0x0 03 - 1 1x0 04 50 2 4x50 200

    Total 100 400

    mdia (x) = 2 faltas/aluno

    s = 4,0 faltas/aluno

    O valor expresso ao quadrado dificulta o entendimento da medida, por isso costuma-seusar sua raiz quadrada.

    6.3 - DESVIO PADRO:

    Raiz quadrada da varincia, ou: raiz quadrada positiva da mdia dos quadrados dosdesvios contados a partir da mdia aritmtica. Segue a mesma indicao que a varincia paraamostra ou populao: s ou , respectivamente

    Nos exemplos anteriores temos:

    A: s2= 1,2 faltas 2/ aluno B: s2= 2,4 faltas2/aluno

    s = 1,09 faltas / aluno s = 1,55 faltas/aluno

    C: s2= 3,4 faltas2/aluno D: s2= 4,0 faltas2/ aluno

    s = 1,84 faltas/aluno s = 2,0 faltas/ aluno

    Esses valores expressam a forma como as observaes esto dispersas em relao mdia 2 faltas/aluno em cada uma das situaes. Ou seja, nas situaes A, B, C e D, osvalores encontrados esto distantes da mdia, em mdia, 1,09 1,55, 1,84, e 2,0 faltas/criana,respectivamente.

    Essa informao permite avaliar que a situao mais simtrica de absentesmo a

    verificada na distribuio A, onde os valores esto menos dispersos em relao mdia.

  • 8/9/2019 Apostila Estatistica3

    29/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 29

    So caractersticas do desvio padro:

    quantidade essencialmente positiva

    S nulo se todos os valores da distribuio forem iguais entre si, isto , se no houver

    variabilidade da mesma natureza que a varivel X e depende de sua magnitude.

    Desta ltima caracterstica resulta que, se se quiser comparar duas distribuies quanto variabilidade, deve-se relativizar o desvio padro.

    6.4 - COEFICIENTE DE VARIAO DE PEARSON:

    O desvio padro ser tanto maior quanto maior for a disperso dos valores em relao mdia, mas isso depende da magnitude da varivel. Alguns valores de desvio so altosporque cada elemento da distribuio possui valor alto, e no porque a distribuio muito

    dispersa. Assim, para afirmar que uma disperso grande necessrio relativizar o valor dodesvio padro pela mdia aritmtica da distribuio.

    O coeficiente de variao resultado da diviso do desvio padro pela mdia de umavarivel, dado em porcentagem

    CV = desvio padro x 100mdia

    Observando duas distribuies distintas, com diferentes magnitudes de varivel:

    TABELA X: Distribuio de recm-nascidossegundo peso

    Peso (kg) Fi xi-x (xi-x).fi

    2,0 10 (2-3) 1 x 10 103,0 10 (3-3) 0 x 10 0

    4,0 10 (4-3) 1 x 10 10

    Total 30 20x = 3 kg/recm-nascido

    s2 = 0,69 kg2/ recm-nascidos = 0,83 kg/ recm-nascidoCV= 27,7%

    TABELA Y: Distribuio deadolescentes segundo peso

    Peso (kg) Fi xi-x (xi-x).fi

    45 10 (45-46) 1 x 10 1046 10 (46-46) 0 x 10 0

    47 10 (47-46) 1 x 10 10

    Total 30 20x = 46 kg/adolescente

    s2 = 0,69 kg2/adolescentes = 0,83 kg/adolescenteCV= 1,8%

    O exemplo demonstra uma maior disperso de valores na distribuio de peso derecm-nascidos, embora as duas distribuies possuam a mesma varincia e o mesmo desvio

    padro.A comparao de variabilidades de distribuies com valores de mdia ou com

    variveis diferentes somente possvel com o coeficiente de variao. O coeficiente devariao no tem valor mximo possvel, podendo exceder 100% nas distribuies onde odesvio padro maior que a mdia.

    Coeficientes de variao com valores superiores a 15% indicam distribuies poucosimtricas em relao mdia aritmtica, aconselhando o emprego de outras medidasauxiliares para descrever o conjunto de dados.

  • 8/9/2019 Apostila Estatistica3

    30/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 30

    7 - NOES DE PROBABILIDADE

    Aps a apurao, apresentao e descrio dos dados obtidos em investigaes, opesquisador busca estender suas observaes e concluses alm dos elementos estudadosem sua amostra, ou seja, busca fazer inferncia. Para fazer inferncia estatstica usam-setcnicas e conhecimentos de probabilidade.

    Probabilidade um afirmao numrica sobre a possibilidade de que algo ocorra,quantifica o grau de incerteza dos eventos, variando de 0 a 1, ou 0% a 100%. Um eventoimpossvel de ocorrer tem probabilidade 0 (zero), e um evento certo de ocorrer temprobabilidade 1 (um).

    Se so possveis n eventos mutuamente exclusivos e igualmente provveis, e mdesses eventos tm a caracterstica que me interessa, a probabilidade de que ocorra o eventode meu interesse m/n.

    Exemplos:Ao jogar uma moeda, a probabilidade de sair cara , 0,5 ou 50%.

    A probabilidade de tirar uma carta de copas do baralho , 0,25 ou 25%.

    Dizer que a eficcia de uma vacina 70% equivale a dizer que os indivduos vacinadostem probabilidade 0,7 ou 70% de estarem imunizados.

    Em um espao amostral - conjunto de todos os eventos possveis - ser chamadosucesso o resultado que interessa que ocorra, e a probabilidade de ocorrer sucesso ser P.Exemplo:

    Qual a probabilidade de tirar uma carta de copas do baralho?

    As 52 cartas do baralho: espao amostral

    Qualquer carta de copas: sucesso

    Todas as cartas de copas - conjunto de interesse

    13 (cartas de copas) 52 (todas as cartas) = P (carta de copas)

    P (carta de copas) = , 0,25, ou 25%.

    7.1 - PROBABILIDADE DE EVENTOS MUTUAMENTE EXCLUSIVOS:ADIO DE PROBABILIDADES

    Dois eventos so mutuamente exclusivos quando no podem ocorrer simultaneamente.

    A probabilidade de eventos mutuamente exclusivos a soma das probabilidades de cada umdeles. Exemplo: cara ou coroa em lanamento de moeda; carta preta ou vermelha no baralho.

    Exemplo: No lanamento de dado, sucesso ser face 2 ou 3: P(2 ou 3) = P(2) + P(3) = 1/6 +1/6 = 1/3

    P (A B) = P (A ou B) = P (A) + P (B)

  • 8/9/2019 Apostila Estatistica3

    31/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 31

    7.2 - PROBABILIDADE DE EVENTOS INDEPENDENTES:PRODUTO DE PROBABILIDADES

    Dois eventos so independentes quando o resultado de um no interfere no resultadodo outro, e vice-versa. Exemplo: No lanamento de dois dados, sair 2 em um e 3 no outro. Aprobabilidade de eventos independentes o produto das probabilidades de cada um deles.

    Exemplo: No lanamento de uma moeda e um dado, a probabilidade de sair cara e face 6ser:

    P (cara e face 6) = P (cara) x P (face 6) = 1/2 x 1/6 = 1/12

    7.3 - PROBABILIDADE DE EVENTOS INDEPENDENTESE MUTUAMENTE EXCLUSIVOS

    Quando o resultado de um no interfere no resultado do outro, e os dois eventos nopodem ocorrer simultaneamente. Exemplos:

    a) No lanamento de dois dados, a probabilidade de sair 2 em um dado e 3 no outroser a probabilidade de sair 2 no primeiro e 3 no segundo, ou sair 3 no primeiro e 2no segundo:

    P1 dado(2) x P2 dado(3) + P1 dado(3) x P2 dado(2) = (1/6 x 1/6) + (1/6 x 1/6) = 2/36 = 1/18

    b) No lanamento de dois dados, a probabilidade de sair 2 ou 3 no primeiro e nosegundo ser:

    [ P1 dado(2) + P1 dado(3) ] x [ P2 dado(2) + P2 dado(3) ] = [ 1/6 + 1/6] x [ 1/6 + 1/6 } = 1/3 x1/3 = 1/9

    7.4 - PROBABILIDADE CONDICIONAL

    a probabilidade de ocorrer determinado evento sob uma dada condio. Exemplo:Quando um dado lanado, a probabilidade de sair 3 1/6. Se o dado j foi lanado esabemos que saiu face mpar, a probabilidade de ter sado 3 1/3. Sob a condio de ter sado

    mpar, a probabilidade de sair 3 foi alterada de 1/6 para 1/3. A probabilidade condicional representada por P (A B), que significa probabilidade de A dado B.

    P (A B) = P (A e B) = P(A) x P(B)

  • 8/9/2019 Apostila Estatistica3

    32/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 32

    8 - DISTRIBUIO BINOMIAL

    8.1 - CONCEITOS

    Varivel aleatria: qualquer funo de nmero real definida no espao amostral. Sovariveis influenciadas ao acaso, com variabilidade resultante da soma de fatores nocontrolados.

    Varivel aleatria discreta: quando s assume valores associados ao nmeros naturais.Ex.: n de filhos, n de pacientes.

    Varivel aleatria binria: s assume um de dois valores possveis. Ex.: ser ou nohipertenso, fator Rh.

    A distribuio binomial uma distribuio discreta que resulta da soma de variveisaleatrias binrias.

    Exemplo: No lanamento de duas moedas:

    Varivel aleatria sendo n de coroas

    Possibilidades:

    Moeda 2

    Cara Coroa

    Cara Cara e cara Cara e coroa

    Moeda 1 Coroa Coroa e cara Coroa e coroa

    A distribuio da ocorrncia de caraser:

    x - n de coroas P (x)

    0 1/4 = 0,25 = 25%

    1 2/4 = 0,50 = 50%

    2 1/4 = 0,25 = 25%total 1 = 100%

    No lanamento de trs moedas: CARA = K; COROA = C

    Possibilidades:

    Moeda 1 moeda 2 moeda 3

    K K K K e K e K K x K x K [P(K)]3 x x = 1/8

    K K C (K e K e C) ou (K e C e K) ou (C e K e K)

    K C K (K x K x C) + (K x C x K) + (C x K x K) 3 (K x K x C)C K K 3 [P(K)]2 x P(C) 3( x ) () = 3/8

    K C C (K e C e C) ou (C e K e C) ou (C e C e K)

    C K C (K x C x C) + (C x K x C) + (C x C x K) 3 (K x C x C)

    C C K 3 P(C) x [P(K)]2 x 3 ()( x ) = 3/8

    C C C C e C e C C x C x C [P(C)]3 x x = 1/8

  • 8/9/2019 Apostila Estatistica3

    33/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 33

    A distribuio das probabilidades de ocorrncia de cara ser:

    x - n de coroas P (x)

    0 1/8 = 0,125 = 12,5%

    1 3/8 = 0,375 = 37,5%

    2 3/8 = 0,375 = 37,5%

    3 1/8 = 0,125 = 12,5%

    Total 1 = 100%

    A probabilidade do sucesso chamada p, e seu complemento (1-p) chamado q.Em n situaes, a probabilidade da varivel aleatria assumir valor x obtida pela frmula:

    Onde, a combinao de n, x a x, decorre da anlise combinatria, com a seguintefrmula:

    p = probabilidade de sucesso no evento

    q = probabilidade de insucesso no evento (1-p)

    n = nmero de vezes em que o evento observado

    x = valor que se deseja que a varivel assuma

    8.2 - MDIA E VARINCIA DE DISTRIBUIO BINOMIAL

    A mdia (mi) de uma distribuio binomial dada pela frmula:

    = n.p

    e a varincia 2 (sigma ao quadrado) dada pela frmula:

    2 = n.p.q

    Exemplo: Para calcular a mdia e varincia de ocorrncia de cara em 100 lanamentosde uma moeda,

    = n.p 100 . = 50 caras

    2 = n.p.q 100 . . = 25

    !

  • 8/9/2019 Apostila Estatistica3

    34/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 34

    9 - DISTRIBUIO NORMAL

    As distribuies de grandes amostras de variveis aleatrias permitem construirgrficos com aparncia tpica - Curva de Gauss - chamada distribuio normal.

    A distribuio normal possui as seguintes caractersticas:

    a varivel pode assumir qualquer valor real;

    o grfico ser uma curva em forma de sino, simtrica em torno da mdia ;

    a rea total sob a curva vale 1;

    os valores maiores e menores que a mdia ocorrem com igual probabilidade;

    a configurao da curva dada pelos parmetros mdia e varincia 2. Mudando amdia, muda a posio da distribuio; mudando a varincia, muda a disperso da

    distribuio.

    9.1 - DISTRIBUIO NORMAL REDUZIDA

    As propriedades da curva normal so conhecidas, e possvel descobrir determinadarea sob a curva a partir dos seus valores de mdia e desvio padro. A probabilidadeassociada ocorrncia de um evento de distribuio normal corresponde rea sob o grfico

    da distribuio.Para facilitar os clculos de parte da rea sob a curva de uma dada distribuio usa-se

    a distribuio normal reduzida, que a distribuio normal de mdia zero e varincia 1. Asprobabilidades associadas a essa distribuio so obtidas em tabelas padronizadas. Aprobabilidade de ocorrer valor menor que zero 0,5 ou 50%, e de ocorrer valor maior que zerotambm 0,5 ou 50%.

    Quando o interesse pela probabilidade de ocorrer valor entre zero e outro valorqualquer, vou aplicar a tabela de valores padronizados da curva z. Exemplo:

    A probabilidade de ocorrer valor entre zero e z=1,45 ser a interseco do valor 1,4 naprimeira coluna, com 5 da primeira linha da tabela normal reduzida, ou seja, 42,65%. Observaresse cruzamento na tabela de valores sob a curva normal reduzida.

  • 8/9/2019 Apostila Estatistica3

    35/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 35

    VALORES SOB A CURVA NORMA REDUZIDA CURVA Z

    z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

    0,0 0,00 0,40 0,80 1,20 1,59 1,99 2,39 2,79 3,19 3,590,1 3,98 4,38 4,78 5,17 5,57 5,96 6,36 8,75 7,14 7,53

    0,2 7,93 8,32 8,71 9,10 9,48 9,87 10,28 10,64 11,03 11,41

    0,3 11,79 12,17 12,55 12,93 13,31 13,68 14,06 14,43 14,80 15,17

    0,4 15,54 15,91 16,28 16,64 17,00 17,36 17,72 18,08 18,44 18,78

    0,5 19,15 19,50 19,85 20,19 20,54 20,88 21,23 21,57 21,90 22,24

    0,6 22,57 22,91 23,24 23,57 23,89 24,22 23,54 24,86 25,18 25,49

    0,7 25,80 26,12 26,42 26,73 27,04 27,34 27,64 27,94 28,23 28,52

    0,8 28,81 29,10 29,39 29,67 29,95 30,23 30,51 30,78 31,06 31,33

    0,9 31,59 31,86 32,12 32,38 32,64 32,89 33,15 33,40 33,65 33,801,0 34,13 34,38 34,61 34,85 35,08 35,31 35,54 35,77 35,99 36,21

    1,1 36,43 36,65 36,86 37,08 37,29 37,49 37,70 37,90 38,10 38,30

    1,2 38,49 38,69 38,88 39,07 39,25 39,44 39,62 39,80 39,97 40,15

    1,3 40,32 40,49 40,66 40,83 40,99 41,15 41,31 41,47 41,62 41,77

    1,4 41,92 42,07 42,22 42,36 42,51 42,65 42,70 42,92 43,06 43,19

    1,5 43,32 43,45 43,57 43,70 43,82 43,94 44,00 44,10 44,30 44,41

    1,6 44,52 44,63 44,74 44,84 44,95 45,05 45,15 45,25 45,35 45,45

    1,7 45,54 45,64 45,73 45,82 45,91 45,99 46,08 46,16 46,25 46,33

    1,8 46,41 46,49 46,58 46,64 46,71 46,78 46,86 46,93 46,99 47,061,9 47,13 47,19 47,26 47,32 47,38 47,44 47,50 47,56 47,61 47,67

    2,0 47,73 47,78 47,83 47,88 47,93 47,98 48,03 48,08 48,12 48,17

    2,1 48,21 48,26 48,30 48,34 48,38 48,42 48,46 48,50 48,54 48,57

    2,2 48,61 48,65 48,68 48,71 48,75 48,78 48,81 48,84 48,87 48,90

    2,3 48,93 48,96 48,98 49,01 49,04 49,06 49,09 49,11 49,13 49,16

    2,4 49,18 49,20 49,22 49,25 49,27 49,29 49,31 49,32 49,34 49,36

    2,5 49,38 49,40 49,41 49,43 49,45 49,46 49,48 49,49 49,51 49,52

    2,6 49,53 49,55 49,56 49,57 49,59 49,60 49,61 49,62 49,63 49,64

    2,7 49,65 49,66 49,67 49,68 49,69 49,70 49,71 49,72 49,73 49,742,8 49,74 49,75 49,76 49,77 49,77 49,78 49,79 49,79 49,80 49,81

    2,9 49,81 49,82 49,83 49,84 49,84 49,84 49,85 49,85 49,86 49,86

    3,0 49,86 49,87 49,87 49,88 49,88 49,88 49,89 49,89 49,89 49,90

    3,1 49,90 49,91 49,91 49,91 49,92 49,92 49,92 49,92 49,93 49,93

    Se o interesse fosse conhecer a probabilidade de ocorrer valor maior que z=1,45,teramos que subtrair da probabilidade total de valores maiores que zero (50%) a probabilidadedos valores at z=1,45 (42,65%). Ento:

    50- 42,65 = 7,35 7,35%

  • 8/9/2019 Apostila Estatistica3

    36/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 36

    Se o interesse fosse conhecer a probabilidade de ocorrer valor menor que z=1,45,teramos que adicionar a probabilidade total de valores menores que zero (0,5) probabilidadedos valores at z=1,45 (0,4265). Ento:

    50 + 42,65 = 92,65 92,65%

    Se os valores desejados forem negativos, as mesmas propores podem ser utilizadas.Para calcular probabilidades associadas distribuio normal e aplicando as

    propriedades da normal reduzida, utiliza-se um artifcio. Uma varivel de distribuio normal,mdia , e desvio padro , ter a probabilidade associada a Z de apresentar valor X dadapela frmula:

    Exemplo: A mdia de colesterol em 100 ml de plasma sanguneo de 200 mg, comdesvio padro de 20 mg. A probabilidade de uma pessoa apresentar mais que 225 mg decolesterol em 100 ml de plasma ser:

    z =(225 200)/20 = 1,25

    Esse valor de z corresponde a 39,44 na tabela de valores sob a curva normal reduzida.

    Essa facilidade de clculo para variveis de distribuio normal pode ser utilizada nasdistribuies binomiais. Quando fao um grfico com as probabilidades de eventos emvariveis binomiais, este ter aparncia semelhante ao grfico de uma distribuio normal.

    Para o clculo das probabilidades de variveis binomiais tambm existe uma tabelacom vrias situaes e combinaes possveis, mas esta tabela exige certo trabalho de somade probabilidades.

    A utilizao da curva normal reduzida para clculo de probabilidades em variveisbinomiais possvel sempre que np> 5 e nq> 5. Primeiro deve-se calcular a mdia e desvio

    padro da distribuio:

    Com os valores da mdia e desvio padro, aplico a mesma frmula que paradistribuio normal:

    O valor de z ser levado a tabela da normal reduzida para o clculo da probabilidade.

    As propriedades da curva normal reduzida podem ser aplicadas para clculo deprobabilidades associadas aos eventos sempre que o nmero de elementos observados formaior que 30. Para nmero inferior de observaes so utilizadas as propriedades da curva t.

    O clculo do valor de t o mesmo que para o valor de z, mas a tabela utilizada paraverificar a probabilidade associada outra. Veja a tabela com valores de t em anexos.

    x

    z

    =

    npq =np =

    x

    z

    =

  • 8/9/2019 Apostila Estatistica3

    37/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 37

    10 ESTIMATIVA POPULACIONAL3

    10.1 - PARMETROS E ESTIMATIVAS

    Quando utilizamos os dados de todos os elementos de uma populao, aodeterminarmos a mdia aritmtica e o desvio padro, estes so considerados parmetros dapopulao. Em se tratando de amostras, as mesmas medidas obtidas so consideradasestimativas dos parmetros.

    10.2 - DETERMINAO DO TAMANHO DA AMOSTRA

    muito comum ao pesquisador indagar sobre o nmero de elementos para umaamostra, quando pretende realizar uma pesquisa de campo, laboratrio ou uma simplesinvestigao.

    A determinao do tamanho da amostra depende de 3 fatores:

    a) Nvel de confiana - comumente so adotados 2 nveis: o de 95% de probabilidadeque emprega uma constante Z = 1,96, ou o de 99% de probabilidade, cuja constante Z =2,58. o nvel de confiana que se deposita da amostra. O pesquisador poder usar aconfiana que deseja.

    b) Preciso - em toda experimentao ou pesquisa, a utilizao de amostragem estcondicionada a um erro amostral, que nada mais do que a diferena entre as estimativasamostrais e os parmetros populacionais (mdia ou percentagem). A maior preciso que

    desejamos alcanar em nosso trabalho implicar no aumento da amostra selecionada.c) Varincia ou percentagem - em alguns estudos so empregadas caractersticas que

    apresentam determinada variabilidade. Em outros casos, observamos a percentagem de certascaractersticas em um conjunto. Dependendo do tipo de investigao, ora usamos a varincia,ora usamos a percentagem.

    10.2.1 - Determinao da amostra de dados discretos

    Quando dispomos de variveis quantitativas discretas utilizamos as seguintes frmulas:

    onde:

    no - nmero inicial

    Z - nvel de confiana

    p - valor obtido de trabalho anteriormente realizado por outro autor

    N -tamanho da populao

    3 O texto deste captulo foi extrado de RODRIGUES/93

    Nn

    n

    n 00

    1+=22

    0

    ).(e

    qzn =

    Frmula 1 Frmula 2

  • 8/9/2019 Apostila Estatistica3

    38/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 38

    Quando no se dispe de nenhum valor de referncia, usamos p = 50%.

    q = 100% - p

    e = preciso arbitrada pelo pesquisador

    Em populaes finitas, so utilizadas as frmulas 1 e 2. Para populaes infinitas epara as que N apresenta valor elevado, apenas a frmula 1 deve ser utilizada.

    Exemplo: com o objetivo de verificar a incidncia de uma virose em uma populao decerta regio, desejamos determinar o tamanho da amostra, sendo N = 40.000.

    Para isto, necessitamos utilizar uma frmula apropriada, qual seja:

    2

    2

    0).(

    eqpzn =

    Z corresponder ao valor de 1,96 ou 2,581 em funo do critrio que o experimentadorescolher; p ser a percentagem de indivduos com virose de acordo com a ltima informao.

    (normalmente usamos os dados existentes em literatura recente).q = igual a 100% - p

    e = preciso que se deseja alcanar, ou seja, diferena entre o percentual que iremosencontrar e o verdadeiro percentual da populao.

    Considerando uma prevalncia de anos anteriores igual a 20% com valor de Z = 1,96 esendo necessria uma preciso de 4%, qual seria o nmero de elementos que a amostradeveria conter?

    Z = 1,96

    p = 20%

    q = 80%

    e = 4%

    0 nmero de indivduos que deveramos examinar para a determinao da prevalnciada virose de 384.

    10.3.2 - Determinao da amostra de dados contnuos

    Para variveis quantitativas contnuas, dispomos das seguintes frmulas:

    onde:

    no - nmero inicial

    Z - nvel de confiana

    s - desvio padro obtido de trabalho anterior realizado por outro autor. No sendoencontrado, procede-se a uma pr-amostragem, retirando-se 30 observaes dapopulao e calculando-se o desvio padro da caracterstica a estudar.

    N - tamanho da populao

    e = preciso arbitrada pelo pesquisador

    384

    16

    160084,3

    4

    802096,12

    2

    0 ===xxx

    n

    Nn

    nn

    0

    0

    1+=

    20

    2.

    2eszn =

    Frmula 1 Frmula 2

  • 8/9/2019 Apostila Estatistica3

    39/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 39

    A utilizao das frmulas 1 e 2 tem procedimento semelhante ao mostrado paravariveis discretas.

    Exemplo: numa pesquisa para determinar a taxa mdia do teor de hemoglobina de umatribo de ndios navajo, deparamo-nos com o problema de definir o tamanho da amostra.Sabemos que a populao desta tribo de aproximadamente 18.000 indivduos, o que tornaimpraticvel utilizar todos os elementos. Ento, resolvemos determinar o nmero de elementospara compor a amostra. Selecionamos ao acaso 30 elementos, determinamos o valor do teorde hemoglobina de cada um e calculamos a varincia (medida de disperso), cujo valor foiigual a 9 mg2.

    Para tal estudo, a frmula a empregar para a determinao do tamanho da amostra igual a:

    20

    2.2eszn =

    em que Z pode ter valor 1,96 ou 2,58, de acordo com o critrio do investigador;

    s2 corresponde varincia da amostra piloto;

    (e) equivale diferena entre a mdia da populao e a mdia que ser obtida naamostra. Corresponde preciso que se deseja alcanar.

    Prosseguindo, faamos, para o problema que temos, Z = 1,96 e consideremos umapreciso de 0,5 mg.

    Substituindo os valores na frmula:

    n = 140

    Para o presente estudo este ser o nmero ideal de elementos da amostra, dados oscritrios estabelecidos.

    10.4 - ERRO AMOSTRAL

    Para diferenciar as caractersticas das amostras das populaes, chamaremos de x es a mdia e desvio padro da amostra; e e a mdia e desvio padro da populao.

    Mesmo nas amostras casuais podemos esperar diferenas entre os valores obtidos naamostra (estimativas) e os valores reais da populao (parmetros), que ocorremindependentemente da boa elaborao do plano amostral. A diferena observada denominada erro amostral.

    Com essa evidncia, como generalizar uma informao amostral para a totalidade dapopulao? Para essa resposta so necessrias algumas consideraes:

    Dada uma caracterstica de distribuio normal na populao, se tomarmos infinitasamostras desta populao e calcularmos as mdias destas amostras, essas mdiastero uma distribuio aproximada da curva normal;

    A mdia das mdias amostrais ser igual mdia populacional;

    O desvio padro da distribuio das mdias amostrais menor que o desvio padro dapopulao.

    Esses aspectos constituem parte da teoria de limite central, que permite utilizar ascaractersticas da curva normal para calcular o grupo de valores que se supe conter o

    parmetro de interesse, com certo grau de confiana.

    2,13825,0

    9.84,3

    5,0

    9.96,12

    2

    0 ===n

  • 8/9/2019 Apostila Estatistica3

    40/55

  • 8/9/2019 Apostila Estatistica3

    41/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 41

    11 - CORRELAO:5

    11-1 - RELAES ENTRE VARIVEIS:

    Em diversas investigaes deseja-se avaliar a relao entre duas medidas quantitativas.Por exemplo, esto as alturas de filhos relacionadas com as alturas dos seus pais? Nveisde colesterol no sangue esto relacionados aos nveis de antioxidantes circulantes? Pesoe altura esto relacionados em crianas de 7 a 9 anos de idade?

    IDPESO

    (kg)

    ALTURA

    (cm)

    1 72 157

    2 65 160

    3 65 150

    4 62 160

    5 61 147

    6 59 150

    7 59 140

    8 59 141

    9 59 153

    10 57 150

    11 56 145

    12 55 144

    13 55 148

    14 55 139

    15 55 133

    16 54 151

    17 54 140

    18 54 147

    19 54 153

    20 53 160

    Trs propsitos principais de tais investigaes podem ser:

    Para verificar se os valores esto associados. (Os valores de uma medida tendem acrescer (ou decrescer) medida que a outra cresce?).

    Para predizer o valor de uma varivel a partir de um valor conhecido da outra.

    5

    ADAPTAO DE TEXTO TRADUZIDO, PRODUZIDO POR Silvia EmikoShimakura & Paulo Justiniano Ribeiro Junior, Departamento de Estatstica-UFPR

  • 8/9/2019 Apostila Estatistica3

    42/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 42

    Para descrever a relao entre variveis. (Dado um aumento especfico numa varivel,qual o crescimento mdio esperado para a segunda varivel?).

    A associao linear entre duas variveis avaliada usando correlao. Para predizer ovalor de uma varivel contnua a partir de uma outra varivel e para descrever a relaoentre duas variveis utiliza-se regresso (veja o prximo captulo).

    O primeiro estgio em qualquer um dos casos produzir um grfico de pontos dosdados para obter alguma idia da forma e grau de associao entre duas variveis.

    130

    135

    140

    145

    150

    155

    160

    165

    50 55 60 65 70 75

    peso (kg)

    altura(cm)

    Mesmo tendo somente 20 observaes, podemos ver que parece existir algumaassociao entre peso e altura das crianas de 7 a 9 anos de idade.

    11-2 - DEFINIES:

    Seja nxxx ,....., 21 o conjunto das medidas de uma das variveis (peso), e seja nyyy ,...., 21

    as medidas da outra varivel (altura). Seja yx ssyx ,,, as mdias e desvios padroamostrais dos dois conjuntos de dados.

    Para obter uma medida do grau de associao da relao linear entre duas variveis,usamos o coeficiente de correlao, definido como:

    Onde

  • 8/9/2019 Apostila Estatistica3

    43/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 43

    Para os dados do exemplo acima, temos n = 20, 2,58=x , 4,148=y , 88,4=xs ,58,7=ys , = 8,291iiyx , a partir dos quais podemos calcular:

    36,1519

    8,291==xys e 42,058,788,4

    36,15=

    =r

    Assim como para mdias e desvios padro, existe uma letra Grega especial queutilizados para o coeficiente de correlao populacional: . Podemos considerar

    rcomo sendo uma estimativa de , exatamente como x uma estimativa da mdia populacional .

    11-3 - INTERPRETAO DO COEFICIENTE DE CORRELAO

    O valor de r est sempre entre -1 e +1, com r=0 correspondendo no associao.

    Usamos o termo correlao positiva quando r>0, e nesse caso medida que xcresce tambm cresce y, e correlao negativa quando r

  • 8/9/2019 Apostila Estatistica3

    44/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 44

    Note que correlaes no dependem da escala de valores de x ou y. (Por exemplo,obteramos o mesmo valor se medssemos altura e peso em metros e quilogramas ou em

    ps e libras.).

    11-4 - LINEARIDADE E NORMALIDADE:

    Somente relaes lineares so detectadas pelo coeficiente de correlao que acabamosde descrever (tambm chamado coeficiente de correlao de Pearson). Nos dadosabaixo, mesmo existindo uma clara relao (no-linear) entre x e y, o coeficiente decorrelao zero. Sempre faa o grfico dos dados de modo que voc possa visualizartais relaes.

    Em alguns casos pode ser apropriado transformar x e/ou y.

  • 8/9/2019 Apostila Estatistica3

    45/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 45

    11-5 - COEFICIENTE DE DETERMINAO, R2

    O quadrado do coeficiente de correlao de Pearson chamado de coeficiente dedeterminao ou simplesmente R2. uma medida da proporo da variabilidade em

    uma varivel que explicada pela variabilidade da outra. pouco comum que tenhamosuma correlao perfeita (R2=1) na prtica, porque existem muitos fatores quedeterminam as relaes entre variveis na vida real. No nosso exemplo, tivemos r=0,42,de modo que R2=0,1764 ou 17,6 %. Ento cerca de 82% da variabilidade da altura no

    podem ser descritos (ou explicados) pela variabilidade no peso e vice-versa. Fica,portanto claro que existem outros fatores que poderiam ser importantes, como porexemplo, atividade fsica, tipo de alimentao, hereditariedade, etc.

    11-6 - ASSOCIAO NO CAUSALIDADE

    Suponha que encontremos uma associao ou correlao entre duas variveis A e B.Podem existir diversas explicaes do porque elas variam conjuntamente, incluindo:

    Mudanas em A causam mudanas em B.

    Mudanas em B causam mudanas em A.

    Mudanas em outras variveis causam mudanas tanto em A quanto em B.

    A relao observada somente uma coincidncia.

    A terceira explicao freqentemente a mais apropriada. Isto indica que existe algum

    processo de conexo atuando. Por exemplo, o nmero de pessoas usando culos-de-sol e aquantidade de sorvete consumido num particular dia so altamente correlacionados. Isto nosignifica que usar culos-de-sol causa a compra de sorvetes ou vice-versa!

    extremamente difcil estabelecer relaes causais a partir de dados observacionais.Precisamos realizar experimentos para obter mais evidncias de uma relao causal.

  • 8/9/2019 Apostila Estatistica3

    46/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 46

    12. REGRESSO

    12-1 - IDIA BSICA

    Em certas situaes podemos estar interessados em descrever a relao entre duasvariveis, e tambm predizer o valor de uma a partir de outra. Por exemplo, se sabemosa altura de um certo estudante, mas no o seu peso, qual seria um bom chute para o pesodeste estudante? O coeficiente de correlao apenas indica a grau de associao comoum nico nmero.

    Observe os dados de altura e peso na figura abaixo. As alturas so definidas por

    nxxx ,....., 21 e os pesos definidos por nyyy ,...., 21 . (Por enquanto vamos ignorar se elesso do sexo masculino ou feminino). Se estamos interessados em predizer peso a partirde altura ento no temos uma relao simtrica entre as duas variveis. Chamamos

    peso a varivel resposta ou dependente, e altura a varivel explanatria, preditora ouindependente. A varivel resposta sempre disposta no eixo vertical y, e a varivelexplanatria sempre disposta no eixo x.

    Se a relao entre as duas variveis aproximadamente linear, ento os dados podemser resumidos atravs do ajuste de uma reta passando pelos dados. A equao dessa reta dada por:

    y = a + bx

  • 8/9/2019 Apostila Estatistica3

    47/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 47

    onde a conhecida como o intercepto e b a inclinao. Intuitivamente, queremosuma reta que fornea pequenas diferenas entre os verdadeiros pesos e aqueles dados pelareta para as alturas correspondentes.

    O mtodo padro para obter a melhor reta ajustada chamado mnimos quadrados o

    qual literalmente minimiza a soma dos quadrados das distncias de yi reta ajustada.Em princpio isto requer traar retas possveis, calculando a soma dos quadrados dasdistncias:

    e encontrar os valores de a e b (equivalentemente a reta) que fornecem o menor valorde S. possvel mostrar que a melhor reta aquela tal que:

    E

    Nesse exemplo, a = -51,17 kg e b = 0,68 kg/cm; ento a reta de regresso

    Nossa reta ajustada uma estimativa da reta de regresso populacional,xy += . Nossos a e b so estimativas de e . ( comum, denotar-se estas estimativas

    por e e ao invs de a e b)

    O prximo passo construir intervalos de confiana etc para e e (intercepto einclinao populacional), mas para fazer isto precisamos pensar mais cuidadosamentesobre nossas suposies acerca da populao.

    12-2 MODELO DE REGRESSO LINEAR SIMPLES

    Este o modelo mais simples para descrever a relao entre uma varivel explanatria

    x e uma varivel resposta y. O modelo faz a seguintes suposies, em ordemdecrescente de importncia:

    1. o valor mdio da varivel resposta uma funo linear de x,

    2. a varincia da varivel resposta constante (ou seja, a mesma para todos os valoresde x),

    3. a variao aleatria da varivel resposta para qualquer valor fixo de x segue umadistribuio Normal, e estes termos de erro so independentes.

    Em termos algbricos, seja (xi,yi) para i = 1,.........,n os valores observados da varivelexplanatria x e da varivel resposta y para os n sujeitos.

  • 8/9/2019 Apostila Estatistica3

    48/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 48

    O modelo de regresso linear

    onde i representa desvios independentes aleatrios da relao linear entre y e x e,para satisfazer nossas trs suposies acima,

    Note que e so parmetros da populao, e eles so freqentemente conhecidoscomo coeficientes. Em particular, denominado coeficiente, ou efeito, de x.

    Os dados abaixo parecem satisfazer todas as trs suposies:

    Um exemplo construdo de dados que no satisfazem nenhuma das suposies mostrado abaixo:

  • 8/9/2019 Apostila Estatistica3

    49/55

  • 8/9/2019 Apostila Estatistica3

    50/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 50

    reta ajustada quando estes pontos so removidos. Contudo, por enquantoprosseguiremos assumindo que est tudo ok!

    Para sermos capazes de calcular erros padro e intervalos de confiana, importante

    manter tantas casa decimais quanto possvel: 6846253,0 = . As outras quantidadesso:

    77102,88,70791,11,38700,11,37 ==== xyyx sssn

    Podemos agora obter 2 :

    Ento uma estimativa do desvio padro dos desvios aleatrios,i

    ,em torno da reta

    12-5 - TRANSFORMAES DE DADOS

    Uma forma de estender a aplicabilidade do modelo de regresso linear aplicar umatransformao em x ou y, ou ambos, antes de ajustar o modelo. Ou seja, se a relaoentre duas variveis no-linear(uma curva pareceria ajusta melhor do que uma reta),ento freqentemente a relao pode serfeita linear transformando uma ou ambas as

    variveis.

    Transformaes podem ser muito teis em algumas circunstncias, mas deveria somenteser considerada como um ltimo recurso uma vez que quando uma ou ambas asvariveis so transformadas, os coeficientes deixam de ter interpretaes diretas.

    A idia escolher uma transformao que faa a relao aproximadamente linearenquanto ainda permanecendo interpretveis. Freqentemente, relaes biolgicas somultiplicativas e no aditivas e transformaes logartmicas so particularmente teisnestes casos.

    12-6 - RESUMO

    Regresso permite-nos:

    Descreversucintamente o nvel geral de uma varivel que est associada com cadanvel de outra.

    Predizeruma varivel de uma outra varivel. importante aqui distinguir entreinterpolao (predio dentro da amplitude dos dados amostrados; no exemplo,predio do peso de uma pessoa de altura 170 cm) e extrapolao (predio fora daamplitude dos dados; no exemplo, predio do peso de algum com altura 70cm como

    sendo aproximadamente -3 kg!).

  • 8/9/2019 Apostila Estatistica3

    51/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 51

    SUGESTO DE BIBLIOGRAFIA DE APOIO

    BIOESTATSTICA ELZA BERQU EPU SO PAULO INTRODUO BIOESTATSTICA SONIA VIEIRA EDITORA CAMPUS

    ESTATSTICA INDUTIVA MAURI JOS GUERRA LIVRARIA CINCIA ETECNOLOGIA EDITORA

    BIOESTATSTICA PEDRO CARVALHO RODRIGUES EDUFF

    ESTATSTICA APLICADA S CINCIAS HUMANAS JACK LEVIN

    ESTATSTICA BSICA WILTON BUSSAB

  • 8/9/2019 Apostila Estatistica3

    52/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 52

    ANEXOS:

    TABELA DAS REAS SOB A CURVA NORMAL (z)

    Z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09

    0,0 0000 0040 0080 0120 0159 0199 0239 0279 0319 0359

    0,1 0398 0438 0478 0517 0557 0596 0636 0875 0714 0753

    0,2 0793 0832 0871 0910 0948 0987 1028 1064 1103 1141

    0,3 1179 1217 1255 1293 1331 1368 1406 1443 1480 1517

    0,4 1554 1591 1628 1664 1700 1736 1772 1808 1844 1878

    0,5 1915 1950 1985 2019 2054 2088 2123 2157 2190 2224

    0,6 2257 2291 2324 2357 2389 2422 2354 2486 2518 2549

    0,7 2580 2612 2642 2673 2704 2734 2764 2794 2823 2852

    0,8 2881 2910 2939 2967 2995 3023 3051 3078 3106 3133

    0,9 3159 3186 3212 3238 3264 3289 3315 3340 3365 3380

    1,0 3413 3438 3461 3485 3508 3531 3554 3577 3599 3621

    1,1 3643 3665 3686 3708 3729 3749 3770 3790 3810 3830

    1,2 3849 3869 3888 3907 3925 3944 3962 3980 3997 4015

    1,3 4032 4049 4066 4083 4099 4115 4131 4147 4162 4177

    1,4 4192 4207 4222 4236 4251 4265 4270 4292 4306 4319

    1,5 4332 4345 4357 4370 4382 4394 4400 4410 4430 4441

    1,6 4452 4463 4474 4484 4495 4505 4515 4525 4535 4545

    1,7 4554 4564 4573 4582 4591 4599 4608 4616 4625 4633

    1,8 4641 4649 4658 4664 4671 4678 4686 4693 4699 4706

    1,9 4713 4719 4726 4732 4738 4744 4750 4756 4761 4767

    2,0 4773 4778 4783 4788 4793 4798 4803 4808 4812 4817

    2,1 4821 4826 4830 4834 4838 4842 4846 4850 4854 4857

    2,2 4861 4865 4868 4871 4875 4878 4881 4884 4887 4890

    2,3 4893 4896 4898 4901 4904 4906 4909 4911 4913 49162,4 4918 4920 4922 4925 4927 4929 4931 4932 4934 4936

    2,5 4938 4940 4941 4943 4945 4946 4948 4949 4951 4952

    2,6 4953 4955 4956 4957 4959 4960 4961 4962 4963 4964

    2,7 4965 4966 4967 4968 4969 4970 4971 4972 4973 4974

    2,8 4974 4975 4976 4977 4977 4978 4979 4979 4980 4981

    2,9 4981 4982 4983 4984 4984 4984 4985 4985 4986 4986

    3,0 4986 4987 4987 4988 4988 4988 4989 4989 4989 4990

    3,1 4990 4991 4991 4991 4992 4992 4992 4992 4993 4993

  • 8/9/2019 Apostila Estatistica3

    53/55

    ESTATSTICA DESCRITIVA Maria Cristina Marino Calvo 53

    VALORES DE t, SEGUNDO OS GRAUS DE LIBERDADE E O VALOR DE

    ( NVEL DE SIGNIFICNCIA)graus de liberdade

    10% 5% 1%1 6,31 12,71 63,66

    2 2,92 4,30 9,92

    3 2,35 3,18 5,84

    4 2,13 2,78 4,60

    5 2,02 2,57 4,03

    6 1,94 2,45 3