Notas de Aula de Estatistica-neder

226
 CURSO DE ESTATÍSTICA  APLICADA Prof. Henrique Dantas Neder Instituto de Economia – Universidade Federal de Uberlândia.

description

Notas de aula do Prof. Neder

Transcript of Notas de Aula de Estatistica-neder

  • CURSO DE ESTATSTICA APLICADA

    Prof. Henrique Dantas Neder Instituto de Economia Universidade Federal de Uberlndia.

  • 2

    SUMRIO 1. Introduo .................................................................................................... 4 2. Estatstica Descritiva ......................................................................................... 8 2.1 Tipos de Variveis ........................................................................................... 8 2.2 Tabelas e Distribuies de Freqncia ............................................................. 10 2.3 Histogramas .................................................................................................. 12 2.4 Tabulao de Freqncia e Histograma para Variveis Contnuas ....................... 13 2.5 Medidas de Posio e de Disperso ................................................................. 16 2.5.1 Uma Nota sobre Notao Estatstica .......................................................... 17 2.5.2 A Mdia Aritmtica No Ponderada ........................................................... 18 2.5.3 A Mdia Aritmtica Ponderada ................................................................. 19 2.5.4 Propores como Mdias .......................................................................... 20 2.5.5 A Mdia Geomtrica ................................................................................ 21 2.5.6 A Mdia Harmnica ................................................................................. 25 2.5.7 A Mediana .............................................................................................. 25 2.5.8 A Mdia para Dados Agrupados ................................................................ 27 2.5.9 A Mediana para dados Agrupados ............................................................. 28 2.5.10 A Moda para dados Agrupados ................................................................ 30 2.5.11 O Intervalo (ou amplitude) ...................................................................... 37 2.5.13 Varincia e Desvio Padro ...................................................................... 39 2.5.14 Varincia e Desvio Padro para Dados Agrupados ..................................... 42 2.5.15 Interpretando e Aplicando o Desvio Padro .............................................. 43 2.5.16 Coeficiente de Variao .......................................................................... 45

    2.6 Medidas de Assimetria ................................................................................... 46 2.7 Curtose: uma medida de achatamento .............................................................. 48

    3. Probabilidade .................................................................................................. 50 3.1 Definio Clssica de Probabilidade ............................................................... 51 3.2 Conceito da Freqncia Relativa ..................................................................... 52 3.3 Probabilidade Subjetiva ................................................................................. 53 3.4 Algumas Regras Bsicas de Probabilidade ....................................................... 53 3.5 A Regra do Complemento .............................................................................. 55 3.6 A Regra Geral da Adio ................................................................................ 56 3.7 Regras de Multiplicao ................................................................................ 58 3.8 Probabilidade Condicional .............................................................................. 60 3.9 Diagramas em rvore .................................................................................... 62 3.10 Teorema de Bayes ........................................................................................ 64 Anexo 1 Recordando Definies e Conceitos ...................................................... 65 Anexo 2 - Independncia e Modelos de rvore para Calcular Probabilidades ............ 68 Anexo 3 - Probabilidade Condicional .................................................................... 74 Anexo 4 Revisando os conceitos ........................................................................ 77 Resumo do Clculo de Probabilidades ................................................................... 96 Exerccios de Probabilidade ................................................................................. 97

    4. Variveis Aleatrias Discretas ....................................................................... 114

  • 3

    4.1 O Valor Esperado (mdia) de uma Distribuio de Probabilidade Discreta ....... 118 4.2 A Varincia e o Desvio Padro de uma Distribuio de Probabilidade Discreta .. 119 4.3 A Distribuio de Probabilidade Binomial ..................................................... 121 4.4 A Mdia e Varincia De Uma Distribuio Binomial ...................................... 125 Apndice 1 (Recordao) ................................................................................... 126 Apendice 2 (Recordao) ................................................................................... 127 Apndice 3 (Recordao) ................................................................................... 128 Apndice 4 (Recordao) Valor Esperado e Varincia de uma Varivel Aleatria .... 132 Variveis Aleatrias Independentes..................................................................... 140 Apndice 4 (recordao) .................................................................................... 141

    5. Variveis Aleatrias Contnuas e Distribuio Normal ......................................... 144 5.1 Variveis Aleatrias Contnuas ..................................................................... 144 5.2 Mdia e Varincia de uma Varivel Aleatria Contnua ................................... 146 5.3 Varivel Aleatria Normal ............................................................................ 165 5.4 Distribuio Normal Padro.......................................................................... 167 5.5 reas Abaixo da Curva Normal .................................................................... 168

    6. Mtodos de Amostragem e Distribuies Amostrais ............................................ 175 6.1 Amostragem Probabilstica ........................................................................... 180 6.2 Teorema do Limite Central ........................................................................... 184 6.3 Estimativa de Ponto ..................................................................................... 186 6.4 Estimativa de Intervalo................................................................................. 186 6.5 Intervalo de Confiana para Uma Proporo Populacional ............................... 188 6.6 Fator de Correo de Populao Finita ........................................................... 189 6.7 Selecionando uma Amostra .......................................................................... 190 6.8 Tamanho Amostral para Estimativa de Propores .......................................... 191

    7. Teste de Hipteses Amostras Grandes ..................................................... 192 7.1 Testes de Significncia Unicaudais ................................................................ 194 7.2 Testes de Significncia Bicaudais .................................................................. 194 7.3 P-value de um Teste de Hiptese ................................................................... 196 7.4 Clculo do p-value ....................................................................................... 196 7.5 Teste de Hipteses: Duas Mdias Populacionais ............................................. 198 7.6 Testes Referentes Proporo....................................................................... 201 EXERCCIOS : ................................................................................................ 204

  • 4

    1. Introduo

    A Significncia e a Abrangncia da Estatstica Porque a estatstica importante? Os mtodos estatsticos so usados hoje em quase todos os campos de investigao

    cientfica, j que eles capacitam-nos a responder a um vasto nmero de questes, tais

    como as listadas abaixo:

    1) Como os cientistas avaliam a validade de novas teorias?

    2) Como os pesquisadores mdicos testam a eficincia de novas drogas ?

    3) Como os demgrafos prevem o tamanho da populao do mundo em qualquer tempo

    futuro?

    4) Como pode um economista verificar se a mudana atual no ndice de Preos ao

    Consumidor a continuao de uma tendncia secular, ou simplesmente um desvio

    aleatrio?

    5) Como possvel para algum predizer o resultado de uma eleio entrevistando apenas

    algumas centenas de eleitores ?

    Estes so poucos exemplos nos quais a aplicao da estatstica necessria. Podemos

    presumir que a matemtica uma das rainhas das cincias porque ela fornece a estrutura

    terica para quase todas as outras cincias. Se voc j fez um curso bsico de fsica, j

    est familiarizado com algumas das leis matemticas que governam temas to

    diversificados como gravidade, energia, luz, eletricidade, etc. Mas tambm devemos

    considerar o fato de que as teorias matemticas esto sendo desenvolvidas todos os dias

    em muitas reas por estatsticos tericos - pessoas treinadas em teoria estatstica e

    probabilidade. Para citar alguns poucos casos ilustrativos elas so desenvolvidas para

    teoria dos vos espaciais em fsica; para teorias do conhecimento do comportamento

    animal e humano em psicologia; para teorias da migrao e dos diferenciais de raa em

    sociologia; para teorias de epidemias em sade pblica;...

  • 5

    De fato, a estatstica tornou-se uma ferramenta cotidiana para todos os tipos de

    profissionais que entram em contato com dados quantitativos ou tiram concluses a partir

    destes.

    O que Estatstica? A noo de Estatstica foi originalmente derivada da mesma raiz da palavra Estado,

    j que foi a funo tradicional de governos centrais no sentido de armazenar registros da

    populao, nascimentos e mortes, produo das lavouras, taxas e muitas outras espcies

    de informao e atividades. A contagem e mensurao dessas quantidades gera todos os

    tipos de dados numricos que so teis para o desenvolvimento de muitos tipos de

    funes governamentais e formulao de polticas pblicas.

    Dados numricos so de fato uma parte da Estatstica, mas so apenas a matria-prima,

    que precisa ser transformada pelos mtodos estatsticos para posterior anlise. A

    Estatstica, como um mtodo cientfico, refere-se ao projeto de experimentos e a

    descrio e interpretao de observaes que so feitas. De um ponto de vista moderno, a

    Estatstica freqentemente definida como um mtodo de tomada de deciso em face da

    aleatoriedade dos fenmenos. Em uma mais vasta perspectiva, o escopo da estatstica

    pode ser pensado em termos de trs reas diferentes de estudos: (1) a Estatstica

    Descritiva (2) A Estatstica Indutiva e (3) A Teoria da Deciso Estatstica.

    Estatstica Descritiva

    A estatstica Descritiva refere-se ao corpo de mtodos desenvolvidos para coletar,

    organizar, apresentar e descrever dados numricos. Essa rea da Estatstica refere-se s

    seguintes tarefas:

    1) Encontrar um mtodo apropriado de coletar dados numricos eficientemente e

    acuradamente para um dado problema.

    2) Determinar um formato eficiente, tal como uma apresentao tabular, para a

    organizao dos dados de uma forma sistemtica e ordenada, de maneira que a

  • 6

    informao fornecida pelos dados possa ser observada com grande facilidade e

    preciso.

    3) Apresentar dados numricos, seja organizados ou no, de forma que as caractersticas e

    o comportamento dos dados so clara e facilmente revelados. Tais apresentaes So

    feitas por meio de mtodos grficos.

    4) Sumarizar ou descrever cada caracterstica ou propriedade dos dados por um simples

    nmero, tal como uma mdia, uma porcentagem ou alguma outra medida apropriada, a

    qual calculada a partir dos dados por meio de uma frmula derivada a partir de algum

    princpio vlido.

    Estatstica Indutiva

    A Estatstica Indutiva, que tambm freqentemente chamada de inferncia estatstica ou

    estatstica inferencial, em contraste com a estatstica descritiva, essencialmente analtica

    em sua natureza. Consiste de um conjunto de princpios ou teoremas que nos permitem

    generalizar acerca de alguma caracterstica de uma populao a partir das caractersticas

    observadas de uma amostra. Nessa definio, uma populao o conjunto de todos os

    itens, objetos, coisas ou pessoas a respeito das quais a informao desejada para a

    soluo de um problema. Uma amostra um grupo de itens selecionados por um mtodo

    cuidadosamente concebido e projetado a partir de uma populao. Existem diferentes

    tipos de amostras, dependendo dos diferentes mtodos de seleo disponveis. Uma

    amostra aleatria simples, falando em termos simplificados, aquela que selecionada de

    tal forma que cada e todos os itens na populao tm a mesma chance de serem includos

    na amostra.

    Se uma medida descritiva calculada a partir dos dados da populao ela chamada de

    parmetro populacional, ou simplesmente parmetro; se calculada a partir dos dados

    da amostra ela chamada de estatstica amostral, ou simplesmente estatstica.

    Considerando esses conceitos podemos definir estatstica indutiva como o processo de

    generalizar acerca de do valor de um parmetro a partir do valor de uma estatstica.

    Existem dois procedimentos de inferncia distintos mas relacionados: estimao e teste

    de hipteses. Estimao processo de usar o valor de uma estatstica amostral para

  • 7

    estimar o valor de um parmetro que desconhecido, mas uma constante. Como um

    exemplo, suponhamos que temos uma populao de 100.000 bolas de gude em um saco,

    todas as quais so idnticas exceto pela cor, e que no podemos v-las embora saibamos

    que uma parte delas so brancas e o restante so pretas. Suponha que desejamos ter uma

    idia da proporo de, digamos, bolas brancas nessa populao. Suponha que para

    conseguir isso selecionamos 1.000 bolas aleatoriamente do saco e verificamos que 350

    so brancas. Isso significa que nossa proporo amostral de bolas brancas 35 %. A partir

    disso conclumos que a proporo populacional de bolas brancas tambm 35 %.

    Fazendo isso ns realizamos o que chamado de estatstica pontual.

    Mas afirmar que a proporo de bolas brancas em toda a populao exatamente

    igual a proporo daquela amostra particular como dar um tiro no escuro: o valor da

    proporo amostral um resultado aleatrio e depende de cada amostra de 1.000 bolas

    escolhida da populao. Pode ser que por uma enorme casualidade o resultado daquela

    amostra que escolhemos coincida exatamente com o valor da proporo de bolas brancas

    em toda a populao. Mas as chances de que isso no ocorra so muito grandes. Uma

    forma de contornarmos esse problema afirmarmos que as chances so de 95 em 100 (ou

    de 95 %) de que o intervalo formado pela proporo amostral acrescida e diminuda de 3

    pontos percentuais contenha o verdadeiro valor da proporo populacional desconhecido.

    Ou seja, construmos um intervalo com limites 35 + 0,03 x 35 = 36,05 e 35 - 0,03 x 35 =

    33,95 e afirmamos (com base em algum princpio obtido a partir da teoria estatstica) que

    as chances so de 95 em 100 de que o verdadeiro valor da proporo populacional esteja

    localizado dentro desse intervalo. Quando uma afirmativa dessa natureza feita estamos

    realizando o que se chama de estimativa por intervalo.

    Quanto ao segundo procedimento da estatstica inferencial deixaremos para

    coment-lo quando for abordado em sua ntegra. E o terceiro campo de estudos da

    Estatstica, a Teoria da Deciso Estatstica no ser discutido nessa apresentao.

  • 8

    2. Estatstica Descritiva

    2.1 Tipos de Variveis

    Existem diversos tipos de variveis que sero utilizadas em um estudo estatstico.

    importante compreender o conceito matemtico de varivel. Varivel uma abstrao que

    se refere a um determinado aspecto do fenmeno que est sendo estudado. Podemos

    afirmar que a quantidade colhida da safra anual de soja uma varivel. Representemos

    essa varivel pela letra X. Essa varivel pode assumir diversos valores especficos,

    dependendo do anos de safra, por exemplo, X1986, X1990 e X1992. Esses valores que a

    varivel assume em determinados anos no so a prpria varivel , mas valores

    assumidos ela para determinados objetos ou pessoas da amostra ou da populao. Se uma

    amostra tiver 50 indivduos podemos referimo-nos a X como sendo a varivel nota de

    estatstica e a X30 como a nota de um indivduo particular, no caso o trigsimo.

    freqente tambm na literatura utilizar-se letras maisculas para a notao de variveis

    e as correspondentes letras minsculas para referncia aos valores particulares assumidos

    por essa varivel mas nesse resumo procuraremos evitar essa forma de notao.

    Variveis quantitativas - referem-se a quantidades e podem ser medidas em uma escala

    numrica. Exemplos: idade de pessoas, preo de produtos, peso de recm nascidos.

    As variveis quantitativas subdividem-se em dois grupos: variveis quantitativas discretas

    e variveis quantitativas contnuas. Variveis discretas so aquelas que assumem apenas

    determinados valores tais como 0,1,2,3,4,5,6 dando saltos de descontinuidade entre seus

    valores. Normalmente referem-se a contagens. Por exemplo: nmero de vendas dirias

    em uma empresa, nmero de pessoas por famlia, quantidade de doentes por hospital.1 As

    1 Uma varivel quantitativa discreta no precisa assumir necessariamente apenas valores de contagem, ou seja nmeros inteiros ou nmeros naturais em seqncia. Um exemplo de varivel quantitativa discreta seria, por exemplo, uma que assumisse apenas os seguintes valores : { 1; 3,5 ;

  • 9

    variveis quantitativas contnuas so aquelas cujos valores assumem uma faixa contnua e

    no apresentam saltos de descontinuidade. Exemplos dessas variveis so o peso de

    pessoas, a renda familiar, o consumo mensal de energia eltrica, o preo de um produto

    agrcola.2 As variveis quantitativas contnuas referem-se ao conjunto dos nmeros reais

    ou a um de seus subconjuntos contnuos.

    Variveis Qualitativas - referem-se a dados no numricos.3 Exemplos dessas variveis

    so o sexo das pessoas, a cor, o grau de instruo.

    As variveis qualitativas subdividem-se tambm em dois grupos: as variveis qualitativas

    ordinais e as variveis qualitativas nominais. As variveis qualitativas ordinais so

    aquelas que definem um ordenamento ou uma hierarquia. Exemplos so o grau de

    instruo, a classificao de um estudante no curso de estatstica, as posies das 100

    empresas mais lucrativas, etc. As variveis qualitativas nominais por sua vez no definem

    qualquer ordenamento ou hierarquia. So exemplos destas a cor , o sexo, o local de

    nascimento, etc.4

    Dependendo da situao uma varivel qualitativa pode ser representada

    (codificada) atravs de emprego de nmeros (por exemplo: em sexo representamos

    homens como sendo 0 e mulheres como sendo 1). Mas no tratamento estatstico

    5,75 ; 10 }. Apesar dessa varivel abranger valores no inteiros ela apresenta saltos de descontinuidade: nesse exemplo ela no pode assumir nenhum valor intermedirio entre 1 e 3,5 ou entre 5,75 e 10. 2 Seria impossvel obter na prtica uma varivel perfeitamente contnua j que os instrumentos de medida no tem preciso infinita. Por exemplo., o peso de pessoas medido com uma balana com preciso, digamos, de dcimos de gramas. Ento jamais conseguiremos obter um valor para essa varivel que se localize entre 50.000,1 e 50.000,2 gramas, por exemplo, 50.000,15 gramas. Ocorre portanto um salto de descontinuidade entre os dois valores possveis de serem medidos e a varivel, do ponto de vista terico, no pode ser considerada como varivel quantitativa contnua, mas varivel quantitativa discreta. Mas do ponto de vista prtico, acabamos freqentemente por consider-la e trat-la como sendo uma varivel quantitativa contnua, apesar dessa falta de preciso absoluta. O mesmo podemos dizer para o caso da renda ou qualquer outra varivel econmica medida em unidades monetria: no existe uma renda de por exemplo R$ 200,345 j que o centavo a menor diviso do sistema monetrio. Mas de qualquer forma, costuma-se tratar a renda como varivel quantitativa contnua e no discreta. 3 muito comum considerar-se que a estatstica apenas abrange os estudos que utilizam as variveis quantitativas. Nada mais equivocado. Existe um vasto campo de aplicaes estatsticas em que so empregadas as variveis qualitativas, tanto isoladamente como em conjunto com variveis quantitativas. 4 No podemos dizer que a cor X superior a cor Y mas podemos afirmar que o terceiro ano do segundo grau superior hierarquicamente ao primeiro ano do primeiro grau.

  • 10

    dessa varivel codificada no podemos consider-la como sendo quantitativa. Ela

    continua sendo uma varivel qualitativa (pois o em sua essncia e natureza) apesar de

    sua codificao numrica que tem como finalidade uma maior finalidade de tabulao de

    resultados.

    No podemos dizer que para qualquer uma destas categorias qualquer mtodo estatstico

    pode ser adequadamente aplicado. As variveis quantitativas contnuas so aquelas que

    permitem a utilizao de um conjunto maior e superior de mtodos estatsticos e so, sem

    dvida, as variveis mais passveis de um rico tratamento estatstico. Em seguida vm,

    nessa ordem, as variveis quantitativas discretas, as variveis qualitativas ordinais e por

    ltimo, as variveis qualitativas nominais. Essas ltimas so as que permitem a utilizao

    de um menor e menos poderoso arsenal de instrumentos estatsticos de anlise.

    2.2 Tabelas e Distribuies de Freqncia

    A anlise estatstica se inicia quando um conjunto conjunto de dados torna-se disponvel

    de acordo com a definio do problema da pesquisa. Um conjunto de dados, seja de uma

    populao ou de uma amostra contem muitas vezes um nmero muito grande de valores.

    Alm disso, esses valores, na sua forma bruta, encontram-se muito desorganizados. Eles

    variam de um valor para outro sem qualquer ordem ou padro. Os dados precisam ento

    ser organizados e apresentados em uma forma sistemtica e seqencial por meio de uma

    tabela ou grfico. Quando fazemos isso, as propriedades dos dados tornam-se mais

    aparentes e tornamo-nos capazes de determinar os mtodos estatsticos mais apropriados

    para serem aplicados no seu estudo.

    Suponhamos o seguinte conjunto de dados:

    14 12 13 11 12 13

    16 14 14 15 17 14

    11 13 14 15 13 12

    14 13 14 13 15 16

    12 12

  • 11

    Para montarmos uma distribuio de freqncias desses dados verificamos quais so os

    valores no repetidos que existem e em uma primeira coluna de uma tabela colocamos

    esses valores e na segunda coluna colocamos o nmero de repeties de cada um desses

    valores. Para o exemplo acima, a distribuio de freqncias ser:

    Varivel freqncia

    11 2

    12 5

    13 6

    14 7

    15 3

    16 2

    17 1

    A freqncia de uma observao o nmero de repeties dessa observao no conjunto

    de observaes. A distribuio de freqncia uma funo formada por pares de valores

    sendo que o primeiro o valor da observao (ou valor da varivel) e o segundo o

    nmero de repeties desse valor.

    Freqncias Relativas e Acumuladas

    Para o exemplo acima tambm podemos calcular a freqncia relativa referente a cada

    valor observado da varivel. A freqncia relativa o valor da freqncia absoluta

    dividido pelo nmero total de observaes.

    Varivel freqncia absoluta freqncia relativa 11 2 2/26 = 0,0769

    12 5 5/26 = 0,1923

    13 6 6/26 = 0,2308

    14 7 7/26 = 0,2692

    15 3 3/26 = 0,1154

  • 12

    16 2 2/26 = 0,0769

    17 1 1/26 = 0,0385

    TOTAL 26 1,0000

    Podemos tambm calcular as freqncias acumuladas. Nesse caso existem as freqncias

    absolutas acumuladas e as freqncias relativas acumuladas. 5

    Varivel freqncia absoluta

    freqncia relativa

    freqncia absoluta acumulada

    freqncia relativa acumulada

    11 2 2/26 = 0,0769 2 2/26 = 0,0769

    12 5 5/26 = 0,1923 7 7/26 = 0,2692

    13 6 6/26 = 0,2308 13 13/26 = 0,5000

    14 7 7/26 = 0,2692 20 20/26 = 0,7692

    15 3 3/26 = 0,1154 23 23/26 = 0,8846

    16 2 2/26 = 0,0769 25 25/26 = 0,9615

    17 1 1/26 = 0,0385 26 26/26 = 1,0000

    TOTAL 26 1,0000

    2.3 Histogramas

    Histograma uma representao grfica de uma tabela de distribuio de

    freqncias. Desenhamos um par de eixos cartesianos e no eixo horizontal (abscissas)

    colocamos os valores da varivel em estudo e no eixo vertical (ordenadas) colocamos os

    valores das freqncias. O histograma tanto pode ser representado para as freqncias

    absolutas como para as freqncias relativas. No caso do exemplo anterior, o histograma

    seria:

    5 Observe que os valores da ltima coluna (freqncia relativa acumulada) podem ser calculados de duas maneiras. Na primeira, tal como feito na tabela a seguir, dividimos o valor da freqncia absoluta acumulada pelo total de observaes. Na segunda maneira, acumulamos o valor da freqncia relativa. Este ltimo mtodo pode levar a acmulos de erros, de forma que o ltimo valor de freqncia relativa acumulado se distancie consideravelmente de 1.

  • 13

    Histograma

    0

    1

    2

    3

    4

    5

    6

    7

    11

    12

    13

    14

    15

    16

    17

    Mais

    Bloco

    Freqncia

    Freqncia

    histograma de frequncia acumulada (ou ogiva) a representao grfica do

    comportamento da frequncia acumulada. Na figura abaixo a ogiva mostrada em

    sobreposio ao histograma.

    Histograma

    0

    1

    2

    3

    4

    5

    6

    7

    11

    12

    13

    14

    15

    16

    17

    Mais

    Bloco

    Freqncia

    ,00%

    20,00%

    40,00%

    60,00%

    80,00%

    100,00%

    Freqncia

    % cumulativo

    2.4 Tabulao de Freqncia e Histograma para Variveis Contnuas

    At agora vimos como so calculadas as freqncias (relativas e acumuladas) para

    variveis quantitativas discretas. Nesse caso a tabulao dos resultados mais simples.

    Mas quando tratamos de variveis quantitativas contnuas os valores observados devem

    ser tabulados em intervalos de classes. Para a determinao dessas classes no existe uma

    regra pr estabelecida, sendo necessrio um pouco de tentativa e erro para a soluo mais

  • 14

    adequada. Suponhamos que as safras agrcolas de um determinado produto, em uma

    determinada regio, sejam dadas pela tabela a seguir:

    Ano Safra (1000 t) Ano Safra (1000 t)

    1 280 10 365

    2 305 11 280

    3 320 12 375

    4 330 13 380

    5 310 14 400

    6 340 15 371

    7 310 16 390

    8 340 17 400

    9 369 18 370

    Devem ser seguidos alguns passos para a tabulao de freqncias de dados que se

    referem a uma varivel quantitativa contnua, como o caso de nosso exemplo.

    1. Definir o nmero de classes. O nmero de classes no deve ser muito baixo nem

    muito alto. Um nmero de classes pequeno gera amplitudes de classes grandes o que

    pode causar distores na visualizao do histograma. Um nmero de classes grande

    gera amplitude de classes muito reduzidas. Foram definidas regras prticas para a

    determinao do nmero de classes, sendo que este deve variar entre 5 e 20 (5 para um

    nmero muito reduzido de observaes e 20 para um nmero muito elevado). Se n

    representa o nmero de observaes (na amostra ou na populao, conforme for o

    caso) o nmero aproximado de classes pode ser calculado por Nmero de Classes =

    n arredondando os resultados. No caso do exemplo anterior temos n = 18

    e 18 4 24= , e podemos adotar um nmero de 5 classes, que ser razovel.

    2. Calcular a amplitude das classes. Essa ser obtida conhecendo-se o nmero de

    classes e amplitude total dos dados. A amplitude total dos dados o resultado da

    subtrao valor mximo - valor mnimo da srie de dados. A amplitude de classe ser:

  • 15

    classes de

    MinimoValor -MaximoValor = classe de Amplitude

    nmero

    Em geral, o valor do resultado tambm arredondado para um nmero inteiro mais

    adequado. No nosso exemplo temos:

    Amplitude de Classe = 430 - 280

    5= 30

    3. Preparar a tabela de seleo com os limites de cada classe. Na tabela abaixo

    apresentamos para os dados do nosso exemplo os limites inferior e superior de cada

    uma das 5 classes de freqncia.

    Classe Limite inferior Limite Superior

    1 280 310

    2 310 340

    3 340 370

    4 370 400

    5 400 430

    Observa-se na tabela acima que o limite superior de cada classe coincide com o limite

    inferior da classe seguinte. Prevendo-se que pode ocorrer que o valor de uma observao

    seja exatamente igual ao valor do limite de classe deve-se estabelecer um critrio de

    incluso. Para evitar esse tipo de dificuldade normalmente se estabelece que o limite

    superior de cada classe aberto (e conseqentemente, o limite inferior de cada classe

    fechado), ou seja, cada intervalo de classe no inclui o valor de seu limite superior, com

    exceo da ltima classe.

    4. Tabular os dados por classe de freqncia. A partir da listagem de dados seleciona-

    se para cada um deles qual a sua classe de freqncia e acumula-se o total de

    freqncia de cada classe. De acordo com nosso exemplo, teremos:

  • 16

    Classe Freqncia Absoluta Simples

    Freqncia Relativa Simples

    280 - 310 3 0,12 (12 %)

    310 - 340 4 0,16 (16 %)

    340 - 370 6 0,24 (24 %)

    370 - 400 7 0,28 (28 %)

    400 - 430 5 0,20 (20%)

    Total 25 1,00 (100 %)

    Veremos adiante, quando discutirmos as medidas de posio e de disperso, que quando

    agrupamos dados numricos em intervalos de classe ocorre perda de informao o que

    leva a resultados no to precisos do que aqueles que seriam obtidos a partir dos dados

    originais sem agrupamento.

    2.5 Medidas de Posio e de Disperso

    Podemos considerar que a Estatstica Descritiva subdivide-se em duas partes. Na

    primeira, abordada anteriormente, so estudadas as formas de apresentao dos dados

    para que fiquem salientadas as suas caractersticas principais. Na segunda, que

    comearemos a tratar agora, abrange as medidas descritivas na forma de simples nmeros

    que representam de forma sinttica essas caractersticas da distribuio estatstica dos

    dados. Estudaremos, a rigor, quatro tipos de medidas:

    1. Medidas de Tendncia Central (ou medidas de posio). Essa propriedade dos dados

    refere-se a localizao do centro de uma distribuio. Elas nos indicam qual a

    localizao dos dados ( no eixo que representa o conjunto dos nmeros inteiros se

    estivermos tratando de uma varivel quantitativa contnua).

    2. Medidas de Disperso. Essa propriedade revela o grau de variao dos valores

    individuais em torno do ponto central.

  • 17

    3. Assimetria. a propriedade que indica a tendncia de maior concentrao dos dados

    em relao ao ponto central.

    4. Curtose. a caracterstica que se refere ao grau de achatamento, ou a taxa na qual a

    distribuio cresce ou cai da direita para a esquerda.

    2.5.1 Uma Nota sobre Notao Estatstica

    Utilizaremos as letras maisculas para representar as variveis, como por exemplo a

    varivel X. Os valores individuais que uma varivel pode assumir so representados pelas

    correspondentes letras minsculas. Por exemplo, se X usado para designar o peso de

    uma amostra de 50 pessoas, ento x o valor numrico do peso de uma dessas 50

    pessoas. Diferentes valores de uma varivel so identificados por subscritos. Assim, os

    pesos de 50 pessoas em uma amostra podem ser denotados por x1, x2, ..., x50.

    nmero total de observaes em uma populao finita designado por N e na

    amostra representado por n. A distino entre medidas descritivas para

    populaes e amostras muito importante. Denotaremos os parmetros

    (medidas referentes a populao) por letras gregas ou letras minsculas em

    portugus. As estatsticas amostrais sero representadas por letras maisculas

    em portugus e os valores observados de uma estatstica amostral pela

    correspondente letra minscula em portugus. Por exemplo, as medidas

    descritivas a serem introduzidas nessa seo sero denotadas como segue:

    Nome da Medida Parmetro Notao da Estatstica

    Valor observado

    mdia aritmtica X x

    proporo P p

    mdia geomtrica ~g G g

    mdia harmnica ~h H h

    mediana ~.x 5 X.5 x.5

    moda ~xm Xm xm

  • 18

    2.5.2 A Mdia Aritmtica No Ponderada

    A mdia definida como a soma das observaes dividida pelo nmero de observaes.

    Se tivermos, por exemplo, n valores, temos:

    Xx x x

    n

    x

    n

    ni

    i

    n

    =+ + +

    = =

    1 2 1...

    Propriedades da mdia aritmtica no ponderada:

    1. A mdia um valor tpico, ou seja, ela o centro de gravidade da distribuio, um

    ponto de equilbrio. Seu valor pode ser substitudo pelo valor de cada item na srie de

    dados sem mudar o total. Simbolicamente temos:

    n X x( ) = (6)

    2. A soma dos desvios das observaes em relao a mdia igual a zero.

    ( )x X = 0

    3. A soma dos desvios elevados ao quadrado das observaes em relao a mdia

    menor que qualquer soma de quadrados de desvios em relao a qualquer outro

    nmero. Em outras palavras,

    ( )x X 2 = um mnimo. A idia bsica de selecionar um nmero tal que a soma dos quadrados dos desvios em

    relao a este nmero minimizada tem grande importncia na teoria estatstica. Ela

    chega a ter um nome especial: o princpio dos mnimos quadrados. Ela , por exemplo,

    a base racional do mtodo dos mnimos quadrados que usado para ajustar a melhor

    6 - Utilizaremos muito freqentemente a notao x simplificadamente para representar xii

    n

    =

    1

    .

  • 19

    curva atravs de um conjunto de pontos em um sistema de eixos cartesianos, como

    veremos adiante. Esta propriedade tambm a base para o clculo de uma importante

    medida de disperso, que veremos logo a seguir.

    A validade dessas tr6es propriedades pode ser facilmente demonstrada por um exemplo

    numrico simples, mostrado na tabela a seguir. Nesta tabela, a coluna (1) contem o

    conjunto de dados cuja soma 9 e cuja mdia 3. A coluna (2) demonstra a primeira

    propriedade da mdia, ou seja, se cada uma das observaes individuais dos dados

    substituda pela mdia, a soma permanece igual a 9. A coluna (3) verifica que de fato

    ( )x X = 0 . Finalmente, as colunas (4), (5) e (6) demonstram que ( )x X 2 = 14, que menor que somas quando os desvios individuais so tomados a partir do nmero

    2 e do nmero 5, respectivamente.

    (1)

    x

    (2)

    x

    (3)

    (x - x)

    (4)

    (x - x)2

    (5)

    (x - 2)2

    (6)

    (x -5)2

    1 3 -2 4 1 16

    2 3 -1 1 0 9

    6 3 +3 9 16 1

    Soma 9 9 0 14 17 26

    2.5.3 A Mdia Aritmtica Ponderada

    No clculo da mdia aritmtica no ponderada todos os valores observados foram

    somados atribuindo-se o mesmo peso a todas as observaes. Agora veremos uma nova

    forma de calcular a mdia. Consideremos um exemplo familiar de clculo da mdia de

    notas de estudantes, quando o exame final vale duas vezes mais do que as duas provas

    comuns realizadas no decorrer do semestre. Se um determinado aluno obtiver as notas 7,

    5 e 8 a sua mdia ponderada final ser:

  • 20

    1 (7) +1 (5) + 2 8

    1+1+ 2= 7

    Em termos gerais, a frmula para a mdia aritmtica ponderada :

    Xw = ==

    w x wxi ii

    n

    1

    onde wi o peso da observao i

    e n o nmero de observaes.

    A soma dos pesos no pode ser igual a zero. Fora disto, no existe restrio para os

    valores dos pesos. Se todos os pesos forem iguais a 1, a mdia ponderada recai em seu

    caso particular, a mdia aritmtica no ponderada. O mesmo ocorre se todos os pesos

    forem iguais a uma constante c. Portanto, a mdia aritmtica no ponderada na realidade

    uma mdia aritmtica ponderada com pesos iguais.

    2.5.4 Propores como Mdias

    Freqentemente encontramos populaes cujas unidades elementares podem ser

    classificadas em duas categorias: uma que tem certo atributo e outra que no tem esse

    atributo. Nesse caso, estamos interessados na proporo de casos que possuem esse

    atributo. Uma proporo comumente pensada como uma frao ou porcentagem, mas

    tambm pode ser pensada como um caso especial de mdia.

    Suponha que queremos determinar a proporo de votantes entre os cidados brasileiros.

    Devemos primeiro designar um valor 1 para cada pessoa qualificada como eleitor e um

    valor 0 para cada pessoa no qualificada como eleitor. Ento, a soma dos 1s seria x e a mdia seria a mdia seria obtida pela diviso da soma pelo nmero N total de pessoas

    no Brasil.

    A mdia da varivel x = x N . No entanto essa mdia tambm uma proporo, a proporo de eleitores na populao brasileira.

  • 21

    2.5.5 A Mdia Geomtrica

    A mdia geomtrica de uma amostra definida como a raiz ensima do produto nos n

    valores amostrais.

    G = n ( )( )...( )x x xn1 2

    Por exemplo, a mdia geomtrica de 5, 9 e 13 :

    G = = 8,36 3 ( )( )( )5 9 13

    Para a mesma srie de dados a mdia 9. sempre verdade que a mdia aritmtica

    maior do que a mdia geomtrica para qualquer srie de valores positivos, com exceo

    do caso em que os valores da srie so todos iguais, quando as duas mdias coincidem.

    clculo da mdia geomtrica muito simples. Mas a sua interpretao e as sua

    propriedades tornam-se mais evidentes quando reduzimos a frmula a sua

    forma logartmica. Tomando logaritmos de ambos os lados da equao anterior

    teremos:

    logG = log(n ( )( )...( ) )log log ... log log

    x x xx x x

    n

    x

    nnn

    1 21 2=+ + +

    =

    A concluso que chegamos que o logaritmo da mdia geomtrica igual mdia

    aritmtica dos logaritmos dos valores da srie. Verifica-se que a mdia geomtrica

    somente tem significado quando todos os valores da srie so todos positivos.

    Suponhamos como exemplo de aplicao de clculo da mdia geomtrica os dados da

    tabela seguinte que mostram as mudanas de preos de duas mercadorias, A e B, de 1980

    a 1985. Durante esse perodo o preo de A subiu 100 % e o preo de B decresceu 50 %.

    Qual foi a mudana mdia relativa de preos? Em outras palavras, qual foi o percentual

    mdio de mudana de preos?

  • 22

    Preos das Mercadorias A e B em 1980 e 1985

    Preo Relativo de Preos

    1980 = 100 1985 = 100

    Mercadoria 1980 1985 1980 1985 1980 1985

    A R$ 50 R$ 100 100 200 50 100

    B R$ 20 R$ 10 100 50 200 100

    Mdia Aritmtica 100 125 125 100

    Mdia Geomtrica 100 100 100 100

    A mdia aritmtica fornece uma resposta incorreta para essa questo. Como indicado

    pelos clculos da tabela acima leva a duas concluses opostas. Se 1980 tomado como

    base para o relativo de preos, os preos so em mdia 25 % maiores em 1985 do que em

    1980. Se 1985 tomado como base, os preos de 1980 so 25 % maiores do que os

    preos de 1985. Portanto, a mdia aritmtica dos relativos de preos conduz a resultados

    inconsistentes.

    No entanto, um resultado consistente obtido quando a mdia geomtrica aplicada:

    1. Se 1980 escolhido como a base, os preos de 1985 so 100 % dos preos de 1980, ou

    seja:

    g = = =200 50 10 000 100.

    2. Se 1985 escolhido como a base, os preos de 1980 sero tambm 100 % dos preos

    em 1985, ou seja:

    g = =50 200 100

    A mais importante aplicao da mdia geomtrica refere-se talvez ao clculo de taxas de

    crescimento mdias, desde que essas podem ser corretamente medidas somente por esse

    mtodo. Para exemplificar, no campo da economia, esse ponto, suponha que a produo

    anual de um setor industrial cresceu de 10.000 para 17.280 unidades durante o perodo

    1985-1988 como mostrado na tabela a seguir; qual a taxa mdia de crescimento anual?

    A taxa mdia anual de crescimento pode ser calculada a partir dos valores em

  • 23

    porcentagem da produo em relao aos anos anteriores. Se calcularmos a mdia

    aritmtica desses valores teramos:

    x = + + =( ) /60 96 300 3 152

    implicando uma taxa de crescimento mdia de 152 -100 = 52 %. Se a produo cresce 52

    % ao ano, comeando da produo de 1985 de 10.000 unidades, ento a produo de

    1986 seria de

    23.0 + 0,52 (10.000) = 15.200;

    a produo de 1987 seria de

    15.200+ 0,52(15.200) = 23.104;

    a produo de 1988 seria de

    23.104 + 0,52(23.104) = 35.118,08

    Ano 1985 1986 1987 1988

    Produo

    Porcentagem

    do ano anterior

    10.000

    6.000

    60

    5.760

    96

    17.280

    300

    Observe-se que este ltimo valor quase 200 % do valor efetivamente observado

    em 1988, de 17.200.

    A mdia geomtrica, por sua vez, :

    g = =( )( )( )60 96 300 1203

    implicando uma taxa anual mdia de crescimento de 120 - 100 = 20 %. Verificando,

    teremos:

    no ano de 1986: 10.000 + 0,20(10.000) = 12.000;

    no ano de 1987: 12.000 + 0,20(12.000) = 14.400;

    no ano de 1988: 12.000 + 0,20(14.400) = 17.280 que coincide com o valor observado

    efetivamente em 1988.

  • 24

    Se o valor da mdia geomtrica das porcentagens de crescimento for menor do que 100,

    implica em uma porcentagem mdia de crescimento negativa, o que indica uma taxa

    mdia de declnio ao invs de uma taxa mdia de crescimento.7 Atente tambm para o

    fato de que as trs porcentagens a partir das quais a mdia geomtrica calculada so

    percentuais do ano anterior ao invs de mudana percentual do ano anterior.8

    clculo da taxa mdia de crescimento baseado principalmente na hiptese de

    uma taxa constante de crescimento ou de que os valores individuais formam

    uma progresso geomtrica. Quando o clculo envolve um nmero

    considervel de perodos, utiliza-se com mais freqncia uma frmula que se

    relaciona com a mdia geomtrica, que :

    Rx

    x

    f

    i

    n=

    1

    onde:

    R = taxa de crescimento geomtrica mdia,

    n = nmero de perodos de tempo,

    xf = valor no perodo final,

    xi = valor no perodo inicial.

    Para os dados da tabela anterior, teremos:

    R =

    =

    17 280

    10 0001 0 203

    .

    ., ou 20 % , como obtido anteriormente.9 Note que R = G -1.

    7 Se, por exemplo, ao invs de 60, 96 e 300 %, como anteriormente, tivermos 60, 96 e 78 %, a taxa de

    crescimento geomtrica mdia ser de g = =( )( )( ) ,60 96 78 76 593 , o que indica um decrscimo mdio de 76,59 - 100 = - 23,41 %. 8 Essas ltimas porcentagens, referentes ao exemplo da tabela anterior, seriam (6.000 - 10.000)/10.000= - 0,40, ou seja - 40 %; (5.760 - 6.000)/6.000 = -0,04 , ou seja, - 4 %; e (17.280 - 5.760)/5760 = 2, ou seja + 200 %. 9 - interessante notar que pelo clculo anterior empregam-se os valores dos anos intermedirios, ao passo que nesse ltimo, apenas empregam-se os valores do perodo inicial e final, no importando o que ocorreu nos perodos intermedirios.

  • 25

    2.5.6 A Mdia Harmnica

    A mdia harmnica o inverso da mdia aritmtica dos inversos dos valores observados.

    Simbolicamente, para uma amostra, temos:

    Hx x x

    n

    x

    n

    n

    x

    n=+ + +

    = =

    11 1 1

    1

    1

    11 2

    ... ( / )

    ( / )

    Para clculos mais simples, a frmula anterior pode ser reescrita como:

    11 1 1

    11 2H

    x x x

    n

    x

    n

    n=+ + +

    =... ( / )

    A mdia harmnica dos trs valores 4, 10 e 16 :

    114

    110

    116

    30 1375

    7 27

    H

    H

    =+ +

    =

    =

    ,

    ,

    Para os mesmos dados a mdia aritmtica 10 e a mdia geomtrica 8,62. Para

    qualquer srie de dados cujos valores no so todos os mesmos e que no incluem o zero,

    a mdia harmnica sempre menor que tanto a mdia aritmtica como a mdia

    geomtrica.

    2.5.7 A Mediana

    A mediana o valor do item central da srie quando estes so arranjados em ordem de

    magnitude. Para a srie R$ 2, R$ 4, R$ 5, R$ 7 e R$ 8, a mediana o valor do terceiro

  • 26

    item, R$ 5. No caso do nmero de itens na srie ser par, a mediana a semi-soma dos

    dois valores mais centrais. Por exemplo, para a srie 3, 5 ,8 ,10, 15 e 21 kg, a mediana a

    media dos valores 8 e 10, ou seja 9.

    A mediana pode ser formalmente definida como o valor que divide a srie de tal forma

    que no mnimo 50 % dos itens so iguais ou menores do que ela, e no mnimo 50 % dos

    itens so iguais ou maiores do que ela. Mais rigorosamente, estabelecemos que:

    X.5 = o valor do [(n+1)/2] -simo item

    Por exemplo, para uma srie formada pelos valores 3,5,8,10,15 e 21 a mediana

    ser o valor do [(6+1)/2] = 3,5 simo item, ou seja, a semi soma do item de posto 3 e do

    item de posto 4, que so 8 e 10.

    O valor da mediana no influenciado pelos valores nas caudas de uma

    distribuio. Por exemplo, se temos a srie de dados 1,2,3,4,5 a mediana 3. Se

    substituirmos os valores das caudas dessa distribuio por quaisquer valores uma nova

    distribuio formada poderia ser formada pela srie -1000,-100,3,500,5000 e a mediana

    permanece sendo 3. Portanto, ela uma medida de posio da distribuio bem adequada

    para distribuies assimtricas, tais como a distribuio de renda, j que no sabemos se a

    famlia mais rica ganha R$7.000.000 ou R$ 500.000.000. Veremos, mais a frente que ela

    possui vantagens em relao a mdia aritmtica, como medida de posio (ou medida de

    tendncia central) para dados agrupados em classes de freqncia, quando a ltima classe

    tem limite superior indeterminado.

    A mediana tambm tem a interessante propriedade de que a soma dos desvios absolutos

    das observaes em relao a mediana menor do que a soma dos desvios absolutos a

    partir de qualquer outro ponto na distribuio. Simbolicamente:

    x X = .5 um mnimo

  • 27

    2.5.8 A Mdia para Dados Agrupados

    Quando estamos tratando de amostras ou populaes muito grandes conveniente

    calcular as medidas descritivas a partir das distribuies de freqncia. A mdia no pode

    ser determinada exatamente a partir de distribuies de freqncia, mas uma boa

    aproximao pode ser obtida pela hiptese do ponto mdio. A aproximao quase

    sempre muito satisfatria se a distribuio bem construda.10 A hiptese do ponto mdio

    refere-se a considerar-se de que todas as observaes de uma dada classe esto centradas

    no ponto mdio daquela classe. Conseqentemente, o valor total da freqncia da classe

    da i-sima classe simplesmente o produto fi mi, onde fi a freqncia (absoluta simples)

    da classe i e mi ponto mdio da classe i. Sob essa hiptese, a mdia aproximada para

    uma distribuio de uma amostra com k classes vem a ser:

    Xf m f m f m

    f f f

    fm

    f

    k k

    k

    + + ++ + +

    1 1 2 2

    1 2

    ...

    ...

    = fm

    n

    importante notar que todos os somatrios na equao acima referem-se s

    classes e no s observaes individuais. Consideremos a seguinte tabela de distribuio

    de freqncia para dados de gasto com alimentao extrados de uma pesquisa de

    oramentos familiares.

    Classe f m fm

    R$ 120,00 - R$139,99 5 130,0 650,0

    140,00 - 159,99 26 150,0 3900,0

    160,00 - 179,99 24 170,0 4080,0

    180,00 - 199,99 15 190,0 2850,0

    200,00 - 219,99 8 210,0 1680,0

    10 Isto , principalmente se no agrupamento dos dados originais em uma tabela de distribuio de

    freqncia, empregou-se um nmero adequado de classes de freqncia.

  • 28

    220,00 - 239,99 2 230,0 460,0

    Total 80 13620,0

    25,170$80

    00,13620Rx ==

    Ao utilizar essa aproximao estamos considerando a hiptese de que todas as

    observaes em cada classe esto uniformemente distribudas nessa classe. Por exemplo,

    se tivermos um intervalo de tamanho 100 e com freqncia igual a 6 observaes, a

    localizao dessas observaes seria 0,20,40,60,80 e 100, com distncia constante entre

    cada par de observaes, de forma que:

    0+20+40+60+80+100 = 300 = m x 6 e m = 50, ou seja, o ponto mdio do

    intervalo de 0 a 100. Conclui-se que se a distribuio das observaes for uniforme em

    cada intervalo, o somatrio dos valores das observaes de cada intervalo igual ao

    produto da freqncia no intervalo pelo valor do ponto mdio desse intervalo. Supe-se

    que com uma conveniente construo de intervalos de classe os eventuais erros nos

    intervalos compensam-se mutuamente.

    2.5.9 A Mediana para dados Agrupados

    Assim como possvel estabelecer uma aproximao da mdia aritmtica para

    dados agrupados, o mesmo pode ser feito para a mediana. O mtodo usado o da

    interpolao utilizando-se a distribuio de freqncia acumulada ou ogiva. Inicialmente

    determina-se a classe que contem a mediana. Essa ser a classe cuja freqncia

    acumulada relativa correspondente a seu limite inferior menor que 0,50 (ou 50 %) e a

    freqncia acumulada relativa correspondente a seu limite superior maior que 0,50 (ou

    50 %). O prximo passo a determinao do ponto exato onde se localiza a mediana

    naquela classe. Para o exemplo anterior de gastos com alimentao de famlias, temos:

  • 29

    Classe freq. absoluta simples

    freq.acumulada freqncia relativa acumulada

    R$ 120,00 - R$139,99 5 5 0,0625

    140,00 - 159,99 26 31 0,3875

    160,00 - 179,99 24 55 0,6875

    180,00 - 199,99 15 70 0,8750

    200,00 - 219,99 8 78 0,9750

    220,00 - 239,99 2 80 1,0000

    Total 80

    A classe que contm a mediana a terceira classe, pois a freqncia relativa

    acumulada da classe anterior (segunda classe) menor que 0,5 e a freqncia relativa

    acumulada da terceira classe maior do que 0,5.11 Na figura a seguir, F a freqncia

    acumulada (representada no eixo vertical) e X o valor da varivel (representada no eixo

    horizontal).

    11 - A freqncia relativa acumulada da classe anterior classe corrente a freqncia relativa acumulada

    do limite inferior da classe corrente. A freqncia relativa acumulada da classe corrente a freqncia relativa acumulada do limite superior dessa mesma classe.

    X.5 160 180 X

    55

    31

    F

    1 80 140,5

    2 2

    n + += =

  • 30

    Por semelhana de tringulos, verifica-se que:

    X

    X

    .

    .

    ,

    ,

    5

    5

    160

    180 160

    40 5 31

    55 31

    167 92

    =

    =

    Este procedimento o mesmo que a seguinte frmula de interpolao:

    X LIn F

    fc

    a

    . ..

    ( ) /5 5

    5

    1 2= +

    +

    onde:

    LI.5 = limite de classe inferior da classe da mediana,

    Fa = freqncia acumulada da classe imediatamente anterior classe da

    mediana,

    f.5 = freqncia absoluta simples da classe da mediana,

    c = amplitude (tamanho) da classe da mediana.

    2.5.10 A Moda para dados Agrupados

    A moda de uma distribuio de freqncia pode muitas vezes ser aproximada pelo

    ponto mdio da classe modal - a classe com maior densidade de freqncia.12 Ento, para

    os dados de gastos com alimentao do exemplo anterior, xm = R$ 150, o ponto mdio da

    segunda classe, que possui a maior freqncia. Esse mtodo de localizar a moda

    totalmente satisfatrio quando as densidades de freqncia da classe imediatamente

    12 Definimos densidade de freqncia de um intervalo de classe como sendo o quociente entre a freqncia

    absoluta simples desse intervalo e o seu tamanho (amplitude). Quando os intervalos de classe possuem amplitudes desiguais, existe uma tendncia de os intervalos maiores apresentarem maiores freqncias. Dessa forma a classe modal no a classe de maior freqncia mas a classe de maior densidade de freqncia. Naturalmente, quando todos os intervalos tm a mesma amplitude, como no caso do exemplo anterior e como geralmente so construdos para no distorcer a distribuio, a classe modal a classe de maior densidade de freqncia assim como tambm a classe de maior freqncia. Esse conceito de densidade de freqncia ser muito til, quando definirmos, mais adiante, a funo densidade de probabilidade e para a sua compreenso intuitiva.

  • 31

    anterior classe modal (a classe premodal) e da classe imediatamente posterior classe

    modal (classe posmodal) so aproximadamente iguais. Quando isso no ocorre, como

    sugerido pela figura a seguir, resultados mais precisos podem ser obtidos com a seguinte

    frmula, para uma amostra:

    X L cm m + +( )

    1

    1 2

    onde:

    Lm = o verdadeiro13 limite inferior de classe da classe modal

    1 = da diferena entre das densidades de freqncia da classe modal e classe

    premodal.

    2 = da diferena entre das densidades de freqncia da classe modal e classe

    posmodal.

    C = a verdadeira amplitude de classe da classe modal.

    Interpretao geomtrica da interpolao

    algbrica para a determinao da moda

    13 Para determinar os limites de classe verdadeiros para uma varivel contnua, temos que escrever os

    limites de classe com uma casa decimal a mais do que os dados originais. Por exemplo, se o conjunto de dados consiste de medidas de peso arredondadas para um dcimo de grama, os limites nominais de classe (tambm chamados de limites aparentes podem ser 11,0 - 11,2; 11,3 - 11,5;11,6 - 11.8; ... Os limites

    Densidade de freqncia

    xm X

  • 32

    No exemplo anterior de gastos com alimentos de 80 famlias, como a amplitude

    de todos os intervalos so iguais, podemos utilizar as freqncias absolutas de

    classe no lugar das densidades de freqncia, para o clculo do valor aproximado

    da mediana.

    Lm = 140,00 1 = 26 - 15 = 11

    c = 20 2 = 26 - 24 = 2

    xm + +=140 00

    11

    11 220 156 92, ( ) ,

    Uma observao aqui necessria. possvel calcular os valores aproximados da

    mediana e da moda para dados agrupados quando o ltimo intervalo de classe tem

    limite superior indeterminado. No caso da mediana isso imediato e no caso da

    moda, o seu clculo somente pode ser feito se a ltima classe no for a classe

    modal e preciso primeiramente calcular as densidades de freqncia. Como

    exemplo, suponhamos que a distribuio de renda de uma certa regio dada pela

    seguinte distribuio de freqncia:

    renda (R$)

    limites nominais

    limites reais freqncia

    absoluta

    densidade de

    freqncia

    0 - 120 0 - 120,50 40 40/120,50 = 0,332

    121 - 605 120,50 - 605,50 170 170/485 = 0,350

    606 - 1200 605,50 - 1200,50 220 220/595 = 0,370

    1201 - 2400 1250,50 - 2400,50 15 15/1150 = 0,013

    mais de 2400 mais de 2450,50 97 indeterminado

    Total 542

    verdadeiros de classe (tambm conhecidos como limites reais ou efetivos) seriam 10,95 - 11,25; 11,25 - 11,55; 11,55 - 11,85;...

  • 33

    A mediana est localizada na terceira classe:14

    x. ,

    ( )

    ( , , )5 605 50

    542 12 210

    2201200 50 605 50 772 +

    +

    =

    A classe modal tambm a terceira classe:15

    xm = +

    + =605 50

    0 370 0 350

    0 370 0 350 0 370 0 0131200 50 605 50 637,

    ( , , )

    ( , , ) ( , , )( , , )

    Infelizmente, para esse exemplo no possvel o clculo da mdia, o que

    demonstra que para algumas situaes temos que contar com a mediana como

    medida de posio (ou de tendncia central) de uma distribuio estatstica.

    Discutiremos agora comparativamente algumas das caractersticas das trs

    principais medidas de posio:

    A Mdia Aritmtica

    1) Ela afetada por todas as observaes e influenciada pelas magnitudes

    absolutas dos valores extremos na srie de dados.

    2) Ela das trs medidas de posio a que possibilita maiores manipulaes

    algbricas, dadas as caractersticas de sua frmula.

    3) Em amostragem, a mdia uma estatstica estvel. Isso ser aprofundado

    posteriormente.

    14 Observe-se que os dados originais esto, de acordo com o sugerido pela tabela acima, com aproximao

    igual a unidades de gramas. Os limites verdadeiros (ou reais) de classe) passam, portanto, a ter aproximao de uma casa decimal de grama. O valor final dos clculos da mediana e da moda so aproximados para unidades de grama, j que essa a aproximao dos dados originais (que se refere ao instrumento de medida). 15 J que esta classe a que apresenta maior densidade de freqncia. Como a ltima classe no tem limite

    superior definido no foi possvel calcular sua densidade de freqncia, j que no podemos determinar sua amplitude. Dependendo dessa amplitude ela poderia ter uma densidade de freqncia maior que a da

  • 34

    A Mediana

    1) Seu valor afetado pelo nmero de observaes e como elas esto distribudas

    mas ela no afetada pelos valores das observaes extremas.

    2) Sua frmula no passvel de manipulao algbrica.

    3) Seu valor pode ser obtido, como vimos, em distribuies, com limites

    superiores indeterminados para a sua ltima classe.

    4) A mediana a estatstica mais adequada para descrever observaes que so

    ordenadas ao invs de medidas.

    A Moda

    1) A moda o valor mais tpico e representativo de uma distribuio. Ela

    representa o seu valor mais provvel.

    2) Como a mediana, a moda tambm no influenciada pelos valores extremos da

    distribuio e no permite manipulaes algbricas como a frmula da mdia.

    Existem algumas relaes entre as diversas medidas de posio:

    1) Para qualquer srie, exceto quando no caso de todas as observaes

    coincidirem em um nico valor, a mdia aritmtica sempre maior que a

    mdia geomtrica, a qual, por sua vez, maior que a mdia harmnica.

    2) Para uma distribuio simtrica e unimodal, mdia = mediana = moda.

    3) Para uma distribuio positivamente assimtrica, mdia > mediana > moda.

    A distncia entre a mediana e a mdia cerca de um tero da distncia entre

    a moda e a mdia.

    terceira classe. Mas mesmo nesse caso, a terceira classe ainda seria modal, j que sua densidade de freqncia maior que a das suas classes vizinhas, e a distribuio passaria a ser bimodal.

  • 35

    4) Para uma distribuio negativamente assimtrica, mdia < mediana < moda.

    A distncia entre a mediana e a mdia cerca de um tero da distncia entre

    a moda e a mdia.

    Essas ltimas caractersticas so apresentadas graficamente, a seguir

    POSIES RELATIVAS DA MDIA, MEDIANA E MODA EM FUNO DA ASSIMETRIA DAS DISTRIBUIES

    Assimetria positiva

    Assimetria negativa

    Distribuio simtrica

  • 36

    Medidas de Disperso, Assimetria e Curtose

    Muitas sries estatsticas podem apresentar a mesma mdia, mas no entanto, os dados de

    cada uma dessas sries podem distribuir-se de forma distinta em torno de cada uma das

    mdias dessas sries. Na anlise descritiva de uma distribuio estatstica fundamental,

    alm da determinao de uma medida de tendncia central, conhecer a disperso dos

    dados e a forma da distribuio. Duas sries de dados podem possuir a mesma mdia, mas

    uma pode apresentar valores mais homogneos (menos dispersos em relao a mdia) do

    que a outra. Um pas, por exemplo, com uma distribuio de renda mais equnime, ter

    uma disperso de suas rendas menor do que um pas com estrutura de renda mais

    diferenciada em diversos estratos ou categorias sociais. Uma mquina que produz

    parafusos e que estiver menos ajustada do que outra produzir medidas de parafusos com

    distribuio mais dispersa em torno de sua mdia.

    A inadequao das mdias A importncia das mdias com freqncia exagerada. Se dizemos que a renda familiar

    mdia de um determinado pas de US$ 5.000 por ano no sabemos muita coisa sobre a

    distribuio de renda desse pas. Uma mdia, como um simples valor adotado para

    representar a tendncia central de uma srie de dados uma medida muito til. Porm, o

    uso de um simples e nico valor para descrever uma distribuio abstrai-se de muitos

    aspectos importantes.

    Em primeiro lugar, nem todas as observaes de uma srie de dados tem o mesmo valor

    da mdia. Quase sem exceo, as observaes includas em uma distribuio distanciam-

    se do valor central, embora o grau de afastamento varie de uma srie para outra. Muito

    pouco pode ser dito a respeito da disperso mesmo quando diversas medidas de tendncia

    central so calculadas para a srie. Por exemplo, no podemos dizer qual distribuio tem

    maior ou menor grau de disperso da informao dada pela tabela abaixo.

  • 37

    Distribuio A Distribuio B

    Mdia

    Mediana

    Moda

    15

    15

    15

    15

    12

    6

    Uma segunda considerao que as formas de distribuio diferem de um conjunto de

    dados para outro. Algumas so simtricas; outras no. Assim, para descrever uma

    distribuio precisamos tambm de uma medida do grau de simetria ou assimetria. A

    estatstica descritiva para esta caracterstica chamada de medida de assimetria.

    Finalmente, existem diferenas no grau de achatamento entre as diferentes distribuies.

    Esta propriedade chamada de curtose (em ingls, kurtosis). Medir a curtose de uma

    distribuio significa comparar a concentrao de observaes prximas do valor central

    com a concentrao de observaes prximas das extremidades da distribuio.

    2.5.11 O Intervalo (ou amplitude)

    A medida de disperso mais simples a amplitude, a diferena entre o maior e o menor

    valor nos dados. Para uma distribuio de freqncia que usa intervalos de classe, a

    amplitude pode ser considerada como a diferena entre o maior e o menor limite de classe

    ou a diferena entre os pontos mdios dos intervalos de classe extremos. Os preos de

    aes e de outros ativos financeiros so freqentemente descritos em termos de sua

    amplitude, com a apresentao pelas Bolsas de Valores do maior valor e do menor valor

    da ao em um determinado perodo de tempo.

    Para algumas distribuies simtricas a mdia pode ser aproximada tomando-se a semi-

    soma dos dois valores extremos,16 que freqentemente chamada de semi-amplitude. Por

    exemplo, prtica entre os meteorologistas derivar a mdia diria de temperatura

    16 Foi o que fizemos ao calcular a mdia para valores agrupados em classes de freqncia. Nesse caso

    utilizamos o ponto mdio de cada intervalo de classe como representativo da mdia de cada intervalo. Assim, ao multiplicarmos a freqncia de cada classe pelo valor do ponto mdio, estamos calculando aproximadamente a soma das observaes em cada intervalo, admitindo como hiptese que a distribuio dos dados em todos os intervalos simtrica.

  • 38

    tomando a mdia somente dos valores mximo e mnimo de temperatura ao invs, de

    digamos, a mdia das 24 leituras horrias do dia.

    A amplitude tem alguns defeitos srios. Ela pode ser influenciada por um valor atpico na

    amostra. Alm disso, o seu valor independe do que ocorre no interior da distribuio, j

    que somente depende dos valores extremos. Este defeito ilustrado na figura a seguir:

    Na figura acima so mostradas duas distribuies com diferentes variabilidade, mas com

    mesma amplitude. A amplitude tende a crescer, embora no proporcionalmente, a medida

    que o tamanho da amostra cresce. Por esta razo, no podemos interpretar a amplitude

    corretamente sem conhecer o nmero de informaes dos dados.

    2.5.12 Percentis, Decis e Quartis

    Podemos tentar responder a seguinte pergunta: que proporo dos valores de uma

    varivel menor ou igual a um dado valor? Ou maior ou igual a um dado valor? Ou entre

    dois valores? Quando construmos uma distribuio de freqncia acumulada, tais

    questes somente podem ser respondidas com relao aos limites de classe exatos. Por

    exemplo, a partir da distribuio de freqncia relativa acumulada da pgina 28, podemos

    dizer que 38,75 % das observaes so menores do que 159,99. Mas no podemos

    responder a pergunta: qual o gasto familiar tal que a proporo da amostra tendo este

    valor ou menos 35 %?. Mas visvel da tabela que 6,25 % das famlias gastam com

    alimentao at R$ 139,99 e 38,75 % das famlias gastam at R$ 159,99. Portanto, como

    35 % est entre estes dois valores, o gasto familiar tal que a proporo da amostra tendo

    f(X)

    X

  • 39

    este valor ou menos 35 % est situado entre R$ 139,99 e R$ 159,99. Este valor

    chamado de percentil 35.

    O percentil 40 o valor da varivel que maior do que 40 % das observaes.

    Generalizando, o percentil x, o valor da varivel que maior do que x % das

    observaes. Em outras palavras, o percentil x o valor da varivel correspondente ao

    valor de freqncia relativa acumulada de x %.17 O primeiro decil o valor da varivel

    que supera um dcimo (ou 10 %) do total de observaes. Se tivermos 200 observaes, o

    segundo decil ser aproximadamente a observao de posto 40.

    O primeiro quartil o valor da varivel cuja freqncia relativa acumulada 0,25 (ou 25

    %). O terceiro quartil o valor da varivel cuja freqncia relativa acumulada 0,75 (ou

    75 %). O primeiro quartil maior do que um quarto dos valores observados e menor do

    que trs quartos destes valores. O terceiro quartil maior do que trs quartos dos valores

    observados e menor do que um quarto destes valores. O segundo quartil confunde-se com

    a mediana.

    Uma medida de disperso o chamado desvio interquartlico que a diferena entre o

    terceiro e o primeiro quartis.

    2.5.13 Varincia e Desvio Padro

    A varincia definida como a mdia dos desvios ao quadrado em relao mdia da

    distribuio. Para uma amostra,

    1

    )( 22

    =

    n

    XxS

    17 Para o clculo do valor exato do percentil x para dados agrupados utiliza-se o mesmo mtodo para a determinao da mediana, ou seja, a interpolao linear. Como no caso da mediana, podemos empregar uma

    frmula de interpolao X LIp n F

    fcp p

    a

    p

    = + +

    ( ) /1 100

    onde Xp o percentil p, Lip o limite inferior real da classe que contem o percentil, Fa a freqncia relativa acumulada da classe anterior classe que contem o percentil, fp a freqncia relativa (simples) da classe que contem o percentil, c a amplitude do intervalo de classe que contem o percentil e o nmero de observaes. O mesmo mtodo pode ser empregado tambm para os decis e quartis.

  • 40

    Para uma populao finita,

    N

    x =2

    2)(

    Na penltima equao, n-1 chamado de nmero de graus de liberdade de S2 , um

    conceito a ser definido mais tarde. Existe uma restrio para esta equao: n > 1 (no se

    pode calcular a varincia para uma amostra de uma observao apenas). O desvio padro

    a raiz quadrada da varincia, e denotado S (para amostra) e (para populao).

    Existem frmulas que facilitam os clculos para

    S2 e 2 :

    Sn x x

    n n

    x

    N

    x

    N

    22 2

    22

    2

    1=

    =

    ( )

    ( )

    Com estas duas ltimas frmulas, podemos calcular a varincia somente com a soma dos

    valores ( x ) e a soma dos quadrados dos valores ( x2 ); no mais necessrio calcular a mdia, em seguida os desvios em relao s mdias e finalmente os quadrados

    destes desvios.

    Para ilustrar o processo de clculo da varincia e desvio padro e para mostrar o uso

    destas medidas, considere o seguinte exemplo. Dois tipos diferentes de mquina, X e Y

    so projetadas para produzir o mesmo produto. Elas tm o mesmo preo de venda. Um

    fabricante est tentando decidir qual delas comprar e observou 10 mquinas distintas de

    cada tipo em operao por uma hora. A tabela seguinte mostra as produes horrias nas

    primeiras duas colunas. As mdias so x = =40310 40 3, unidades por hora e

    y = =40810 40 8, unidades por hora. Portanto, com base nestes dados, o tipo Y um

    pouco mais rpida. Podemos retirar mais alguma informao a partir destes dados?

  • 41

    Podemos medir e comparar as disperses das produes horrias dos dois tipos de

    mquina. Usando a penltima frmula para os dados da tabela, obtemos:

    S

    S

    S

    S

    X

    X

    Y

    Y

    22

    22

    10 16 405 403

    10 10 118 23

    18 23 4 27

    10 17 984 408

    10 10 113511

    13512 11 62

    =

    =

    = =

    =

    =

    = =

    ( . ) ( )

    ( ),

    , ,

    ( . ) ( )

    ( ),

    , ,

    unidades por hora

    unidades por hora

    x y x2 y2

    35

    36

    49

    44

    43

    37

    38

    42

    39

    40

    25

    26

    55

    52

    48

    24

    34

    47

    50

    47

    1.225

    1.296

    2.401

    1.936

    1.849

    1.369

    1.444

    1.764

    1.521

    1.600

    625

    676

    3.025

    2.704

    2.304

    576

    1.156

    2.209

    2.500

    2.209

    Soma 403 408 16.405 17.984

    O tipo X tem menor disperso que o tipo Y. Apesar de ter maior preo que o tipo Y, a

    mquina X mais precisa.

  • 42

    2.5.14 Varincia e Desvio Padro para Dados Agrupados

    A varincia e o desvio padro (como a mdia, mediana, moda, quartis, percentis, decis)

    podem ser calculados para dados agrupados, ou seja, distribuies de freqncia com

    intervalos de classe. Entretanto, os resultados podem ser apenas aproximadamente

    precisos. Utiliza-se, como no caso da mdia, a hiptese do ponto mdio: a de que toda

    observao est localizada no ponto mdio de sua classe. Cada ponto mdio entra nos

    clculos quantas vezes so as observaes naquele intervalo de classe. As equaes para

    as varincias so:

    Sf m X

    n

    f m

    N

    22

    1=

    =

    ( )

    ( )

    , para a amostra;

    , para a populacao.2

    Os smbolos utilizados nestas equaes j foram definidos anteriormente. Para facilitar os

    clculos podemos utilizar as seguintes frmulas mais convenientes para as varincias:

    Sfm fm n

    n

    fm N

    N

    22 2

    2

    1=

    ( ) /

    ( ) /

    e

    =fm

    22

    para a amostra e populao, respectivamente. Aqui, como antes, assumimos que a

    populao finita.

    Os somatrios em todas estas equaes so para todas as k classes, no para as

    observaes individuais. Estas equaes podem ser aplicadas tanto para intervalos de

    classe iguais como para intervalos de classe desiguais. Entretanto, elas no podem ser

    empregadas quando existem um ou mais intervalos sem limites. Como para os dados no

  • 43

    agrupados, a raiz quadrada destas equaes so os desvios padres para a amostra e para a

    populao, respectivamente.

    Aplicando as ltimas equaes para o exemplo de consumo de alimentos, temos:

    Classe (1) m

    (2) f

    (3) fm

    (2)(1)

    (4) fm2

    (3)(1)

    R$ 120,00 - R$139,99 130 5 650 84.500

    140,00 - 159,99 150 26 3.900 585.000

    160,00 - 179,99 170 24 4.080 693.000

    180,00 - 199,99 190 15 2.850 541.500

    200,00 - 219,99 210 8 1.680 352.800

    220,00 - 239,99 230 2 460 105.800

    Total 80 13.620 2.363.200

    Sfm fm n

    n

    S

    2

    2 2 2

    1

    2 363200 13620 80

    80 1561 96

    561 96 23 71

    =

    =

    =

    = =

    ( ) / . . ( . ) /,

    , ,

    2.5.15 Interpretando e Aplicando o Desvio Padro

    O desvio padro mais a mais usada das medidas de variabilidade. Infelizmente,

    o desvio padro no tem uma interpretao intuitivamente bvia. Por exemplo, no

    exemplo anterior das mquinas, SX = 4,27 unidades por hora, mas no bvio o que isto

    quer dizer para a mquina X. Para muitas sries de dados h dois teoremas para a

    interpretao do desvio padro que so muito teis. Eles so chamados de Desigualdade

    de Chebyshev e a Regra de Gauss, as quais introduzimos a seguir.

    Teorema: Desigualdade de Chebyshev. Para qualquer conjunto de dados e qualquer

    constante h > 1, no mnimo 1 1 2 / h dos dados estaro situados dentro de um intervalo

    formado por h desvios padres abaixo e acima da mdia.

  • 44

    Por este teorema temos certeza de que no mnimo , ou 75 % dos dados iro situar-se

    dentro do intervalo X S 2 . Neste caso h = 2 e 1 1 1 1 2 3 42 2 = =/ / /h . No mnimo

    8/9, ou 88,9 % dos dados estaro no intervalo X S 3 ; e no mnimo 15/16, ou cerca de

    94 % dos valores de qualquer varivel estaro includos dentro do intervalo X S 4 .

    Considere o exemplo anterior das mquinas. Temos X = 40 3, e SX = 4 27, . Que

    percentagem das mquinas ter produo entre X SX = 15 40 3 15 4 27, , , , , ou seja,

    entre 33,9 e 46,7? Resposta: no mnimo 1 115

    0 562 =, , , ou aproximadamente 56 %. Da

    tabela anterior encontramos 9 das 10 mquinas tipo X que esto dentro deste intervalo e

    claramente 9/10 maior do que 56 %.

    A vantagem da Desigualdade de Chebyshev que ela pode ser aplicada variveis com

    qualquer padro de distribuio (no importa que sejam simtricas, assimtricas,

    mesocrticas, platicrticas, leptocticas, etc.). Entretanto, ela tem a desvantagem de no

    ser muito precisa, j que a porcentagem efetiva que caem dentro do intervalo em torno da

    mdia quase sempre muito maior do que o mnimo dado por 1 1 2 / h , especialmente

    quando as amostras so pequenas, como no nosso exemplo anterior.

    Teorema: A Regra de Gauss. Se os dados so amostrais e se so, de forma aproximada,

    distribudos normalmente, ou seja, o histograma dos dados aproximadamente simtrico

    e tem a forma de um sino, ento:

    1. X S1 incluir aproximadamente 68 % dos dados

    2. X S 2 incluir aproximadamente 95 % dos dados

    3. X S 3 incluir aproximadamente 100 % dos dados

    Chamamos isto de Regra de Gauss, porque baseada na distribuio de probabilidade

    gaussiana (ou distribuio de probabilidade normal). Esta distribuio ser discutida em

    detalhe em um captulo posterior.

  • 45

    2.5.16 Coeficiente de Variao

    Com freqncia, como no caso do exemplo das duas mquinas, queremos comparar a

    variabilidade de dois ou mais conjuntos de dados. Podemos fazer isto facilmente usando

    as varincias ou os desvios padres quando, primeiro, todas as observaes individuais

    tm a mesma unidade de medida e, segundo, as mdias dos conjuntos de dados so

    aproximadamente iguais. Quando qualquer uma destas condies no satisfeita, uma

    medida relativa de disperso deve ser usada. Uma medida relativa de variabilidade

    freqentemente usada chamada de coeficiente de variao, denotada por CV para uma

    amostra. Esta medida o valor do desvio padro em relao mdia:

    CVS

    X=

    Suponha que um cientista na ndia obteve os seguintes dados referentes aos pesos de

    elefantes e ratos.

    Elefantes Ratos

    xE = 6 000. kg

    s kgE = 300

    x kgR = 0 150,

    s kgR = 0 04,

    Se calcularmos os respectivos coeficientes de variao, teremos:

    cv(X ou 5,0 %

    cv(X ou 26,7 %

    E

    R

    ) ,

    ),

    ,,

    = = =

    = = =

    s

    x

    s

    x

    E

    E

    R

    R

    300

    60000 050

    0 04

    0 1500 266

    Portanto, a variabilidade relativa dos pesos dos ratos mais do que 5 vezes maior do que

    a variabilidade dos pesos dos elefantes. Para o exemplo anterior das mquinas, teremos:

  • 46

    cv(X ou 10,60 %

    cv(Y ou 28,48 %

    ),

    ,,

    ),

    ,,

    = =

    = =

    4 27

    40 300 1060

    11 62

    40 800 2848

    Assim, a disperso relativa da produo da mquina Y quase trs vezes maior do que a

    disperso relativa da mquina X.

    2.6 Medidas de Assimetria

    Duas distribuies tambm podem diferir uma da outra em termos de assimetria ou

    achatamento, ou ambas. Como veremos, assimetria e achatamento (o nome tcnico

    utilizado para esta ltima caracterstica de forma da distribuio curtose) tm

    importncia devido a consideraes tericas relativas inferncia estatstica que so

    freqentemente baseadas na hiptese de populaes distribudas normalmente. Medidas

    de assimetria e de curtose so, portanto, teis para se precaver contra erros aos estabelecer

    esta hiptese.

    Diversas medidas de assimetria so disponveis, mas introduziremos apenas uma, que

    oferece simplicidade no conceito assim como no clculo. Esta medida, a medida de

    assimetria de Pearson, baseada nas relaes entre a mdia, mediana e moda. Recorde

    que estas trs medidas so idnticas em valor para uma distribuio unimodal simtrica,

    mas para uma distribuio assimtrica a mdia distancia-se da moda, situando-se a

    mediana em uma posio intermediria, a medida que aumenta a assimetria da

    distribuio. Conseqentemente, a distncia entre a mdia e a moda poderia ser usada

    para medir a assimetria. Precisamente,

    Assimetria = mdia - moda

    Quanto maior a distncia, seja negativa ou positiva, maior a assimetria da distribuio.

    Tal medida, entretanto, tem dois defeitos na aplicao. Primeiro, porque ela uma

    medida absoluta, o resultado expresso em termos da unidade original de medida da

    distribuio e, portanto, ela muda quando a unidade de medida muda. Segundo, a mesma

    grandeza absoluta de assimetria tem diferentes significados para diferentes sries de

    dados com diferentes graus de variabilidade. Para eliminar estes defeitos, podemos medir

  • 47

    uma medida relativa de assimetria. Esta obtida pelo coeficiente de assimetria de

    Pearson, denotado por SKP e dado por:

    SKX X

    SPm=

    A aplicao desta expresso envolve outra dificuldade, que surge devido ao fato de que o

    valor modal da maioria das distribuies ser somente uma distribuio, enquanto que a

    localizao da mediana mais satisfatoriamente precisa. Contudo, em distribuies

    moderadamente assimtricas, a expresso

    X X X Xm = 3 5( ).

    adequada (no envolve impreciso muito grande). A partir disto, vemos que:

    X X X X X X X Xm = = [ ( )] ( ). .3 35 5

    Com este resultado, podemos rescrever o coeficiente de assimetria de Pearson como:

    SKX X

    SP=

    3 5( ).

    Esta medida igual a zero para uma distribuio simtrica, negativa para distribuies

    com assimetria para a direita e positiva para distribuies com assimetria para a esquerda.

    Ela varia dentro dos limites de 3. Aplicando SKP aos dados agrupados de gastos com

    consumo de alimentos das famlias, temos:

    SKP =

    = +3 170 25 167 92

    23 710 295

    ( , , )

    ,,

    Este resultado revela que a distribuio de gastos com consumo de alimentos tem

    assimetria moderadamente positiva (o que significa maior concentrao de famlias nas

    classes de menor gasto). muito comum encontrar distribuies positivamente

    assimtricas em dados econmicos, particularmente na produo e sries de preos, os

  • 48

    quais podem ser to pequenos quanto nulos mas podem ser infinitamente grandes.

    Distribuies assimetricamente negativas so raras em cincias sociais.

    2.7 Curtose: uma medida de achatamento

    Apresentaremos agora uma medida de achatamento das distribuies, o coeficiente de

    curtose, denotado por K. Esta medida algebricamente tratvel e geometricamente

    interpretvel. definida como a relao entre o desvio semi-interquartlico, ou seja, a

    metade do valor do desvio interquertlico, e o intervalo entre o decil 9 e o decil 1:

    K

    Q Q

    D D=

    1

    2 3 1

    9 1

    ( )

    Por meio do coeficiente de curtose, classificamos diferentes graus de achatamento em trs

    categorias: leptocrtica, platicrtica e mesocrtica (ver figura, a seguir). Uma

    distribuio leptocrtica (curva a) tem a maior parte de suas observaes concentrada no

    centro. Conseqentemente, a diferena entre as duas distncias, (Q3 - Q1) e (D9 - D1)

    tende a ser muito pequena. Para um dado grau de disperso, quanto menor for o

    achatamento da distribuio, menor ser diferena entre estas duas distncias. Desde que

    (Q3 - Q1) < (D9 - D1) para uma distribuio com forma muito pontiaguda, K aproxima-

    se de 0,5 no limite, quando Q3 - Q1 = D9 - D1. Ao contrrio, quanto mais platicrtica a

    distribuio (curva b), mais o intervalo entre os decis 9 e 1 tende a exceder o intervalo

    interquartlico. Portanto, quando o intervalo de uma varivel tende ao infinito e para uma

    curva completamente achatada, K tende a zero. Em vista destas consideraes, parece

    razovel estabelecer valores prximos de 0,25 para representar distribuies mesocrticas

    (curva c). Esta escolha reforada pelo fato de que para a varivel normal padronizada, k

    = 0,2630 (veremos este ponto em captulo posterior).

  • 49

    Na figura acima se compara a curtose de duas distribuies com a curtose de uma

    distribuio mesocrtica (em linha tracejada). Na figura da direita temos uma distribuio

    platicrtica (linha cheia) e na figura da esquerda temos uma distribuio leptocrtica

    (linha cheia).

    Aps o clculo dos quartis e decis a partir dos dados agrupados para a distribuio de

    gastos com alimentao, temos que:

    K

    Q Q

    D D=

    =

    =

    1

    2 1 2 188 39 154 83

    209 78 146 58

    0 2655

    3 1

    9 1

    ( ) ( / )( . , )

    , ,

    ,

    Este resultado indica que a distribuio de gastos com alimentos aproximadamente

    mesocrtica, j que muito prximo de 0,25.

  • 50

    3. Probabilidade

    Objetivos do captulo:

    Definir o termo probabilidade.

    Descrever as abordagens clssica, da freqncia relativa e subjetiva da probabilidade.

    Entender os termos experimento, espaos amostral e evento.

    Definir os termos probabildade condicional e probabilidade conjunta

    Calcular probabilidades aplicando as regras da adio e da multiplicao

    Determinar o nmero de possveis permutaes e combinaes

    Calcular uma probabilidade usando o Teorema de Bayes

    Probabilidade: uma medida de possibilidade de ocorrncia de um determinado

    evento; ela pode assumir um valor entre 0 e 1

    Evento: Uma coleo de um ou mais resultados de um experimento

    Exemplo: Experimento jogar uma moeda duas vezes

    Possveis resultados (espao amostral) { KK, KC, CK, CC }

    Evento: no mnimo uma cara = {CC, CK, KC}

    Como uma probabilidade expressa?

    Uma probabilidade expressa como uma nmero decimal, tal como 0,70 ; 0,27 ; ou 0,50.

    Entretanto ela pode ser representada como uma percentagem tal com 70 %, 27 % ou 50

    %. O valor de uma probabilidade est localizado no intervalo de nmero reais que vai de

    0 a 1, inclusive as extremidades deste intervalo.

  • 51

    Quanto mais uma probabilidade prxima de 0, o evento a ela associado mais

    improvvel de ocorrer.

    Quanto mais uma probabilidade prxima de 1, o evento a ela associado mais

    provvel de ocorrer.

    3.1 Definio Clssica de Probabilidade

    Probabildade Clssica: baseada na hiptese de que os resultados de um experimento

    so igualmente provveis.

    Usando o ponto de vista clssico:

    resultados possveis de totalnmero

    favorveis resultados de nmero evento um de adeProbabilid =

    Considere o experimento de jogar duas moedas.

    O espao amostral deste experimento S = { CC,CK,KC,KK}

    Considere o evento: uma cara

    21

    4

    2

    resultados possveis de totalnmero

    favorveis resultados de nmero evento um de adeProbabilid ===

    Definies

    Eventos mutuamente exclusivos: a ocorrncia de qualquer um evento significa que

    nenhum dos outros pode ocorrer ao mesmo tempo.

    No caso do experimento de jogar duas moedas, os quatro possveis resultados so

    mutuamente exclusivos.

  • 52

    Eventos Coletivamente Exaustivos: no mnimo um dos eventos deve ocorrer quando o

    experimento conduzido.

    No experimento de jogar 2 moedas, os quatro possveis resultados so coletivamente

    exaustivos.

    Soma das probabilidades = 1

    Desde que cada resultado no experimento de jogar 2 moedas tem probabilidade igual

    a , ento a soma das probabilidades dos resultados possveis + + + = 1

    3.2 Conceito da Freqncia Relativa

    A probabilidade de um evento ocorrer no longo prazo determinada pela

    observao de que frao de vezes o evento ocorreu no passado.

    A probabilidade pode ser calculada pela frmula:

    sobservae de totalnmero

    passado noocorreu evento o que em vezesde nmero e