Probabilidade e estatística

161
, ESTATISTICA , BASICA WILTON O. BUSSAB PEDRO A. MORETTIN

Transcript of Probabilidade e estatística

Page 1: Probabilidade e estatística

, ESTATISTICA , BASICA WILTON O. BUSSAB PEDRO A. MORETTIN

Page 2: Probabilidade e estatística

-.

MÉTODOS QUANTITATIVOS

ESTATíSTICA BÁSICA

Page 3: Probabilidade e estatística

À Lígia e Célia

WILTON O. BUSSAB PEDRO A. MORETIIN

MÉTODOS QUANTITATIVOS

ESTATíSTICA BÁSICA

4!' edição

DEDALUS - Acervo -IME

31000006184

Page 4: Probabilidade e estatística

Capa: Sylvio Ulhoa Cintra Fílho Composição e Artes: AM P~oduções Gráficas Ltda. Assessoria Editorial: Samuel Hazzan

Copyright © Wilton o. Bussab Pedro A. Morettin

B'8& 4. ed.

87-0952

Dados de Catalogação na Publicação (Clr) Internacional (Câmaca Brasileira do Uno, sr, Brasil)

Bussab, Wilton O., 1940-Estatística básica I Wilton O. Bussab, Pedro A. Morettin.

4. ed. - São Paulo: Atual, 1987.

(Métodos quantitativos)

BibJioll rafia .

l. Econometria 2. Economia matemática 3. Estatís,· . , ". 'E . . Iça ma em Ica . . s tatlstJca matemática - Problemas, exercidos dc. r. Moretlm, Pedro A., 1942· 11. Título. 111. Série.

fndlces paca catálogo sistemático:

1. Econometria 33O.D72 2. Estatística econômica: Matemática estatística

519.502433 3. Estatística matemática 519.5 4. Métodos quantitativos · Economia 330.D18

CDO-330.Ol8 ·33O.Q72 -519.5 -519.502433

Copyright desta edição: -UNi"VE-~S7ÕAÓE·ÕÊ · siD P AULO

ATUAL EDITORA LTDA., 1991. Rua José Antônio Coelho, 785

04011 - São Paulo - SP Te!.: (0 11 ) 575-1544

Todos os direitos reservados.

LNLSEC

tnsi'I~:v :!~ M~I~,~ ., tI~ ~ '. E ,I~ ,i ~l ie l

--_._,-.-.--Data I' N;"';: ")lMG~

."'" .J ,. ~

./ ; Rtlg4~~o;:

J..,~-:-51t

NOS PEDIDOS TELEGRÁFICOS BASTA CITAR; O CÓDIGO: ADTM0333L

,

Prefácio à Primeira Edição

Este é o volume de Estatística Básica da nossa série de Métodos Quan­titativos . O objetivo do livro é introduzir os conceitos básicos de Esta­tística, desenvolvendo a linguagem necessária para o acompanhamento de disciplinas mais especializadas, constantes dos currículos de Econo­mia e Administração, tais como Econometria, Estatística Econômica, Estatística Aplicada à Administração, etc.

Para isso dividimos o livro em três partes: Parte I - Análise Explo­ratória de Dados (Capítulos I a 3), onde apresentamos as técnicas des­critivas de análise de dados brutos, enfatizando o conceito de distribuição de freqüências, tanto no caso uni como no bidimensional; Parte 11 -Probabilidades (Capítulos 4 a 7), onde introduzimos o conceito de pro­babilidades, visando a criação de modelos teóricos para as distribuições empíricas apresentadas na Parte I, bem como apresentamos os modelos mais usuais dentro da Estatística; Parte In - Inferência Estatística (Ca­pítulo 8 a 11), onde discutimos os princípios gerais de amostragem, esti­mação e testes de hipóteses , procurando ressaltar as razões lógicas subjacentes a estes conceitos.

O texto destina·se basicamente a um curso de dois semestres, e o material dos sete primeiros capítulos seria o programa do primeiro se­mestre.

O presente trabalho foi surgindo durante vários cursos le.cionados pelos autores, tanto na EAESP-FGV como na FEA·USP, estes sob res­ponsabilidade do IME-USP. Portanto, fomos beneficiados pelas suges­tões, críticas e correções de colegas que lecionaram as mesmas disciplinas. A eles somos profundamente gratos . • Em particular, agradecemos à srta. Lourdes Vaz da Silva pelo per-feito, paciente e dedicado trabalho de datilografar o manuscrito.

S. Paulo, maio de 1981. Os autores .

Page 5: Probabilidade e estatística

Prefácio à Segunda Edição

Na segunda edição muitos erros foram corrigidos e algu ns pará­grafos foram reescritos. Queremos agradecer a vários colegas Que nos beneficiaram com seus comentários e sugestões, especialmente aqueles que têm utilizado o li vro no âmbito do IME-USP.

S. Paulo, janeiro de 1984. Os autores.

Prefácio à Terceira Edição

Nesta terceira edição, aceitando sugestões de professores e alunos, alteramos a ordem dos exercícios , colocando exercícios de aplicações im~­diatas logo após algumas seções teóricas. Mas ainda permanece, nos fI­nais dos capítulos, a seção de Problemas e Complementos, contendo exercícios gerais. Esperamos com isso facilitar aos estudantes a fixação dos conceitos.

Aproveitamos a oportunidade para corrigir os erros das edições an­teriores, bem como reescrever algumas passagens que nos pareciam obscuras.

Novamente, agradecemos a todos aqueles que nos honraram com críticas e sugestões.

s. Paulo, agosto de 1985. Os autores.

Page 6: Probabilidade e estatística

Sumário

PARTE I - ANALISE EXPLORATÓRIA DE DADOS

CAPITULO I - RESUMO DE DADOS

1.1 - Introdução .. .. . ............................ .. ....... .. ......... '....... 1 1.2 - Tipos de Variáveis .. ........ o, ••• ,. '" .................... 0.......... 3 1.3 - Distribuição de Freqüências ................. ................. o.... 5 IA - Representação Gráfica das Variáveis Quanútativas . ........ 8 1.5 - Ramo-e- folhas........................ . ................................ 12

CAPITULO 2 - ALGUMAS MEDIDAS ASSbC1ADAS AVARIÁ VElS QUANTITATIVAS

2.1 - Medidas de Posição .... .. .... ...... .............. 0.. .... ........... 27 2.2 - Medidas de Dispersão ............... 0 . o... .......... .............. 29 2.3 - Outra Estratégia de Análise ........ :..... ... .. .. .. .. .............. 34 2.4 - Desenho~EsQue'mátioo- ...... .. .. ... ... . ... ... ..... ... .. .. .. . 37

CAPITULO 3 - ANÁLISE BlDIMENSIONAL

3.1 - Variáveis Multidimensionais 49 3.2 - (ndependência de Variáveis ... .... ... ..... ........ .. ... .. ..... .... 52

3.3 - Medida de Dependência entr~ .. D~~~·v~~jâ·~~i~·N~~i~~i~::: 55 3.4 - Diagramas de Dispersão . ............. ........ ........... .... ... .. 60 3.5 - Coeficiente de Correlação ............ .... .. .. . ..... .... ... ... ..... 62

PARTE 11 - PROBABILIDADES

CAPITULO 4 - PROBABILIDADES

4.1 - Introdução .. ... . ..... ... .. ... .......... ... ... ..... .... .. . . ....... ..... 74 4.2 - Algumas Propriedades 77 4.3 - Probabilidade COndicio~~·I·~·i~d~;~dê~~i~··: ::: :::::::::::::· 82 4.4 - Teorema de B<i:yes ..... .. ......... ................ .. .......... ..... : 88

CAPiTULO 5 - VARIÁVEIS ALEATÓRIAS DlSCRET AS

5.1 -Introdução ..... ...... ...... .. ... .... ... .. .... ... .... ...... . ...... . .... 97 5.2 - O Conceito de Variável Aleatória Discreta .. .. .. ... . .. ......... 98 5.3 - Valor Esperado de uma Variável Aleatória ..................... 105 5.4 - Algumas Propriedades da Esperança Matemática ..... ..... .. 107 5.5 - Função de Distribuição Acumulada ........... .. ..... ............ 108 5.6 - Alguns Modelos Probabilísticos para Variáveis Aleatórias

Discretas ............... ..... ......................... .. ...... ... I t I

CAPiTULO 6 - VARIÁ VEIS ALEATÓRIAS CONTiNUAS

6.1 -Introdução ...................... .............................. .. .. .... 128 6.2 - Valor Esperado de uma Variável Aleatória Contínua 133 6.3 - Função de Distribuição Acumulada .............................. 136 6.4 - Alguns Modelos Probabilísticos para Variáveis Aleatórias

Contínuas ....... ....... ............................ .. . ........... ....... 139 6.5 - Aproximação Nonnal à BinomiaL ..... ... ....................... 148

CAPiTULO 7 - VARIÁVEIS ALEATÓRIAS MULTlDlMENSIONAIS

7.1 - Distribuição Conjunta ... .. .. .. ......................... ... 157 7.2 - Distribuições Marginais e Condicionais ................... ..... 160 7.3 - Funções de Variáveis AletÓrias. .... .. . .. ........................ .. 163 7.4- Covariância de Duas Variáveis Aleatórias ........ .. . .. ........ 168

. 7.5 - Variáveis Contínuas ........... .. ........... .. .. ... .............. .. 175

PARTE 111 - INFER~NCIA ESTATlsTICA

CAPíTULO 8 - INTRODUÇÃO Á INFERÊNCIA ESTATíSTICA

8.1 -Introdução ..... .... ..... .. ..... ... ....... .. ...... ···· ....... ....... .. . 181 8.2 - População e Amostra .. ....... ... ....... .. ............. ........ ... 181 8.3 - Problemas de Inferência . .. ...... .. ....... .. ..... ............ ..... 184 8.4 - Como Selecionar uma Amostra ................................. 186 8.5 - Amostragem Casual Simples .... ... ... . .. .. ......... .. .......... 187 8.6 - Estatísticas e Parâmetros ..................... .. .... · 0·· · ..... . .... 188 8.7 - Distribuições Amostrais .. ................ .......... . ...... .. ..... 189 8.8 - Distribuição Amostrai da Média .. ..... ....................... 194 8.9 - Distribuição Amostrai da Proporção ... .... . ... ... ..... .... ..... 200 8. 10 - Outras Distribuições Amostrais ................................. 202

Page 7: Probabilidade e estatística

CAPITULO 9 - ESTIMAÇÃO

9.1 - Primeiras Idéias .. .. .......... ... .. .. .................. ....... ... ..... 209 9.2 - Propriedades de Estimadores .. . .. ........... .. ........ .... ......... 212 9.3 - Estimadores de Mínimos Quadrados ........................... 217 9.4 - Estimadores de Máxima Verossimilhança ...... .. ............ . 222 9.5 - Intervalos de Confiança .... ........ .. . ....... ... ........ .. .... 223

CAPITULO 10 - TESTES DE HIPOTESES

10. I - Introdução . . " ......... ..... ..... .. .. . "... ... . . ........ . .. . . 234 10.2 - Um Exemplo ....... ... ........ 0. ' . . ........ . o',.... ... . . ...... .. 234 10.3 - Procedimento Geral do Teste de Hipóteses . .. ....... ... ::::: 243 10.4 - Passos para Construção de um Teste de Hipóteses .. .. .... . 244 10.5 - Testes sobre a Média de uma População com Variância

C h 'd ' M=a .......... lli 10.6 - Poder de um Teste.. . ... 247

10.7 - Teste para Proporçã~ ··:::::::::::: ::::: ::::::::::::: :: :::::::: 252 10.8 - Nível Descritivo.. .. .. ...... .......... . ........ ....... ... .. 255

CAPíTULO 11 - OUTROS TOPICOS

: : '21 - Introdução ...... .. ....... .... ...... ... .......... ...................... 260 . - AJgumas Distribuições Importantes ........................... 260

11.3 - Teste para a Média de uma N(I1; 0"2) , 0"2 desconhecida ...... 269 11.4 - Teste para a Variância de uma N(I1 ; 0"2) • . .••..... ..• .•• .. . .. 272 11.5 - Comparação das Variâncias de Duas Populações normais 274 ' 11 .6 - Comparação de Duas Médias de Populações no rmais ..... . 277 11.7 - Teste de Independência ............. ... ... ...... ... ..... .. ..... .. 286 [ 1.8 - Teste sobre Coeficiente de Correlação ....... .. .. .. .... .. 288

Respostas a Problemas Selecionados ................ . .. ........... .. ..... 310 Bibliografia . .. ............ .. ..... . .............. .. ............. 321

PARTE I ANÁLISE EXPLORATÓRIA DE DADOS CAPíTULO 1

Resumo de dados

=

1.1. INTRODUÇÃO

Em alguma fase de seu trabalho, o pesquisador se vê às voltas com o problema de analisar e entender uma massa de dados, relevante ao seu particular objeto de estudos. Se forem informações sobre uma amostra ou população, ele necessitará resumir os dados para que estes sejam informativos, ou para compará·los com outros resultados, ou ainda para julgar sua adequação a alguma teoria.

De um modo bem geral, podemos dizer que a essência da Ciência é a observação_e que seu objetivo básico é a inferência. Esta pode ser dedutiva (na qual se argumenta das premissas às conclusões) ou indutiva (a.través da qual se vai do específico ao geral).

A inJerência estalÍstica é uma das etapas da Estalistico. Esta é a parte da metodologia da Ciência que tem por objetivos a coleta, redução , análise e modelagem dos dados , a partir do que , fina lmente , faz·se a inferência para uma população, da qual os dados (a amostra) foram obtidos.

Nesta primeira parte do livro estaremos interessados na red~ção , análise e interpretação dos dados sob consideração, adotando um enfoque que chamaremos de análise explorolória de dados. Neste en foq ue tentaremos obter dos dados a maior quantidade possível de informação, que indique' possíveis modelos a serem utilizados numa fase posterior - a análise con· firmat6ria de dados (ou inferência estatística), que será discutida na Parte JIJ do livro.

Tradicionalmente , uma análise descritiva dos dados se limita a cal· cular algumas medidas de posição e variabilidade, como a média e a va· riância, por exemplo.

Contrária a es~a tendência , uma corrente mais moderna , liderada por Tukey (1977), utiliza principalmente técnicas visuais. em oposição aos resumos numéricos.

Page 8: Probabilidade e estatística

II ,1" , •

Fundamentalmente, quando se procede a uma análise de dados, busca-se alguma forma de regularidade ou padrão ou ainda modelo, pre­sente nas observações. Imagine que estamos estudando, por exemplo, a relação entre rendimentos e gastos de consumo de um conjunto de individuos. Podemos obter um gráfico como o da Figura l.1. O que se espera. intuitivamente, é que os gastos de consumo de um indi viduo estejam diretamente relacionados com seus rendimentos, de modo que parece razoável supor uma " relação linear" entre estas duas quantidades. Os pontos da Figura 1.1 não caem todos, evidentemente, sobre uma reta ; esta seria o nosso padrão ou modelo . A diferença entre os dados e o modelo constituem os resídllOs.

Consumo

, /j/~_-I-' ) ~"1d"0 /-., O,do MOd.lo

Rendimento

Fig. 1.1 . Relação entre cOflSumo e rendimento

Podemos, então, escrever, de modo esquemático,

D DOS ~ MODELO + RESÍDUOS pu

(1.1 )

Tukey (1977) chama M de parte suave dos dados, enquanto R é a parte grosseira, o que é, sem dúvida, uma linguagem bastante adequada. A parte R é tão importante quanto M e a análise dos resíduos constitui uma parte fundamental de lodo trabalho estatístico. Basicamente, são os resíduos que nos dizem se o modelo M é adequado ou não para representar os dados. De modo coloquial, o que se deseja é que a parte' grosseira nâo contenha nenhuma " suavidade", caso contrário mais "suavização" é necessária.

Uma análise exploratória de dados busca , essencialmente, esta­belecer (1.1 ).

2

1.2. JIPOS DE VARIÁVEIS

Exemplo 1.1. Um pesquisador está interessado em fazer um levanta­mento sobre alguns aspectos sócio-econômicos dos empregados da seção de orçamentos da Companhia Milsa. Usando informações obtidas na seção de pessoal, ele elaborou a Tabela 1.1.

De um modo geral , para cada elemento investigado, tem-se associado um resultado (ou mais de um resultado) correspondendo à realização de uma certa variável (ou variáveis). No exemplo em questão, conside­rando-se a variável estado civil , para cada empregado temos associada a realização solteiro ou casado. Observamos que o pesquisador colheu informações sobre. seis variáveis: estado civil , educação, número de filhos, salário, idade e região de procedência.

Algumas variáveis como sexo, educação, estado civil , etc. apre­sentam como possíveis realizações uma qualidade (ou atributo) do in­divíduo pesquisado, ao passo que outras como número de filhos, salário , estatura, etc. apresentam como possíveis realizações números resultantes de uma contagem ou mensuração. As variáveis do primeiro tipo são cha­madas qualitativas e as do segundo tipo sào chamadas quantitativas.

Dentre as variáveis qualitativas, ainda podemos fazer uma distin­ção entre dois tipos: variável quali tativa nominal, ~ra a qual não exis!e nenhuma ordenação nas possíveis realizações, e variável qualitativa ordinal, para a qual existe uma certa ordem nos possíveis resultados. A região de procedência no exemplo 1.1 é um caso de variável nominal, ao passo que educação é um exemplo de variável ordinal , pois 1.° gmu, 2.° grau e grau superior correspondem a uma ordenaçào baseada no número de anos de escolaridade. A variável qualitativa classe social , com as possíveis realizações (por exemplo, alta , média e baixa), é um outTO exemplo de variável qualitativa ordinal.

De modo análogo, as variáveis quantitativas podem sofrer uma classificação dicotômica : (a) variáveis Quantitativas discretas, cujos pos­síveis valores formam um conjunto finito ou enumerável de números e que resultam ... freqüent~mente, de uma contagem, como por exemplo núm'e~o de filhos (O, 1,2, ' H); (b) variáveis_Quantitativas contínuas, cujos I!Q.ssí'{e i~.19.í.e.s fQIffiam um intervalo de números reais e que resuIiãiÍÍ , normalmente, de uma mensuração, como por exemplo estãiura oupesi) de um indivíduo.

A Figura 1.2 esquematiza as classificações vistas acima.

3 L.~ ______________________ ~ __________ ~ ________________ ~ __________________ ~

Page 9: Probabilidade e estatística

4

N,'

1 2 3 4 , 6 7 8 9

lO

" 12 13 '4

" '6 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

TABELA 1.I - Informações sobre estado civil, grau de instru­ção, n.O de filhos, salário (expresso como fração do salário minimo) , idade (medida em anos e meses) e procedência de 36 funcionários da seção de orçamentos da Companhia Milsa.

fllado Grau de N." de Salario Idade Região de

civil instrução filhos (X Sal. Min .) anos meses procedência

solteiro L" grau - 4,00 26 03 Interior

casado L" grau 1 4.56 31 lO Capital

casado L" grau 2 5,25 36 05 Capital

solteiro 2." grau - 5,73 20 lO Outro solteiro L" grau - 6,26 40 07 Outro

casado I." grau O 6,66 28 00 Interior

solteiro lo" grau - 6,86 41 00 Interior

solteiro I." grau - 7,39 43 04 Capital casado 2." grau , 7,59 34 'O Capital

solteiro 2." grau - 7,44 23 06 Outro casado 2." grau 2 8,12 33 06 Interior soltçiro L" grau - 8,«> 27 " Capital solteiro 2." grau - I "

8,74 31 05 Outro casado l." grau 3 8,95 44 02 Outro casado 2." grau O 9,13 30 05 Interior soltêiro 2." grau - 9,35_ 38 08 Outro , casado 2." grau , 9,77 31 07 Capital casado I ." grau 2 9,80 39 07 Outro soltiiro superior - 10,53 25 08 Interior , solteiro 2." grau - 10.76 31 04 Interior casado 2." grau , 11,66 30 09 Outro soltcj ro 2." grau - 11,59 34 02 Capital solteiro I." grau - 12,00 4' 00 Outro casado superior O 12,79 26 O, Outro casado 2." grau 2 13,23 32 05 Interior casado 2." grau 2 13,60 35 00 Outro solteiro I ." grau - [3,85 «> 07 Outro casado 2." grau O 14,69 29 08 InterioX casado 2." grau 5 14,71 40 06 Interior casado 2." grau 2 15,99 35 'O Capital sol~éiro superior - 16,22 31 05 Outro casado 2." grau , 16,61 36 04 Interior casado superior 3 17,26 43 07 Capital solte'iru superior - 18,75 33 07 Capital casado 2." grau 2 19.40 48 " Capital casado· superior 3 23,30 42 02 Interior

Fonte : Dados hipotéticos

-==:::: Nominal Qualitativa

< O,di",' Variável

Discreta Quantitativa ~

Continua

Fig. 1.2. Classificação de uma variá\'eJ

Para cada tipo de variável existem tecnicas mai~ apropriadas para resumir as informações ; daí a vantagem de usar uma tipologia de iden· tificação como a da Figura 1.2. Entretanto, iremos verificar que técnicas usadas num caso podem ser adaptadas para outros.

1,3, DISTRIBUiÇÃO DE FREQÜÊNCIAS

Quando se estuda uma variável , o maior interesse do pesquisador é conhecer a distribuição dessa variável através das possíveis realiza­çõcs (valores) da mesma. Nesta seção iremos ver uma maneira de se dispor um conjunto de valores , de modo a se ter uma boa idéia global sobre estes valores, ou seja, de sua distribuição.

Exemplo 1.2. A Tabela 1.2 apresenta a dislribuição de freqüências da variável grau de instrução, usando-se os dados da Tabela 1.1.

Observando·se os resultados da terceira coluna, vê-se que dos 36 empregados da Cia. Milsa, 12 têm o primeiro grau de educação, 18 o segundo e 6 possuem título universitário.

TABELA 1.2 - Freqüências e porcentagens dos 36 empregados da seção de orçamentos da Companhia Milsa , segundo o grau de instrução.

Grau de Contagem

Freqüência Proporção Porcentagem instrução "; J; 100 'J;

1.° grau tt+t tt+t 11 12 0,3333 33,33 2.° grau +t++ +t++ +l+H III 18 0,5000 50,00 Superior +t++ I 6 0,1667 16,67

TOTAL 36 1,0000 100,00

Fonte : Tabela 1. 1

5

Page 10: Probabilidade e estatística

Uma medida bastante útil na interpretação de tabelas de freqüências é a proporção de cada realização em relação ao total. Assim, 6/36 = = 0,1667 = 16,67% dos empregados da Cia. Milsa (seção de orçamento) têm instrução superior. Na última coluna da Tabela 1.2 são apresentadas as porcentagens para cada realização da variável grau de instrução. Usa­remos a noração n j para indicar a freqüência de cada classe, ou categoria da variável , e a notação fi = nJn para indicar a proporÇão (ou freqüência relativa) de cada classe , sendo n o número total de observações. As propor­ções são muito úteis quando se quer comparar resultados de duas pes­quisas distintas. Por exemplo, suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Cia. Milsa. Digamos que a empresa tenha 2.000 empregados e que a distribuição por freqüências seja a da Tabela 1.3.

TABELA 1.3 - Freqüências e porcentagens dos 2.000 emprega­dos da Companhia Milsa, segundo o grau de instrução.

Grau de Freqüência Porcentagem

instrução

1.° grau 650 32,50 2.° grau 1.020 51 ,00 Superior 330 16,50

TOTAL 2,000 100,00

Fonle: Dados hipotéticos

Não podemos comparar diretamente as colunas das freqüências das Tabelas 1.2 e 1.3, pois os totais de empregados são diferentes nos dois casos. Mas as colunas de porcentagens são comparáveis, pois reduzimos as freqüências a um mesmo total (no caso 100).

A construção de tabelas de freqüências para variáveis contínuas necessita de certo cuidado. Por exemplo, a construção da tabela de fre­qüências da variável salário não resumirá as 36 observações num grupo menor, pois não existem observações semelhantes. A solução empregada é agrupar os dados por faixas de salário.

6

,

Exemplo J 3. A Tabela 1,4 dá a distribuição de fr~qüên~ias dos sa,lá­, d s 36 empregados da seção de orçamentos da CJa, Milsa por faixa

nOS o

de salário, Procedendo-se dessa maneira, ao resumir os dados referentes a uma

.. I con!"nu> perde-se alguma informação, Por exemplo, nào temos va nBve , _ 'd ' 'a de como se distribuem os 8 salários da classe de 12 a 16, a nao ~er , " ,'nvestiguemos os dados originais (fabela l.l), Sem perda de mUlta que I '

',a-o podemos supor que todos os 8 salários daquela c asse sejam precI , . , . ., ' 'fi , ais ao ponto médiO da refenda classe, Isto e, 14 (o leitor pode ven lcar :~al o erro cometido, comparando-os com os dados originais da Tabela 1.1 ). Voltaremos a este assunto no Capítulo 2.

TABELA IA - Freqüências e porcentagens dos 36 empregados da seção de orçamentos da Companhia Milsa , por faixa de salário.

Classe de Freqüência Porcentagem salários no 100 • lo

4,00 I-- 8,00 10 27 ,78

8,00 ~12,00 12 33,33

12,00 ~ 16,00 8 22,22

I 6,00 ~ 20,00 5 13,89

20,00 ~ 24,00 I 2,78

TOTAL 36 100,00

Fonte: Tabela 1.I

A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe irá indicar quantas e quais classes (ou intervalos) devem ser usadas, Entretanto, deve-se observar que, com um pequeno número de classes, perde-se in fonnação, e com um número grande de classes, o objetivo de resumir os dados fica prejudicad~, Normalmente, sugere-se o uso de 5 a 15 classes com a mesma amplitude.

7

Page 11: Probabilidade e estatística

PROBLEMAS

I. Para cada uma das variáveis abaixo, indique a escala que usualmente é adotada para resumir os dados em tabelas de freqüências:

(a) Salários de empregados de uma indústria. (b) QI dos funcionários de uma seçãO'. (c) Numero de respostas certas de alunos num teste com \O itens. (i!) Idem para um teste com 100 itens. (e) Porcentagem da receita de municlpids aplicada em educação. (J) Opinião dO's empregados da PW Indústria c Comércio sobn: a realização ou nãO'

de cursos obrigatórios de treinamento. I

2. UsandO' O'S dados da Tabela l.1 , construa a distribuiçãO' de freqüências das variáveis :

(a) estado civil j (b) região de procedência ; (c) número de filhos; (d) idade.

1.4. REPRESENTAÇÃO G.RÁFICA DAS VARIÁVEIS QUANTITATIVAS

A representação gráfica da distribuição de freqüências de uma va­riável tem a vantagem de, rápida e concisamente, informar sobre a varia­bilidade da mesma. Existem várias maneiras de se fazer a representação gráfica e iremos abordar aqui os casos mais simples para variáveis quan­titativas. No Capítulo 2 voltaremos a tratar deste assunto , em conexão com me;didas associadas à distribuição de uma variável.

Exemplo J.4. Estamos interessados em estudar a distribuição do número de filhos dos empregados casados da seção de orçamentos da Cia. Milsa (Tabela LI). A tabela de freqüências e porcentagens está na Tabela 1.5.

Em seguida, usamos um gráfico para representar os pares (Xi' nJ Estes pontos estão representados na Figura 1.3 (a). O gráfico tambem pode ser feito usando-se os pontos (Xj,JJ, mas a forma da distribuição não sofrerá modi ficação alguma, devido à proporcionalidade existente entre OS nj e os k A Figura 1.3 (b) é a representação gráfica dos pares (x"fi).

Para variáveis quantitativas continuas necessita-se de alguma adap­tação, como no exemplo a seguir.

Exemplo J .5. Queremos representar graficamente a distribuição da variável S = salário dos empregados da seção de orçamentos da

8

7

6

5

4 • • • Jt

• • • 2-• • • ,; • • • •

01

TABELA 1.5 - Freqüências e porcen tagens dos empregados da seção de orçamentos da Companhia Milsa , se­gundo o número de filhos.

N.0 de filhos Freqüência Porcentagem x, n, 100 'J,

O 4 20;:: 1 5 25% 2 7 35% J J 15% 5 1 5%

TOTAL 20 100%

Fonte: Tabela 1.1

Freqü-;;c i~ roporç.lio )

• · • • • 0,30

• • • • • • 0,20 • • • • • • • · • • • •

• • · • • • • • • • • • • • • • • • • ·

• • • • • 0,10 .. • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • · •

• · • • • • • • • • • • • • • • • • • • · • · • • • • • . • . • • •

2 4 5 N." de 01 2 3 4 5 N:' de filhos filhos

,.) lO)

Fig. 1.3

9

Page 12: Probabilidade e estatística

Cia. Milsa. A Tabela 1.4 fornece a distribuição de (eqüência de S. Para uma representação similar à da Figura J .2, devemos usar o artifício de aproximar a variável contínua por uma variável discreta , sem perder muita informação. Isto pode ser feito supondo·se que todos os salários em uma determinada classe de salário são iguais ao ponto médio dessa classe. Assim, os 10 salários situados na primeira classe (4,00 f- 8,00) serào admitidos iguais a 6,00, os 12 salários da segunda classe (8,001--12,00) serào admitidos igUais a 10,00 e assim por diante. Então, podemos reescrever a Tabela 1.4' introduzindo os pontos médios das classes. Esses pontos estão na segunda coluna da Tabela 1.6.

Com a tabela assim construída podemos representar os pares (Si' n/) ou (5;, f;) como no caso anterior. A Figura 1.4 é a representação gráfica dos pontos (shfi)'

TABELA 1.6 - Distribuição de freqüência da variável S= sa· Iário dos empregados da seção de orçamento da Companhia Mílsa.

Classe de Ponto médio Freqüência Porcentagem salários s, n, 100 ,1,

4,00 f-- 8,00 6,00 10 27,78 8,00 >-- 12,00 10,00 4{') 33,33

12,00 >-- 16,00 14,00 8 22,22 16,00 f-- 20,00 18,00 5 13,89 20,00 >-- 24,00 22,00 I 2,78

TOTAL - 36 100,00

Fonte; Tabela 1.4

o artificio usado acima para representar a variável contínua faz com que se perca muito das informações nela contidas. Uma alternativa a ser usada nestes casos é o grãfico conhecido como histograma.

Exemplo 1.6. Usando ainda a variável S=salário dos empregados da seção de orçamentos da Cia. Milsa , apresentamos na Figura 1.5 o histograma de sua distribuição.

10

O.'" 0.25

0,20

0,15

0.10

0,05

• •

· • • • • · : : : : :.

-t------c~.c-L---~~----~~----~.~----~~.~--~ 6,00 10,00 14,00 la.oo 22,00 S( _

Densidade da Frequência

0,080

0,060

0,040

0,020

.

,,%

4,00

Fig. 1.4

,,%

,,%

8,00 12.00 16,00

- •

14%

,%

I 20.00 24,00 Salá rios

Fig. 1.5. Histograma da variável S = salário dos empregados da seção de orçamentos da Companhia MUsa

11 lL-__________ ~~ ______ -L ____ ~ ________ ~ ____ ~

Page 13: Probabilidade e estatística

o histograma é um gráfico por setores contíguos, onde a altura é proporcional a f" e a base é constilUída por um segmento cujos extremos representam os extremos da i-ésima classe . O único cuidado a tomar é de que a área total da figura seja igual a I , correspondendo á soma total das proporções.

Para facilitar o entendimento, foi colocada acima de cada setor a respectiva porcentagem das observações. Assim, através da figura po- I

demos dizer que 61 % dos empregados têm salário inferior a 12,00 salá­rios mínimos, ou 17% possuem salário superior a 16,00 salários mínimos.

Do mesmo modo que usamos um artificio para representar a variável contínua como uma va riável discreta , podemos usar um artificio para construir um hi stograma para variáveis discretas. A Figura 1.6 é um exem­plo de como ficaria o histograma da variável X = número de filhos dos empregados da seção de orçamentos da eia. Milsa , segundo os dados da Tabela 1.5. Deixamos a cargo do leitor a interpretação das suposições subjacentes admitidas para a construção do gráfico , pois acreditamos que ele seja suficientemente explicito (compare com a Figura 1.3).

Freqüências

35%

25%

20%

15%

5%

I I O 1 2 3 4 5 N~ de filh .,

Fig_ 1.6. Histograma ajustado para a variável número de filhos dos 36 em­pregados da seção de orçamentos da Companhia Milsa

":5. RAMO-E-FOLHAS

Tanto o histograma como os gráficos das Figuras 1.3 e 1.4 dào uma idéia da forma da distribuição da variável sob consideração. Veremos,

12

no Capítulo 2, outras características da distribuição de uma variável, como medidas de posição e de dispersão. Mas a forma da distribuição , tão importante quanto estas medidas. Por exemplo, saber que a renda ;er capita ~ uma comunidade é tantos salários mínimos pode ser um dado interessante, mas saber como esta renda se distribui é mais im­

portante. Um procedimento alternativo para resumir um conjunto de valores,

com o objetivo de se obter uma idé\a da forma da sua distribuição, é o ramo-e-folhas (Tukey, 1977). Uma vantagem do ramo-e-folhas sobre o histograma é que não perdemos informação sobre os dados em si.

Exemplo 1.7. Na Figura 1.7 construímos o ramo-e-folhas dos sa­lários dos 36 empregados da eia. Milsa (Tabela 1.1). Não existe uma regra fixa para construir o ramo-e-folhas, mas a idéia básica é dividir cada ob­servação em duas partes: a primeira (o ramo) é colocada à esquerda de uma linha vertical, a segunda (a folha) é colocada à direita. Assim, para os salários 4,00 e 4,56, o 4 é o ramo e 00 e 56 são as folhas.

4 5 6 7 8 9

10 II 12 13 14 15 16 17 18 19 20 21 22 23

()()

25 26 39 12 13 53 06 ()()

.23 69 99 22 26 75 40

30

56 73 66 44 46 35 76 59 79 60 71

61

86 59 74 77

85

95 80

Fig. 1.7. Ramo-e-folhas dos salários de 36 empregados da Cia. Milsa , em S.M. (Fome: Tabela 1./)

13

Page 14: Probabilidade e estatística

,

Algumas infonnaçõcs que se obtêm deste ramo-e-folhas são:

(a) Há um destaque grande para o valor 23,30. (b) Os demais valores estão razoavelmente concentrados entre 4,00 e 19,40. (c) Um valor mais ou menos típico para este conjunto de dados poderia

ser, por exemplo, 10,00. (ti) Há uma leve assimetria em direção aos valores grandes; a suposição

de que estes diidos possam ser considerados como uma amostra de uma população com distribuição normal pode ser questionada.

A escolha do número de linhas do ramo-e-folhas é equivalente à escolha do número de classes do histograma. Um nÚmero pequeno de linhas (ou de classes) enfatiza a parte M da relação (1.1), enquanto um número grande de linhas (ou de classes) enfatiza a parte R.

Exemplo Ui. Os dados abaixo referem-se à dureza de 30 peças de alumínio (Hoaglin, Mosteller e Tukey, 1983, pág. 13).

53.0 53.4 95.4 53.5 72.3

70.2 82.5 51. 1 64.3 59.5

84.3 67.3 74.4 82.7 55.3

69.5 54.1 55.7 78.5 73.0

77.8 70.5 63.5 55.7 52.4

87.5 71.4 85.8 69.1 50.7

Na Figura 1.8 temos o ramo-e-folhas correspondente. Aqui, optamos por truncar cada valor, omitindo os décimos, de modo que 69.1 e 69,5 , por exemplo, aparecem como 9 na linha que corresponde ao ramo 6.

5 O 1 2 3 3 3 4 5 5 5 9 6 3 4 7 9 9 7 O O 2 3 4 7 8 8 2 2 , 5 7 9 5

Fig. 1.8. Ramo-e-folhas dos dados de dureza de peças de alumínio

Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira alternativa é duplicar os ramos. Criamos os ramos 5* e 5- ,6* e 6-etc., onde colocamos folhas de O a 4 na linha· e folhas de 5 a 9 na linha- . Obtemos o ramo-e.folhas da Figura 1.9.

1.

5' O 2 3 3 3 4 5' 5 5 5 9 6' 3 4 6' 7 9 9 7' O O 2 3 4 7' 7 8 8' 2 2 4 8' 5 7 9' 9' 5

Fig. 1.9. Ramo-e-follras do exemplo / .8, com ramos dil'ididos

Para outros exemplos, ver problema 17.

PROBlEMAS

J Contou-se o número de erros de impressão da primeira página de um jornal durante . 50 dias. obtendo-se os resultados abailo. ,

" ,

" 14 IJ " 14 14 5

O 10 14 "

O " 1 5 , , 10 Ió 10 " "

, " O 1 12

1 10 14 5 " 1 , 12 " • 14 , 14 , 12 10 12 2J: 1 15

ta) Reprl!scnte os dados graficamente. 11>1 Faça um histograma e um ramo-e-rolhas.

... Usando os resultados do problema 2:

tal construa um histogn.ma para a variável idade: ._ (1)1 proponha uma representação grárica para a variável grau de mstruçao.

S. As talas medias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil estão dadas abailo (ver Tabela do problema 181.

3,67 1.82 3.73 4.10 4.30 1.28 8.14 2.43 4.17 5.36 3.96 6,54 5.114 7.35 3.63

2.93 2.82 11.45 5.28 5.41 7.77 4.65 1.118 2. 12 4.26

2.78 5.54 0.90 5.09 4.07

(a) Construa .um histograma . (/I) Construa um ramo-e-rolhas.

lfi

Page 15: Probabilidade e estatística

6. Você foi convidado para chefiar a Seção de Orçamtntos ou a Seção Têcnica da Milsa. Após analisar o tipo dc serviço que cada seção executa, voce ficou indeciso e resolveu transferir a decisão para o tipo de funcionário que voce iria encontrar em cada seção. Assim a Seção Pessoal forn ea:u os dados da Tabela 1.1 para os funcionarios da Seção de Orçamentos, ao passo que para a Seção Têcnica os dados vieram agrupados segundo as tabelas abaixo:

Freqüência dos 50 empregapos da Seção Técnica da Milsa, segundo :

Baseado nesses dados, qual seria a sua decisão? Justifique.

PROBLEPo!AS E COMPLEMENTOS

7. A PW Indústria e Comércio, desejando melhorar o nivel de seus funcionários em car­gos de chefia, montou um curso experimental e indicou 25 runcionários para a pri· meira turma. Os dados referentes à seção a que pertencem, notas e graus obtidos no curso estão na tabela a seguir. Como havia dúvidas quanto à adoção de um imico critêrio de avaliação. cada instrutor adotou seu próprio sistema de aferição_ Usando os dados daquela tabela. responda as questões:

'6

(a) Após observar atentamente cada variável. e com o intuito de resumi-Ias, como ê que voce identificaria (qualitativa ordinal ou nominal e quanti tativa discreta ou contínua) cada uma das 9 variáveis listadas?

(b) Compare e indique as diferenças existentes entre as distribuições das variáveis Direi to. Política e Estatistica.

(e) Construa o histograma para as notas da varjãvel Redação. (d) Construa a distribuição de frequências da variável Metodologia. e faça um gráfico

para indicar essa distribuição. (e) Sorteando ao acaso um dos 25 funcionários, qual a probabilidade de que ele tenna

obtido grau A em Metodologia? fi) Se em vez de um, sorteássemos dois, a probabilidade de que ambos tivessem tido

A em Metodologia ê maior ou menor do que a resposta dada em (e)'! (g) Como ê o aproveitamento dos funcionários na disciplina Estatística. segundo a

seção a que eles pertencem?

., 1<u~u«uu~u~~u~~<uuu~~<u« • :;:

'7

Page 16: Probabilidade e estatística

18

8. In ten .a los de Classes Desiguais ~ É muito comum o uso de classes com tamanhos desi. guais no agrupamento dos dados em tabelas de frequências. Nestes casos deve-se tomar alguns cuidados especiais quanto à análise e construção do his tograma.

A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o nu­mero de empregados. Uma análise superficial pode levar á conclusão de que a con. centração vem aumentando até atingir um máximo na classe 40 I-- 60, voltando a diminuir depois. mas não tão acentuadamente. Porém, um estudo mais de talhado revela que a ampli tude da classe 40 I-- 60 e o dobro da amplitude das classes anteriores. Assim, espera-se que mais elementos caiam nessa classe, meSmo que a concentraçào seja levemente inferior. Então. um primeiro cuidado é construir a coluna que indica as amplitudes d i de cada classe. Estes valores estão representados na terceira coluna da tabela.

Distribuição de 250 empresas segundo o numero de empregados

NUIIIl.'r(I de FreqühJcia Ampli1!4de Densidade Proporçâo Den.!ipatie empregados ", 6 , n ;/ tJ. J J, f r/tJ. J

Of- 10 5 10 0,50 0.02 0,0020 10 f- 20 20 10 2,00 0,08 0,0080 20 I- 30 35 10 3.50 0.14 0.0140 30 I- 40 40 10 4,00 0,[6 0.0[60 40 i--- 60 50 20 2,50 0,20 0,0100 60 I-- 80 30 20 1.50 0,12 0,0060 80 I-- 100 20 20 1,00 0,08 0,_

100 1--140 20 40 0,50 0,08 0,0020 140 I- 180 15 40 0.38 0.06 0,0015 180 1- 260 15 80 0,19 0.06 0.0008

TOTAL 250 - - 1.00 -

Um segundo passo é a construção da coluna das densidades de freqüências em cada classe. que e obtida dividindo as freqüências 11; pelas amplitudes tJ. i • Ou seja. a medida que indica qual a concentração por unidade da . variável. Assim, observando-se os m,imcros da quarta coluna, vê-se que a classe de maior concentração passa a ser a 30 I-- 40, enquanto que a ultima e a de menor concentração. Pa ra compreender a dis­tribuição. estes dados são muito mais informativos do que as freqüências absolutas simplesmentc.

De modo anMogo . . pode.se conStruir a densidade da proporção (ou porcentagem) por unidade da variável (verifique a construção atravês da 5," e 6." colunas). A inter­pretação para f d tJ. , é muito semelhante àquela dada para ndtJ.

I,

Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%). o que sugere usar no eixo das ordenadas os valores de f;/tJ. i . O histograma para estes dados estâ na Figura 1.10.

O"".õded<l

". 0,0160 ... 0.0140

0.0120 ,,, 0,0100 r---..

';0,080

'" "J O

'06O I-- ..

,) 0,040 I--0)0,020 n

" 2030 40 " " ""

" " ''''

Fig. I. \O

"" 260 N ~ de empreg.oo.

51. Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais.

(o) Construa os histogramas das duas distribuições. (b) Com base nos histogramas discuta e compa re as duas distribuições.

C/asses de oluguéiJ ZOlla Zona (codificados) urbana rural

2f- 3 10 30 3f- 5 40 50 5f- 7 80 15 71--10 50 5

101--15 20 O

TOTA L 200 100

, Histograma Alisado - Na Tabela 1.4 tem-se a distribuição de freqÜências dos salârios de 36 funcionârios, agrupados em classes de amplitude 4. Na Figura 1.5 tem-se o res­pectivo histograma. Rcagrupando-se os dados em classes de amplitude 2. obter-se-ia a .seguinte tabela de freqÜências e o correspondente histograma.

19

Page 17: Probabilidade e estatística

20

C/anO' de FreqU(;nl';{/ .!Olâr;(Js ",

4.00 I- 6,00 4 6,00 I- 8.00 6 8.00 1-10,00 8

10,00 1- 12,00 4 12.00 t- 14,00 I 14,001-16.00 ]

16,00 I- 18,00 3 18.00 1- 20.00 2 20,00 I- 22,00 O 22.00 I- ~4.00

TOTAL 36

6, -

~

r--C- f-

r-

n 4 6 8 10 12 14 16 18 20. 22 24 Salários

Fig. LI J. (a)

SI:: houvesse um numero suficientemente grande de observações. poder-se-ia ir dimi­nuindo os intervalos de cfasse, e o histograma iria fica ndo cada vez menos irregular, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o comporta­~ento da distribuição dos salários poderia ter a representação da Figura 1.II(b). Esse histograma alisado ti muito útil para ilustrar rapidamente qual o tipo de COmpor- _ lamento que se espera para a distribuição de uma dada variavel. No capitulo referente a variáveis aleatórias continuas, voltar-se-á a estudar esse histograma sob um ponto de vista mais matemático. A interpretação desse gráfico é a mesma do histograma. Assim. nas regiões onde a curva ê mais alta, significa uma maior densidade de observaçõcs. No c)templo acima. conforme se aumenta o salário, observa-se que a densidade de freqüência vai diminuindo.

'" - , '!/ÓI ",

'!',..~ " '"

Salários

Fig. \.lI. (b)

11. Esboce o histograma alisado para cada uma das situaçõcs descritas abaixo :

(a) Distribuição dos salários registrados em çarteira de trabalho de moradores da ddade de São Paulo.

(h) Distribuição das idades de alunos de uma Façuldade de Economia e Administração. (e) Distribuição das idades dos alunos de uma classe da Faculdade do item anterior.

Compare as duas distribuições. (J) Distribuição do número de óbitos segundo a faixa etária (e) Distribuição do número de divórcios (desquites) segundo o número de anos de

casado. (f) Distribuição do número formado pelos dois últimos algarismos do primeiro prê­

mio da Loteria Federal. durante os la últimos anos.

12. Faça no mesmo gráfico um esboço das três distribuições descritas abaixo:

(a) Distribuição das alturas dos brasileiros adultos. (b) Distribuição das alturas dos suecos adultos. (c.) Distribuição das alturas dos japoneses adultos.

13. Freqüências Acumuladas - Uma outra medida muito usada para descreve~ dados quan· titativos é a freqüênCia acumulada, que indica quantos elementos, ou Que porcentagem deles, estão abaixo de um ceno valor. Na tabela a seguir. a terceira e a Quinta colunas indk;am respectivamente a rreqúência absoluta acumulada e a proporção (porcentagem) acumulada. Assim, observando a tabela podemos arinnar que 27,78% dos indi\líduos ganham até 8,00 salários mínimos: 61.11 % ganham até 12,00 salários mínimos; 83.33% ganham até 16.00 salàrios minimos ; 9722% ganham até 20,00 salários mínimos e 100"10 dos runeionários ganham até 24.00 salários.

21

Page 18: Probabilidade e estatística

I~

Classe de FreqUência Frequênc;a

Porcentagem Porcentagem

acumulada acumulada salários " N, 100 'f! 100 .FI

4,00 I- 8,00 10 10 27,78 27,78

8,001-12,00 12 22 33,33 61,11

12,001-16,00 8 30 22,22 83,33

16,00 I- 2Q,OO 5 35 13,89 97;12 20,00 I- 24,00 36 2,78 100,00

TOTAL 36 [00,00

A Figura 1.12 é a ilustração gráfica da porcentagem acumulada.

100 ------------------::~~--

80

60

40

20

4 8 12 16 20 24 Salérios

Fig. 1.12

Este gráfico pode ser usado para fornecer informações adicionais. Por elemplo, para saber qual o salário s. tal que 50% dos funcionários ganham menos. do que 5, basta procurar o ponto (5,50) na curva. Observando as linhas pontilhadas no gráfico, ve ri ­ficamos que a solução é um pouco mais do que la salários mimmos.

14. Usando os dados da Tabela 1.[:

(a) Construa a distribuição de frequências para a variável idade. (h) Faça o gráfico da porcentagem acumulada. (c) Usando o gráfico anterior ache os valores de s correspondentes aos pontos (s, 25%),

(s,5O%) e (s, 75~";).

15. Fr«jiiêncill$ Acwnuladll$ (continuação) - Para um tratamento estalÍstico mais rigoroso das variáveis quantitativas, cosluma-se usar uma definição mais precisa para a dis­tribuição das freqüências acumuladas. Em capitulos posteriores serã vista a sua utilização.

22

-fIaiçio. Dadas 11 observações de ~ma variável quan~itativa, e um n~mer.o :c real

De I uer. indicar-se-á por N{.>::) o numero de observaçoes menores ou IguaiS a x, e

:rn~-se de Junrão disfribuição acumulada fj,d,a. ) a função

F,(:c) = N(x) • , Extmplo 1.9. Para a variável S= salário dos ]6 funcionários listados na Tabela 1.1 ,

ê fIIci! verificar que:

0 , se s <4,OO 1

]6' se 4,00 ~.{ < 4,56

2 ]6 ' se 4,56,,;; s < 5,25

I , se s~2],30

frtqUtncia acumulada

" " " " " " " " " " " " • " • .,.

2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 Salários

Fig. l.l J

Àqueles não familiarizados com a representação gráfica de funções, recomenda-se a leitura do volume 1 desta serie.

23

Page 19: Probabilidade e estatística

Exemplo I. /O. Esta definição também vale para variaveis quantitativas discretas. Assifll, para a variável número de filhos resumida na Tabela 1.5, tem-se a seguinte f.d.a.:

0,00, " x <O 0,20, " O...;;;x < I

FlO(X) = 0,45, " l~x<2

0,80, " 2~x<3 0 ,95, " 3...;;;x<5 1,00, " x~5

cujo gnifico é o da Figura 1.14.

1,00 • • , 0,80 • ,

0,60 . ~

• o 0,40

0,20+-_ I

o 2 3 4 5 ,

F;g, 1.14.

16. Construir a f.d.a. para a variâvel idade referente aos dados da Tabela 1.1.

7. amo--e·folhas (continuação) - Os dados abaixo referem-se 11. produção, em toneladas,

24

e dado produto, para 20 companhias quimicas (numeradas de I a 20).

(1,50), (2,280), (3,560). (4,170), (5.180), (6,500), (7,250), (8,200), (9, 1050), (1 0,240), (J 1,180), (12,1000), (13.1100), (14,120) , (15,4200), (16,51 (0), (17,480), (18.90), (19.870), (20,360).

,

Vemos que os valores eSlendem-se de 50 a 5. 100 e, usando uma representação seme­lhante 11. da Figura 1.7. teriamos um grande numero de linhas. A Figura 1.15 (a) mostra uma o utra forma de ramo-e-fo lhas, com ramos divididos. A divisão ocorre no ramo, cada vez que se muda por um fator de la.

Uma economia de 4 linhas poderia ser obtida. representando_se os valores 50 e 90 da Figura 1.15 (a) num ramo denominado O. Obtemos a Figura 1.1 5 (b).

Fig. 1.1 5, Ramo-e-folhas das produções de 20 companhias químicas, em toneladas.

MWJicipio Populaçiio

I São Paulo (SP) 849,3 C 2 Rio de laneiro (RJ) 509,3

J Belo Horizonte IMO) ~1J-178 i l ~ 4 Salvador (SA) 150,6 \}-'i).. 5 Fortaleza (CE) 130,8

6 Recife (PE) 120,4 7 Brasilia (DF) 117,7

8 Porto Alegre (RS) ..JliD 9 Nova Iguaçu (RJ) 109,4

10 Curitiba (PR) 102,5

11 Belém (PA) 93.4 '\ I T 12 Goiânia (GO) 71.7 ~ ~L- '-

lJ Campinas (SP) 66,4 14 Manaus (AM) 63.4

15 São Gonçalo (RJ) 61 ,4 t 25

Page 20: Probabilidade e estatística

Município

lO Duque de Caxias (RJ)

17 Santo Andrê (SP)

18 Guarulhos (SP)

19 Osasco (SP)

20 São Luis (MA)

21 São Bernardo do Campo (SP)

22 Natal (RN) 2l Santos (SP) 24 Niterói (RJ) 25 Maceió (AL) 26 São João de Meriti (RJ) 27 Teresina (PI) 28 Campos (RJ) 29 Jaboatão (PE) lO João Pessoa (PB)

Fonte : Sinopse Estalistica do Brasil. 1981. FIBGE

26

População

57,5 55.2 53,2 47.3 44,9 42,5 41 ,7 41 ,6 40,1 40,0 39,8 37,8 34,9 33,1 33,0

-

-

CAPíTULO 2 Algumas medidas associadas

a variáveis quantitativas

2.1 . MEDIDAS DE POSiÇÃO

Vimos que a redução dos dados através de ramo-e-folhas e tabelas de freqüências fornece muito mais informações sobre o comportamento de uma va riável do que a própria série original de dados. Contudo, muitas vezes, queremos resumir ainda mais esses dados, apresentando um ou alguns valores que sejam "representativos" da série toda. Quando usamos um SÓ valor , obtemos uma redução drástica dos dados . Usualmente CIllprega-se uma das seguintes medidas de posição central: média arit­mética. mediana ou moda.

A moda, Mo , é definida como ealiza -o mais freqüente do con-junto de valoreLobsea adQs. Por exemplo, considere a variável número de filhos por funcionário casado, resumida na Tabela 1.5, do Capítulo I. Vemos que Mo é 2, correspondente à realização com a maior freqüência , 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuição dos valores pode ser bimodal , trimoda l, etc.

A mediana, Md, é a realização que ocupa a posição<.Ç entra da série de observações quando estas estão ar erractas segundo suas grandezas (crescente ou decrescenTemente):-Assim-;""se as cinco observações de uma variável forem 3, 4, '!J 8 e 8, a mediana é o valor 7, correspondendo à ter· ctira observação. Quando o numero de observações é par , usa-se como mediana a média ari tmética das duas observações centrais. Assim, se as observações de uma variável são 3, 4. 7, 8, 8 e 9, a mediana é

Md = 7+8=75 2 ' '

Finalmente, a média aritmética , Me, conceito fami liar ao leitor, é a soma das observações dividida pelo numero delas. Assim, a média arit-

mética de 3, 4, 7. 8 e 8 é Me=3 + 4 +7+8 +8 =30 =6 5 5·

27

Page 21: Probabilidade e estatística

Exemplo 2.1. Usando os dados da Tabela 1.5, já encontramos que a moda da variável número de filhos é Mo = 2. Para a mediana, COns. tatamos que Md = 2, média aritmética entre a décima e a décima primeira observações. Finalmente a média aritmética será

M = 4 x 0 +5 x I + 7 x 2 + 3 x 3 + 5 x I = 33 = I 65 e 20 20 "

Neste exemplo, as três medidas têm valores bem próximos e qual. quer uma delas pode ser usada como "representativa" da série toda. A média aritmética é, talvez, a medida mais usada. Contudo, ela conduz a erros de interpretação. Em muitas situações a mediana é um valor mais adeq uado. Voharemos a este assunto logo mais e proporemos Um conjunto de medidas que julgamos serem mais adequadas para repre. sentar um conjunto de dados.

A média aritmética pode ser expressa através do uso do símbolo de somatório. Se Xl' ... , Xi são os k valores distintos da variável X, po. demos escrever

M (X) = Xl + ... + Xi = ~ ~ . e k k .L ~. ,. , (2. I)

Agora , se temos n observações da variável X , das quais fi ] sào iguais a Xl' n z iguais a Xz. etc. , 11. iguais a Xk> então a média aritmética de X será dada por

M e(X) = nJX] + IIZX 2 + ... + !lkX~ n

1 ' = - L fl jXj.

fi i'" 1 (2 .2)

n Se !; = --1. representa a freqüência relati va da observação X;, então

n (2.2) também pode ser escrita

, M e(X) ~ L /;x;. (2.3)

;"' 1

De ora em diante denominaremos a média aritmética simplesmente de média e, às vezes , será denotada por x, ou sCJa,

, Me(X) ~ 'i ~ L /;X;. (2.4)

;=1

Exemplo 2.2. A determinação das medidas dc tendência cen trá l para uma variável quantitativa contínua , através de sua distribuição de fre·

28

. exige alguns cuidados especiais. Consideremos a Tabela 1.6. qüSna8s, . d d d 1 'á discutimos antenonnente , com os a os agrupa os em c asses, CoPIO J . formação sobre cada observação individual , e uma boa apro· perde-se 10 1 h . -o é supor que todos os dados dentro de uma c ~sse ten a.m seus lllJl3Ç3 . uais ao ponto médio desta classe. Este procedImento delxa·nos vaJore:S:;a situação do caso discreto, onde as medidas são calculadas na ~ ,se os pares (x" n;) ou (x; ,JJ, como em (2 .2) e (2.3). usan AO moda. mediana e média para os dados da Tabela 1.6 são:

Mo = 10,00 Md ~ 10,00

10 x 6,00+ 12 x 10,00+ 8 x 14,00+ 5 x 18,00+ 1 x 22,00 ~ 11,22. Me ~ 36

Existem várias técnicas para a detenninaçào das medidas apresen· das especialmente para a média, mas não é nossa intenção apresen· :.las' aqui. Com o advento das modernas máquinas eletrônicas de cal·

cu1ar e dos computl:ldores, tais técnicas perdem a sua função, já que o . tcresse no cálculo das medidas em geral está dentro do contexto de ::na análise estatística mais ampla.

2,2, MEDIDAS DE DISPERSÃO

A sumarização de um conjunto de dados, através de uma única medida representativa de posição central, esconde toda a informação sobre a variabilidade do conjunto de valores. Por exemplo, suponhamos que cinco grupos de alunos submetem·se a um teste, obtendo as seguintes ootas:

grupo A : 3, 4,5,6, 7 grupo B : I , 3, 5, 7, 9 grupo C : 5, 5, 5, 5, 5 grupo D : 3, 5, 5, 7 grupo E: 3,5; 5; 6,5

(variável (variável (variável (variável (variável

X) Y) Z) W) V)

Vemos que Me(X) ~ Me(Y)~ Me(Z)~ Me(W)~ Me(V) ~ 5,0. A iden, tificação de cada uma dessas séries pela sua média (5 em todos os casos) nada informa sobre as diferentes variabilidades das mesmas. Então, notamos a conveniência de se criar uma medida que sumarize a varia~ bilidade de uma série de valores que nos permita , por exemplo , com­parar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido.

29

Page 22: Probabilidade e estatística

o critério freqüentemente usado para tal fim é aquele que mede a concentração dos dados em tomo de sua média , e duas medidas são as mais usadas: desvio médio e variância . O princípio básico é analisar os desvios das observações em relação à média das observações. Para o grupo A acima, os desvios XI - X são: - 2, - I, O, I , 2. É fácil ver (p ro. blema li) que, para qualquer conjunto de dados, a soma dos desvios é , igual a zero. Nestas condições, a soma L (XI - x) não é uma boa me-

i= 1

dida de dispersão para o conjun to A. Duas opções são: (a) considerar o total dos desvios em valor absoluto; ' (b) considerar o total dos quadra. dos dos desvios. Assim, para o grupo A teríamos, respectivamente:

, L I x, - x I ~ 2 + I + O + I + 2 ~ 6,

' '' I , L (x, - x)' ~ 4 + I + O + I + 4 ~ 10. j~1

O uso destes totais pode causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações. Por exemplo, para o grupo D aci ma teríamos:

, L I w, - IV I ~ 2 + O + O + 2 ~ 4,

;=1

• L (w, - IV)' ~ 4 + O + O + 4 ~ 8. i"'l

Deste modo , exprimimos as medidas como médias, isto é, o desvio medio e a variância são definidos por

" DM(X) ~ L I x, - x I/n,

;=1

" Var(X) ~ L (x, - x)'ln, ,-, respectivamente. Para o grupo A temos:

DM(X) ~ 6/5 ~ 1,2,

Var(X) ~ 10/5 ~ 2,0.

Para o grupo .o vemos que

30

DM(W) ~ 4/4 ~ 1,0, Var(W) ~ 8/4 ~ 2,0.

(2 .5)

(2.6)

Então, podemos dizer que, segundo o desvio médio , o grupo D é . homogêneo que A. enquanto que ambos têm a mesma homogenei.

Jll8IS . _ . de segundo a v~n~ncJa.. "

da Sendo a variancla uma medida que expressa um deSV IO quadra­. médi o, pode causar alguns problemas de interpretação. Para evitar

"co d ' d- ' do 'd . dd . costuma-se usar o esvlO pa rao, que e ellfll o como a raiZ qua ra a ,sto'"tiva da variância. Temos, en tão, uma medida de variabi lidade ex· ~I na mesma un idade dos valores do conjunto de dados . Para o gru-pressa . d - .

A o deSVIO pa rao e po, DP(X) ~ JVar(X) - fi ~ 1,41.

Exemplo 2.3. Vamos calcular as medidas de dispersão acima para variável X = número de filhos , resumida na Tabela 1.5. Como vi mos

:0 exemplo 2.1, Me(X) = x = 1,65. Os desvios são Xi - x: - 1,65; - 0.65 ; 0,35; 1,35; 3,35.

Como 4 observações têm o desvio - 1 ,65; 5 observações o desvio - 0,65 etc. , segue-se que

4 x (I ,65)+5 x (0 ,65)+ 7 x (0 ,35) +3 x (I ,35)+ I x (3 ,35) _ 098 DM(X) ~ 20 - , .

Também,

X) _ 4 x (- 1,65)' +5 x (- 0,65)' + 7 x (+0,35)'+3 x (+ 1,35) '

Var( - 20 +

I x (3 ,35)' ~ I 528 + 20 '

Conseqüentemente, o desvio padrão de X é

DP(X) ~ JD28 ~ 1,24.

Podemos, agora, definir formalmente as medidas de dispersão dis­cutidas acima. Suponha que observemos n 1 vezes o va lor XI ' "1 vezes o valor X2 etc., TIl vezes o valor X~ da variável X. En tão,

• • DM(X) ~ L nol x; - x Iln ~ I foi x; - x I, (2.7)

;=1 ; " 1

• • Var(X) ~ L n;(x, - x)'ln ~ L f,(x, - .')', (2.8)

;=1 ; "' 1

DP(X) ~ JVar(X) . (2 .9)

3'

Page 23: Probabilidade e estatística

o cálculo das medidas de dispersão no caso de variáveis contínuas pode ser feito de modo análogo àquele usado para encontrar a média no exemplo 2.2. Ou seja , considerando-se o ponto médio de cada classe como a realização comum a todos os elementos daquela classe, recaímos na situação de uma variável discreta.

Exemplo 2.4. Vamos usar novamente a variável S= sa lário dos em­pregados da seção de orçamentos da Cia. Milsa. A mêdia encontrada no exemplo 2.2 ê s = 11 ,22. Com os dados da Tabela 1.6 e usando (2.8) en­contramos

• Var(S) ~ L n,(s; - 5)'/n ~ [1 0(6,00 - 11 ,22)' + 12(10,00 - 11 ,22) ' +

i " l

+8(14,00 - 11,22)'+5(18,00 - 11 ,22)'+ 1(22,00 - 11 ,22)'l/J6~ 19,40

e

DP(S) ~ ji9,4O ~ 4,40,

É fácil ver que DM(S) = 3,72. No Capítulo 9 a variãncia de uma amostra será encontrada usando-se

n - I no denominador em (2.8) , em vez de n. A justificativa será dada na­quele capítulo, mas para grandes amostras pouca diferença fará o uso de ,, - 1 ou n.

PROBLEMAS

1. Quer se estudar o numero de erros de impressão de um livro. Para isso escolheu-se uma amostra de 50 páginas. encontrando-se o seguinte número de erros por página:

(a) Qual o número médio de erros por pá-gina?

(b) E o número mediano? (c) Qual é o desvio padrão ? (dJ Faça uma representação grãfica para a

distribuição. (e) Se o livro teM SOO págir'las, qual o numero

total de erros esperado no livro?

ErrQ5

o I 1 ]

4

Freqiiencia

" lO ]

1

2. As luas de juros recebidas por lO ações durante um certo periodo foram (medidas em porcentageM) 2,59 ; 2,64 ; 2.60; 2,62 ; 2,57: 2,55 ; 2,61 ; 2,50 ; 2.63 ; 2.64. Calcule a média . a mediana e o desvio padrão.

32

ra raci litar um projeto de ampliação da rede de esgotos de uma certa região de .uma ). ~ s autoridades tomaram uma amostra de tamanho 50 dos 270 quanelrõcs

çidadc, a . . d ~ • reoião e foram encontrados os segUintes numeros e casas por quar-que com}"'"'·" c·,

teirão : 2 2 ] 10 13 14 15 15 16 16

18 18 29. li 22 22 23 24 15 25 26 27 29 29 30 , 32 36 ti 44 45 45 46 48 52 58 " 61 61 65 66 66 68 75 78 80 89 9Q 91 97

) Use 5 interYalos e construa um histograma. ~:) Oetennine uma Medida de tendência central e uma medida de dispersão .

( ) Dê uma situação pratica onde você acha que a mediana é uma medida mais apto-~ a ~~ .

priada do que a mcula. . . . .. . (b) Esboce um histograma. onde a médIa e a mec!tana comcrdem. Buste alguma classe

de histogramas onde ISSO sempre acontece? (c) Esboce os bistogramas de três variáveis (X, Ye Z) com a meSMa média aritmetica.

mas com as variãncias ordenadas eM ordem crescente.

S. Suponha que a variável de interesse tenha a distribuição como na figura abaixo.

Você acha que a média e uma boa medida de posição? E a Mediana? Justifique.

" Numa pesquisa realizada com 100 famiJias levantaram-se as seguintes infonnaçõcs:

Número de filhos o 23 4 .') mais que 5

Freqüência de famílias 17 20 28 19 7 4 5

(a) Qual a mediana do número de filhos? (6) E a moda '? (c) Que problemas você enfrentar ia para cakular a média ? Faça alguma suposição

e encontre-a.

33

Page 24: Probabilidade e estatística

2 ,3, OUTRA ESTRATÉGIA DE ANÁLISE

Tanto a média como o desvio padrão podem nào ser medidas ade_ quadas para representar um conjunto de valores. pois:

(a) São afetados , de forma exagerada, por valores extremos. (b) Apenas com estes dois vaiares nào temos idéia da assimelria

da di st ribui ção dos valores.

Para contornar estes fatos, as segu in tes ci nco medidas sào sugeridas (ver T ukey, 1977):

(i) a mediana , Mel; (ii) os ex/remos: o menor e o maior valor do cOAjunto de dados ; (iii) os quarris oujunlas, J: cada quartil faz o mesmo que a med iana

para as duas metades demarcadas pela mediana. Ou seja, a med iana é um valor que deixa metade dos dados abaixo c metade acima dele. O primeiro quartil ou junta é um valor que deixa um quarto dos valores abaixo e três quartos acima dele. O terceiro quartil ou junta é um valor que deixa três quartos dos dados abaixo e um quarto aci ma dele. O se­gundo quartil é a mediana (para maiores detalhes de cálculo dos quartis, veja problema 14).

Os valores extremos se rào representados por E.

Exemplo 2.5. Retomemos os dados do exemplo 1.3. Temos (veja o ramo-e-folhas da Figura J. 7).

As juntas são;

Md ~ 9,80 + 10,53 ~ 10,17 2

7,44; 7,59 ~ 7,5 e 13,85 ; 14,69 _ 14,27

Os valores extremos são 4.00 (menor valor) e 23,30 (maior valor). Obtemos, então, o chamado esquema dos cil/CO números, que está

representado abaixo, onde também está incorporado o número de pon­tos, que no caso é 36.

34

Mil J 7,52 E 4,00

36

10,17 14,27 23,30

E s cinco medidas sâo chamadas de estatÍSticas de ordem (estas sta ~ d·d ' d . d - as únicas' há outras) e sao me I as reslstenfes e poSição e pjosao "- '

a distribUlçao. uITI Dizemos que uma medida de posição ou dispersão é resistente quan­

fi pouco afetada por mudanças de uma pequena porção dos dados. ~o m~iana é uma medida resisteme, ao passo que a média não o é. Para ilustrar este fato , suponha que tomemos os dados

5 7 8 10 12 15,

d quais obtemos Me = 9,5 e Md =9,0 Suponha, agora, que modifi-M _ emos o valor J 5, que passa a ser 150. Obtemos, emao, M e = 32, en-qu _

quanto a mediana nao se altera Observe que a média aumen tou mais de duas vezes.

O desvio padrão também não é uma medida resistente. Para o exem­lo acima , no primeiro caso obtemos DP= 3,62 e após a mudança de

rS para J 50 obtemos DP = 57,86, ou seja , mais de quinze vezes a anterior. Uma medida de di spersão alterna ti va que pode ser utilizada é o

in/erl'ala inrerquarlil, que é a di ferença entre o terêeiro e o primeiro quartis , denotado dJ • Então,

dJ = l ] - li ,

onde J I , J2 e l) denotam o primeiro, o segundo (mediana) e o terceiro quarlis , respcctivamentt: .

Na figura abaixo representamos de forma linear as cinco medidas referentes ao exemplo 2.5, acrescentando dJ e as distâncias entre pares destas medidas.

',00 7,52 10,17 14.27 23,30 , , , , , 3.52 2,65 4.10 9,03

6,17 13,13

6,75

Aqui temos , en tão,

li = 7,52

II = Md = 10,17

lJ = 14,27

dJ = J J - li = 6.75

35

Page 25: Probabilidade e estatística

Chamemos de Ei c Es os valores mini mo e máximo, respectivamente. À diferença J! - Ei = 10.17 - 4,00 = 6.! 7, chamamos di.l'persão infe­

rior, e à diferença E.- J2=23.30 - [0 ,17 = 13,[3 chamamos dispersão superior.

A comparação destas distâncias nos fornece informação sobre a forma da distribuição. De fato , vejamos como seriam estas distâncias para uma distribuição simétrica como na figura abaixo (a chamada dis_

tribuição normal).

E; E,

Esperamos, intuitivamente, que:

(o) a dispersão inferior seja aproximadamente igual à dispersão su-penar;

(b) J2- Jl ~ JJ- J2;

(c) J1-Er':!:! E.- J]; (d) as distâncias entre mediana e juntas sejam menores que as dis­

tâncias entre extremos e juntas.

As distâncias para o exemplo acima mostram claramente o caráter não nonnal dos dados.

PROBLEMAS

7. Obtenha o esquema dos cim:o números para os dados do problema 3. Calcule o in· tervalo interquartil e as dispersões inferior e superior. Baseado nestas medidas. ve­rifique se a fonna da distribuição dos dados é normal.

8. Refaça o problema anterior, utilizando desta vez os dados do problema 5 do Capítalo L

36

2.4. DESENHO ESQUEMÁTICO

A in fonnação contida no esquema dos cinco números pode ser tra­duzida graficamente num desenho esquemático, ilustrado na Figura 2.1.

Primeiramente, definamos aqueles valores que estão muito aquém de } 1 ou muito além de J3 como sendo observações discrepantes (ou olltliers).

Especificamente, conSideraremos dados que sejam menores que J I - ; dJ

oU maiores que J] + ~ dJ como sendo discrepantes do restante dos dados .

Para construir o desenho esquemático, consideraremos um retângulo onde estãO representadas as juntas e a mediana. A partir do retângulo, para cima e para baixo, seguem linhas até o ponto mais remoto que nào seja wna observação discrepante. Obteremos, então, uma figura que re· presenta o conjunto dos dados, com exceção dos OIaJiers. Estes serão representados individualmente por x .

• Fig. 2.1. Desenho esquemático

? desenho esquemático dá uma idéia da posição, dispersão, assi­metna, caudas e dados discrepantes. A posição central dos valores é dada pela mediana e a dispersão, por dJ . As posições relativas de J I ,

J2 e J ] dão uma noção da assimetria da distribuição. Os comprimentos das caudas sào dados pelas linhas que vão do retângulo aos valores mais arastados que não sejam outliers e pelos próprios outliers.

37

Page 26: Probabilidade e estatística

Exemplo 2.6. Consideremos os dados referentes às populações dos 15 maiores municipios do Brasil , segundo o Censo de 1980 (ver pro. blçma 18, do Capítulo I). O esquema dos cinco números esta represen. tado abaixo.

e

Temos que ,

Md J 82,6 E 61,4

15

112,5 140,7 849,3

D, ~ 140,7 - 82,6 ~ 58,1,

3 3 J, - 7:d, ~ 82,6 - 7: (58, 1) ~ - 4,6

3 3 J, + 7: d, ~ 140,7 + 7: (58,1) ~ 227,9.

Então, as cidades com populações acima de 2.279.000 habitantes são consideradas outliers, ou seja, Rio de Janei ro e São Paulo. O desenho esquematico correspondente está na Figura 2.2.

900

)( São Paulo

500 )( Aio de Janeiro

180

50 Silo Gonçalo

Fig. 2.2. Desenho esquemático para os /5 maiore.~ municípios do Brasil em /980

No desenho esquemático para os 15 maiores municípios do Brasil, vemos que os dados têm uma distribuição assimétrica à esq uerda , com 13 valores concentrados entre 50 e 200 e dois outliers. bastante afastados do corpo principal dos dados: 509,3 e 849.3 .

3.

como pontos

ra definirmos as observações discrepantes é a seguinte: consi· limites pa . . d.

curva normal com media zero e, portanto, com me lana zero. dere uma

É fácil verificar (ver Capítulo 6 e Tabela 3) que J I = -0,6745 , J 1 = O, 3

JJ= 0,6745 e portanto dJ = 1,349. Segue-se que J I - 2 dJ = -2,698 e

J3 + ; dJ = 2,698. A área entre estes dois pon tos embaixo da curva é

O 993, ou seja, 99,3% da distribuição está entre estes dois va lores. Isto . ' para dados com uma distribuição normal, os outliers constituirão cer­~ de 0,7% da distribuição.

PROBLEMAS

,. Construa o desenho esquemátiço para os dados do exemplo 1.3. Capitulo I. O que você pode concluir a respeito da distribuição?

UI. Reraça a questão anterior com os dados do problema 3 deste capitulo.

PROBLEMAS E COMPLEMENTOS

11. Mostre que:

(a) I (XI - x) = O ,. ,

• • (e) I n, (X, - .fjl = I nixf _ nj2

I- I i _ I

• • (li) I Ji(Xi - x): = I Jixf - Xl ,., ,. ,

39

Page 27: Probabilidade e estatística

U. Usando os resultados da questão anterior calcule as variâncias dos problemas deste capitulo, 1" ~s dados abaixo representam as vendas ~ vendedores de gêneros allmenticios :

semanais, em classes de salários mínimos,

\ Vendas semanais

30 I-- 35 35 1-- 40 40 1--45 45 1-- 50 50 I-- 55 551--60 60 I-- 65 65 I-- 70

(a) Faça o histograma das observações, (b) Calcule a média da amostra, X. (c ) Calcu[e o desvio padrão da amostra, s.

N." de vendedores

1 10 18 50 70 30 18 1

(ti) Qua[ a porcentagem das observações compreendidas entre x ~ 2s e x + 2s? (e) Calcule a mediana.

14. QUllnlis. Usando·se o histograma, podemos derivar um procedimento alternativo para encontrar a mediana de uma variável. Pela sua definição vemos que ela deve cor­responder ao valof da abscissa que divide a área do histogr.~ma em duas partes iguais (50"1.. para cada lado), Então, usando argumentos geométricos, podemos encontrar um ponto, satisFazendo essa propriedade. Vejamos através de um exemplo.

40

Exemplo 2.7. Vamos repetir abaixo a Figura 1.5 , que é o histograma da variável S = salário dos empregados da eia. Milsa.

2." "" 14"

o 4,00 8,00 Md 2,00 18,00 20,00 24,00

Devemos localizar o ponto das abscissas que divide o histograma ao meio, A do primeiro retângulo corresponde a 28% do total, os dois primeiros a 61 %; por­

área a mediana Md é algum número situado entre 8,00 e 12,00. Ou melhor, a me­tanto. Id d"I··d"1 . .,á corresponder ao va ar M no segun o retangu o, cuJa area o retangu o dlana I • ' de base 8,OO .... Md e mesma altura que o retangulo de base 8,OOHI2,OO seja 22% (28% d rimeiro retângulo mais 22% do segundo perfazendo os 50"10)· Consulte a figu. : ~ra melhor compreensão. Através da proporcionalidade entre a area e a base do

retângulo, lemos:

logo

12,00 ~ 8,00

33%. •

Md - 8,00

22%

Md ~ 800 = 2~~ .400 . 33%'

Md = 8,00 + 2,67 = 10,67

que t uma expressão mais precisa para a mediana do que a mediana bruta encontrada

anteriormente. Do mesmo modo que definimos a mediana como o valor que tem metade das

observações menores do que ela, podem!?s definir outTa medida de ordem tal, que uma certa proporção P das observações seja menor do que ela. Por exemplo, se p= 1(4. temos o primeiro quarlil, onde um quarto das observações são menores do qUC ele. Ou quando p é. escolhido como uma proporção de denominador 10, dando origem às medidas de ordem chamadas decis. De um modo geral, dada uma propor· ção p(O <p < I), chamamos de quantil de orde.m p ao número x(p) ,"tal que 100p% das observações sejam menores do que ele.

Abaixo indicamos alguns quantis e seus nomes particulares,

Quantil x(P)

x{0,25) x(O,50) x(0,75) x(O,40) x(0,95)

Nome

1," Quartil = 25." Perccntil Mediana ~ 5," Decil ~ 50." Percelltil 3." Quarti[ ~ 75." Percentil 4," Decil 95." Percentil

o cálculo dos quantis pode ser feito de modo analogo ao cálculo da mediana. através de argumentos geométricos no histograma, Vejamos a determinação de alguns quantis, usando os dados do último exemplo.

Exemplo 2.8 (continuação). Através do histograma da ligura acima, calcular:

(a) x(0,25)

Resposta: Verificamos que x(0,25) deve estar na primeira classe, pois a proporção no primeiro retângulo e 0,28. Logo

41

Page 28: Probabilidade e estatística

~

x(0,25) - 4,00 _ 8,00 - 4,00 25% - 28%

então

" x(0,25) "'" 4,00 + 284,00 = 7,51

(b) x(0,95)

Resposta: Analisando a soma acumulada das proporções, verificamos que este quantil deve pertencer ã quarta classe, e que nesse retângulo devemos achar a pane correspondente a 12%, pois a soma acumulada até a classe anterior é 83%, Cal_ tando 12% para atingirmos os 95%. Portanto

x(0,95) - 16,00 = ~20",OO";-;-~16",OO,,, 12% 14%

logo

12 x(0,95) = 16,00 + 14 x 4 = 19,43

(e) x{0 ,75)

Resposta: De modo análogo concluímos que o terceiro quantil deve pertencer ao intervalo 12,00 I--- 16,00, portanto

x(O,75) - 12,00

14% 16,00 - 12,00

22%

x(O,75) = 14,55.

O intervalo interquantil do úl! imo exemplo e x (O ,75) - .1'(0,25) = 14,55 - 7,57 '=' 6,98. Ou seja 50:'1,; dos salários "centra is" estão numa fa ixa de amplitude 6,98 salá.rios m{_ nimos.

I~~ Usando os dados do problema 13 , calcule:

(a) mediana (h) I.~ decil (e) in tervalo interqualtil

16. O número de desquites na cidade, de acordo com a duração do casamento, está repre-sentado na tabela abaixo : ., 1.0 ().,<'f' '...,

J (a) Qual a duração média dos casa-mentos? E a mediana ? Anos de casamenlo N.O de desquites

(6) Encontre a variància e o desvio padrão da duração dos casa- 01- 6 2.800 mentos 61- 12 1.400

(o) Construa o histograma da dis- 121- 18 600 tribuição. 18 1-2' IlO

(ti) Encontre o 1.0 e o 9.° decil. 2"-32 lO (e) Qual o intervalo interquartil?

42 "::>

rtamento de Pessoal de uma certa firma fez um levantamento dos salários 17. ~ro funcionãrios do setor administrativo, obtendo os seguintes resultados:

EsboCe: o hIstograma correspondente (:) Calcule a média, a vanânCla e o desvIO padrão ( ) Calcule o L" quartIl e a ~. _________ --, _____ _

(e) Se for conce<hdo um aumento de 100"10 (ri) ra todos os [20 funclOnânos, have-

Faixa salarial (X saláriQ mínimo)

~ E '~ .? rã alteração na media ? na vanancla. Justifique sua resposta. ,,_ for concedido um abono de 2 sa-

(t);,... . od f !ários mimmos para t os os 120 un-cionários. haverâ alteração na média '! E na variância'! E na mediana'! Jus­tifique sua resposta .

01- 2 , 21- 4

41- 6 61- 10

;

FreqUincia relativa

0,25 0,40 0,20 0,15

ri" o que acon[ea: com a mediana, a média e o desvio padrão de uma série de dados . quando :

(a) cada observação é mult ipli~da por 2; (b) soma-se 10 a ~~a obse~açao; _

--r(c) subtrai-se: a médIa geral x. de cada ~~servaçao; . ~(d) de cada observação subtraI-se x e dIVIde-se pelo deSVIO padrão DP(x).

-;;: Na companhia A, a média dos salários é 10.000 unidades e o 3.° quartil é 5.000.

)M Se: você se apresentasse como candid.at~ a e~ firma e se o. seu ~Iãrio fosse es­colhido ao acaso entre todos os posslvels salános, o que sena maiS provávcl : ga­nhar mais ou menos que 5.000 unidades?

(ó) Suponha que na companhia B a média dos salários é 1.000 unidades e a variância é praticamente zero, e lá o seu salário tambem seria escolhido ao acaso. Em qual companhia você se apresentaria para procurar emprego?

a. Estamos interessados em estudar a idade dos 12.325 funcionários da Cia. Distribuidora de Leite Teco, e isso será Feito através de uma amostra. Para determinar que tamanbo deverá ter essa amoslra, foi colhida uma amostra-piloto. As idades observadas foram : 42. 35, 27, 21 , 55. 18, 27, 30, 21 , 24.

(a) Detennine as medidas descritivas dos dados que você conhece. (h) Qual dessas medidas você acredita que será a mais importante para julgar o ta­

manbo final da amostra? Por quê?

lI. Estudando-se o consumo diário de leite, verificou-se que, em certa região, iO% das familias consomem até I litro, só'<'1o das famílias consomem entre I e 2 litros, 20% con­somem entre 2 e 3 litros e o ~estante consome entre 3 e 5 litros. Para a variável em es­tudo:

(a) Escreva as informações acima na forma de uma tabela de freqüências. (h) Construa o hislogram'a. (e) Calcule a média e a mediana. (d) Calcule a variàneia e o desvio padrão. (1') Qual o valor do 1.0 quartil'!

43

Page 29: Probabilidade e estatística

/ri.y. distribuição de

\~Is.uma ronna de freqüências do salário anual dos moradores do bairro A que lêlll rendimento é apresentada na tabela abaixo:

Faixa salarial (x lO salários mínimos)

r o f- 2 ? 2r- 4

4 f- 6 6 f- 8 8 I-- lO

10 t-- 12 121--14

TOTAL

Ix! = 150.300 r.x~ = 4.906.500

• (o) Construa um histograma da distribuição.

Freqüência

10.000 1900 2.000 1.IJ)O

- 800 700

2.000

20.500

(b) Qual a média\ e desvio padrão da variável salário? (c) O bairro B apresenta, para a mesma variâvel. uma média de 7,2 e um desvio padr.1o

de 15,1. Em qual dos bairros a população e mais homogênea quanto ã renda'! (ri) Construa a f.d .a., e determine qual a faixa salarial dos 10% mais ricos da população

do bairro. ~;(e)\Qual a "riqueza tolal" dos moradores do bairro?

23. Um órgão do governo do estado está intcressado em determinar padrões sobre o in­vestimento em edução. por habitante, realizado pelas prefeituras. De um levanta­mento em la <:idades, foram obtidos os valores (codificados) da tabela abaixo:

44

Cidade A B C D E F G H J

Investimento 20 16 14 8 19 15 14 16 19 " Nesse caso, será considerado como investimento básico a médio final das observações, calculada da seguinte maneira:

J. Obter uma mêdia inicial. 2. Eliminar do conjunto aquelas observações que forem superiores à media inicial

mais duas vezes o desvio padrão. ou inferiores à média inicial menos duas vezes o desvio padrão.

3. Calcular a media final com o novo conjunto de observações.

Qual o investimento básico que você daria como resposta ?

Observaçâo: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito di ferente dos dcmais.

h· .o,rama abaixo, calcular a média, a variância, a moda, a

)oi Dado o tS mediana e o 1,°

qUlrtiJ.

2

b

25% - 20%

t--

4 6

30% .-

6 10 12

~ Em uma granja J era a seguinte:

foi observada a distribuição dos frangos com re lação ao peso, que

Peso (gramas)

960 >- 980 980 1--- 1.000

1.000 t-- 1.020 1.020 I--- 1.040

=-1.040 I--- 1.060 1.060 I--- 1.080

(a) Qual a média da distribuição? (b) Qual a variância da distribuição? (e) Construa o histograma.

" 60

160 280 260 160 80

(li) Queremos dividir os frangos em quatro categorias, com relação ao peso, de modo que :

-'" 20"10 mais leves sejam da categoria D ;

- .. 30% seguintes sejam da categoria C ; -M 30",.{ seguintes sejam da categoria B; - o, 20"10 seguintes (ou seja, os 20"10 mais pesados) sejam da categoria A.

Quais os limites de peso entre as categorias A, B. C e D1

(e) O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada, e também separar os animais com peso superior a um c meio desvio padrão acima da média para usa-los como reprodutores.

Qual a porcentagem de animais que serão separados em cada caso ?

tl6. A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre , joi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as V ~des. decidiu-se fazer uma campanha de divulgação. Para se verificar se a campanha

foi ou não eficiente, fez-se um levantamento da idadc dos candidatos ã última pro­moção, e os resultados estão na tabela abaixo.

45

Page 30: Probabilidade e estatística

lda<k Freqüência Porcentagem

18 I----- 20 18 36 20 I--- 22 12 24 22 f- 26 10 20 26)-- 30 8 16 30 1--36 2 4

TOTAL 50 100

(a) Baseando-se nesses resultados, você diria que a campanha produziu algum efeito (isto é, aumentou a idade media)?

(b) Um outro pesquisador decidiu usar a seguinte regra: se a diferença j - 22 rOS!ie maior que o valor 2 DP(X)/ fi. então a campanha surtiu efeito. Qual a COnclu. são dele, baseado nos dados?

(c) Faça o histograma da distribuição.

1', ara se estudar o desempenho de duas companhias corretoras de ações, seleCIonou-tI: e cada uma delas amostras aleatónas das ações negooadas Para cada ação seleciO­

nada, computou-se a porcentagem de lucro apresentada durante um periodo fixado X de tempo. Os dados estão a seguIr

Correlora A Corre/oro B

45 60 54 57 55 " 62 55 70 50 " " 38 48 64 " 55 " 55 " 55 61 " " 54 " 48 57 57 50 65 55 60 55 " 54

" 51 " Que tipo de informação revelam esse5 dados? (Sugestão: use a análise proposta nas seções 2.3 e 2.4.)

28. Para veriticar a homogeneidade das duas populações do problema anterior, um esta.

tístico sugeriu que se usasse o quociente F = Var (X/A) , mas não disse qual a de­Var (X/H)

cisão a tomar baseado nesse valor. Que regra de decisão você adotaria para dizer se são homogêneas ou não?

29. Faça um desenho esquemático para os dados da corretora A e um para os dados di corretora B. Compare os dois conjuntos de dados através destes desenhos.

30. !lara decidir se o desempenho das duas corretoras do exercicio 27 são iguais ou nio, adotou-se o seguinte teste : sejam

46

x .. ~ xa Sl = 11 .. Var(XjA) + lia Var{XjB)

f""S:)I+I'· 11 .. + na ~ 2 • 11.. lia

c.sO III < 2 os desempenhos são semelhantes, caso contrário são diferentes.

Qual seria a sua conclusão? (a) I"h", vo;;t acha desse procedimento? (bl ~-

Os dados abaixo referem-se ao número de moradores X por domicíl io , num bairro A, ;:Jt!. e que estão dispostos numa tabela de dupla entrada.

COLUNA LINHA

2 I ] 4 5 6 7 8 9 10

I 6 I 6 I ] ] 9 5 9 6

2 8 7 9 10 5 5 2 2 5 I

] ] 5 8 6 4 2 I 7 \O ]

4 8 7 8 6 9 I 9 10 4 2

5 4 2 5 ] 4 8 10 6 5 8

(0') Calcule para os 50 domicílios a média geral Me(X) , a variância total Var(X), e a mediana geral Md(X) . Faça o histograma.

(b) Suponha agora que cada coluna corresponde a uma amostra de domicílios, sor­teada nesse bairro. Para cada coluna (I) calcule: a média da amostra (Xi), a variincia da amostra (5t) e a mediana da amostra (m,).

(e) Qual a amostra que produz a melhor estimativa de Me(X)? E para Var(X)? E para Md(X)?

(li) No conjunto de amostras, qual é mais indicado para estimar Me(X): o estimador x ou m? E para Md(X)? Justifique a resposta.

(t') Você espera que Var(X) seja maior ou menor do que Var(x)? Por quê? fi) E com relação a Me(X) e Me(i)? fi) Calcule Me(x) e Var(x) e verifique suas respostas (e) e (j),

(h) Para cada amostra i, construa o seguinte intenalo xr ± 2 DP);!. ",li,

(i) Considere agora cada linha como sendo uma amostra. O que você acha que acon­tecerá com os estimadores?

fi) Como ficará a pergunta (li)?

lZ,: Usando os dados da' variável qualitativa região de procedência da Tabela I I , trans­rorIJle.a na variável quantitativa X, definida do seguinte modo:

X:o fi, se a região de procedência for capital; lo, se a região de procedência for interior ou out ra.

47

Page 31: Probabilidade e estatística

(a) Calcule Me(X) e Var(X). (b) Qual a interpretação de Me(X)? (c) Construa um histograma.

33. No problema 1.5.1 temos os resultados de 25 funcionarios em vários exames a que se submeteram. Sabe-se agora que os criterios adotados em cada exame não são compa. ráveis, por isso deçidiu-se usar o " desempenho relativo" em cada exame. Essa medida será obtida do seguinte modo :

(i) Para cada exame será calculada a média Me(X) e o desvio padrão DP(X). (ii) A nota X de cada aluno será padronizada do seguinte modo:

z ~

(a) Interprete o significado de Z.

X - Me(X)

DP(X)

(b) Calcule as notas padronizadas dos funcionarios para o exame de Estatistica. (c) Com os resultados obtidos em (b), calcule Me(Z) e DP(Z). (i) Se alguma das notas padronizadas for acima de 2DP(Z) ou inferior à -2DP(Z),

esse funcionário deve ser considerado como um caso anormal. Existe algum nessa situação?

(e) O funcionário I obteve 9,0 em Direito, em Estatistica e em Polít ica. Em que dis­ciplina o seu desempenho relativo foi melhor?

34"'\F~tudando-se a distribuição das idades dos funci~nários de duas repartições publi_ .. ~s, obtiveram-se algumas medidas resumidoras que estão no quadro abaixo. Esboce

o histograma das duas distribuições, indicando no mesmo as medidas descritas no qua. I dro. Comente sobre as principais diferenças entre os dois histogramas.

Repartição Millimo I.· Quartil Mediana Média 3." Quarrif Máximo Df

A B

18 18

27 23

33 32

33 ,3 39 42

48 48

, 10

35. Decidiu-se investigar a distribuição salarial dos profissionais com nivel universitário em duas regiões, A e B. As informações pertinentes foram obtidas e encontram_se no quadro abaixo. expressas em salários mínimos. Esboce a distribuição (histograma alisado) dos salários de cada região, indicando no gráfico as medidas apresentadas no quadro. Faça também uma descrição rápida das principais diferenças observadas nos gráficos.

Região Média DP Mediana

A 20,00 4,00 20,32 B 20,00 6.00 18,00

Moda

20,15 17,00

J,

17,32 16,00

J,

22,68 24,00

8.00 14.00

E,

32.00' 42,00

36. Construa o desenho esquemático para os dados do problema 5, do Capítulo I . Obte­nha conclusões a respeito da distribuição, a partir deste desenho.

48

CAPíTULO 3 -Análise bidimensional

-3.1. VARIÁVEIS MULTIDIMENSIDNAIS

Ate agora, vimos como organizar e resumir informações pertinentes uma única variável, mas freqüentemente estamos interessados em analisar

a comportamento conjunto de duas ou mais variáveis. Aqui também a ~tribuiçãO conjunta das freqüências será um poderoso instrumento para ajudar a com~reensão dos dad,?s. Iremos ~os deter basi~,me?t~ ~m va.riáveis bidimensionals, mas a exlensao para mats de duas vanavelS e ImedIata.

Exemplo 3.1. Suponhamos que queremos analisar o comportamento oonjunto das variáveis grau de instrução (X) e região de procedência (Y), contidas na Tabela 1.1. A distribuição por freqüência é representada por uma tabela dedupla entrada e, no nosso problema, a distribuição procurada está na Ta bela 3.1.

TABELA 3.1

~ I."

Capital Interior

. OUl ra

TOTAL

Fome' Tabela 1.1

Distribuição conjunta das freqüências das va­riáveis grau de instrução (X) e região de proce· dência (Y).

Grau 2." Grau Superior TOTAL

4 5 2 11 3 7 2 12 5 6 2 13

12 18 6 36

49

Page 32: Probabilidade e estatística

Cada elemento do corpo da tabela dá a freqüência observada das realizações simultâneas de X e Y. Assim, observamos 4 individuos da capital com instrução do primeiro grau, 5 da capital com o segundo grau, etc.

A linha dos totais fornece a distribuição da variável X (grau de ins­trução), ao passo que a collma dos totais fornece a distribuição da Va_ riável Y (região de procedência). As distribuições assim obtidas sào cha. madas tecnicamente de disrribuições marginais, enquanto que a Tabela 3.1 constitui a distribuição conjwlfa de X e Y.

Em vez de trabalhannos com as freqüências absolutas, podemos COns­truir tabelas com as freqüências relativas (proporções), corno foi feito no caso unidimensional. Mas aqui existem 3 possibilidades de expressarmos a proporção de cada casela: em relação ao total geral , em relação ao total de cada linha e em relação ao total de cada coluna. De acordo COm o objetivo de cada pesquisa , uma delas será a mais conveniente a ser usada.

A Tabela 3.2 apresenta a distribuição conjunta das freqüências re-. lativas, expressas corno proporções do total geral. Assim podemos afirmar que 11 % dos empregados vêm da capital e têm instrução de primeiro grau. Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis. Assim, 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões. Observe que, devido ao problema de aproximação das divisões, a distribuição das proporções introduz algumas diferenças não existentes. Compare, por exemplo, as colunas de educação superior nas Tabelas 3.1 e 3.2.

TABELA 3.2 - Distribuição conjunta das proporções (em por­centagem) em relação ao tota! geral das variáveis X e Y definidas no text.o.

X J." Grau 2." Grall Superior TOTAL

Capital 11% 14% 6% 31 % Interior 8% 19% 6% 33% Outra 14% 17% 5% 36%

TOTAL 33% 50% 17% 100%

Fonte : Tabela 3.1

50

T bela 3.3 apresenta a distribuição das proporções em relação A a " pod d" d 1 das colunas. AsSIm, emos Izcr que, entre os emprega OS

ao t~ta trução até primeiro grau, 33% vêm da capital, ao passo que entre com tnS egados com segundo grau, 28% vêm da capital. Este tipo de dis· ~ ~:o serve para comparar a distribuição da procedência dos indi­tnbtU confonne o grau de instrução. vidU~ modo análogo, podemos construir a distribuição das propor­çõeS em relação ao total das linhas. Aconselhamos o leitor a construir

essa tabela .

TABELA

x

y

Capital Interior Oulra

TOTAL

Fonte : Tabela 3.1

~MAS

3.3 - Distribuição conjunta das proporções (em por­centagem) em relação aos totais de cada coluna das variáveis X e Y definidas no texto.

1.° Grau

33% 25% 42%

lOO'/,

2." Grau

28% 39% 33%

lOO'/,

Superior

33% 33% 34%

lOO'/,

TOTAL

31 % 33% 36%

lOO'/,

I. UlIUldo os dados da Tabela 1.1. CapílUlo I :

la) Construa a distribuição de freqüência conjunta para as variaveis grau de instrução e região de procedência.

(h) Qual a porcentagem dos funcionários que lêm o segundo grau? (r) Qual a porcentagem daqueles que têm o segundo grau e são do inlcrior? la) Dentre os funcionários do interior, quanto por cento tem o segundo grau?

1. No problema anterior, sorteando um funcionario ao acaso entre os 36:

(D) Qual será provavelmente o seu grau de instrução? (h) E sua região de procedência? «() Qual a probabilidade do sorteado ter nivel superior? (d) Sabendo que o sorteado e do interior, qual a probabilidade dele possuir nível su­

perior? (e) Sabendo que o escolbido e da capital. qual a probabilidade dele possuir nível su­

perior?

51

Page 33: Probabilidade e estatística

3. Numa pesquisa sobre rotatividade de mão-de-obra, para uma amostra de. 40 peSSOal Foram observadas duas variàveis: numero de empregos nos ultimos dois anos (X) t

salârio mais recente, em numero de salârios mínimos (Y). Os resultados Foram :

Indivíduo X Y lndÍ\'Í(/uo X Y

1 1 6 21 2 4

2 3 2 " 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4

10 3 2 3<l 3 3 11 2 5 li 2 2 12 3 2 12 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 J8 3 2 19 2 1 39 2 3 20 2 1 40 2 5

(o) Usando a mediana, classifique os individuos em dois níveis, alto e baixo, para cada uma das variáveis, e construa a distribuição de Freqüências conjunta das duas clas­siFicações.

(b) Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco? (c) Qual a porcentagem das pessoas que ganham pouco'! (cf) Entre as pessoas com baixa rotatividade, qual a porcentagem das que ganham

pouco'! (e) A inFormação adicional dada em (cf) mudou muito a porcentagem observada em (e)1

O que isso significa?

3.2. INDEPENDÊNCIA DE VARIÁVEIS

Um dos principais objetivos de uma distribuição conjunta e des­crever a associabilidade existente entre as variáveis, isto é, queremos conhecer o grau de dependência entre elas, de modo que possamos prever melhor o resultado de uma delas quando conhecemos a realização da outra,

Por exemplo, se queremos estimar qual a renda média de uma família moradora da cidade de São Paulo, a informação adicional sobre a classe

52

. ue ela perlence permite~nos estimar com maior precisão essa "-ai a q d d d"·· d·· . - ' pois sabemos a epen encla eXIstente entre as uas vanavels : renda'f: mi liar e classe social. Ou , ainda, suponhamos que uma pessoa seja rendada ao acasO da população da cidade de São Paulo , e devemos adi~ sorlei a . . , ual o sexo dessa pessoa. Como sabemos ser aproxImadamente a \'Inh~e qda população de cada sexo, não temos preferência em sugerir me~ ucr um dos dois. Mas se a mesma pergunta fosse feita, e nos fosse Q~ que a pessoa sorteada trabalha na indúst ria siderurgica, seriamos dito q . , d I·· be . linados a sugerir que a pessoa e ° sexo mascu 100, PO iS sa mos que tnc ' d d -Se · '-á redominâncla esse sexo nesse ramo e ocupaçao. a In lormaçao

h P di · · . adicional dissesse qu.e.a pessoa ~ortea a eClOna ?o.prtmelro,grau . a nossa estão seria modIficada, pOIS a grande malona dos professores do

sug d' . . I d inteiro gr,jU são o sexo lemlntno. sso tu o porque sabemos ser grande : grau de dependência ent re as variáv~is s~x~ e ramo de ativi,dade.

Vejamos, agora, como podemos tdentlflcar a dependênCia ou não entre variáveis, alravés da distribuição conjunta.

E:t::emplo 3.2. Queremos verificar se existe ou não dependência enlre o sexo e a carreira escolhida por 200 alunos de Economia e Administração. Esses dados estão agrupados na Tabela 3.4.

TABELA 3.4 - Distribuição conjunta de alunos segundo o sexo (X) e o curso escolhido (Y).

~ Masculino Feminino TOTAL

Economia 85 35 120 Administração 55 25 80

TOTAL 140 60 200

Fonte: Dados hipotêlicos

Inicialmcnle, verificamos que fica muito difícil tirar alguma con­clusio, devido à diferença entre os totais marginais. Assim, devemos construir as proporções segundo as linhas ou as colunas para podermos I'azer as comparações. Fixemos os totais das colunas; a distribuição está na Tabela 3.5.

53

Page 34: Probabilidade e estatística

y

TABELA 3.5 - Distribuição conjunta das proporções (cm por­centagem) dc alunos , segundo sexo (X) e Curso esco lh ido (Y) .

. X

Masculino Feminino TOTAL

Economia 61 % 58% 60% Administração 39% 42% 40%

TOTAL 100% 100% 100%

Fonte : Tabela 3.4

A partir desta tabela podemos observar que, independentemente do sexo, 60% das pessoas preferem Economia e 40%, Administração. (Observ~ na coluna de total.) Não havendo deRendência entre as variáveis, eSpera_ ríamos estas mesmas proporções para cada sexo. Observando a tabela vemos que as proporções do sexo masculino (6 1% e 39%) e do feminin~ (58% e 42%) sào próximas das marginais (60% e 40%). Estes re,ult,.do, I parecem indicar nào haver dependência entre as duas variáveis. Con_ cluímos, então, que nesse caso as variáveis sexo e curso parecem ser in~­pendentes.

Vamos su por agora um problema semelhante, mas envolvendo alunos de Física e Ciências Sociais, cuja distribuição conjunta está na Tabela 3.6.

Inicialmente convém observar que, para econom izar espaço, resu­mimos as duas tabelas numa única, indicando as proporções em rel,.ção , aos totais das colunas entre parênteses. Comparando agora a distribuição das proporções pelos cursos, independente do sexo (coluna de com as distribuições diferenciadas po~ sexo (coluna de masculino e felnillino),. observamos uma disparidade bem acentuada nas proporções. Assim, parece haver uma maior concentração de homens no curso de Física e de mulheres no curso de Ciências Sociais. Portanto, neste caso, as variáve,i, I sexo e curso escolhido parecem ser dependentes.

Quando existe dependência entre variáveis , sempre é interessante quantificar essa dependência , e isso será objeto da próxima seção. E antes de passarmos a discutir este aspecto, convém observar que teríamos obtido as mesmas conclusões do exemplo 3.2 se tivéssemos calculado as propor­ções, mantendo Constantes os totais das linhas.

54

TAIIELA 3.6 - Distribuição conjunta das freqüências e propor­

ções (em porcentagem), segundo o sexo (X) e o curso escolhido (Y).

~ Masculino Feminino TOTAl,.

Fistc:a . . 100 (li %) 20 (33%) 120 (60%)

Ciências SOCIais 40 (29%) 40 (67"1.) 80 (4O%)

TOTAL 140 (100%) 60 (100%) 200 (100'1.)

Fonlt: Dados hipotéticos

]IIIOIILEMAS

oi. usando os dados do problema I. responda:

(p) Qual a distribuição das proporções do grau de educação segundo cada urna das regiões de procedência?

(6) Baseado no resultado anterior c: no prOblema 2, você diria que existe dependência entre a região de procedência e o nível de educação do funcionado?

5. Usando o problema 3. verifique se há relações entre as variáveis rotatividade e salário.

" Após o lançamento de um novo modelo de automóvel. observou-se que 25% dos carros apresentavam defeitos na suspensão, t5% no sistema détrico c 10% na suspensão e DO sislema elétrico ao mesmo tempo.

(li) Quat a distribuição conjunta das variáveis? (6) Qual a proporção de carros que apresentam defeitos? (e) Entre os carros que apresentam defeitos na suspensão, qual a proporção que apre­

IJeIlta defeito no sistema elétrico? (d) Entre os carros que não apresentam defeitos na suspensão, qual a proporção que

apresenta defeitos no sistema elétrico? (r) Você aeba que exiSle relação entre as variáveis?

3.3, MEDIDA DE DEPENDÊNCIA ENTRE DUAS VARIÁVEIS NOMINAIS

De um modo geral, a quantificação do grau de dependência entre duas variáveis é reita pelos chamados coeficientes de associação ou correlação.

55

Page 35: Probabilidade e estatística

!

Estas sào medidas que descrevem num único número a dependência entre as duas variáveis. Para maior facilidade de compreensão, esses coeficientes usualmente variam de zero até um (ou, às vezes, de - I até 1), e a proximi. dade do zero indica total independência. , -

Existem muitas medidas que quantificam a dependência entre va. riáveis nominais, mas iremos apresentar apenas uma delas. É o chamado coeficiente de contingência, devido a K. Pearson.

Exemplo 3.3. Queremos verificar se a criação de detenninado tipo de cooperativa está associada com algum fator regional. Para isso, cole_ taram-se os dados da Tabela 3.7.

TABELA 3.7 - Cooperativas autorizadas a funcionar por tipo e estado, junho de 1974.

TIPO DE COOPERATIVA ESTADO f--------,---,--_-,--__ -j

Consumidor Produtor TOTAL

Escola Outros

São Paulo 214(33%) 237(37%) 78(12%) 119(18%) 648 (I 00";';) Paraná 51 (17%) 102(34%) 126 (42%) 22 (7%) 301(100%) ' ...... RioG.Sul 111(18%) 304(51 %) 139(23%) 48 (8%) 602(100%)

TOTAL 376 (24:~) 643 (42%) 343(22%) 189(12%) 1.551 (100%)

Fonte: Sinopse Estatistica do Brasil _ IBGE _ 1977

A análise da Tabela 3.7 mostra a existência de uma certa dependência entre as variáveis. Caso houvesse independência, esperaríamos que em cada estado tivéssemos 24% de cooperativas de consumidores, 42% de produtores, 22% de escolas e 12% de outros. Então, o número esperado de cooperativas de consumidores no Estado de São Paulo seria 648 x 0,24 = = 156 e no Paraná 301 x 0,24 = 72 (Ver Tabela 3.8).

Comparando as duas tabelas, podemos veri ficar as discrepâncias existentes entre os valores observados (Tabela 3.7) e os esperados (Tabela 3.8), caso as variáveis fossem independentes. Na Tabela 3.9, resumimos os desvios: observados menos esperados. Observando essa tabela podemos tirar algumas conclusões:

i) A soma total dos resíduos é nula. Pode-se verificar facilmente somando-se cada linha.

56

TABELA 3.8 _ Valores esperados na Tabela 3.7. ,ass.umindo a

independência entre as duas vanavelS. I

- TIPO DE COOPERATIVA

Outros TOTAL

ESTADÜ Consumidor Produtor Escola

156(24%) 272(42%) 142(22%) 78(12%) 648 (100';') São Paulo

66(22%) 36(12%) 301 (100";') Paraná 72(24%) 127(42%)

132(22%) 72(12%) 602(100%) Rio G. Sul 144(24%) 254(42%)

TOTAL 376(24%) 643(42%) 343(22%) 189(12%) 1.551 (100%)

Fonte : Tabela 3.7

TABELA 3.9 - Desvios entre observa~os e esperados.

TIPO DE COOPERATIVA

ESTADOS Consumidor Produtor Escola OutroS

58 (21 ,56) - 35(4,50) 64(28 ,84) 41 (21 ,55) São Paulo

-21 ( 6,12) - 25 (4,92) 60(54,54) - 14( 5,44) Paraná

50 (9 ,84) 7 ( 0 ,37) - 24( 8,00) Rio G. Sul 33( 7,56)

ffonte Tabelas 3.7 e 3.8

. I ue apresenta o maior desvio ii) A casela Escola-São Paulo e aque a q I . amos 142 d . d d-ncia ( 64) Nesta case a esperav

da suposição e 10 epen e. -.' desvio alto (60) só que I E 1 Parana também tem um . ,

casos. A case a ~co a- r (66) Portanto, se fôssemos considerar os o valor esperado e bem ~eno . be aior Uma maneira de observar desvios relati vos, este último sena m fi .. d 'd . isso é construindo para cada casela a segumte me I a.

(o ,-e,)' (3.1) e,

onde: Oi é o valor observado (Tabela 3.7); ei é o valor esperado (Tabela 3.8).

57

Page 36: Probabilidade e estatística

Assim, para a casela Escola-São Paulo obtemos:

(-64)' ~ 2884 142 ..

e para a casela Escola-Paraná,

(60)' ~ 54 54 66 ,.

o que é uma indicação de que o desvio devido a esta última casela é "maior" do que aquele da pri.meirót. Na Tabela 3.9 indicamos entre parênteses estes valores para todas as caselas.

Uma medida do afastamento global pode ser dada pela soma dos valores. Chama-se essa medida de X2 (qui-quadrado), e no nosso exemPlo teríamos

x' ~ 21 ,56 + 6,12 + ... + 8,00 ~ 173.24.

No caso geral , a expressão de l! é dada por

onde a somatória é estendida a todas as caselas. Quanto maior for o valor de X2 , maior será o grau de associação

existente entre as duas variáveis. Mas fica muito dificil , baseando.se em X2

, julgar se a associação é alta ou não. Por isso , K. Pearson, famoso estatístico do .começo do século, propôs o chamado coeficiente de con­tingência C, definido por

C - ~ -"';x2+n'

onde n é o número de observações. Teoricamente, esse coeficiente é um número entre zero e um , sendo nulo uando as variáveis não são associaQ.as e, portanto, X2 = O. Enlretanto, mesmo quando existe uma associação perfeita, C pode não ser igual a 1. Uma alteração possível é considerar O

coeficiente

C· ~ C/ [(I- 1)/ 1]"',

onde I = mínimo entre o número de colunas e o número de linhas da tabela. Voltando ao exemplo 3.3, obtemos:

58

, c ~ [173 ,24/ (173,24+ 1551)]' " ~ 0,32

C. ~ 0,32/ (2/3)' " ~ 0,40,

. d do grau de associação entre as duas variáveis. si indica ores

qdC ° fi lar no uso do X2 no Capítulo 1 t . tarell\0s a a

fIIIOIILEMAS

os dados do problema I , calcule o valor de Xl e o coeficien~e de con~ingência c. ... 'I. Usando ã de acordo com as conclusões obtidas antenormente.

fSIC$ valores est o

d ~? de C para os dados do problema 37 E para o problema 61 .. Qual o valor e e

C" de Seguros analisou li freqüência com que 2.000 segurados (1.000 h

t. ~ooo~~ulhercS) usaram o hospital. Os resultados foram :

Homl!ns Mulhl!fl!s

IOO "l.·j' 150 re>

Usaram o hospital 850 ;' <'

Não usaram o hospital 9OO r )lr

Calcule a proporção de homens entre os indivíduos que usaram o hospita.1. =~ Calcule a proporção de homens entre os individuos que não usaram o hospital.

(c) O uso do hospital independe do :elt~ do segura.~o? td) Encontre uma medida da dependencI3 entre V3navelS.

ta. A c:ompanhia X de dedetização aFirma que o proçesso por ela utiliza~o .garante um mIo mais prolongado do que aquele obtido por seus concorrentes mais diretos. U~a amostra de vários ambientes dedetizados foi colhida e anotou-se a duraçà.o do efeito • dedctização. Os resultados estão na tabela abaixo. Você acha que eXiste alguma eridincia a favor ou contra a afirmação feita pela companhia X?

Duração do efl!ilo de dednizaçdo

Companh ia MaiJ de 8 ml!ses Mtnos de 4 ml!ses De 4 a 8 ml!SI!S

X 64 120 16

Y 104 175 21

Z 27 48 5

59

Page 37: Probabilidade e estatística

3.4. DIAGRAMAS DE DISPERSÃO

.. Quando as variáveis envolvidas são al}lbas do tipo quantitativo pode-se usar o mesmo tipo de análise apresentada nas seções anterior~ e exemplificadas com variáveis nominais. De modo análogo, a distri. buição conjunta pode ser resumida em tabelas de dupla entrada , e através das distribuições marginais é possível estudar a dependência ou não das variáveis. Algumas vezes, para evitar um grande número de entradas, agru. pamos os dados marginais em intervalos de classe , de modo semelhante ao resumo feito no caso unidimensional. Mas além desse critério de análise as variáveis quantitativas sào passíveis de procedimentos analíticos ma~ refinados.

Um procedimento bastante útil para se verificar a associação entre variáveis quantitativas é o Kl.41ico de diW~, que nada mais é do qUe a representação Jõspares de valores num sistema cartesiano. Vejamos li

ilustração através de alguns exemplos.

Exemplo 3.4. Na Tabela 3.10 apresentamos os dados correspon­dentes ao número de anos (X) e o número de clientes (Y) de 5 agentes de uma companhia de seguros.

Na Figura 3:1 estão representados os pares (X, Y) observados na Tabela 3.4. Atraves da observação da disposição dos pon'os, concluímos que parece haver uma dependência entre as variáveis, porque no conjunto "à medida que aumenta o tempo de serviço, aumenta o número de clientes".

TABELA 3. 10 - Número de anos de serviço por número de clientes de 5 agentes de uma companhia de seguros.

Agente

A B C D E

TOTAL

Anos de serviço (X)

2 4 5 6 8

25

Número de clientes (Y)

48 56 64 60 72

300

Fonte : Dados hipotéticos

60

y

• 70

• (j.MWfi 60 • •

• I .. . t ,; ~

50 •

2 4 6 8 10 X

Fig. 3.1. Diagrama da dispersão dos dados da Tabela 3./0

Exemplo 3.5. Consi~erem~s agora as duas situações abaixo e os

respectivoS gráficos de dIspersa0.

(a) Numa pe~q.Ulsa f:i~ com 10. familias com renda bruta mensal entre tO e 60 sala noS mlnlmOS, medIram-se:

y: a % da renda bruta anual gasta com assistência medica; X: renda bruta qlensal (expressa em número de salários minimos).

Observando o gráfico de dispe rsão, vemos que existe uma depen-dencia "inversa" , isto e, aumentando a renda bruta , diminui a % da mesma

psta em assistência médica. Antes de passannos ao exemplo seguinte , convem observar que a

disposição dos dados da Tabela 3.1 1 numa tabela de dupla en trada não

TABELA 3.11 y

Famüitl X Y 8.0

A 12 7,2 7.5 • • 7.0 • 6.5 • ••

B 16 7,4 C 18 7,0 D 20 6,5 E 28 6,6 6.0 • •

5.5 • • F 30 6,7 G 40 6,0

10 20 30 40 50 60 X H 48 5,6 I 50 6,0 J 54 5,5

Fig. 3.2

61

Page 38: Probabilidade e estatística

, ir~a melhorar a compreensão dos dados, visto que , devido ao pequeno numero de observações, teriamos easeJas cheias apenas na diagonal.

(b) 8 indivíduos foram submetidos a um teste sobre conhecimento de lingua estrangeira e, em seguida, mediu~se o tempo gasto por cada um para aprender a operar uma determinada máquina. Assim,

X: resultado obtido no teste (máximo, 100 pontos); Y : tempo, em minuto , necessário para aprender a operar satisfatoria­

menle a máquina. .

TABELA 3.12

Indivíduo X Y

A 45 343 B 52 368 C 61 355 O 70 334 E 74 337 F 76 381 G 80 345 H 90 375

40 50 60 70 80 90 100 X

Fig. 3.3

. Do diagrama de dispersão , concluímos que parece não haver nenhum t1pO de d_epe~dência entre as duas variáveis, pois conhecer o resultado do teste na~ ajuda a prever o tempo gasto para aprender a operar a máquina.

, .A partir d~,s e~emplos.ap~esentados, verificamos que a representação graflca das v~navels quantItatIvas ajuda muito a compreender o compor­ta~en~~ conjunto das duas variáveis quanto à existência ou nào de as­soclabdldade.

3. 5 . COEFICIENTE DE CORRELAÇÃ O

.. Obse~vada uma associação entre as variáveis quantitativas, é muito util ~u~ntlficar .e~sa associabilidadc. Existem muitos tipos de associação .po~sl~els, e a~ul . Iremos ap~e~entar o ti~ de relação mais si mples, que é a linear. Isto e, Iremos defnllr uma medIda que julga o quanto a nuvem

62

de pontos do gráfic~ d~ dispersão a~rox.ir~la-se d~ uma reta. Como no o de variáveis qualitativas, essa medida Ira assumir valores entre -] e 1.

cas . I ·ddd· . Inicialmente, vejamos a gumas propne a es o Sistema canesmno de representaçãO. ~dmitamos um gráfico de dispersà~ como o d~ Figur~ 3.4{a) onde, atraves de uma transformação convemente, a ongem fOI olocada no centro da nuvem de dispersão. Aqueles dados possuem uma

c cria associação linear direta (ou positiva). Observando-os, notamos que ~ c:rande maioria dos pontos estào si tuados no primeiro e terceiro qua· dr;ntes. Nestes quadrantes as coordenada.s têm o mesmo sinal. e por­tanto o produto será sempre positivo. Assim, se para cada ponto fizer­moS o produto de suas coordenadas e somarmos esses produtos, ° re­sultado será um número positivo, pois existem mais produtos positivos

que negativos.

. '. •• • • • • •• ...

" . .. . •

,,'

• • • .' . • • • • • • '. •

'b,

Fig. 3.4

.. • • .. .. .. • • .. .. ,,'

Para a dispersão da Figura 3.4{b), observamos uma certa depen­dência linear inversa (ou negativa) c, procedendo como anteriormente , a soma dos produtos das coordenadas será negativa.

Para a Figura 3.4{c), a soma dos produtos das coordenadas deverá ser próxima de zero, pois cada resultado positivo tem um resultado ne­gativo simétrico, anulando-se na soma. E, observando-se a nuvem de pontos, parece não haver associação linear entre as duas variâveis.

Baseando-nos nessas propriedades é que iremos definir o coeficiente de correlação (linear) que irá medir quanto dos dados aproxima-se de uma reta. Antes de passarmos à definição do coeficiente de correlação através do exemplo abaixo, cabe a seguinte observação: a soma dos pro­dutos das coordenadas depende , e muito , do número de elementos. Numa situação de associação positiva, a soma dos produtos das coordenadas

63

Page 39: Probabilidade e estatística

,,- ...... - ,,-I . •

tendc_<Laumenta r de acordQ_com Q número de-pontos , e ficaria di fici l - , comparar essa medida pa ra dois conjuntos com números diferentes de pontos. Isto é atenuado usando-se "'a média da soma dos produtos das coordenadas",

Exemplo 3.6. Voltemos aos dados da Tabela 3.1 0, exemplo 3.4, onde tínhamos os dados referentes ao número de anos de emprego (X) e o número de clientes (Y) de 5 agentes. O primeiro problema que devemos resolver é a mudança da origem do sistema para o centro da nuvem de dispersão. O ponto mais conveniente é aquele formado pelas duas médias (x, y). As novas coordenadas obtidas estão representadas na quarta e quinta colunas da Tabela 3.13.

TABELA 3.13 - Cálculo do coeficiente de correlação.

Agente Anos Clientes x-x y-y x-x y- y --~ , DP(Y) = l , Z .. • z,

x Y DP(X) •

A 2 48 -3 - 12 - 1,5 - 1,5 2,25 8 4 56 - I - 4 -0,5 - 0,5 0,25 C 5 64 O 4 O 0,5 O O 6 60 I O 0,5 O O E 8 72 3 12 1,5 1,5 2,25

TOTAL 25 300 O O O O 4,75

x = 5 DP(X) ~ 2 Y ~ 60 DP(Y) ~ 8

Observando esses valores centrados, verificamos que ainda existe um problema quanto à escala usada. A va riável Y tem variabilidade muito maior do que X, e o produto ficará muito mais afetado pelos resultados de Y do que de X. Para corrigir isso, podemos reduzir as duas variáveis a uma mesma escala ; isso é obtido dividindo-se os desvios pelos respec­tivos desvios padrões (ver problema 2.5.27). Estes novos valores estão na Tabela 3.13, colunas 6 e 7. Observe as mudanças (escalas dos eixos) de variáveis realizadas , acompanhando as Figuras 3. 1 e 3.5(a) e (b).

Finalmente , na coluna 8, indicamos os produtos das coordenadas reduzidas e a soma dos mesmos 4,75 que, como esperávamos, é positiva. Para completar a definição da medida descri ta acima, basta calcular a média dos produtos das coordenadas reduzidas, isto é:

64

correlação (X, Y) ~ 4,; 5 ~ 0,95 ~ 95%.

10 Para este exemplo o grau de associabilidade linear está portan , . ,

quantificado em 95%.

y - v ,., 12 o , B 2

o

4 I

Ix - iI .. - 2 -, , 2 , -, - 2 - 10 , 2 3 -,

0 - 4 -, o

- B - 2

o - 12 -,

,.1 Ibl

Fig. 3,5

Da discussão feita até aqui, podemos definir o coeficiente de cor­

relação do seguinte modo :

Defmiçio. Dados n pares de valores (x I> YI), (X z• yz) ... (x" . y,,) , cha­ma-se de eoeficiente de correlação entre as duas variáveis X e Y a

I • (Xi -X ) (YI-li ) Corr(X, Y) ~ -; i~' DP(X) DP(Y) '

ou seja, a média dos produtos dos valores reduzidos (padronizados) da

variável. Iremos provar no Capítulo 7 que o coeficiente de correlação é um

número compreendido entre - I e I , isto é,

- I ~ Corr(X, Y) ~ I.

A definição acima é pouco operacional ; assim , costuma-se usar as seguintes fórmulas equivalentes de cálculo:

I :E(Xj -x)(yj-Y) !:xiYj-nxy Corr(X, Y) ~ -; DP(X) . DP(Y) ~ Jr;:.xl- nx')(l:yl

65 ~~=~~J~ ________________________ ~J ____________ ~ ______________ ~

Page 40: Probabilidade e estatística

II

I J 1

I: II II

I L"

'I

• PROBLEMAS

11. Para cada par de variáveis abaixo. esboce o diagrama de dispersão. Diga se você espera uma dependência linear, e nos casos afinnativos avalie o coeficiente de correlação.

(a) Peso e altura dos alunos do primeiro ano de um curso de Administração. (b) Peso e altura dos funcionarias de um escritório. ' (c) Quantidade de trigo produzida e quantidade de água recebida por canteiros nUma

estação experimental. (ti) Notas de Cákulo e Estatística de uma classe onde as duas disciplinas são lecionadas. (e) Acuide visual e idade de um grupo de pessoas. (j) Renda familiar e porcentagem da mesma gasta em alimentação. (g) Número de peças montadas e resultado de um teste de inglês por operário.

12. Abaixo estão os dados referentes ã porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras,

Regiões Selor indict' de Metropolitanas Primaria Analfabetismo

São Paulo 2,0 17.5 Rio de Janeiro 2,5 18,5 Belem 2,' 19,.5 Belo Horizonte ],] 22,2 Salvador 4,1 26,5 Porto Alegre 4,] 16,6 Recife 7,0 36,6 Fortaleza 13,0 38,4

Fonte : Indicadores Sociais para Âreas Urbanas - IBGE - 1977

(o) Faça o diagrama de dispersão. (b) Você acha que elliste uma dependência linear entre as duas variáveis? (c) Calcule o coeficiente de correlação. (á) Existe alguma região com comportamento direrente das demais? Se existe, elimine

o valor correspondente e recalcule o coeficiente de correlação.

13. Usando os dados do problema 3:

(a) Construa a tabela de freqüências conjuntas para as variáveis X (número de em­pregos nos dois últimos anos) e Y (salário mais receme).

(b) Como poderia ser feito o grMico de dispersão destes dados? \,. (c) Calcule o coeficiente de correlação. Baseado nesse número você diria que elliste ~ dependência enlre as duas variáveis?

0uer se verificar a relação entre o tempo de reação e o número de alternativas apre­sentadas a indivíduos acostumados a tomadas de decisão. Planejou·se um ellperimento

66

e se pedia ao participante para classificar objetos segundo um critério previa· -~ .. d··d·d 1 .

d'scutido Participaram do ellpenmento 15 ellccutlvoS IVI I os a eatonamenle mente I • . . . .

po' de 5 E se pediu a cada grupo para claSSificar 2, 3 e 4 objetos, respectivamente. em gru . . Os dadoS estão abaixo.

N," de Objetos 2 ]

Tempo de Reação 2.3,4,4,5

(a) Faça (bl Qual

o gráfico de dispersão das duas variáveis. o coeficiente de correlação entre elas?

\] PROBLEMAS E COMPLEMENTOS

~NO estudo de uma certa comunidade verificou·se que:

Y' I _ A proporção de mdlviduos solteiros é de 0,4.

4

4,5,5,6,7"

11 _ A proporção de individuos que recebem até 10 salários minimos é de 0,2. m _ A proporção de indivlduos que recebem até 20 salários mínimos é de 0,7. IV _ A proporção de indivíduos casados entre os que recebem mais de 20 salários

mínimos é de 0,7. V _ A proporção de individuos que recebem até 10 salários mínimos entre os solteiros

é de 0,3.

(a) Construa a distribuição conjunta das variáveis estado civil e faiu salarial e as respectivas distribuiçõcs marginais.

(b) Você diria que e)[iste relação entre as duas variáveis consideradas?

,r-16.) Uma amostra de 200 habitantes de uma cidade foi colhi~a para ~nalisar a atitude fren·

J te a um c<:rto projeto govcrnamental. O resul!ado fOI o seguinte:

LOCAL DE RESIDf: NC IA OPIN IÃO TOTAL

Urbano Suburbano Rural

A favor ]0 35 35 Contra 60 25 15

TOTAL 91l 60 50

(u) Calcule as proporções em relação ao total das colunas. (b) Você diria que a opi niãO independe do local de residência? (t) Encontre uma medida de dependência entre as variações.

100 100

200

67

Page 41: Probabilidade e estatística

1:J ~m ba" "' .. 1><" .bai,o. 'OC; oo"d"i,i, q", ° lipo do 'Ii,idado "Ú ~'"io"'d, l~ l o fato das embarcações serem de propriedade estatal ou particular? Encontre llIna ~~edida de dependência entre as variáveis.

Marinha Mercante Brasileira , por propriedade e tipo de atividade, [974

PROPRIE-ATIVIDADE

TOTAL DADE Cos/eira Fluvial InternaciQnal ,

Estatal 5 14' 51 197 Particular 92 231 48 3JI

TOTAL 9J 3J2 99 568

Fontes: Sinopse Estatistica do Brasil - IBGE _ 1975

(18. ma pesquisa sobre a participação em atividades esportivas de adultos moradores as proximidades de centros esportivos construidos pelo Estado mostrou os resultados

tabela abaixo. Baseado nesses resultados voei diria que a participação em atividades esportivas depende da cidade?

PARTI- CIDADE

CIPAM São Paulo Campinas R. Prelo Santos

Sim 50 65 '05 120 Não 150 185 195 180

19. Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos, segundo a classe social do respondente, mostrou o seguinte Quadro:

68

CLASSE SOCIAL PRETENDE

TOTAL CONTINUAR? Alia Média Baixa

Sim 200 220 380 800 Não 200 280 720 1.200

lU) Você diria que a distribuição de respostas afirmativas é igual a de respostas ne­gativas?

(b) Existe dependência entre os dois fatores? Dê uma medida Quantificadora da de. pendência.

(e) Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 não, vace mudaria sua conclusão? Just ifique.

o ra Tabelas de Duplas Eotradas - De um modo geral, podemo~ represen!ar lO- NoC~b"'O oooJ'unta de duas variáveis X I' com i ~ 1, 2 ... K, e rJ' com} "" I , 2 ... L ,

a distrl ULça L~ do seguinte quadro: alrav","

~I I

2

K

0"

°n

TOTAL n' l

2 j L TOTAL

n,.

n,.

n; .

o . , o.

Onde : n ;J = n.· de elementos pertencc!1les ao nivel da variável r.

i-ésimo nível da variável X e j-ésimo

nl' = ± nIJ= n.· de elementos do i-ésimo nível da variável X. 1- ,

~ • do -I-mentos do J'-ésimo nível da variável r. n' J= L.,n lJ=n . ...... 'o,

n. = total de elemenlos.

De modo análogo, podemos definir as freqüências relativas (proporções) do seguinte

modo :

n" n i' f !!..:.i. fij=....J<.., f;. = - e 'J= n. . n .. n ..

Uma outra freqüência que pode ser construída é aquela para a qual se mantém uma linha. Para a i-ésima linha fixa, vamos definir :

!;Ii "" .!!J.L (leia-se freqüência de j, dado 1), 0 ,.

fixa

Que é a proporção dentre os indivíduos do i-ésimo nivel de X que possuem a j-ésima característica de r. Analogamente definimos

fil1 =

69

Page 42: Probabilidade e estatística

I , I

II

L ; !

Vimos que, paTa duas variáveis independentes, é preciso que a distribuição de uma linha (coluna) seja bem semelhante à da linha (coluna) marginal. Em símbolos:

iJ l/=f' j

para todo; e j. Esta expressào permite-nos derivar uma outra para encontrar os valores esperados e/i na suposição de independência. pois para ejj a igualdade acima deve ser verdadeira. Assim :

~=!!..:1 n/_ n .

logo, •'",," iCX,--,,",,-,. eu = " ..

Então. para calcular os valores esperados da tabela (i.j), basta multiplicar o lotai da linha i pelo total da coluna j e dividir pelo total geral n.

21. Refaça os cálculos do problema 18. usando as rónnulas derivadas em 20.

22. Prove que

!Ífi: Numa amostra de 5 operários de uma dada empresa, foram observadas duas variáveis: rendo X os anos de experiência num dado cargo e Yo tempo. em minutos, gasto na exe. eução de uma certa tarefa relacionada com esse cargo.

/

As observações estão' apresentadas "' tabela abaixo :

X I 2 • • 5 Ex = 16 l;x l = 62 Ey = 22 Eyl = 130

Y 7 8 J 2 2 Ex.y=53

(a) Usando um critério estatístico, você díria que a variãvel X pode ser usada para explicar a variação de Y?

(b) Você pode justificar a resposta dada no item (a)?

( ; 4. 't'uitas vezes, a determinação da capacidade de produção instalada para certo tipo de ~ 'ndústria em certas regiões é um processo difícil e custoso. Como alternaliva, pode-se

"""- eslimar a capacidade de produção através da escolha de uma outra variável de medida mais fácil e que esteja linearmenle relacionada com ela.

70

Suponha que foram observados os valores para as variáveis: capacidade de produção instalada, potência instalada e área construída. Com base num critério estatístico, qual das variáveis você escolheria para estimar a capacidade de produção instalada"

x capo prod. insl. (ton.) • 5 4 5 8 9 10 " 12 12 Y potência insl. (l.OOO kW) I I 2 J J 5 5 6 6 6 Z área construída (100 m) 6 7 10 10 " 9 12 10 " " LX = 80: Ey = 38 : l.:z=IOO: EX2 =736: Eyl = 182 : EZl = 1.048 ; Ex.y = 361; Ex.z = 848; Ey.z = 41!.

". usando os dados da Tabela 1.1, Capitulo I:

) Construa a tabela de distribuição de freqüências conjunta pal1l as variáveis salário (a e idade, mas divida cada uma delas num certo numero de intervalos de classe. b) Como é que poderia ser calculado o coeficiente de correlação baseado nessa tabela? ( ) Você poderia "escrever" a fónnula da correlação para dados agrupados ? «

Lançam-se. simultaneamente, uma moeda de um cruzado e uma de um q~arto de dólar. l6. Em cada tentativa anotou-se o resultado obtido. cujos dados estão resumIdos na tabela.

TABELA - N.O de caras e coroas em 100 lançamenlos de uma moeda de "m cruzado e de uma de um quarto de dólar.

::s;;:: Cara Coroa TOTAL 1/4 DO/ar

Cara 24 22 46 Coroa 28 26 54

TOTAL " 48 100

Fonte : Experimento conduzido pelos autores

(a) Estes dados sugerem que os resultados da moeda de um cruzado e as de um quarto de dólar estão associados ?

(b) Atribua para ocorrência de cara o valor O, e para a ocorrência de coroa o valor 1. Chamando de X, o resultado do cruzado e de Xl o resultado do quano de dólar. calcule a correlação entre X, e Xl ' Esta medida está de acordo com a resposta que

\:] você deu anterionncnte?

~ma amostra de 10 casais e seus respectivos s.alários anuais (em u.m.) foi colhida num ~,Jcrto bairro conforme vemos na tabela abaixo.

Casal n.~ I 2 J • 5 6 7 8 9 10

Homem (X) 10 10 10 15 15 15 15 20 20' 20 Salário

Mulher (V) 5 10 10 5 10 10 15 10 10 15

-" " " Sabe-se que : L Xi = 150 L Xt = 2.400 L X,f, = 1.550 'o, 'o, ; _ 1

'" " L Y i = 100 L f: = 1.100 'o, ,-,

lo) Encontre o salário anual médio dos homens e o desvio padrão do salá rio anual dos homens.

71

Page 43: Probabilidade e estatística

(b) Encontre o salário anua! médio das mulheres e o desvio padrão do salãrio anual das mulheres.

(e) Construa o diagrama de dispersão. (cf) Encontre a correlação entre o salário anual dos homens e o das mulheres. (e) Qual o salário médio familiar? E a variância?

(f) Se o homem ê descontado em 8% e a mulher em 6%, qual o salário liquido anual médio familiar? E a variância?

~o departamento de vendas de certa companhia foi fonnado há um ano com a admissão U e 15 vendedores.

Nessa época, foram observados para cada um dos vendedores os valores de 3 variáve is:

72

T ~ resultado em um teste apropriado para vendedores; E - anos de experiência em vendas; G - conceito do gereme de vendas quanto ao currículo do candidato.

O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua co~a~ra.ção para responder algumas perguntas. Para isso, ele lhe da infonnaçôes adiCionaiS sobre duas variáveis:

V - volume médio mensal de vendas em u.m.; Z - zona da capital para a qual o vendedor foi designado.

O quadro de resultados é o seguinte :

Vendedor

I 2 3 4 , 6 7 8 9

10

" 12 13 14

" Dados:

T: teste

8 9 7 8 6 8 , , 6 7 4 7 3 , 3

l:T = 91 l:E = 40 LV = 453

" experiência G, conceito

V: vendas do gerente

, 2 2 I 4 4 3 3 I 3 4 2 3 I 2

l:Tl = 601 l:El = 128 rv2 = 15.509

Bom Bom M" M.u Bom Bom Bom Bom M" M.u Bom M.u

M" M" Bom

54 50 48 J2 30 30 29 27 24 24 24 23 21 21 16

nv = 2.959 l:EV = 1.260

Z:zono

Norte Sul Sul Oeste Sul Oeste Norte Norte Oeste Oeste Sul Norte-Sul Oeste Norte

Mais especificamente, o diretor lhe pede que responda aos sete itens seguintes:

(o) Faça o histograma da variável V em classes de 10.000,00 u.m., tcndo por limite in fcrior da 1.' classe o valor 15.000.00 u.m .

(b) Encontre a média e a variância da variável V. Suponha que um vendedor seja con­siderado excepcional se seu volume de vendas é dois desvios I»\drões superior a média geral. Quantos vendedores excepcionais existem na amostra?

(c) O diretor de vendas anunciou que transferirá para outra praça ~od~s os vende­dores cujo volume de vendas seja inferior ao 1.° quar:il da distnbUlção. Qual o volume mínimo de vendas que um vendedor deve realizar para não ser transferido?

(a') Os vendedores argumentam ao diretor que este critério não é justo, pois há zonas de venda privilegiadas. A quem você daria razão?

(e) Qual das trés variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego?

(/) Qual o volume de vendas esperado para um candidato com 6 anos de experiência , quando de sua admissão?

(g) Qual o grau de associabilidade entre o conceito do gerente e a zona a que o ven· dedor foi designado? Você tem explicação para esse resultado?

%9. A seção de assistência técnica da Cia. Milsa tem 5 fun cionários: A, B, C, O e E, cujos tempos de serviço na Cia. são, respectivamente, I, 3, 5, 5 e 7 anos.

(a) Faça um gráfico representando a distribuição de freqüência dos tempos de serviço X. (bJ Calcule a média Me(X), a variãncia Yar(X) e a mediana Md(X).

Duas novas finnas, a Verde e a Azul, solicitaram o serviço de assistência técnica da Milsa. Um mesmo funcionário pode ser designado para atender a ambos os pedidos, ou dois funcionários podem faze·lo. Assim, o par (A, B) significa que o funcionário A atenderá a finna Verde e o funcionário B, a finna Azul.

(c) Escreva os 25 possíveis pares de funcionarios para atender a ambos os pedidos. (a') Para cada par, calcule o tempo médio de serviço i, faça a distribuição de freqüên-

cia e uma representação gráfica. Compare com o .resultado de (a). (e) Calcule para os 25 valores de i os parãmetros Me(i), Var(i) e Md(i ). Compare

com os resultados obtidos em (b). Que tipo de conclusão você poderia tirar? (j) Para cada par obtido em (c), calcule a variância do par e indique:-a por S2 . Faça a

representação gráfica da distribuição dos valores de S2.

/g) Calcule Me(sl) e Var(sl). (h) Indicando por X, a variável que expressa o tempo de serviço do funcionário que

irá atender ã firma Verde e Xl o que irá atender a finna Azul , faça a distribuição conjunta da variável bidimensional (X" X2 ).

(i) As duas variáveis X, e Xl são independentes? U) O que você pode falar sobre as distribuições "marginais" de X, e X2 ? (I) Suponha agora que três finnas solicitem o serviço de assistência técnica. Quantas

triplas podem ser formadas? (m) Sem calcular todas as possibilidades, como você acba que ficaria o histograma

de i? E Me(i)? E Varri)? (n) E sobre a variável S2?

(o) A variável tridimensional (X" Xl , XlJ teria alguma propriedade especial para as suas distribuições "marginais"?

30. Refaça o problema anterior, admitindo agora que um mesmo fun,cionário não pode atender a duas finnas.

73

Page 44: Probabilidade e estatística

,

PARTE 11 PROBABILIDADES

CAPíTULO 4

Probabilidades

-4.1. INTRODUÇÃO

No capitulo anterior, vimos que a distribuição de freqüências das observações de um fenômeno casual é recurso poderoso para se en tender a variabilidade do mesmo. Entretanto, com suposições adequadas e sem observar diretamente o fenômeno, podemos criar um modelo teórico que reproduza muito bem a distribuição das freqüências quando o fe. nômeno é observado diretamente. Tais modelos são os chamados mo. delos de probabilidades .

Exemplo 4.1 . Queremos estudar as proporções de ocorrência das face:) de um dado. Um procedimento seria lançar o dado um certo nu. mero fi de vezes e co ntar o numero n; de vezes que ocorre a face t, i = 1, 2, .. . 6. As proporções nJn determinam a distribuição de fre. qüências do fenômeno . Lançando um número n'(n' -+ n) de vezes o dado, teríamos uma outra distribuição de freqüências, mas com um padrão que esperamos ser muito próximo ao anterior.

Outra maneira de construir a distribuição de freqüências é através de suposições teóricas. Primeiro observamos que só podem ocorrer 6 faces; a segunda consideração é admitirmos que o dado e perfeitamente equilibrado. Assim, cada face deve ocorrer o mesmo número de vezes, e portanto a proporção de ocorrência ' de cada face deve ser 1/ 6. Nestas condições, com as suposições feitas , teríamos o seguinte modelo teórico de freqüências para as faces dos dados:

74

FACE

Freqüência Teórica

2 3 4 5 6 TOTAL

I I I 6 6 6 6 6 6

Exemplo 4.2. De um grupo de duas mulheres (M) e três homens (H), pessoa será sorteada para presidir a reunião. Queremos estudar

uma '. d I'" .. robabilidades de que o presIdente seja o sexo mascu mo ou lemmmo. ~:Servamos que (a) só existem duas possibilidades: ou a pessoa sorteada é d seXO masculino (H) ou do sexo feminino (M); (b) supondo que o 50f­

~ seja honesto e que cada pessoa tenha igual chance de ser sorteada, leiO . . 'd . t teremos o segumte modelo de probablil ades para o expenmen o:

SEXO

Freqüência

Teórica

M H TOTAL

2 3

5 5

Dos exemplos acima, verificamos que todo experimento ou fenô­menO que envolva um elemento casual terá seu modelo probabilístico especificado no momento que estabelecemos:

(i) um espaço amostrai, 11, que consiste, no caso dis~re~o , na enum.eração (finita ou infinita) de todos os resultados posslvels do expenmento em questão: 11 = [lU! , lUZ, .. . }. Os elementos lU são os pontos amostrais;

(H) uma probabilidade, P(ro), para cada ponto amostraI, de tal sort~ que seja possível encontrar a probabilidade PiA) de qualquer subconjunto A de 11, isto é, a probabilidade do que chamaremos um evenlO.

Exemplo 4.3. Lançamos uma moeda duas vezes. Se C indica cara e R indica coroa, então, um espaço amostraI será 11 = {w I , Wl, W), w41, onde W I = (C, e), Wz = (C, R), wJ == (R , C), W4 = (R, R). É razoável supor que cada pon to (j) tem probabilidade 1/4, se a moeda é perfeitamente simétrica e homogênea.

Se A é o evento que consiste na obtenção de faces iguais nos dois lançamentos, então,

P(A) ~

De um modo geral, se A é um evento, então,

P(A) ~ LP(W}, (4.1 )

onde a soma é estendida a todos os W j E A. • Vale aqui uma observação sobre espaços amostrais. Para um mesmo

experimento podemos ter vários espaços amostrais , dependendo do

75

Page 45: Probabilidade e estatística

objetivo do problema que se quer estudar. Por exemplo, suponha que lancemos uma moeda 5 vezes. Se estamos interessados apenas na se­qüência de caras e coroas obtida, um espaço amostraI é n

l :=:

=[(x 1 " " ,xs):Xj = 0 ou xi = l , i = I, ... , 5}. Mas se estamos interes_ sados no número de ca ras obtidas , então , um espaço amostrai mais COn-veniente e 0:2 = iO. 1,2,3,4, 5}. •

Exemplo 4.4. Uma fábrica produz um deJerminado artigo. Da li­nha de produção , sào retirados três artigos e cada um é classificado como bom (B) ou defeituoso (D) . Um espaço amostrai do experimento é

n ~ : BBB, BBD, BDB, DBB, DDB, DBD, BDD, DDD).

Se A é o evento que consiste em obter dois artigos defeituosos, então A = {DDB, DBD, BDD~.

Exemplo 4.5. Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar. Um espaço amostrai conveniente é

n= :t:/~OJ,

isto é, o conjunto de lodos os números reais não-negativos. Se A indica o evento "0 tempo de vida da lâmpada é inferior a 20 horas", então A = : I : O ~ ( < 20) . Este é um exemplo de um espaço amostrai continuo, contrastado com os anteriores, que são discreto.~.

PROBLEMAS

I. Uma urna contém duas bolas brancas (R) c três bolas vermelhas (V). Reti ra-se uma bola ao acaso da urna. Se for branca, lança·se uma moeda; se for vermelha. da é de­volvida â urna e retira·se outra bola. Dê um espaço amostrai para o experimento.

2. Lance um dado até que a face 5 apareça pela primeira vez. Enumere os possíveis re­sultados deste experimento.

3. Três jogadores A. B e C disputam um !arneio de tênis. Inicialmente. A joga com B e o vencedor joga com C, e assim por diante. O torneio termina quando um jogador ganha duas vezes em seguida ou quando são disputadas, ao todo. quatro partidas. Quais ~o os resultados possíveis do torneio?

4. Duas moedas ~o lançadas. Dê dois possiveis espaços amostrais para este experimento. Represente um deles como o produto cartesiano de dois outros espaços amostr.!.is. (Ver. desta mesma coleção, Cálculo - Funções de uma Varitil'e/, Capítulo I , para o conceito de produto cartesiano.)

76

;.urna moeda e um dado são lançad~s. Dê um espaço amostrai do experimento e depois '- ./"cpresente-o como produto carteSiano dos dois espaços amostrais, Correspondente

.".r---. aos experimentos considerados individualmente.

ii~fína um espaço amostraI para cada um dos seguintes experimentos aleatórios:

(9) Lançamento de dois dados ; anota-se a con figuração obtida.

;{

(b) Numa linha de produção conta-se o número de peças defeituosas num intervalo de uma hora.

(e) Investigam-se famílias COm 4 crianças, anotando-se a configuração segundo o sellOo. (a') Numa entrevista telefônIca com 250 assinantes, pergunta-se se o proprietãrio tem

ou não maquina de secar roupa.

(e) Mede-se a duração de lâmpadas. deixando-as acesas até que queimem. IJJ Um fichário com 10 nomes contém 3 nomes de mulheres. Seleciona-se ficha após

ficha , até o último nome de mulher ser selecionado. e anota-se o número de fichas selecionadas.

(g) Lança-se uma moeda até aparecer cara e anota-se o número de lançamentos. (hl , Um relógio mecânico. pode parar a qualquer momento por falha téCnica. Mede-se

o ângulo (em graus) que o ponteiro dos segundos forma com o eixo imaginario orientado do centro ao número 12.

(I) Mesmo enunciado anterior, mas supondo que o relógio seja eletrico. onde o pon­teiro dos segundos move-se continuamente.

W De um grupo de 5 pessoas IA , R, C. D, Ej sorteiam_se duas, uma após outra, com reposição, e anota-se a configuração formada.

(f) Mesmo enunciado que j. sem reposição.

(m) Mesmo enunciado que j, mas os dois selecionados simultaneamente. (n) De cada família entrevistada numa pesquisa, anotam-se a classe social a que per.

tence (A. B. C. D) e o estado civil do chefe da familia.

4.2. ALGUMAS PROPRIEDADES

Sendo o modelo probabilístico um modelo teórico para as freqüên­cias relativas, das propriedades destas podemos verificar algumas das propriedades das probabilidades que daremos a seguir.

Assim, como toda freqüência relativa é um numero entre O e I temos que ,

O ~ P(A ) ~ I (4.2)

f'ilra qualquer evento A. Para efeito de completividade, será út il consl­derannos o espaço lodo n e o conjunto \'aZÍo cP como evefllos. O primeiro é denominado evento certo e o segundo, el'el/lo impossÍt'el, e temos:

p(n)~ I ,

P(~) ~ o. (4.3)

77

Page 46: Probabilidade e estatística

Exemplo 4.6. Suponha que o seguinte quadro represente uma POs­sível divisão dos alunos matriculados em dado Instituto de Matemá_ tica, num dado ano.

TABELA 4.1

~ Homens (H) CURSO

Mulheres (F) TOTAIS

Matemática Pura ......... (M) 70 40 110

Matemática Aplicada ...... (A) I 15 15 30 I Estatística .................. (E) 10 20 30

Computação .............. (C) 20 10 30

TOTAIS ........................... 115 85 200

Vamos indicar por M o evento que ocorre quando, escolhendo-se ao acaso um aluno do Instituto, ele for um estudante de Matemática Pura. A, E, C, H e Ptêm significados análogos. Desta maneira , vemos

30 115 que P(E)~2oo' ao passo que P(H)~2oo'

Dado os eventos A e H, podemos considerar dois novos eventos:

- A u H, chamado a reuniào de A e H, que ocorre quando pelo menos um dos eventos ocorre;

- A n H, chamado a intersecção de A e H , que ocorre quando A e H ocorrem simultaneamente.

. 15 . 1 Ih'd , . E fácil ver que P(A n H) = 200' poIS o a uno esco I o era que

ser, ao mesmo tempo, matriculado no curso de Matemática Aplicada e homem.

30 115 Vemos que P(A) = 200 e P(R) = 200; suponha que nosso cálculo

para P(A u H) fosse

30 115 145 PiA u H) ~ PiA) + P(H) ~ 200 + 200 ~ 200'

78

Se assim o fizéssemos, estaríamos contando duas vezes os alunos que são homens e que estão matriculados no curso de Matemática Apli­cada, como está destacado na Tabela 4.1. Portanto, a resposta correta é

PiA u H) ~ PiA) + P(H) - PiA n H) ~

~ 2: + I;~ -2~ ~ ;~.

No entanto, considerando-se os eventos A e C, vemos que 30 30 60

PiA) ~ 200' P(C) ~ 200 e PiA u C) ~ 200 ~ PiA) + P( C). Neste caso, os

eventos A e C são disjuntos ou mutuamente exclusivos, pois se A ocorre, então C não ocorre e vice-versa. AqUI, n = e P(A n C) = o.

Portanto, se M e N sào dois eventos quaisquer, teremos a chamada regra da adiçào de probabilidades:

P(M u N) ~ P(M) + P(N) - P(M n N), (4.4) que se reduz a

, P(M u N) ~ P(M) + P(N), (4.5) se M e N são eventos mutuamente exclusivos.

Suponha agora que estejamos somente interessados em saber se um estudante escolhido ao acaso está matriculado como aluno de Ma­temática Pura, Aplicada , Estatística ou Computação, não interessando saber se é homem ou mulher. Um espaço amostrai é Q = M u A u E u C. Os eventos A e B = M u E u C são chamados complementares e são

tais que A u B = Q e A n B = f/J. Vemos que P(A) = 2:' enquanto

P(B)_IIO 30 30_170 .. - 20() + 200 + 200 - 200' Isto e,

PiA) + P(B) ~ I. (4.6)

Em geral, vamos indicar por A' o complementar de um evento A, e teremos, então,

P(A1 ~ 1 - PiA). (4.7)

As operações de reunião, intersecção e complementação entre even­los possuem propriedades análogas àquelas válidas para operações entre conjuntos. (Ver Cálculo - Flmções de uma Variável. Capítulo 1.)

7.

Page 47: Probabilidade e estatística

Por exemplo:

(i) (A n Bl' = A' u B' (A v B)' = Ar n Br

Oi) A nA' = ~ A v AO = Q

(iii) A n ~ = ~ AnQ=A Au~=A AvO=Q

(iv) ~' = O O' = ~

Vejamos um exemplo de aplicação das propriedades das proba. bilidades.

Exemplo 4.7. Consideremos um experimento e os even tos A e B as·

saciados, tais que P(A) = t, P(B) = + e P(A n B) = +. Então, temos:

(a) PIA ' ) = ~ PIA) = 1 2

= 1 .

2 ' 1 2

~ 3 = 3 PIB') = 1 ~ PIB) = 1

(b) PIA u B) = PIA) + PIB) ~ PIA n B) =

1 1 1 7 = - + - ~- = -.

2 J 4 12

(e) P(A' n B') = P[(A u BJ'] = 1 ~ PIA u BI = 1 7 5 12 12

J (di PIA' u B') = P[(A n BJ'] = 1 ~ PIA n B) = 1 = 4 4 .

(e) Calculemos P(A' n B), ou seja, a probabilidade que ocorra B e não

80

ocorra A. Podemos escrever: .

I B = IA n B) u IA' n B),

ou seja, B pode ocorrer com A ou (exclusivo) com Ar. Logo.

p IB) = PIA n B) + PIA ' n BI,

do que decorre

I t Ir PIA' n B) = P(B) ~ PIA n B) = 3 ~ 4 = 12'

Se n = jWj', .. . , illn} é finito e A é um evento com m pontos amos­trais (m ~ 1l), então,

P(A) = 111 , n

se todos os pontos têm a mesma probabilidade +. Nestas condições

não é necessário explicitar completamente Q e A, bastando calcular m e /l. Para tanto, são usado~ os métodos clássicos de contagem da aná· lise combinatória. Um princípio fundamental de contagem nos diz que, se uma tarefa pode ser executada em duas etapas, a primeira podendo ser realizada de p maneiras e a segunda de q maneiras, então, a tarefa completa pode ser executada de p.q maneiras.

Exemplo 4.8. Suponha que em um lote com 20 peças existam 5 de­feituosas. Escolhemos 4 peças do lote ao acaso, ou seja, uma amosfra de 4 elementos, de modo que a ordem dos elementos seja irrelevante.

Desta maneira , o número de amostras com 4 elementos que po­demoS extrair do lote é e40). Suponha que queiramos calcular a pro­babilidade de se escolher 2 defeituosas na amostra. Pelo visto acima, n =' e4o) é o número de pontos do espaço amostraI. Seja o evento A: 2 defeituosas na amostra. Como haverá 2 defeituosas e 2 não-defeituosas na amostra de 4 elementos, temos que m = (~)(,l) , pois podemos escolher 2 defeituosas e 2 não-defeituosas simultaneamente, de m C'l) maneiras, usando o principio enunciado acima. Logo ,

P(A) = ill I'i) = 10 x 105 = 1.050 ~ O 217. . 1':) 4.845 4.845 '

PROBLEMAS

7. No problema 4. liste os evenlos :

(a) pelo menos uma cara : (h) duas caras ; (e) o complementar do evenlo em (b).

~xprcssc em termos de Operações entre eventos.

(a) A ocorre mas B nâo ocorre: (b) exatamente um dos cvento~ A c B ocorre : (e) nenhum dos dois eventos A c B Ocorre.

8 '

Page 48: Probabilidade e estatística

9. No espaço amostrai do problema 3. atribua a C'dda ponto contendo k IClras 11 pro. babilidade 1/21 (assim. AA tem probabilidade 1/4),

(a) Mostre que 11 soma dlls probabilidades dos pontos do espaço amoslral ê um. (b) Calcule a probabilidade de que A vença (um jogador vence quando ~wnha duas

partidas seguidas), Em seguida. calcule a probabilidade de que B \cnçll (e) Qual a probabilidade de que não haja decisão'!

10. No problema 2. suponha que j indique o ap;lr~c:imento de face j e Q indique que apa. receu outra face qualquer diferente de 5. Atribua probabilidilde 15/(d (1/6) <l cadll ponto com k letras iguais a Q seguidas de 5.

(a ) Mostre que a soma das probabilidades dos pontos amostrais ê igual a um (aqui. você deve usar o resultado que dá a soma dos termos de uma sequencia geornc. triea infinita).

ih) Calcule a probabilidade de que a face 5 apareça. após três lançamentos do dado.

11. Dentre 6 numeros positi\'os c 8 negativos. 2 numeros são escolhidos ao acaso Iscm reposição) e multiplicados. Qual a probabilidade de que ° produto seja positivo'!

v onsidere o lançamento de dois dados. Considere os eventos A = som~ dos núme­ros obtidos igual a 9. e B = número no primeiro dado maior ou igual a 4. Enumere os elementos de A e 8 . Obtenha A u B, A n 8 e A<.

;;)Obtenha as probabilidades dos eventos que aparecem nos problemas 7 e 12.

14. ue suposiçqes deveriam ser feita s para que os resultados dos experimentos abai..:o ~ possam scr considerados eqüiprováveis'!

(a) Lançamento de um dado.

(b) Opinião de moradores de uma cidade sobre um projeto governamental. (t) Preço de uma ação no fim da próxima scmana.

4. 3 . PROBABILIDADE CONDICIONAL E INDEPENDÊNCIA

Voltemos ao quadro do exemplo 4.6. Dado que um estudante, eg- '

colhido ao acaso, esteja matriculado no curso de Estatística, a proba-

'bilidade de ele ser mulher é de 20 = ~ 30 3

Isto porque do total de 30 aluo

nos que estudam Estatística, 20 sào mulheres. Escrevemos

P(mulher I Estatística) = ~.

82

Para dois even tos quaisquer A e B, sendo P(B) > O, definimos a '-nbilidade condicional de A, dado B, P(A I B), como sendo prolfll

P(A I B)~ P(A n B)

P(B) (4.8)

Para o exemplo mencionado, se B e A ind icam, respectivamente, oS eventos "aluno matriculado em Estatística" e "aluno é mulher", então p(A n B) ~ 20/200, P(B) ~ 30/200 e, portanto ,

P(A I B) ~ 20/200 ~ .3. 30/200 3 '

contO havíamos obtido. Da relação (4.8) obtemos a chamada regra do prodwo de probabilidades,

PiA n B) ~ P(B) • P(A I B). (4.9)

Exemplo 4.9, Uma urna contém duas bolas brancas (B) e três ver­melhas (V). Suponha que sorteemos duas boias ao acaso, sem repbsição. Isto significa que escolhemos a primeira bola , verificamos a sua cor e não â devolvemos à urna; misturamos as bolas restantes e retiramos a segunda bola. O diagrama em árvore ilust ra as possibilidades. Em cada "galho" da árvore estão indicadas as probabil idades de ocorrência, sendo que para segundas bolas lemos probabi lidades condicionais. A proba­bilidade do resultado ~onjun to é, então, dada por (4.9) (ver tabela a seguir) .

B ResuILados Probabilidades 114

88 2 I 2 B x-=-

5 4 20 2/' 2 3 6 3/4 BV x -

v 5 4 20

3 2 6 B VB x -=-2/4 5 4 20

315 3 2 6 v VV -x - =-5 4 20

2/4 TOTAL v

8 3

Page 49: Probabilidade e estatística

Exemplo 4./0. Imagine agora que as duas extrações são feitas da urna, mas a primeira bola é reposta na urna antes da extração da segunda bola. Nestas condições, as extrações são independentes, no sentido de que o resultado de cada extração nào tem innuência no resultado da outra. Obtemos a situação a seguir.

• 2/' Resultados Probabilidades

BB 2 2 4 • - x- = -5 5 25

2/' 3/' BV 2 3 6

v - x- = -5 5 25

VB 3 2 6 • - x -=_ 2/' 5 5 25

3/' .

3 3 9 v VV -x -=-

5 5 25

3/, TOTAL v

Observe que aqui

P (branca na 2.a I branca na 1.-) = ; = P (branca na 2.a) , ou seja,

se o evento A é independente de R, entào P(A I B) = P(A). Usando (4.9), se A é independente de B temos

P(A n D) ~ P(A) • P(D) (4 .10)

É fácil ver que, se A é independente de 8 , então B é independente de A. A fórmula (4.10) pode ser tomada como definição de independência, ou seja, A e B sào independentes se, e somente se, (4. 10) for valida.

Exemplo 4.1 I. Considere ainda a mesma urna dos exemplos ante­riores , mas vamos fazer três extrações sem reposição. Obt~mos o esquema a seguir.

84

2/'

114 B -----'---- V

B ~ l';:3 __ ~8V ~3í4-- v-=-====:- _

2/3

• 3/5 </4 .-=--=== =: 2/3 v

~8 2/4 v-=----=_-;-;:;~ __

113 V

Resultados Probabilidades

2 I 2 6 BBV ~x - x I~20 ~ 60 5 4

2 3 I 6 BVB - x - x-= -5 4 3 60

2 3 2 12 BVV - x - x - = -5 4 3 60

32 1 6 VBB - x -x - = -5 4 3 60

3 2 2 12 VBV - x - x -= -5 4 3 60

3 2 2 12 VVB - x - x-= -5 4 3 60

3 2 I 6 VVV - x -x - = -5 4 3 60

TOTAL 60/60 ~ I

Observe que P(B I B) ~ ~. ao passo que P( V I B n B) ~ I; dai 4 21 I

PIB n D n JI) ~ P(D) • P(D I D) • P( V I D n D) ~ 5 x 4" x I ~ Tõ De modo geral. dados 3 eventos M. N e R. temos que

P(M n N n R) ~ P(M) • P(N I M)· P(R I M n N) (4. I I)

8'

Page 50: Probabilidade e estatística

/

I : ~

Exemplo 4.12. A Teoria da Confiabi lidade estuda sistemas e seus componentes , como, por exemplo, sistemas mecânicos ou eletrônicos (um automóvel ou um computador) e sistemas biológicos (como o COr. po humano). O objetivo da teoria é estudar relações entre o funciona. namento dos componentes e do sistema. A Figura 4.1 ilustra um sistema composto de dois componentes, ligados em série.

1 2

------"0 O l Fig. 4./

O sistema funciona se os componentes I e 2 funcionam simulta_ neamente. Se um dos componentes não funciona, o sistema também não funciona. Supondo que QS componentes funcionem independente_ mente, e se Pi é a probabilidade do componente i (i = 1,2) funcionar, então a probabilidade do sistema funcionar é P1P2'

Chamando:

E: o sistema funciona

A i: o componente i funciona, j = 1,2

então,

P(E) ~ P(A, " A,) ~ P(A,)P(A,) ~ Pú', .

Cadap;é chamada a confiabilidade do componente i e P(E) = h(Pt ,P2)= =P1fJ2 é chamada a confiabilidade do sistema.

! I

Se os componentes I e 2 estiverem ligados em paralelo, como na , Figura 4.2, então o sistema funciona se pelo menos um dos dois com­p<mentes funciona. Ou seja,

P(E) ~ P(A, u A,) ~ P(A,) + P(A,) - P(A, " A,) ~

=Pt + P2 - P1P2

e a confiabilidade do sistema é h(Pt ,P2) =Pt + P2 - P1P2'

1

I ~ I 2

Fig. 4.2

86

ora o conceito de independência para três eventos. Di­VeJ'amos ag ventos A B e C são independentes se, e somente se, zen'los que os e ,

P(A " S) ~ P(A) • P(S)

P(A " C) ~ P(A) • P(C) P(S n C) ~ P(S) • P(C)

P(A " S " C) ~ P(A) • P(S) • P(C)

Esta definição eventos.

pode ser estendida para um número finito qualquer de

PROBLEMAS

~ ·d Te uma urna contendo 3 bolas pretas e 5 bolas vermelhas. Retire duas bolas 15. ,Lonsl e . _ ....... da urna, sem reposlÇ30.

h ltado' po~síveis e as rcs .... ctivas probabilidades. (a) Obten a os rcsu ~ ~ .. - . _ (b) Mesmo problema, para extrações com reposlçao.

blema anterior calcule as probabilidades dos eventos : 1'- o pro ,

(a) bola preta na primeira e segunda extrações ; (b) bola preta na segunda extração ; (c) bola vermelha na primeira extração.

obabilidade de que A resolva um problema é de 2/] e a probabilidade. ~e que B 17. ~va é de 3/4. Se ambos tentarem independentemente, qual a probablhdade do

problema ser resolvido?

ís);m dado é viciado, de tal Forma que a probabilidade de sair um certo pon~o é pro­V porcional ao seu valor (por exemplo, o ponto 6 é ] vezes mais provável de sair do que

o ponto 2). Calcular:

(a) a probabilidade de sair 5, sabendo-se que o ponto que sai.u é imp~r. . (b) a probabilidade de tirar um número par, sabendo-se que saiU um numero maIor

que ].

19. As probabitidades de que dois eventos independentes ocorram são p e q, respectiva­mente. Qual a probabilidade :

(a) de que nenhum destes eventos ocorra? ~ (b) de que pelo menos um destes eventos ocorra?

10. Na Figura 4.] temos um sistema com trés componentes funcionando indepen­dentemente, com oonfiabilidades p I , pz C P3' Obtenha a confiabilidade do sis­tema.

2

--n- r--0--r­l' L.(j-

'3 Fig. 4.3

87

Page 51: Probabilidade e estatística

21. Na tabela ao lado, os numeros que apa­reçcm sào probabilidades relacionadas com a ocorrência de A, B, A í"I B. etc. Assim. PIA)"" 0,10. enquanto que

PIA n B) = 0.04.

Veri fique se A e B sào independentes.

A

A'

B B'

0.04 0.06 0.10

0,08 0.82 0.90

0.12 0.88 1.00

r6--6- i 22. Supondo que todos os componentes do sistema da Figura 4.4 tenham a mesma confiabilidade p c funcionem indepen­dentemente. obtenha a confiabi!idade do sistema.

f---- ,

3 4

Fig. 4.4

4.4. TEOREMA DE BAYES

Uma das relações mais importantes envolvendo probabilidades con. dicionais é dada pelo teorema de Bayes, que expressa uma probabilidade condicional em termos de outras probabilidades condicionais e margi. nais. Vamos introduzi-lo através de um exemplo.

Exemplo 4.13. Temos 5 urnas exatamente iguais. cada uma com 6 bolas . Duas desses urnas (tipo C 1) têm 3 bolas brancas. duas outras (tipo C 2) têm 2 bolas brancas. e a última urna (tipo C)) tem 6 bolas brancas. Escolhemos uma urna ao acaso e dela retiramos uma bola. Qual a pro. babilidade da urna escolhida ser do tipo C). sabendo·se que a bola sor. teada é branca?

Na Figura 4.5 estão esquematizados o espaço amostraI e os even. tos de interesse.

c O R

88

C, I I

URNA

2 3

Fig. 4.5

C, I ,

4

c,

5

o O O

,

emas encontrar P(C) 1 B) , Quer 2

P(C ,) ~ 5

2 P(C,) ~ 5

1 P(C')~5

sabendo que

1 P(BI C,) ~ 2

1 P(BI C,) ~ 3

P(BI e,) ~ 1

Da definição de probabilidade condiciona l, lemos

p(e, n B) ~ p(e,) • P(B I e,) P(B) P(B)

p(e, 1 B) ~ (4.12)

Precisamos agora encontrar o valor de P(B) , já que o numerador é co· nbecido . Como C l ' C 2 e C 3 são eventos mutuamente exclusivos , e reu­nidos formam o espaço amostrai completo , podemos .decompor ? even· to B. na reunião de três outros, mutuamente exclUSIVOS. ou seJa:

B ~ (e, n B) u (e, n B) u (C, n B) . (4.1 J)

e então

P(B) ~ P(C, n B) + p(e, n Bl + P(C, n B) ~

~ P(C,) .P(BI C,) + P(C,).P(BIC,)+P(C,l .P(BIC,l~

~2.~+ 2 .~ +~ .1~ S 5 2 5 J 5 15

Substituindo este resultado em (4.13) obtemos:

I - ·1 5

PI C, I B) ~ --=CSC;-

15

J 8

Podemos agora generalizar os resultados acima do seguinte modo: seja lC I , C z , ... , C

R] uma partição do espaço amostrai n, isto é,

C1f'I Cj =cP, i4=-j, e C L U C2 U ... U c~=n; c consideremos A um even­to qualquer. Também são conhecidos P(Cil e PiA I Cj ) para i = 1.2 •. . • fl. Então, lemos o seguinte resultado, ilustrado pela Figura 4 .6.

89

Page 52: Probabilidade e estatística

Teorema de Bayes - A probabilidade de ocorrência de um dos eventos C; , dado que ocorreu o evento A, é dado por:

P(C d A) ~ -:.p,-,(""C,,-,)_' ,--P(",A,-,I -"C,,-,)~, , i ~ I , , .. , n. (414)

I P(Cj ) , P(A I Cj )

J" ,

c, c,

c, c.

Fig. 4.6

Exemplo 4.14. Para selecionar seus funcionários, uma empresa ofe­rece aos candidatos um curso de treinamento durante uma semana. Ao final , eles são submetidos a uma prova e 25% sào classificados como bons (B), 50% como médios (M) e os restantes 25% como fracos (I), Como medida de economia , o departamento de seleção pretende subs­tituir o treinamento por um teste contendo perguntas envolvendo conheci­mentos gerais e específicos. Mas, para isso, gostaria de conhecer qual a probabilidade de que um indivíduo aprovado no teste fosse considerado fraco, caso fizesse o curso, Assim, nesse ano antes do inicio do curso, os candidatos foram submetidos ao teste e, de acordo com os re~ultados,

receberam o conceito aprovado (A) ou reprovado (R). Ao final do curso, obtiveram as seguintes probabilidades condicionais:

P(A I B) ~ 0,80 P(A I M) ~ 0,50 P(A I FJ ~ 0,20.

Queremos encontrar P(FI A), e pelo teorema de Bayes esta é dada por

P(F I A) _ P(A I FJ ' P(FJ ~ - P(A I E) , P(E) + P(A I MJ ' P(MJ + P(A I FJ ' P(FJ

(0,20) , (0,25) ~ O lO. (0,50) , (0,50) + (0,20) , (0,25) , (0,80) , (0,25) +

Então, apenas 10% dos aprovados é que seriam classificados como fra­cos durante o curso. De modo análogo, podemos encontrar:

90

PIEI A) ~ 0,40 e P(M I A) ~ 0,50,

seriam subsídios valiosos para ajudar a decisão de substituir o trei­que namenlO pelo teste.

PROBLEMAS

I.':l Uma companhia produz circuitos in tegrados em tres fáb ricas. I, 11 c 111. A fâbrica J l:)' produz 40'}. dos circuitos. enquanto a 11 c a 111 produzem 30:70 cada uma. As proba­

bilidades de que um circuito integrado produzido por estas fábricas não funcione são 0.01, 0.04 e 0,03. respectivamente. Escolhido um circuito da produção conjunta das tres fâbricas. qual a probabilidade de o mesmo nilo funcionar?

~onsidcrc a situação do problema anterior, mas suponha agora que um circuito e ~escolhidO ao acaso e seja defei tuoso. Detenninar qual a probabilidade de ele tcr sido

fabricado por I.

J;"u. urna I contêm duas bolas pretas e três brancas, ao passo que a urna 11 contêm três V~la5 pretas e três brancas. Escolhemos uma urna ao acaso e dela extraimos uma bola.

que tem cor branca. Se a bola ê recolocada na urna. qual e a probabilidade de se re­llrar novamente uma bola branca da mesma urna?

PROBlEMAS E COMPLEMENTOS

.. Um restaurante popular apresenta apenas dois tipos de refeições: salada completa ou um prato a base de carne. 20"10 dos freg ueses do sexo masculino preferem salada: 3{r,IQ das mulheres escolhem carne; 75% dos fregueses são homens. Considere os se­gumtes eventos:

H : freguês é homem M: fre guês é mulher

Calcular :

A; freguês prefere salada B: freguês prefere carne.

(ui Plli). PIA I H ). P(B IM): (e) P(M I A).

(b) PIA ri f I). PIA u fi): (d P(MIA).

n, Uma companhia de seguros analisou a freqüência com que 2.000 segurados (1.000 homens e 1,000 mulheres) usaram o hospital. Os resultados são apresentados na tabela:

Usaram o hospital Não usaram o hospital

HOnlms

100 900

Mulheres

ISO 850

(11) Qual a probabilidade de que uma pessoa segurada use o hospi tal '! (b ) O uso do hospital independe do sexo do segurado '!

9'

Page 53: Probabilidade e estatística

28. As probabilidades de 3 motoristas serem capazes de guiar ate em casa com segurança, depois de beber, são de 1/3, 1/4 e 1/5, respectivamente. Se decidirem guiar ate em casa depois de beber numa festa , qual a probabilidade de lodos os 3 motoristas sofreren: acidentes? Qual a probabilidade de, ao menos, um dos motoristas guiar ate em casa a salvo?

29. Duas lâmpadas queimadas foram acidentalmente misturadas com 6 lâmpadas boas. Se vamos testando as lâmpadas, uma por uma, ate encontrar as 2 defeituosas, qual ~ a probabilidade de que a ultima defeituosa seja encontrada no quarto leste ?

30. Suponhamos que 10.000 bilhetes sejam vendidos em uma loteria e 5.000 em Outra loteria, cada uma tendo apenas um ganhador. Um homem tem 100 bilhetes de cada. Qual a probabilidade de que :

(a) ele ganhe exatamente um prêmio? (b) ele ganhe alguma coisa?

31. Uma companhia de seguros vendeu apólices a 5 Pessoas, todas da mesma idade e com boa saúde. De acordo com as tábuas atuariais, a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos e de 2/3. Calcular a probabilidade de que daqui a 30 anos :

(a) exatamente 2 pessoas estejam vivas ; fb) todas as pessoas estejam vivas ; (c) pelo menos 3 pessoas estejam vivas.

(Indique as suposições necessárias para a aplicação do modelo probabilistico.)

32. Num teste com 2 marcas que lhe são apresentadas em ordem aleatôria, um experi­mentador de vinhos faz três identificações corretas em três tentativas.

(a) Qual a probabilidade disso ocorrer, se na realidade ele não possui habilidade al­guma para distinguir ?

(b) E se a probabilidade de distinguir corretamente' e de 90";'; em cada tentat iva?

33. Um grupo de 12 homens e 8 mulheres concorrem a 3 prêmios atraves de um sorteio, sem reposição de seus nomes. Qual a probabilidade de:

(a) nenhum homem ser sorteado? (b) um prêmio ser ganho por homem? (c) dois homens serem premiados?

34. Um empreiteiro apresentou orçamentos separados paf1l a execUção da parte elétrica c da parte de encanamento de um cdificio. Ele acha que a probabilidade de ganhar a concorrência da parte elétrica ê de [/2. Caso ele ganhe a parte elétrica, a chanc.e de ganhar a parte de encanamento e de 3/4; caso contrário, essa probabilidade ê de 1/3-Qual a probabilidade de ele :

(a) ganhar 0 5 dois contratos ; (h) ganhar apenas um ; (c) não ganhar nada, " Pf\ ~

92

média, 5% dos produtos vendidos por uma loja são devolvidos. Qual a probabili-36. !:de de que nas 4 próximas unidades vendidas deste produto, duas delas ·sejam devol-

vidaS?

ês alarmes estão dispostos de tal maneira que qualquer um deles funcionará inde­)6. Tr dentemente quando qualquer coisa indesejável ocorrer. Se cada alarm~ tem pro­

::~i1idade 0,9 de trabalhar eficientemente, qual é a probabilidade de se ouvir o alarme

quando necessário?

Em uma fabrica de parafusos, as maquinas A, B e C produzem ?5, 35 e 40 por cento Yf. do total produzido, respectivamente. Da produção de cada máquma 5, 4 e 2 por cent~,

pectivamente, são parafusos deFeituosos. Escolhe-se ao acaso um parafuso e verl­~:'.se que ê defeituoso. Qual a probabilidade de qu~ o para fuso venha da máquina A?

Da 81 Da C?

3IL Um fabricante afirma que apena~ 5~ d~ todas as válvulas que produz tem uma du­ração inFerior a 20 horas. Uma mdustna compra semanalmente um grande lote de válvulas desse Fabricante, mas sob a seguinte condição : ela aceita o lote se, em 10 vál­vulas escolhidas ao acaso, no máximo uma tiver duração inFerior a 20 horas ; caso

contrario o lote todo é rejeitado.

(a) Se o fabricante de fato tem razão, qual a probabilidade de um lote ser reje itado ? (h) Suponha agora que o fabricante esteja mentindo, isto e, na verdade a ~~oporção

de válvulas com duração inferior a 20 horas e de 10";';. Qual a probabilidade de um lote ser acei to, segundo o critêrio acima?

39. Para se estudar o comportamento do mercado automobilístico, as marcas foram di­vididas em 3 categorias: marca F. marca W, e as demais reunidas como marca X. Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de proba­

bilidade :

Probabilidade de mudança para

W F X

Possuidor W O,SÓ 0,25 0 ,25

.de carro F 0,15 0,70 0 ,15

da marca X 0,30 0,30 0,40

o primeiro carro que um indivíduo compra, ele o faz segundo as seguintes probabili­dades : marca W com 50";';. marca F com 30"10 e marca X com 20"10,

(a) Qual a probabilidade de um individuo comprar o lerceiro carro da marca W? (h) Se o terceiro carro e da marca W, qual a probabilidade de o primeiro tambem ter

ter sido W?

93

Page 54: Probabilidade e estatística

40, A empresa M & 8tem 15.!l00 empregados. clas~ificados de acordo com a Ulbda abai:<o.

~ HIJml'IIJ (Ml /I'f l/{/wrl'-" If) TOTAL /c/mil'

< 25 anos (A ) 2.000 800 HOO 25 - 4(} anos (8) 4.500 2.500 7.000 > 40 anos (e) 1.!l00 4.200 6.000

TOTAL 8.300 7.500 15 ,800

Se um empregado é selecionado ao acaso. calcular a probabilidadc dc ser ele :

(a) um empregado com 40 anos de idade ou menos: (bl um empregado com 40 anos de idade ou menos. e mulher: (c) um empregado com mais de 40 anos de idade e que seja homem : (d) uma mulher, dado que é um empregado com menos de 25 anos.

41. Considere o problema 40 e suponha quc escolhamos dois empregados ao acaso. ('0ln

reposição, Qual a probabilidade de que:

(a) ambos sejam do sexo masculino: {b) o primeiro tenha menos de 25 anos, e o segundo seja do sexo masculino e COm

menos de 25 anos: te) nenhum tenha menos de 25 anos.

42. Resolva o problema 41. supondo que a amostragem é reita Jl'm reposição.

43. Numa empresa existem operarlOS de determinada categoria, que tém idades iguais a a, h e c anos (existem pelo menos 3 COm a mesma idade). Escolhe-se 3 ao acaso para que façam determinado curso, Se indicannos por .'( a idade do primeiro. J' a do segun. do e z a do terceiro. o lermo (x, y. z) indica cada possível resultado. Enu~ere.

(a) o espaço amostrai ; (b) os eventos.

A= :(x. }'.z)lx = y=z: . 8 = :(x.y ,z) I x = y: ,

44. Os colégios A. B e C tém as seguintes porcentagens de rapazes. respectivamente : 40"". 200/0, 10"/0, Um destes colégios ê seledonado ao acaso e 8 alunos são escolhidos. rom

reposição, Se obtemos RRRMMMMM (R para fapaz e M para moçal qual é a pro­babilidade de ter sido selecionado o colégio C !

45. Um inspetor da seçào de controle de qualidade de uma firma examina os artigos de um lote que tem m peças de 1.' qualidade e n peças de 2. ' qualidade. Uma verificação dos b primeiros artigos selecionados. ao acaso, do lote mostrou que todas são de 2,' qualidade (b<n - I). Qual a probabilidade de que entre os 2 próximos artigos sele· cionados, ao acaso. dos restantes. pelo menos um seja de 2.' qualidade'!

94

46. Prove que sc A e 8 são independentes. tambem o serão A' e BC, A e 8' c A' c B.

47. Obtenha uma rórmula para PIA u 8 u C).

48,. Na Figura 4.7 temos um sistema eha­mado pOlllr. Nas mesmas condições do problema 22, obtenha a conliabilidade do sistema.

4

Fig, 4.7

.t9. Considere o quadrado com vértices (0,0). (1,0), (0.1) e (1.1). Suponha que a pro· babilidade de uma regiào A (evento) seja a área desta região (Figura 4.8).

(o) Represente graficamente o evento A = conjunto dos pontos cuja distân· cia à origem seja menor ou igual a um .

(h) Calcule PIA ). (e) Calcule a probabilidade do evento

B =:<x,)'):x~b: ouy~ b.ondeh

é um número tal que O<b< I.

10,1)

A

10,01

(li) Calcule P(B'), onde 8 foi dcfinido em (e). Fig. 4.8

so. Considere íl como o quadrado da Figura 4.8. Considere os eventos :

A = : (x, y): 1/3 .,.; x ~ 2/3. O ~ J' ~ fJ2:

8 = :Ix,)'): 1/2 ~ x ~ I, l J4~ )' ~JJ4: .

Calcular PIA ), P(81. PIA u B). PIA') . P(SC) e PIA' n BC).

2

5

11,11

(1,0)

51. Considere. agora, a situação do problema 49. mas suponha que o quadrado nào te· nha área unitária. Como voce definiria a probabilidade de um evento A '!

52. Suponha uma fJfIpuluçã() de N elementos UI' 0I' " .• aI>' Qualquer arranjo ordenado Ui,. Oi •• ·· • ai. de n símbolos é chamado de uma amOSlro ordenada de lamal1ho 11, cx­traída da população, Considcre o símbolo (N). como significado N(N - I) , . . (N -11 + I I, Suponha 11 < N. Mostre que exístem N" amostras com reposição (um mesmo elemento pode ser reti rado mais de uma vez) e (N), amostras sem reposição (um elemento. quando escolhido, é removido da população. não havendo, pois. repetiçâo na amostra),

Sl Uma amostra ordenada de tamanho n. extrdída de uma população com N elementos. di:~-sc casual (ou o/ealaria) se todas as possíveis amostras tém a mesma probabilidade de serem escolhidas; esta probabilidade será I, N" se a amostra ror com reposição e I/iN). se for sem reposição. Uma amostra casual de tamanho n. com reposição. é ex­traída de \lma população com N elementos. Encontre a probabilidade de não haver repetição na amostra.

95

Page 55: Probabilidade e estatística

54. Considere (N) '" (N). = N! . Observe a situação do problema 52 , na quaJ n n1 n!(N-n)!

não levamos em con.sideraçõo a Qrfkm do conjunto alo ' ai" ... , aio ' Mostre que cxi!-

tem (~) amostras sem reposição.

!IIS. (a) Se -A, B e C são independentes, prove que A e B n C são independentes. (h) Nàs mesmas condições, prove que A u B e C são independentes.

~. Se !(A) = 1/3, P(B') = 1/4, A c B podem ser disjuntos (ou muluamenle exclusivOs)?

(Sugestão : P(A) = P(A n B) + P(A n B') e A n B' c: B'.)

57. Um sistema i: composto de três COmponentes 1,2 e 3, com confiabilidade 0,9, 0,8 e 0,7, respectivamente. O componente 1 é indispensável ao funcionamenlo do sistema; se 2 ou 3 não funcionam, o sistema funciona , mas com um rendimento inferior. A falba simultli.nea de 2 e 3 implica o não funcionamento do sistema. Supondo que os COm. ~menles funcionem independentemente, calcular a confiabilidade do sistema.

(

96

CAPíTULO 5 -Variáveis aleatórias discretas

-S.l . INTRODUÇÃO

No capítulo anterior introduzimos alguns modelos probabilísticos, através de espaços amostrais bem simples. Isto facilitou bastante a com· preensão do conceitó de probabilidade e a obtenção de algumas proprie­dades. Mas para atender a situações práticas mais gerais, necessitamos ampliar estes conceitos para que tenhamos modelos probabilísticos que representem todos os tipos de variáveis definidas no C;apítulo 1. Assim, muito do que foi apresentado naquele capítulo para tratamento descri­tivo das variáveis terá o seu correspondente no modelo teórico.

Para as variáveis qualitativas, o modelo construído no capítulo precedente se adapta muito bem. Dada a sua simplicidade, trataremos aqui de variáveis quantitativas discretas. Já os modelos para variá~eis contínuas necessitarão de um artifício matemático, baseado numa ge­neralização do conceito de histograma definido na seção 1.4, e esse será o objetivo do próximo capítulo. A extensão dos modelos para variáveis com mais de uma dimensão será tratada no Capítulo 7.

Por outro lado, quando estudamos a descrição de dados, vimos que os recursos disponíveis para análise das variáveis quantitativas são muito mais ricos do que para variáveis qualitativas. Isto sugere o uso de anifícios para transformar estas últimas variáveis naquelas do pri­meiro tipo. Por exemplo, considere o caso de um questionário, em que uma pessoa é indagada a respeito de luma certa proposição, e as respostas possíveis são SIM oU NÃO. Podemos associar uma variável que toma dois valores, 1 ou O por exemplo, correspondentes ás respostas SIM ou NÃO, respectivamente. Teremos ocasião de estudar este tipo de variável detalhadamente.

O conhecimento de modelos probabilísticos para variáveis quanti­tativas é muito importante, e grande parte do restante deste livro será

97

Page 56: Probabilidade e estatística

!

dedicada à construção e afirmações sobre estes modelos (ou sobre seus: parâmetros). Estas variáveis numéricas, às quais iremos associar modelos probabilísticos, serào chamadas de I'ariaveis aleatórias (v.a .).

5.2. O CONCEITO DE VARIÁVEL ALEATÓRIA DISCRETA

Exemplo 5. / . Um em presáno pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro. As partes são adquiridas em fábricas diferentes, e a montagem consistira em juntar as duas partes e pintá-las. O produto acabado deve ter o com. primento (definido pelo cilindro) e a espessura (definida pela esfera) dentro de certos limites. e isso só poderá ser verificado após a montagem. Para estudar a viabilidade do seu empreendimento, o empresário quer ter uma idéia da distribuição dos lucros por peça montada.

Sabe-se que cada componente pode ser classificado como BOM, LONGO ou CURTO, conforme sua med ida esteja den tro da especifica_ ção. seja ela maior ou menor que a especificada. Além disso, foram obtidos dos fabricantes o preço de cada componente (5 unidades de dinheiro) e as probabilidades de produção de cada componente com as caracte­rísticas BOM , LONGO e CU RTO. E-stes valores estào na Tabela 5.1.

TABELA 5.1 - Distribuição da produção das fábricas A e B. de acordo com as medidas das peças produzidas.

Produto Fabrica A Fábrica Cilindro Esfera

Dentro das especi ficações .. BOM . (B) 0,80 0,70 Maior que as especi ficações LONGO (L) 0,10 0,20 Menor que as especificações ...... CURTO (C) 0,10 0,10

Fonte : Retirada das cspeciricaçõts técnicas das fábrica s A e B

B

Se o prod uto final apresentar algum componente com a caracterís­tica C, ele será irrecuperável , e o conjunto será vendido como sucata ao preço de 5 un idades. Cada componente longo pode ser recuperado a um custo adicional de 5 unidades. Se o preço de venda de cada unidatle é de 25 unidades, como seria a di stribuição das freqüências da variável X: lucro por conjunto montado?

98

A construção desta distribuição de freqüências vai depender de certas sições que faremos sobre o comportamento do sistema considerado.

~upo vista dessas suposições, estaremos trabalhando com um modelo :re(JJida~e, e ~ ~istribuiçã~ q~e ~b~eremos ser~ _um.a distribuição teóri~, . to maIs proxlma da dlstnbwçao de freqlienclas real quanto maIs lao I'd d ' . -fi "s " rca I a e lorem as SUpOSIÇOes. lei '

Primeiramente. vejamos a construção do espaço amostrai para a onlagem dos conjuntos segundo as características de cada componente

: suas respect ivas probabilidades. Desde que os componentes vêm de fabricas diferentes. vamos supor que a classificação dos cilindros segundo uas cJracteristicas e a classificação da esfera segundo suas características ~jam eventos independentes; assim , obtemos a configuração da Figura 5.1.

CILINDRO

0.80

0,10

0 , 10

B

C

L

ESFERA

0, 70

0,20

Fig. 5.1

8 0,56

L 0.16

C 0.08

B 0.07

L 0.02

C 0,01

B 0.07

L 0.02

C 0,01

Uma representação do espaço amostrai em questão está apresenta­da na Tabela 5.2 e fo i obtida da Figura 5.1.

99

Page 57: Probabilidade e estatística

TABELA 5.2 - Distribuição de probabilidade das possíveis composições das montagens.

Montagem Probabilidade Lucro por mr)f//agem (X)

BB 0,56 15 BL 0,16 10 BC 0,08 - 5 ' LB 0,07 10 LL 0,02 5 LC 0,01 -5 CB 0,07 - 5 CL 0,02 - 5 CC 0,01 - 5

Fonte : Figura 5.1 e informações no texto

A última coluna da Tabela 5.2 foi construída com base nas informa_ ções sobre preços . Po r exemplo, obtendo uma montagem LB, isto e, ci­lindro longo e esfera boa, do preço de venda de 25 unidades devemos descontar: 10 unidades dos custos dos componentes e 5 unidades para re'cuperar o cilindro longo. Portanto , o lucro X desse conjunto será 10 unidades. (Verifique os lucros das demais montagens.)

Assim, com os dados da Tabela 5.2, vemos que X pode assumir um dos segu in tes valores:

15 se ocorrer o evento A 1 = 10 se ocorrer o evento A 2 = 5 se ocorrer o evento AJ =

- 5 se ocorrer o evento A4 =

Cada um desses eventos tem uma probabilidade associada , ou seja,

P(A ,) ~ 0,56 ; P(A ,) ~ 0,23 , P(A,) ~ 0,02; P(A,) ~ 0,19,

o que nos permite escrever a "função (x , p(x» da Tabela 5.3, que é um mo­delo teórico para a distribuição da variável X, que o empresá rio poderá usar para julgar a viabilidade eco~

100

:BB ); :BL , LD]; lLL); :Be, LC, CB, CL, CC ).

TABELA 5.3

x p(x)

! 15 0 ,56 lo 10 0,23 t- 5 0,02

.'J -5 0,19

TOTAL 1,00

~

. do projeto que ele pretende realizar. Aqui , x é o valor de X, e nôm1ca bl

) , a probabilidade de X tomar o valor x. Voltaremos a esse pro ema

p(x e . mais adiante. .

A função (x , p(x)) é chamada de função de probabilidade da vanável

lea1ória X. a Esquematicamente teríamos a situação da Figura 5.2.

- 5 5 10 15

Fig. 5.2

É evidente que , ao mesmo espaço amostrai da Tabela 5.2, podemos associar outras variáveis aleatórias, como veremos no caso seguinte.

Exemplo 5.2. Se considerarmos Y como sendo a variável custo de recuperação de cada conjunto produzido, v.erificaremos que Y irá as­sumir os valores

O, se ocorrer o evento B 1 = : BB, BC, LC, CB, C L , CC );

5, se ocorrer o evento B2 = : BL , LB};

10, se ocorrer o evento BJ = : LL ).

A função de probabilidade da variável aleatória Y está represen­tada na Tabela 5.4.

TABELA 5.4

y p(y)

O 0,75 5 0,23

10 0,02

TOTAL 1,00

101

Page 58: Probabilidade e estatística

Esquematicamente, temos a representação da Figura 5.3.

V B,

I B" I B, ~

\ \ o 5 '0

Fig. 5.3 . Então, uma variável aleatória X do tipo di screto estará bem caracte.

rizada se indicannos os possíveis valores x \. Xl, .. . , x. que ela pode assumir e as respectivas probabilidades p(x I), P(X 2) • ... , P(Xk) ' ou seja, se conhe. cennos a sua função de probabilidade (x,p(x)). Também usaremos a notação p(x) ~ P(X ~ x).

Em algumas situações, a determinação da função de probabilidade é bem mais simples. Isso pode ser verificado pelos dois exemplos seguintes.

Exemplo 5.3. Voltemos à situação do exemplo 4.4, em que considera. mos duas ext rações, sem reposição, de uma urna contendo 2 bolas brancas e 3 bolas vermelhas. Vamos definir a variável X = número de bolas verme. lhas obtidas nas duas extrações. Obtemos o seguinte esquema. (Figura 5.4 e Tabela 5.5).

B 1/4 TABELA 5.5

B Resultados Probabilidades X 215 3/4 V

BB 1/ 10 O B BV 3/10

3/5 214 VB 3/ 10 I

v VV 3/ 10 2

214 Fonte: Figura 5.4 V

Fig. 5.4

Vemos, pois, que a cada resultado do experiwcnto está associado um valor da variável aleatória X; estes valores sào 0, I e 2.

Temos que X = O, com probabilidade 1110, pois X = O se, e somente

se, ocorre o resultado BB ; X = I com probabilidade ~ + ~ = ~, 10 10 10

'02

. X =:. 1 se, e somente se, ocorrem os resultados BV ou VB, que são pOIS uamente exclusivos ; fina lmente , X = 2 com probabilidade 3/10, pois · ,"ut 2 se e somente se, ocorre o resultado VV. Resumidamente, X =:. ,

I prO) ~ P(X ~ O) ~ P(BB) ~ lõ'

6 p(l) ~ P(X ~ I) ~ P(BV oU VB) ~ 10 '

3 p(2) ~ P(X ~ 2) ~ P(VV) ~ lõ'

No quadro ao lado, esquemati­zamos a distribuição de probabilida­des da variável aleatória X.

x,

p(x,)

O

1/10

I 2

6/10 3/10

Exemplo 5.4. Retomemos o exemplo 4.3, em que consideramos o lançamento de uma moeda duas vezes. Definamos a variável aleatória y =' número de "caras" obtidas nos dois lançamentos.

'/2 c TABELA 5.6

'/2 C Resultados Probabilidades

1/2 R

CC

C CR RC 1/2 '/2

RR R

R Fonle : Figura 5,5-1/2

Fig. 5.5

Temos, então:

I prO) ~ P(Y ~ O) ~ P(RR) ~ 4 '

1/4 1/4 1/4 1/4

I I I p(l) ~ P(Y ~ I) ~ P(CR ou RC) ~ 4 + 4 ~ 2 '

I p(2) ~ P(Y ~ 2) ~ P(CC) ~ 4'

Y

2

I O

'03

Page 59: Probabilidade e estatística

,

I

I

A distribuição dicada abaixo.

de probabilidades da variável aleatória Y esta

Yi ° 2

p(J',) 1/4 1/2 1/4

In_

Dos exemplos estudados, vimos que a cada ponto do espaço amos_ trai a variável em consideração associa um valor numérico , o que COr_

responde em Matemática ao conceito de função , mais precisamente, a uma função definida no espaço amostraI n e assumindo valores reais.

Definição. Uma função X , definida sobre o espaço amostrai Q e assumindo valores num conjunto enumerável de pontos do conjunto real , é dita uma variável aleatória discreta.

Esquematicamen te, teríamos a situação da Figura 5.6.

00, 00, 00, 00. 00, 00, o o o, o o o, o

x \ I I I I o

" " " '. Fig. 5.6

Vimos, também, como associar a cada valor Xi da variável aleatória X a sua probabilidade de ocorrência. Ela é dada pela probabil idade do evento A de n, cujos elementos correspondem ao valor Xi (veja Figu­ras 5.2 e 5.3). Matematicamente, podemos escrever

onde

tal que

e

104

P(X ~ x;) ~ P(A),

X(W;) = Xi se W; E A

X(w;) =F Xi se Wi E A'.

Definição. Chama-se de função de probabilidade (f. p.) da variá~vel alea­.' discreta X, que assume os va lores XI' X2. "', Xn , a funçao p(Xj),

lona cada valor de Xi associa sua probabilidade de ocorrência , isto ê, que a

PIIOBLEMAS

Considere uma urna contendo 3 bolas vermelhas e 5 pretas. Retire 3 bolas. sem re- 7 I. posição. e defina a v.a. X igual ao numero de bolas pretas. Obtenha a distribuição de X.

Z. Repita o problema anterior. mas considerando extrações com reposição.

3. Suponha que uma moeda perfeita é. lança~a até que cara apareça ~Ia .pri~eira vez. Seja X o número de lançamentos ate que Isto aconteça. Obtenha a dlstnbUlção de X. (Observe que. neste problema, pelo menos teoricamente. X pode assumir um nume· ro infinito de valores.)

... Uma moeda perfeita ê lançada 4 vezes. Seja Yo número de caras obtidas. Obtenha · a distribuição de Y.

5. Repita o problema anterior. considerando agora que a moeda é viciada, sendo a pro­babilidade de cara dada por p, O < P < I, P =F 1/2.

<i Generalize o problema S. para n lançamentos da moeda.

5.3. VALOR ESPERADO DE UMA VARIÁVEL ALEATÓRIA.

Exemplo 5.5. Uma pergunta que logo ocorreria ao empresário do exemplo 5. 1 é qual o lucro médio por conjunto montado que ele espera conseguir. Da Tabela 5.3, observamos que 56% das montagens devem produzir um lucro de 15 unidades, 23% um lucro de 10 unidades, e assim por diante. Logo , o lucro esperado por montagem será dado por: . . lucro mCd; o ~ (0 ,56)(15) + (0 ,23) (10) + (0 ,02)(5) + (0 ,19) (- 5) ~ 9,85.

Isto ê, caso sejam verdadeiras as suposições fe itas para determinar a distribuição da v.a. , o empresário espera ter um lucro de 9 ,85 unidades por conjunto montado.

Da notação introduzida , obtemos a seguinte ex pressão para a media da v.a. discreta X:

'Ep ,x, ~ 'Ep(x ,)x,.

105

Page 60: Probabilidade e estatística

Esta expressão é muito semelhante àquela para a média introduzida no Capítulo I , onde

Média (X) ~ 'f./;x,.

A distinção que fazemos entre p;, a probabilidade da v.a. X assumir o valor Xi ' ef" a freqüência relativa do resultado Xi. é que a primeira COr. responde a yalores obtidos de um modelo teór'co p.l.e.smw:.Osto e a se­gunda corresponde a freqüências o servadas da variável. Desde que Pi e j; têm a mesma interpretação, todas as medidas e gráficos discuti. dos no segundo capítulo, ' baseados na distribuição j;, possuem um cor. respondente na distribuição Pio Vamos definir os dois mais importantes:

Definição. Dada a variável aleatória discreta X, assumindo os va. lares Xl' "', X~, chamamos valor médio ou esperança matemática de X ao valor .

" E(X) ~ I x,p,. (5.1)

Chamamos variância de X ao valor

" Va,(X) ~ I Ix, - E(X)J'p" (5.2)

e de desvio padrão de X a

DP(X) ~ JVa,(X).

Exemplo 5.6. Deixamos a cargo do leitor verificar que, no caso do problema do empresário, teremos:

-t 106

(i) Va,(X) ~ 57,23; (ii) DP(X) ~ 7,57;

(iii) gráfico de (x,p(x»: Figura 5.7.

Fig, 5,7

plx)

0,60

0 ,50

0.40

0,30

• 0.20

0,10

5 5

'0 15 x

5,4. ALGUM~S PROPRIEDADES DA ESPERANÇA MATEMATICA

Exemplo 5.7. Suponhamos que todos os preços determinados pelo empresário estivessem errados. Na realidade, todos os valores deveriam ser duplicados, isto é, custos e preços de venda. Isto corresponde à. trans­formação Z = 2X. A fp· fl.z) da v.a. Z será a mesma da v.a. X, pOiS cada valor de X irá corresponder a um único valor de Z. Na Tabela 5.7, temos a distribuição da v.a. Z.

TABELA 5.7 - Distribuição da variável aleatória Z = 2X.

x z = 2x p(z) ~ p(x) z • p(z)

15 30 0.56 16,80 10 20 0,23 4,60 5 10 0,02 0,20

-5 -10 0,19 -1,90

TOTAL - 1,00 19,70 .

Fonte: Tabela 5.3

A esperança da v.a. Z será , "

E(Z) ~ 'f.zJ1(z,) ~ 'f.(2x,) p(x,) ~ 19,70.

Suponhamos agora que queremos a distribuição da v.a. W=~. Baseado na Tabela 5.3, obtemos a Tabela 5.8.

TABELA 5.8 - "Distribuição da variável aleatória W= XZ.

w p(w) w • p(w)

225 0,56 126,00 100 0,23 23,00 25 0,21 5,25

TOTAL 1,00 154,25

Fonte: Tabela 5.3

107

Page 61: Probabilidade e estatística

,

I :

Observe que o evento W =25 ocorre quando X=5 ou x= -5; portanto P(W = 25) = P(X = 5 ou X = - 5). A esperança de W é

E(w) ~ LW,p(H',) ~ (225) (0,56)+ (100) (0 .23) + (25) (0,21) ~ ~ (225) (0,56)+ (100) (0,23)+ :(25) (0,02)+ (25) (0,19): ~ ~ LX!p(X,) ~ 154,25.

Das esperanças de Z e W, transformados de X, é fácil verificar que as mesmas sempre podem ser escritas através da fp . de X. <J

Definição. Dada a v.a. discreta X e a respectiva função de proba­bilidade p(x), chamamos de esperança matemática da função h(X) ao valor

E[h(X]] ~ Lh(x,)p(x;).

Propriedades: (veja problema 42)

(i) Se h(X) = aX + h, entào E(aX + b) ~ aE(X] + b

(ii) Var(X] ~ E(X') - E'(X] ~ ~ LX! p(x,) - [LX,p(X,)I'.

(5.5) é a fónnula operacional para cálculo da va riância.

(5.3)

(5.4)

(5.5)

Exemplo 5.8. Usando os resultados dos exemplos 5.5 e 5.7 , obtemos

Var(X] ~ 154,25 - (9,85)' ~ 57,23.

Observação: Também usaremos os seguintes símbolos para indicar a esperança e variância de uma variável aleatória X :

e E(X] ~ p(X],

Var(X] ~ .'(X],

ou, simplesmente, JJ e a 2, respectivamente, se nào houver perigo de con.

rusào .

5,5. FUNÇÃO DE DISTRIBUiÇÃO ACUMULADA

Do mesmo modo que fizemos no primeiro capítulo, aqui também usaremos a seguinte definição.

108

Definição. Dada a variável aleatória X , chamaremos de função de 'b . a·o acumulada ([d.a.) ou simplesmente, função de distribuição dislrl II/Ç _ '

if-d.) F(x) a funçao

F(x) ~ P(X. " x).

Observe que o domínio de F ê todo o conjunto rcal.

Exemplo 5.9. Voltando ao problema do empresário e usando a fp· de X definida na Tabela 5.3, jl fd.a. de X sera dada por

° se x < - 5 0,19. se -5 ~ x < 5

F(x) ~ 0,21, se 5~x< 10 0 ,44, se 10 ~ x < 15 1.00, se 15 ~ x

cujo grafico sera um~~ função em escada, ilustrado na Figura 5.8.

-5

F(x)

1,0

o .•

0.6

0,4

5

Fig. 5.8

I

, , , , .. ,---1

10 15 ,

Observar que P(X = x;) é igual ao salto que a função F(x) da em Xi; por exemplo , P(X ~ 10) ~ 0,23 ~ F(lO) - F(IO-). De modo geral, P(X ~ Xi) ~ ~ F(Xi) - F(X i - ).'

• F(x -) = lim F(y) (ver Ctilculo - FUllçôes de uma Variável. Capítulo 5). y-~ -

109

Page 62: Probabilidade e estatística

PROBLEMAS

7. No problema I, obtenha a distribuição das v.a. 3X e X2,

8. Considere o lançamento de três moedas. Se ocorre o evento cec, dizemos que ternCll uma sl'quencia. ao passo que se ocorre o evento CRC temos Irês seqüências. Defina a v.a. X = numero de caras obtidas c Y = numero de seqüencias, isto para cada resul. tado possível. Assim. X(CRR) = 1 e Y(CRR) = 2. Obtenha as distribuições de X e y Calcule E(X). E(y). Var{.\') e VarO,). '

9. Suponha que a v.a. V tem a distribuição seguinte:

pouplldo. Por exemplo, se ele proccssu a peça em 4 minutos, recebe li quantia adicional

de 1.00 lI.m.

Ib) Encontre:t distribuição. a media e a variância da v.a. G: quantia em u.m. ganha por peça.

16. Sabe-se que a lI.a. X assume os valores I. 2 e 3 e que sua [d.a. F{x) é tal que

F(I) - F(I-) = 1(3. 1"(2) - F(2 - ):=o l /tí, 1'(3) - F{3 - ) = 1/2.

Obter a distribuição de X, a ld.a. F(x) e os graficos respectivos.

, o 17. Obter a 1d.1l· F(I) da ~.a. T do problema IS.

p 11 1 - q

Obtenha E(V) e Var{V).

10. Seja X com distribuição dada ao lado: cal­cule E{X). Considere a v.a. (X - all • e cal­cule E(X - a)l para li = O. 1/4. 1/2. 3/4. 1. Obtenha o grAfito de E{X - a)z=gial. Para qual ~alor de a. g(a) é mínimo'!

, p(x)

O t 2

t/2 ti' ti'

(""j'"D Um vendedor de equipamento pesado pode visitar. num dia, um ou d-;;is clientes, com ~' probabilidade de 1/3 ou 2/3. respectivamente. De cada contato, pode resultar a ~enda

de um equipamento por 50.000 (com probabilidade l/lO) ou nenhuma venda (Com probabilidade 9/ 10). Indicando por Yo valor total de vendas diárias deste vendedor, escreva a função de probabilidade de Y e calcule o valor total esperado de vendas diárias.

12. Calcule a média e a variância da v.a. Y derinida no problcma 4.

I . Obter a Id.ll. para a v.a. V do problema 9. Faça seu gráfico.

14. Calcule a ld.a. da v.a. Y do problema 8 e faç'd seu gráfico.

15. O tempo T, em minutos, necessârio para um operario processar certa peça. e uma v.a . com li seguinte distribuição de probabilidade :

110

T 23456 7

p 0,1 0,1 0,3 0.2 0.2 0,1

(a) Calcule o tempo médio de processamento.

Para cada peça processada, o operaria ganha um fixo de 2,00 u.m. (unidade monetaria). mas se ele processa a peça em menos de 6 minutos. ganhll 0.50 u.m. por tllda minuto

5.6. ALGUNS MODELOS PROBABILíSTICOS PARA VARIÁVEIS ALEATÓRIAS DISCRETAS

Algumas variâveis aleatórias adaplam-se muito bem a uma sene de problemas práticos e aparecem com bastante freqüência. Portanto, um estudo pormenorizado das mesmas facilita bastante a construção das correspondentes funções de probabilidades, bem como a determina. ção dos seus principais parâmetros. Também exislem tabelas construídas que fornecem as f.p. para esses modelos em função de seus parâmetros. Assim, para um dado problema. tentamos verificar se ele satis faz às Con­dições dos modelos conhecidos, pois isso facilitaria muito o nosso tra· balhQ. Nesta seção, iremos estudar alguns desses modelos. procurando enfatizar as condições em que eles aparecem, sua função de probabili· dade, parâmetros, e como encontrar probabilidades.

5.6.1. Distribuição Uniforme Discreta

Este é o caso mais simples de v.a. discreta , onde cada possível valor ocorre com a mesma probabilidade. .

Definição. A variâvel aleatória discreta X, assumindo os valores .'(L, Xl , "', Xk, tem dislribuiçtJo Ullifarme se, e só se,

I P(X ~ x;) ~ p(x;) ~ p ~ k.

para todo i= 1,2, .. . ,k.

(5.6)

111

Page 63: Probabilidade e estatística

Daqui é fácil verificar que

1 • E(X) ~ ~ L x"

k ;=1

Va,(X) ~ H~xi -(~:;)'},

e que a função de distribuição acumulada será

!

F(x) ~ L ~ _ a(x) (x,' S x) k - k '

onde n(x) é o número de Xi:S;; x. (Figura 5.9).

p(x)

1/k • • • •

'k

a) Funçlo de probabilidade '

F(x)

1,0 r­..... -----?9 i

21k ri , , , 1/k t---i , ,

'k

b) Funçilo de distribuição

Fig. 5.9

Exemplo 5.10. Seja X = número de pontos marcados na face supe­rior de um dado; obtemos:

x 2 3 4 5 6 TOlal

p(x) 1/6 1/6 1/6 1/6 1/6 1/6 1,0

E(X) ~ + (1 + 2 + .' .. + 6) ~ 2~ ~ 3,5

Va,(X) ~ +{(l + 4 + ... + 36) - (22'} ~ 3i ~ 17,5.

112

6 2 Distribuição de Bernoulli --L. 6 . . .

Muitos experimentos sào tais que os resultados possíveis apresentam

OU não uma determinada característica.

I) Uma moeda é lançada: o resultado ou é "cara", ou não é ; b Um dado é lançado: ou ocorre face 5, ou não (ocorrendo, então , uma das faces I, 2, 3, 4 ou 6) ;

(3) Uma peça é escolhida , ao acaso, de um lote contendo 500 peças: esta peça é defeituosa ou não;

(4) Uma pessoa. escolhida , ao acaso, dentre 1.000 pessoas, é ou não do sexo mascuhno ;

(5) Uma pessoa é escolhida , ao acaso, entre os moradores de uma cidade, e pergunta-se se ela diz SIM ou NÃO a um projeto governamental.

Em todos esses casos, estamos interessados na ocorrência de um sucesso (ocorrência de cara, face 5, peça defeituosa , etc.) ou fracasso (ocorrência de coroa , face diferente de 5, peça boa, etc.). Esta termino­logia será usada freqüentemente.

Para cada experimento acima, podemos definir uma variável X que assume apenas dois valores: o valor I , se ocorre sucesso, e o valor O, se ocorre fracasso. Indicaremos por p a probabilidade de sucesso, isto é p (sucesso) ~P(S)~p, O<p< 1. ,

Definição. A variável aleatória X, que assume apenas os valores O e I com a função de probabilidade,

x o Total

p(x) 1 -p P

é chamada variável aleatória de Bernoulli. Então,

E(X) ~ p Va,(X) ~ p - p' ~ p(l - p)

{

O, se x < O· F(x) = I - p , se O:s;; x <

I, se x ~ l.

113

Page 64: Probabilidade e estatística

ri

11.

, '. : I~ _\

F(x) F{x)

, , , , p • , , , ,

1 -p 1 -p /

O , O , la) (b)

Fig. 5.10

Exemplo 5.11. Vamos supor o caso do experimento (2), onde lan_ çamos o dado e verificamos ou não a ocofFência de face 5. Supondo o dado perfeito, teremos:

Logo,

e

x ° I .

p(x) 5/6 1/6

Elx) ~.!.. -6

TOlal

I 5 5 Va'lX) ~ 6' -6' ~ 36 '

Observação: Experimentos que resultam numa variável aleatória de Bernoulli sào chamados ensaios de Bernoulli.

5.6.3. Distribuição Binomial

Imagine agora que repetimos um ensaio de Bernoulli n vezes, ou, I­como se diz também, obtemos uma amostra de tamanho n de uma dis­tribuição de Bernoulli. Suponha ainda que as repetições sejam indepen­dentes, isto é, o resultado de Um ensaio não tem influência nenhuma no resultado de qualquer outro ensaio. Uma· amostra particular será cons­tituída de uma seqüência de sucessos e fracassos, ou, se quisennos, de

11.

s e zeros. Por exemplo, repetindo um ensaio de Bernoulli 5 vezes (fi = 5), un particular resultado pode ser FSSFS ou a quintupla ordenada (O, I, ua;, I). Usando a notação de 5.6.2, onde P(S) = p, a probabilidade de I, • , UJTla tal amostra sera:

(l_p)_p_p_(I_p)_p~pJ_II_p)'.

O número de sucessos nesta amostra é igual a 3, sendo 2 o número

de fracassos. Consideremos agora as seguintes situações, obtidas de (1) - (5) da

seção 5.6.2.

(I') Uma moeda é lançad;_ tr.§s ve~s; qual é a probabilidade de se obter

duas caras? ;" , )i '" •

(2') Um dado é l~n~do c~nco vezes; qual é a probabilidade de se obter faCC 5 no maxlmo tres vezes?

(3') Dez peças são extraidas, ao acaso, com reposição, de um lote con­tendo 500 peças; qual a probabilidade de que todas sejam defeituo­sas, sabendo-se que 10% das peças do lote são defeituosas?

(4') Qual a probabilidade de que, dentre cinco pessoas escolhidas ao acaso entre 1.000 pessoas, duas sejam do sexo masculino?

(5') Sabe-se que 90"1u das pessoas de uma cidade são favoráveis a um projeto governamental. Escolhendo-se 100 pessoas ao acaso entre os moradores, qual a probabilidade de que pelo menos 80 sejam favoráveis ao projeto?

Observe que, nos casos (4') e (5'), o fato de estannos extraindo in­divíduos dê um conjunto muito grande implica que podemos supor que as extrações sejam praticamente independentes.

Exemplo 5./2. Consideremos a situação (1'), supondo-se que a moe­da é "honesta" , isto é, P (sucesso) = P (cara) = 1/2. Indiquemos suces­so (cara) por S e fracasso (coroa) por F. Então, estamos interessados na probabilidade do evento

l' lp· l \ A ~ {SSF, 'SFS, FSS) , .i 1.

ou, em tennos da notação anterior, na probabilida~ de A = {(l, I, O), (1 , 0, I ), (O, I , In . É claro que P(A)~ PISSf) + P(SFS) + PIFSS), e de· vida à independência dos ensaios

I I I I P(SSf) ~ - x - x - ~ - ~ P(SFS) ~ P(FSS)' 2 2 28'

115

I

I

Page 65: Probabilidade e estatística

portanto,

3 P(A) ~ 8'

Se P(S)~p, O< p < I , e se P(F) ~ q~ I-p, enlão

P(SSF) ~ p p q ~ p' • q ~ P(SFS) ~ P(FSS),

de modo que

P(A) ~ 3p'q.

I

Uma característica importante dos experimentos considerados é qUe estamos in~eressados apenas no número lotaI de sucessos e não na ordem em que eles ocorreram. Podemos construir a Tabela 5.9 para n = 3 lan . çamentosda moeda com P(S) = p, P(F) = q = I - p, a partir da Figura 5.11.

_____ _ __ _ p3

, S

, S

• F ______ _ _ _ p2q

S , S

________ _ p2q

• , F

• F ___ __ _ _ _ _ pq2

_ _______ _ p2q , S

, S • • F __ ____ _ __ pq2

F S

___ __ ___ _ pq2 , •

F

• F ___ __ ____ q3

Fig. 5.11

11.

TABELA 5.9 - Probabilidades binomiais para n = 3 e P(S) = p.

Número de Sucessos Probabilidades

o q'

2

3 p'

Fonte: Figura 5. 11

I p ~-

2

I 8

3 8

3 8

I 8

Vamos designar por X o número total de sucessos em n ensaios de Bemoulli. Os possíveis valores de X são O, 1, 2, ... , n e os pares (x, p(x» , onde p(x) = P(X = x), constituem a chamada distribuição binomial.

Para o exemplo (I ') acima , n = 3 e p = 1/2, obtemos a distribuição dada pela primeira e terceira colunas da Tabela 5.9 e o gráfico da Fi­gura 5.12.

3/8 • •

2/8

1/8 •

o 2 3 ,

Fig. 5.12

Page 66: Probabilidade e estatística

Obtenhamos agora P(X = k), ou seja, em uma seqüência de n en. saias de Bernoulli, a probabilidade de obter k sucessos (e portanto n - k fracassos); k=O I, ... ,n, com P(X)=p, P(F)=q= I -p. Uma' pani. cular seqüência é

sss ... S FF ... F, I

k n - k

e a probabilidade de tal seq üêncIa é

pk • (I _ py - k = l . q~ - k, (5.1)

devido à independência dos ensaios. Mas qualquer seqüência com k su­cessos e n - k fracassos terá a mesma probabilidade (5.7). Portanto, resta saber quantas seqüências com k sucessos e n - k fracassos podemos for_ mar. É fácil ver que existem

(n) n! k ~ k! (n - k)!

tais seqüências, de modo que

P(X ~ k) ~ (~)p' . q'-', (5.8)

k = O, I, 2, ... , n. As probabilidades (5.8) também são indicadas por b(k: n, p), e quando X tem distribuição binomial com os parâmetros n e p escrevemos X: b(n,p).

Exemplo 5./3. Vamos considerar agora a situação (3') acima. Aqui temos n = 10 ensaios de Bernoulli, cada um com P(S) = P (peça defei­tuosa) = p = 0,1. Se X indica o número de peças defeituosas na amostra,

queremos calcular a P(X = 10) = b (10: 10, l~)- Por (5.8),

( 10)(1)"(9)' (I)" I P(X ~ 10) ~ 10 10 Tõ ~ Tõ ~ 10'"

Teorema 5.1. A esperança e variância de uma variável aleatória X: b(n, p) são dadas, respectivamente, por

118

E(X) ~ np, Var(X) = npq.

(5.9)

(5. 10)

Prova. Veja problema 39 e seções 7.3 e 7.4. Para o exemplo 5. 13,

E(X)~ 10 x I~ ~ I,

Va,(X) ~ 10 x ~ x ~ ~ ~. 10 10 10

As probabilidades binomiais b(k : n, p) são dadas por tabelas para valores difert;ntes de n e p. A Tábua I do Apêndice A fornece estas pro­babilidades para valores de n=2, ... , 19 e p=0,05; 0,10 ; 0 ,20; 0,25 ; 0,.10 ; 0,40; 0,50; 0,60; 0,70; 0,80; 0,90 ; 0,95.

Exemplo 5.14. Usando (5.8) e a Tábua I obtemos

b(17: 20 ; 0,9) ~ G~) (0,9)" (0,1)' ~ 0,19.

No Capítulo 6, veremos uma maneira de aproximar as probabili­dades binomiais para n grande. ,

Para finalizar , vamos formalizar alguns conceitos desenvolvidos nesta seção.

Definição. Chama-se de experimento binomial ao experimento

(i) que consiste em n ensaios de Bemoulti; (ii) cujos ensaios são independentes e

(iii) a probabilidade de sucesso em cada ensaio é sempre igual a p.

Definição. A variável aleatória X, correspondente ao número de sucessos num experimento binomial, tem distribuição binomial b{n, p), cuja função de probabilidade é

b(k: n,p) ~ P(X ~ k I n,p) ~ (;)p·q·-·, k=O, 1, ... , n.

5.6.4. Distribuição Hipergeométrica

Esta distribuição é adequada quando consideramos extraqõcs casuais leitas, sem reposição, de uma população dividida segundo dois atributos. Para ilustrar, considere uma população de N objetos, r dos quais têm

119

Page 67: Probabilidade e estatística

o atributo A, e N - r têm o 'atributo B. Um grupo de n elementos é es. colhido ao acaso, sem reposição. Estamos interessados em calcular a probabilidade de que este grupo contenha k elementos com o atribu_ to A. Pode-se mostrar que esta probabilidade é dada por

onde O:s:; k:s:; min (r, n).

I (5.1 1)

Os pares (k, P.) constituem a distribuição hipergeométrica de proba. bilidades. Se definirmos a v.a. X igual ao número de elementos na amos. tra que têm o atributo A. então P(X = k) = P •.

Exemplo 5. 15. Em problemas de controle de qualidade, lotes COm

N elementos sào examinados. O número de elementos com defeito (atri­buto A), r , é desconhecido. Colhemos uma amostra de n elementos, e determinamos k. Somente para ilustrar , suponha que, num lote de N = 100 peças, r = 10 sejam defeituosas. Escolhendo-se n = 5 peças sem reposição, a probabilidade de não se obter peças defeituosas ~

Po = '" 0,584 ,

enquanto que a probabi.lidade de se obter pelo menos uma defeituosa é

PI + P2 + ... + Ps = I - Po;:;: 0,426.

Pode ser demonstrado que a v.a. X definida acima tem esperança e variância dadas por

E(X) ~ np,

N - n Var(X) ~ np (I - p) ,

N- I

(5 .1 2)

(5.13)

respectivamente, onde p = ~ é a probabilidade de se obter uma peça

defeituosa em uma única extração. Se N é grande quando comparado com n, então, extrações com ou sem reposição serão praticamente equi­valentes, de modo que as probabilidades dadas por (5.11) serão apro-

120

'madamente iguais as dadas pela fórmula (5.8), isto é. Pk;: b(k: 11, p). Xl esmO modo , os resultados (5.12) e (5.13) serào aproximadamente Do In d d' 'b' - b' . I . . aoS valores correspondentes a lstn Ulçao Inomla. IguaiS

5.6.5. Distribuição de Poisson .;.

A Tábua I fornece valores de b(k : n, p) para n = 1, 2, ... , 19. Para n grande e P pequeno, podemos aproximar as probabilidades b{k: n, p) por

k~O, 1, 2,3, ....

e - ~P . (np)k

k! (5.14)

As probabiltdades (5 .14), juntamente com os valores k = O, I, 2, .. , constituem a chamada distribuição de Poisson , tabelada na Tabua 11 do Apêndice A, para alguns valores de o: = np. A aproximação

b(k' n p) '" e-o, , (np)' . , k! (5. 15)

é boa se n é bastante grande e p pequeno, e de tal sorte que np:s:; 7.

Exemplo 5.16. Consideremos aproximar b(2: 1.000, 0 ,0001), usando (5 .15). Temos que np ~ (1.000) (0,0001) ~ 0, 1. logo,

e- o.! . (0, 1)2 b(k,n,p)'" 2! ~ O,OO~.

Observemos que as probabilidades (5. 14) existem para qualquer k inteiro não negativo. Contudo, observando a Tábua 11 , vemos que estas probabilidades decaem à medida que k cresce e, normalmente, sào des­prezíveis para k maior do que 5 ou 6.

A distribuição de Poisson é largamente empregada quando se de­seja contar o número de eventos de um ce rto tipo, que ocorrem em um intervalo de tempo, ou superficie, ou volume. Dado o fato exposto acima, esta distribuição é chamada distribuição de eventos raros, tais como:

(a) número de chamadas telefônicas recebidas por um PBX durante um intervalo pequeno de tempo ;

(b) número de falhas de um computador em um dia de operação; (c) número de relatórios de acidentes enviados a uma companhia de se­

guros em uma 'semana.

121

Page 68: Probabilidade e estatística

De modo geral, dizemos que a v.a. X tem uma distribuição de POisSOn com parâmetro À > O se

P(X~ k) ~ e-~:.l· k ~ 0, 1,2, .... (5.16)

É fáciJ ver que E(X):= Var(X) =). (ver problema 44) ; logo, J r9Pre_ senta o número médio de tais eventos ocorrendo no intervalo consIderado.

Exemplo 5.17. Um PBX recebe uma média de 5 chamadas por mi­nuto. Supondo que as chamadas que chegam const ituam uma distribui_ ção de Poisson, obter a probabilidade de que o PBX nào receba chama_ das durante um intervalo de um minuto.

Segue-se que ). = 5 chamadas por minuto e

5° - e- j

P(X ~ O) ~ O! ~ e-' ~ 0,0067.

Por outro lado, se queremos a probabilidade de se obter no máximo 2 chamadas em 4 minutos, temos). = 20 chamadas em 4 minutos, logo,

P(X<;2) ~ P(X~O) + P(X~ I) + P(X~2) ~

= e- ZO + 20 _e- zo + 200 _e- zo = e-z0(l + 20+ 2(0) =

= 221 ·e-20.::.: O.

PROBLEMAS

18. Para os exercícios de I a 5 abaixo, considere o enunciado:

Das variàveis abaixo descritas. assinale quais são binomiais, e para estas dê 05 res­pectivos campos de definição e função de probabilidadc. Quando julgar que a variá­vel não é binomial, aponte as razões de sua conclusão.

I. De uma urna com 10 bolas brancas e 20 pretas, vamos ex trair, com reposição, cinco bolas. X ê o número de bolas brancas nas 5 extrações.

2. Refaça o problcma anterior, mas desta vez as n extrações sào sem Tfposiçiio, 3. De 5 urnas com bolas pretas e brancas, vamos extrair de cada uma delas uma bola.

Suponha que X c o número de bolas brancas obtidas no final. 4. Vamos realizar uma pesquisa em 10 cidades brasileiras, escolhendo ao acaso um

habitante de cada uma delas, e classificando-o em pró ou contra um certo projeto federal. Suponha que X é o número de individuos "contra o projeto" no final da pesquisa.

122

Em uma indústria existem 100 máquinas que fabricam determinada ptÇã. Cada 5. peça c classificada como sendo boa ou defeituosa. Escolhemos ao acaso um ins­

tante de tempo, e verificamos uma peça de cada uma das maquinas. Suponha que X seja o número de peças defeituosas.

19. Se X: b(n, p). sabendo-se que E(Xl = 12 e !Jl = 3, determinar :

(r) E(Z) e Var(Z), onde Z=(X-12)jj'f (j) P(Y~ 14/16), onde Y=X/n

(a) n Ih) P (e) P(X < 12) (i/) P{X ;;" 14)

(g) P( Y;;.. 12/16), onde Y::= Xjn

21- Numa central telefônica, o número de chamadas chega segundo uma distribuição de poisson, com a mêdia de 8 chamadas por minuto. Determinar qual a probabili. dade de que num minuto se tenha:

(a) !O ou mais chamadas:

(h) menos d~ que .9 chamadas ; . (e) entre 7 (mcluslVe) e 9 (exclustve)j

:11, Em um cerlO tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de 1 por 2.000 pés. Qual a prObabilidade de que um rolo com 2.000 pês de fita magnética

lenha:

(a) nenhum corte'! (b) no máximo dois cortes'! (e) pelo menos dois cortes'!

Z1 Suponha que a proba~i1idade de que um item produzido por uma máquina seja de­feituoso é de 0.2. Se 10 itens produzidos por esta maquina são selecionados ao acaso, qual é a probabilidade de que não mais do que um defeituoso seja encontrado'! Use a binomial e a distribuição de Poisson, e compare os resultados.

13. Examinaram-se 2.000 ninhadas de 5 porcos cada uma, segundo o número de machos. Os dados estão representados na tabela abaixo.

(a) Calcule a proporção média de f.!Pchos. Ih) Calcule, parã C'ãda valor de X, o ' número

de ninhadas que você deve esperar se X:b(5,p) , onde p é a proporção média de machos calculada em (a).

N." de Mach(Js

O , '. 2 "

3 , 4 • 5

TOTAL

N." de Ninhadas

20 360 700 680 200 40

2.000

l4. Se X tem distribuição binomial com parâmetros n = 5 e p = 1{2, faça os gráficos da distribuiçâo de X e da [d.a. F(x). .

123

Page 69: Probabilidade e estatística

25. Considere. agora, /I = 5 e p = 1/4. Obtenha o gráfico da distribuiçào de X. Qual a di. ferença entre este gráfico e o correspondente do problema 24'10 que oc4sionou a di. ferença '!

26. Refaça o problema 24, com 11 = 6 e p = 1/2.

I

PROBLEMAS E COMPLEMENTOS

27. Um florista faz estoque de uma flor de curta duração que lhe custa 0,50 u.m. (unidade monetária) e que ele vende a 1,50 u.m. no primeiro dia em que a flor está na loja. T orla flor que não é vendida nesse primeiro dia nào serve mais e éjogada fora . Seja X a variável aleatória que denota o numero de flores que os fregueses compram em um dia casual" mente escolhido. O florista descobriu que a função de probabilidade de X é dada pela tabela abaixo.

28.

N.

Quantas flores deveria o florista ter em es­toque a fim de maximizar a média (valor esperado) do seu lucro?

x

p(x)

O 2 J

0:1 0,4 0,3 0,2

As cinco primeiras repetições de um experimento custam 10,00 u.m. cada. Todas as repetições subseqüentes custam 5,00 u.m. cada. Suponha que o experimento seja re­petido até que o primeiro sucesso ocorra. Se a probabilidade de sucesso de uma re­petição ê igual a 0,9, e se as repetições são independentes, qual ê o custo esperado da operação?

Na manufatura de certo artigo, ê sabido que I entre 10 dos artigO'S ê defeituoso. Qual a probabilidade de que uma amostra casual de tamanho 4 contenha:

(a) nenhum defeituoso? " (b) entamente um defeituoso? (e) exatamente dois defeituosos? (a) não mais do que dois defeituosos?

30. Um fabricante de peças de automóveis garante que uma caixa de suas peças conterá. no máximo, 2 defeituosas. Se a caixa contém 18 peças, e a experiência tem demons­trado que esse processo de Fabricação produz 5% das peças defeituosas. qual a pnr babilidade de que uma caixa satisfaça a garantia '!

31, Certo curso de treinamento aumenta a produtividade de uma certa população de fun­cionários em 80~ .. dos casos. Se 10 funcionários quaisquer participam deste curso. encontre a probabilidade de :

(a) enlamenle 7 funcionários aumentarem a produtividade: (b) não mais do que 8 funcionários aumentarem a produtividade: k) pelo menos 3 funcionários nào aumentarem a produtividade.

'24

r

I I I

"-I baixo X significa numero de filhos homens em familias com 12 filhos. J1 Na ta""a a , ..'" d . . calcule para cada valor da variavel o numero de famlhas que voce evena eSperar

se X : b(12; 0,5).

X N.O Obserl"ado d, Familias

O 6 I 29 2 160 J 521 4 1.198 5 1.921 6 2.360 7 2.033 , 1.398 9 799

10 ", 11 60 12 7

TOTAL 10.690

Você acha que o modelo binomial e razoável para explicar o fenômeno?

33. O numero de petroleiros que chegam a uma refinaria em cada dia ocorre segund~ .uma distribuição de Poisson. com À = 2. As atuais instalaçõe.s podem anle~der,.no maXlmo, a 3 petroleiros por dia. Se mais de 3 aportarem num dIa , o excesso e enVIado a outro

porto.

(a) Em um dia, qual a probabilidade de se enviar petroleiros p~~a outro porto'! (b) De quanto deverão ser aumentadas as instalações para permItIr atender a todos

os navios que chegarem pelo menos em 95% dos dias ? (e) Qual o número mêdio de petroleiros que chegam por dia ?

te-I = 0,135]

34. Houve uma denuncia por parte dos operários de uma indústria de que, toda a vez que ocor­ria um acidente em uma seção da indústria, ocorriam outrO'S em outras seções .mais ou menos no mesmo horário. Em outras pala­vras, os acidentes não estavam ocorrendo ao acaso. Para verificar esta hipótese, foi Feita uma contagem do número de acidentes por hora durante um certo número de dias (24 horas por dia). Os resultados da pesquisa es­tão ao lado.

N.O de Acidentes por Hora

O

2 ]

4 5 6 7 ,

N.0 de Horas

200 152 60 JO 13 9 7 5 4

125

Page 70: Probabilidade e estatística

(a) Calcule o número médio de acidentes por hora nesta amostra. (b) Se o número de acidentes por hora seguisse uma distribuição de Poisson , ç~m média

igual à que você calculou, qual seria o número esperado de dias (:Om O. 1,2, .. etc. addentes?

(e) Os dados revelam que a suspeita dos operários e verdadeira ?

35. Determinado tipo de parafuso e vendido em caixas com 1.000 peças. É uma caraç. teristica da fabricação produzir 10% defeituosos. Normalmente, cada caixa é vendida por 13,50 u.m. Um comprador faz a seguinte proposta : de cada caixa, ele es<:olhe urna amostra de 20 peças ; se a caixa ti ver ° defeituoso, ele paga 20.00 u.m.; I ou 2 defeituoso~ ele paga 10.00 u.m .; ] ou mais defeituosos, ele paga 8.00 u.m. Qual alternativa e a mai~ vantajosa para o fabricante'! (Justificar estatisticamente.)

36. Uma certa região norestal foi dividida em 109 quadrados para estudar a distribuição de Primula Simenses Se/l'agem. A priori. supomos que este tipo distribua-se aleatoria. mente na região. O quadro abaixo indica o número de quadrados com X Primu/a Si. nenses : o número médio de plantas por quadrado foi de 2.2.

(a ) Se as plantas realmente se distribuem ale· atoriamente na região. qual a probabili. dade de encontrarmos pelo menos 2 Pri­mula.~·!

[b) Dê as freqüências esperadas para os va­Iares de X = O, X = l e X = 2.

(e) Apenas comparando os resultados de (b)

com as freqiiências observadas. qual a condusão a que você chegaria '!

(d) Quais as causas que você daria para a condusão"!

XPllmla.i p/Qu(1(lrado

O 1 2 3 4 S 6 7 8

acima de 8

N.a de Quadrados com X Planlas

26 21 2) 14

11 4

S 4

1 O

]7. Uma fábrica produz válvulas. das quais 20% são defeituosas. As válvulas são vendidas em caixas com la peças. Se a caixa nào tiver nenhuma defeituosa. seu preço de venda é 10,00 u.m. ; tendo uma. o preço ê: 8.00 u.m. ; duas ou tres, o preço e 6.00 u.m.; mais do que tres, o preço é 2,00 u.m. Qual o preço médio de uma caixa '!

]8. Um industrial fabrica peças, das quais 1/ 5 são defeituosas. Dois compradores. A e 8, classificaram as partidas adquiridas em categorias I e 11, pagando 1,20 u.m. e 0,80 u.m. respectivamente do seguinte modo:

Comprador A: retira uma amostra de 5 peças; se encontrar mais que uma defeituosa, classifica como 11 .

Comprador B: retira amostra de la peças; se encontrar mais que 2 defeituosas, clas­sifica como 11.

Em média. qual çomprador oferece maior lucro '!

'26

Se X :b(n, p), prove que f(X) = np e Var(X)=npq.

11· ,Sugestão: calcule f(X) e Var(X) para n= 1, 2, ... , etç.1

Aceitação de um lole - Suponha que um comprador queira decidir se vai aceitar ou ... não um lote de itens. Para isso. ele retira uma mostra de tamanho n do lote, e conta

numero x de defeituosos. Se x ~a, o lote e aceito, e se x > a, o lote e rejeitado ; o nu­~ro a e fix ado pelo comprador. Suponha que n = 19 e a = 2. Use a Tábua J a fim de encontrar a probabilidade de aceitar o lote. ou seja, P(X ~2) para as seguintes pro­porções de defeituosos no lote :

(a) p "" 0,10 (b) P = 0,20 (e) p = 0,05

.1. Prove que. quando n .... 00 e p .... O, mas de tal sorte que np = À., temos

e- ~ . ).~ - p). - - .... - k-'- (difici1! ).

ISugestão: Use os fatos :

" n - ). (1 ')" ., P = ~ , - p = --o - - .... e

" " " quando n .... 00.1

4 Suponha que X é uma v.a. discreta, com f.p.

(a) P(X ser par) (b) P(X ~ 3)

p(x)=r~ . x=1.2.] ... . . Calcule:

(e) P(X > 10)

O. Prove (5.4) e (55).

..... Prove que E(X) = Var(X) = À. , se a P(X = k) e dada por (5. 16).

45. Prove a relação (5.1 I).

... Num teste tipo certo-errado, com 50 questões, qual é a probabilidade de que um alu­nO acerte 80";'; das questões, supondo que ele as responde ao acaso?

~, Repita o problema 46, considerando cinco alternativas para cada questão.

<li. Em um experimento binomial com 3 provas, a probabilidade de exatamente 2 suces­sos é 12 vezes a probabilidade de 3 sucessos. Encontre p.

49. No sistema abaixo. cada componente tem probabilidade p de funcionar. Supondo independência de fun cionamento dos componentes. qual a probabilidade de :

(a) o sistema fu ncionar '! (h) o sistema não funcionar?

-----@----®-- . _. -----G-(r) exatamente dois componentes Funcionarem '! (ti) pelo menos cinco componentes funcionarem"!

50. Prove que

(n - k)p b(k + 1: fI,p) = (k + 1)(1 p) · b(k ; n, p).

'27

Page 71: Probabilidade e estatística

CAPíTULC9 6

Variáveis aleatórias contínuas

-6.1. INTRODUÇÃO

Vejamos agora como criar modelos probabilísticos teóricos para variáveis aleatórias contínuas. Para isso, vamos recorrer novamente ao auxíl ia de exemplos.

Exemplo 6./. O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante por defeito técnico, e vamos indicar por X o ângulo que este ponteiro forma com o eixo imaginário, passando pelo centro do relógio e peto número XII, conforme mostra a Figura 6.1.

O' XII

X

270 0 - IX 111 _ 90 0

VI

lao ·

Fig. 6.1

Medindo este ângulo X em graus , e lembrando:

(i) que o ponteiro deve dar 60 "saltos" (ele ,dá um salto em cada segundo ) para completar uma volla ;

(ii) que acreditamos que o ponteiro tenha probabi lidade igual de parar em qualquer ponto: então, a variável X tem distribuição uniforme discreta (conforme seção 5.6. I .), cuja função de probabilidade é:

12.

f

\

x O" 6" 12" 18"

p(x ) 1/60 1/60 l/fIJ 1/60

. e cuja representação gráfica e a Figura 6.2 .

1160 T

6"

• , ,

'"

T •

,.' Fig. 6.2

348' 354"

1/60 1/60

• , ,

354 0 x(em graus)

Transferindo o mesmo problema pa ra um relógio elétrico. onde o pontei ro dos segundos move·se t onfinuamenle, necessitamos um outro modelo para representar a variá vel aleatória X. Primeiro observamos que o c,?J1junto dos possíveis valores de X não é mais um conjunto en u· merável de valores, pois X pode assumir qualquer valor do intervalo [O,360[= :xEIR IO ~x<360:. Em segundo lugar, como no caso do relógio me€ânico, cont inuamos acreditando que nào exista uma região de preferência para o ponteiro parar. Como existem inrinitos pontos nos qua is o ponteiro pode parar. cada um com igua l probabil idade, se fôssemos usar o mesmo método usado para a variável aleatória di screta uniforme , cada pon to teria probabilidade de ocorrer igual a zero. Assim, não tem muito sentido falar na probabilidade de o ângul o X ser igual a um certo valor , pois esta probabilidade sempre será igua l a zero. Entre­tanto , podemos determinar a probabil"idade de o ângulo X estar com­preendido entre dois val ores quaisquer. Por exemplo, usando a Figura 6. 1 como referência. a probabilidade de o ponteiro parar no intervalo compreendido entre os números XII e 111 é de 1/4, po is esse intervalo corresponde a 1/4 do intervalo total. Então , podemos escrever (X me­dido em .graus)

PIO" ,;; X ,;; 90") ~ 1/4,

129

Page 72: Probabilidade e estatística

Do mesmo modo, a probabilidade de o ponteiro parar en tre os nú_ meros IV e V é igual a 1/ 12. Isto é,

P(I2a" " X " 150") ~ 1/12.

Por menor que seja o intervalo, semprt; poderemos achar a probabili_ dade de o ponteiro para r num ponto qualquer desse intervalo. ·E é fácil verificar que neste caso , dados dois númerosaeb , tais que 00 ~ a ~ b < 36{)<1, a probabilidade de X E [a, b[ é

b - a P(a" X < b)~-- .

360"

Através da divisão do intervalo [O'>, 360"[ em pequenos subintervalos, podemos construir um histograma para as probabilidades da variável aleatória X (como fizemos para variável contínua no Capítulo I ). Ou ainda , como naquele capítulo, fazendo esses subintervalos tenderem a zero, podemos construir o histograma alisado da variável aleatória X, apresenlado na Figura 6.3.

f(x)

x(em

Fig. 6.3

O histograma alisado da Figura 6.3 corresponde à seguinte função

{

o , sex<O" f(x) ~ 1/360, se 0"" x < 360"

O , se x ~ 360°.

Como vimos na construção de histogramas , a área correspondente ao intervalo [a, b[ (hachurada na Figura 6.3) deve indicar a probabili­dade de a variável estar enlre a e b. Matematicamente , isso é ex presso através da integração da função entre a e b; então,

f' . f' 1 b-a P(a " X < b) ~ I(x) dx ~ 360" dx ~ 360" '

" " '30

pois a integral de uma função entre dois pontos determina a área sob a curva compreendida entre esses dois pontos.

A função f(x) é chamada função densidade de probabilidade (fd.p.). podemos construir modelos teóricos para variáveis aleatórias con­

tínuas, escolhendo adequadamente as funções densidade de probabili­dade. Teoricamente, qualquer função f( • ) , que seja não-negativa e cuja área lotaI sob a curva seja igual à unidade, caracterizará uma variável aleatória continua.

Exemplo 6.2. Se f(x) = 2x, para O ~ x < I, e zero fora desse intervalo, vemos que f(x) ~ O, qualquer que seja x, e a área sob o gráfico de fi. . ) é unitária (verifique na Figura 6.4). LJgo, a função f pode representar a função densidade de uma variável aleatória contínua x.

f(xl

2

o 1/2

Fig. 6.4

Aqui , a P(O ~ X < 1/2) é igual à área do triângulo de base 1/2 e altura I, hachurado na Figura 6.4; logo , a probabi lidade em questão é

Observamos, en tão, que a probabilidade desta v.a. assumir um valor pertencente ao intervalo [O, Ij2[ é menor do que a probabilidade da va­riável assumir um valor pertencente ao intervalo [1 /2, 1[. . A comparação das funções densidade dos dóis últimos exem plos

ajuda a entender qual o s i~n ifi cado das mesmas. No primeiro exemplo, consideremos dois interva los /] = [a, b[ e / 2 = [c , d[, contidos no in­

tervalo [0,360[, e com mesma amplitude (h - a = d - c); então,

P(X E I,) ~ P(X E I, ).

'3'

Page 73: Probabilidade e estatística

, \

o mesmo não acontece no segundo exemplo: dados dois intervalos de mesma amplitude , aquele mais próximo de 1 irá apresentar maior pro~ babilidade. Assim, a probabilidade da v.a. X assumir um valor perten_ cente a um intervalo de amplitude fix"a varia de acordo com a posição do intervalo ; existem regiões com maior "chance" de ocorrer, e o que

. determina este fato e a função densidade de probabilidade. Portanto, a f.d.p. é um indicador da concentração ,ije "massa" (probabilidade) nos possíveis valores de X. Convém ressaltar ainda que f(x) não representa a probabilidade de ocorrência de algum evento. A área sob a curva entre dois pontos e que irá fornecer a probabilidade. .

PROBLEMAS

1. Dada a função

_12 . e -.l..o ,x~0 j{x) - < ° O , x .

r , \

(a) Most re que esta é uma f.d.p. (b) Calcule a probabilidade de que x> 10.

2. Uma v.a. X tem distribuição triangular no in tervalo [O, li se a sua r.d.p. é dada por

{

o. .«0

fi C):, O";;x,,;;l f2

x) = ql _ x), 1/2,,;; x";; I

O. x> 1

(a) Que valor deve ter a constante C, de modo que j{x) seja uma f.d .p. '1 (b) Faça o gráfico de fix) . (c) Determine P(X,,;; 1/2), P(X > 1/2) e P(I/4 ";; X ~ 3/4).

l Suponha que estamos at irando dardos em um alvo circular de raio de lOem, e seja X a distância do ponto atingido pelo dardo ao centro do alvo. A f.d.p. de X é

j{) 5kx . ~e O ";;x,,;;:1O x 0= lO nos demais valores

(ú) Q ual a probabilidade de acertar a mosca, se ela é um ci rculo de I cm de ra io"! (b) Mostre que a probabilidade de acertar qualquer circulo concen trico é proporcional

a sua área.

4. Considere a v.a. X do problema 2 e faça Y = X + 5.

132

(a) Calcule p(y,,;;: ~). ( Encontre os valores de X tal que Y,,;;: ~). (b) Faça o gráfico de f(yJ. (e) Agora, se Y = a , raça o gráfico de j{y).

6.2. VALO~ ESPERADO DE UMA VARIÁVEL ALEATÓRIA CONTINUA

Do discutido ate aqui, vimos que qualquer função f( • ) não negativa, e tal que

f+O

_ Q[) f(x)dx= I,

define uma variável aleatória contínua X. Isto é, cria um modelo teó­ricO para as freqüências relativas de uma variável quantitativa contínua. A área compreendida entre dois valores, a e b, da abscissa x e da curva fl.x), dá a probabilidade (proporção teórica esperada) da variável pertencer ao intervalo limitado pelos dois pontos. Através do conceito de integral, isto pode ser escrito

P(a " X < b) ~ r 1(x) dx. (6.1)

Vejamos agora como pode ser definido o conceito de esperança para uma variável aleatória contínua. Para isso, usaremos um artificio semelhante àquele usado na seção 2.1 para calcular a média das variá· veis quantitativas, com os dados agrupados em intervalos de classe . Lá substituímos todos os valores do inte.rvalo por um único valor apro­ximado (o ponto médio do intervalo), e agimos como se a variável fosse do tipo discreto. Aqui iremos repetir esse artifício .

Consideremos a v.a. X com fun­ção densidade f(x) e dois pontos, a e b, bem próximos, isto é, h = b - a é pequeno, c consideremos Xo o ponto médio do intervalo [a , b}. Observan­do a Figura 6.5 é fácil verificar que

P(a " X < b) '" h ·1(x,), (6.2)

o que significa aproximar a área da figura hachurada pelo retângulo de base 11 e alturaf(xo). É fácil verificar que a aproximação melhora com h tendendo a zero,

flxl

Fig. 6.5

133

Page 74: Probabilidade e estatística

Dividamos agora o intervalo [A, B], onde j{x) > O, e~ n partes de ampli.

tudes iguais a h = B ~ A (Figura 6.6), e consideremos os pontos médios n

das classes , Xl' X2 , .•. , Xn'

f!x)

" ,

Fig. 6.6

Consideremos a variável discreta Yn assumindo os valores XI,X2' ••• ,Xn,

com as probabilidades

p, ~ P(Y. ~ x;) '" 1(x,) oh.

Oesta maneira, e de acordo com (5.1), obtemos

• • E(Y.) ~ L X"" '" L xj(x,) h,

; " 1 1"'1

que será uma aproximação do valor esperado E(X). Para determinar E(X) com mais precisão, podemos aumentar o número de intervalos, diminuindo a amplitude h dos mesmos. No limite, quando h tende a zero. teríamos o valor de E(X). Assim, definamos:

• E(X) ~ Iim E(Y.) ~ Iim L X"". (6.3)

n"' ", n"' <Xl ; " 1

Mas da definição de integral (veja Cálculo - Funções de uma Variável, Capitulo 8), temos que se o limite (6 .3) existe, ele define a integral de xJ(x) entre A e B, isto é,

E(X) ~ r x1(x)dx. (6.4)

134

Exemplo 6.3. Continuando com o exemplo 6.2, observamos que, . . I 2i-1

d.v,·dindo o mtervalo [0,1] em n submtervalos, teremos h = -, Xj= --, n ~

2i - I . 1(,)=-,1= I, ... ,n. Portanto, e , n

n2i-12i-11 )" flr.) ~L 2il o - n- oI! ~ ~, L (2i-I)' ~

, - 1 ;"'1

~ ~, {n(2n+I;(~ - I)} ~+(2 + ~)(2 _+). onde usamos o conhecido resultado que dá a soma dos quadrados dos n primeiros números ímpares. Logo,

E(X) ~ lim - 2 + - 2 - - ~ -. . I ( 1)( I) 2 n-'" 6 n n 3

o mesmo resultado é obtido diretamente através da relação (6.3).

r' r' [2'12 E(X) ~ J, x o 1(x) dx ~ J, x o 2x dx ~ ~ ~ 3·

Exemplo 6.4. No caso do relógio elétrico do exemplo 6.1, obtemos

r'60 I [I x'160

E(X) ~ J, x o 360 o dx ~ 360 2" ~ 180",

'1UC seria o resultado esperado devido à distribuição uniforme das fre­qüências teóricas.

Do fato de a função f(x) ser sempre não-negativa. verificamos facil­mente que a esperança pode ser escrita como

E(X) ~ r: xj(x)dx. (6.5)

A extensão do conceito de variância para v.a. contínuas é feita do mesmo modo, e o equivalente à expressão (5.2) passa a ser

f+ ~

Var(X) ~ E[(X - E(X))'J ~ _~ (x - E(X))' o j(x) dx. (6.6)

135

Page 75: Probabilidade e estatística

Exemplo 6.5. Para os dois exemplos vistos anteriormente, teremos: no caso do relógio,

Var(X) = (x - 180) ·-dx= - ~ --- + f360 2 I I [X3 360x2

360 360 3 2 o .

= 10.800 ;

e para o exemplo 6.2,

Var(X) = f} - i)' ·2xdx = 2 [X4' - 4;' + 2;']: = 18

Dada a v.a. quantitativa X: seja ela do tipo discreto ou contínuo , temos elementos para determinar sua média (esperança) E(X) e variância Var(X). Como foi discutido no Capítulo I , a variância inttpduz uma pequena dificuldade quanto à unidade em que é medida, e daí termos introduzido o conceito de desvio padrão. Para as variáveis aleatorias também definiremos '

DP(X) = J Var(X).

Deixamos a cargo do leitor a verificação de que, de (6.6), segue

Var(X) = E(X') - E'(X).

(6.7)

(6.8)

Como frisamos no Capítulo 5, freqüentemente usa remos outros sím­bolos para indicar os parâmetros discutidos. Assim,

E(X) = ~(X) Var(X) = .'(X) DP(X) = .(X),

ou simplesmente J1. , a2 e a, respectivamente, se não houver perigo de confusão.

6.3. FUNÇÃO DE DISTRIBUiÇÃO ACUMULADA

Se X é uma v.a. contínua com função densidade de probabilidade J(x). podemos definir a sua função de distribuição acumulada F(x) do mesmo modo como foi feito no Capitulo 5:

F(x) = P(X .; x). (6.9)

136

De (6.1), segue-se que

F(x) = f. f(I)dI ,

para todo x real.

Exemplo 6.6. Retomemos o exemplo 6.2:

f(x) = {2X. O ~ x < I O , x < O ou x~ 1

Então,

{

IÕ . O· dI = 0, x < ° F(x):::: f ti 2tdt = x 2

, O ~ X < I fó 2ldl + fiO· di = I, x ~ I.

portanto,

{

O, x < ° F(x) = x 2

, O ~ x < I , x ~ I

o gráfico de F(x) está na Figura 6.7.

o Fig. 6.7

(6.10)

,

De (6.9). vemos que O ~ F(x) ~ I para todo x; além disso, F(x) é não decrescente, e possui as seguintes duas propriedades:

(i) lim F(x) = 0,

(ii) lim F(x) = I. x-+ + 00

No exemplo 6.6 . temos, efetivamente, F(x) = O, para x < O e F(x) = I, para x ~ I.

Paia v.a. contínuas, F'(x):::: f(x) para todos os valores de x onde F(x) é derivável.

{O, x < ° Exemplo 6.7. Suponha que F(x) = -x

. . 1 - e , x ~ O,

seja a f.d.a. da variável aleatória X continua. Então,

f(x) = {O, x < ° e- x. x ~ O (Figura 6.8)

137

Page 76: Probabilidade e estatística

F(xl f(xl

1 -------------

o , o , ,., 'OI

Fig. 6.8 \ Assim , sendo X uma v.a. contínua e F(x) sua f.d.a. para dois pontos

a e b quaisquer, teremos

PIa < X ,; b) ~ F(b) - F(a). (6 .11)

Da relação entre a probabilidade e a área sob a curva, a inclusão ou não dos ex.tremos a e b em (6.11) não afetará os resultados. Assim, iremos admitir

P(a<X,;b) ~ P(a';X';b) ~ P(a,;X<b) ~ P(a <X<b).

PROBLEMAS

5. Calcule a esperança, a variância e a f.d.a. da v.a. X do problema 2.

6. Determine a esperança e a variância da v.a. cuja f.d.p. é

{sen x, O ~ x ~ 11/2

/(x) ;; O , caso contrário.

7. Calcule a média da v.a. X do problema 4.

8. A v.a. continua X tem f.d.p.

{3x2

, - I,.,;x ~O f{x) =

O ,caso contrário.

I (

(

(a) Se b for um número que satisfaça a - I < b < 0, calcule P(X> b I X < bf2). (b) Calcule E(X) e Var(X) .

9. Uma certa liga é formada, combinando a mistura fundida de dois metais. A liga resul­tante contém uma certa porcentagem de chumbo X. que pode ser considerada uma v.a. com f.d.p. :

138

f

] -/(x) = 510 ' ox{IOO-x), 0" x ~ 100.

Suponha que L. o lucro liquido obtido na venda desta liga (por unidade de peso), é a seguinte função da porcentagem de cumbo: L = C1 + C zx. Calcule a E(L) = lucro esperado por unidade.

lO. A demanda diária de arroz em um supermercado, em centenas de quilos. é uma v.a. X com f.d.p. ,

O"x<1 - x ~ ]

/(x) = -x - + 1 " l~x~3 ] . O " x <O "" x> 3.

(a) Qual a probabilidade, em um dia escolhido ao acaso, de se vender mais do que 150kg?

(b) Em 30 dias, quanto o gerente do supennercado espera vender? (c) Qual a quantidade de arroz que deve ser deixada à disposição do público diaria­

mente para que não falte arroz em 95% dos dias?

11_ Suponha que X tenha a f.d .p. f(x) do problema 8. Calcule E(}') e Var(Y) , onde Y =2X-3/5.

11. Se X tem f.d.p. f(x), calcule a densidade de Y = XZ. ISugestão: encontre primeiramente a f.d.a F~{y) de Ye depois !r{Y) = F~{y). Também, P(X1 ~x) = Fx(,Ji) - f"x( - fi), onde Fx(x) é a f.d.a. de X.]

6.4. ALGUNS MODELOS PROBABILíSTICOS PARA VARIAvEIS ALEATÓRIAS CONTíNUAS

De um modo geral, podemos dizer que as v.a. cujos valores resultam de algum processo de mensuração são v.a. contínuas. Alguns exemplos de v.a. contínuas são:

(a) o peso ou a altura de pessoas de uma cidade; (b) a demanda diária de arroz em um supennercado, em quilos; (e) o tempo de vida de uma lâmpada; (eI) o diâmetro de rolamentos de esferas; (e) erros de medidas em geral , resultantes de experimentos em labora­

tórios.

Dada uma v.a. X contínua, interessa saber qual a f.d.p. de X. Alguns modelos são freqüentemente usados para representar a f.d .p. de v.a . con-

139

Page 77: Probabilidade e estatística

tínuas. Aqueles mais utilizados sào descritos a seguir, e para uniformizar o estudo desses modelos, iremos em cada caso analisar:

(a) definição; \

(b) gráfico da f.d.p.; (c) momentos: E{X) e Var(X) ; (d) função distribuição acumulada (Ld.a.) (tabela e determinação de

probabilidades).

6.4.1. O Modelo Uniforme

É uma generalização do modelo estudado no exemplo 6.1, e é o modelo mais simples de v.a. contínua.

(a) Definição - A v.a. X tem distribuiçào uniforme com par~metros o: e p (o: < {J) reais, se a sua f.d.p. é dada por:

fi) [_pl ,se • .;;x.;;p 1

x= -Cf: ' ".

O ,nos demais pontos.

(b) Gráfico - A Figura 6.9 representa a função (6.12).

f(x)

lIlP - a)

• o

Fig. 6.9

(c) Momentos - Podemos mostrar (ver problema 26) que

e

140

E(X)~ '+P 2

Var(X) ~ (fJ - .)' . 12

(6.12)

(6.1 J)

(6.14)

(á) fd.a. - A f.d.a. da v.a. uniforme é fácil de ser encontrada (veja pro­blema 26).

{

O ,sex<. • x-o

F(x) ~ P(X';;x) ~ t~f(X)dx ~ p_. ' se." x < p I ,se x ~ (3,

cujo grãfico está na Figura 6.10.

F/x)

, . -------- - - --:;>r----

• o

Fig. 6.10

Assim, para dois números quaisquer c e 'd, teremos

P(c < x " â) ~ F(â) - F(c),

que é obtida facilmente de (6.15).

,

(6.15)

Exemplo 6.8. Um caso particular bastante interessante é aquele em que r1.= -1/ 2 e p= 1/2. Indicando por U essa v.a., teremos

[

I, f(u) ~

O,

I I se - - :<u:< -2..... "" 2

nos demais pontos. Aqui,

E(U) ~ O,

e o u < -~ , 2

F(u) ~ I I I

u + "2' -"2 ~u<2 I

I , u > 2.

141

Page 78: Probabilidade e estatística

Por exemplo, \

~ (+ + +) - (-+++)~+ Se quiséssemos facilitar o nosso trabalho, poderíamos tabelar os

va lores da Ld.a. para esta variável U. Devido à simetria da área em re­lação a x .= 0, poderíamos construir uma tabela indicando a função G{u), la l que I

G(u) ~ prO " u " u)

para a lguns valores de u. (Veja problema 27.) Dada uma v.a . unifonne X, com parâmetros rx e fi, podemos, a partir

dela , definir uma outra variáyel U, do seguinte modo:

X-P+~ U ~ 2

p- a (6.16)

Quando X = fi , U = 1/2, e quando X = IX, U = - 1/2; e não é difícil ver que a forma da Ld .p. desta nova variável U será a mesma da variável X, desde que estejamos fazendo uma transformação linear. Então, dada uma v.a. uniforme qualquer , através da trans formação (6 .16) obtemos uma v.a. uniforme " reduzida" , com parâmetros 1/2 e - 1/2. Assim, para dois números quaisquer c e d, teremos

[

C - p+a d- p+a] p[c < X " d] ~ P 2 < U" P : ~ p - a

_ Fu (c -Pf"-) , fi - a

onde Fu é a Ld.a. da v.a. U.

6.4.2. O Modelo Normal

(a) Definição - Dizemos que a v.a. X tem distribuição normal com parâ­metros p.e 11

2, - co <p. < + co e O <u2 < + co , se a sua Ld.p. é dada por

142

f(x) = I e - (.~ - !,) 21 2,,\ _ 00 < x < + 00 . (6.17) ufo

b) Gráfico - A Figura 6. 11 ilustra uma part icular curva normal, deter­( minada por valores particulares de p. e a 2.

fjx)

• o ,

Fig. 6.1 I

(c) Momentos - Pode-se demonstrar que (ver problema 29):

(i) E(X) ~ ~; (ii) Var(X) ~ u'; I

(iii) f(x) -+ O quando x -+ ± C();

(6. 18) (6.19)

(iv) J1- a e p. + a são pontos de inflexão de fl~);. , (v) x = J1 é ponto de máximo deflx), e o valor maxlmo e 1/(1'$;

(vi) j{x) é simétrica ao redor de x = p., isto é,

j(p+x) ~j(~-x) , (6.20)

para todo - 00 < x < + ro.

Se X tem distribuição nonnal, com media J1 e variância u2, escreveremos:

X: N(!', u'). fiz) I

- 1 + 1

Fig. 6.12

,

Quando J1 = O ·e (1'2 = 1, temos uma normal padrão ou reduzida, e es­crevemos N(O, I).

Se X: N(p, (1'2), então a v.a. Z definida por

(6.21 )

terá uma distribuição N(O, I).

143

Page 79: Probabilidade e estatística

É fácil demonstrar que Z tem média O e variância 1. A normalidade de Z já não é imediata e nào será provada aqui. A Figura 6.12 ilustra a N(O, I).

Suponha, então, que X : N(I-l, 0-2

) e queiramos dctcnninar 1

P(a < X < b) = lb

I e-(X - I'I' / 2<1' dX. (6.22) • j2ii

(Ver Figura 6.13.)

flx)

o

Fig. 6.13

A integral (6.22) não pode ser calculada exatamente, e a probabili. dade indicada só IX>de ser obtida aproximadamente, por métodos nú. méricos. No entanto, para cada valor de J1 e cada valor de (]'. teríamos que obter P(a < X < b) para diversos valores de a e b. Esta tarefa é facilitada através do uso de (6.21), de sorte que somente é necessário construir uma tabela para a distribuição normal padrão N(O, I).

Vejamos, então, como obter proba­bilidades a partir da Tábua m. do" Apêndice A. Esta tábua dá as proba· bilidades sob uma curva normal pa· drão que nada mais são do que as correspondentes áreas sob a curva. A Figura 6.14 ilustra a probabilidade fornecida pela tabela , a saber,.

P(O ~ Z ~ zJ,

sendoZ: N(O, 1). Assim.sez<= 1.73. segue·se que

PIO " Z " 1,73) = 0.4582.

144

f(Z)

z

Fig. 6.14

• \

Observe que (Figura 6.15):

I) P( -1,73 "Z "O) = prO "Z " 1,73) = 0,4582, devido a slmetna da curva.

2) P(Z ~ 1,73) = 0,5 - P(O" Z " 1,73) = 0,5 - 0,4582 = 0,041 8, pois P(Z ~ O) = 0,5 = P(Z " O).

3) P(Z< -1,73) = P(Z> 1,73) = 0,0418 .

4) p(0,47 "Z " 1,73) = PIO "Z " 1,73) - P(O" Z ,,0,47) = = 0,4582 - 0,1808 = 0,2774.

A. - 1,73 o 1,73 z

Ibl

,., 'oi

Fig. 6.15

Suponha agora que X seja uma v.a. N(p,0"2) com J.L = ~ e (}2 = 16, e queiramos calcular P(2 ~ X ~ 5). Utilizando (6.21), temos

(2-P X -p 5 - P) (2-3 5-3) P(2~X~5) = P -.-,,-u- ,,-.- =P -4-~Z~-4- =

Portanto, a probabilidade de que X esteja entre 2 e 5 é igual à pro· ; babilidade de que Z esteja entre - 0,25 e 0,5 (Figura 6.16). Utilizando a----. Tábua m, vemos que

P(-0,25 "Z" 0,5) = 0,0987 + 0,1915 = 0,2902, ou seja,

P(2 " X " 5) = 0,2902 . .

145

Page 80: Probabilidade e estatística

\

,

Fig. 6.16

Exemplo 6.9. Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro último são distribuídos normalmente, com média de 10.000,00 u.m. e desvio padrão de 1.500,00 u.m .. Um depósito é selecionado ao acaso, dos depósitos referentes ao mês em questão. Encontrar a prO: babilidade de que o depósito seja:

(a) 10.000,00 u.m. ou menos ; (h) pelo menos 10.000,00 u.m. ; (c) um ' valor entre 12.000,00 u.m. e 15.000,00 u.m. ; (li) maior que 20.000,00 u.m.

Temos que Il = 10.000, (J = 1.500; seja X = depósito ,

() P(X<: 10(00) ~ P (X - IO.ooO 10.000 - 10.(00) ~ a ~. 1.500 < 1.500

~ P(Z "O) ~ 0,5.

(b) P(X" I 0.(00) ~ P(Z" O) ~ 0,5.

(c) P(i 2.000< X < 15.(00) ~ p(12.000 - 10.000 "Z" 15.000 - 10.(00) ~ 1.500 1.500

(4 10) ~ P 3"Z "3 ~ P(i,3J " ZO,JJ) ~

~ 0,49957 - 0,40824 ~ 0,091 JJ .

146

(

\

6.4.3. O Modelo Exponencial

(a) Definição - Dizemos que a v.a. X tem distribuição exponencial com parâmetro fi> O se sua f.d.p. é

[

I ~," O fix)~ pe ,x."

O ,x < O.

(b) Gráfico - O gráfico de f(x) é ilustrado na Figura 6.17.

f(x)

o

Fig. 6.17

(c) Momentos - É fácil ver que (ver problema (38»:

a) E(X) '~ p. b) Va,(X) ~ p'.

,

(6.23)

(6.24) (6.25)

Exemplo 6.10. O tempo de vida (em horas) de um transistor ê uma v.a. T com f.d.p.

[

_ I_e-r/500 t >- O fil) ~ 500 ' ~

O ,I < O.

Segue-se que a vida média do transistor é E(7) = 500 horas , e a pro­babilidade de que seu tempo de vida seja maior do que a média é

P(T ~ 500) = f~ J(/)d/ = 5~ f <XI e - r/50o dI =

500 500

= ~(-500 . e- r/5o'] _ ~ _1_ .500 · e-soo/soo = e- I -= 03678 500 500 500 ' .

147

Page 81: Probabilidade e estatística

6,5, APROXIMAÇÃO NORMAL À BINOMIAL t

Suponha que a v.a. Y tenha uma distribuição binomial com parâ,

melros fl = 10 e p = + e queiramos calcular P(Y~ 7). Vemos ~ue (Fi_

gura 6.18) P(Y = 7) é igual à área do retângulo de base unitária Ie altura igual a P( Y = 7), similarmente para P(Y = 8), etc. Logo, P( Y ~ 7) é igual à soma das ár.eas dos retângulos hachurados na Figura 6.18. A idéia é aproximar tal área pela área sob a curva nonnal , à direita de 6,5. Qual curva normal? Aquela de média

I !1=np= IO x - =5

2

e variância

, I I • = np(1 -p) = 10 x 2 x 2 = 2,S (Ver Figura 6.19).

o , 2 3 4 5 6 7 8 9 lO 5 6 7 8 9 10

Fig. 6. 18 Fig. 6.19

Chamando X tal variável com distribuição normal ,

(X - ~ 6,S-I') P(Y;' 7) '" P(X;. 6,S) = P - . - ;. • =

• (

X -S 6S-S) = P "';. '", = P(Z;. 0,94) = 0,1736, " 2,5 " 2,5

onde Z é N(O, I). Ut ilizando a Tábua I, vemos que a probabilidade verdadeira é 0,172.

Vamos calcular agora P(3< Y.;;6)=P(Y=4)+P(Y=5)+P(Y=6). Vemos, através da Figura 6.20, que a aproximação a ser feita deve ser

'48

(

• \

o Fig. 6.20

P(3 < Y .;; 6) '" P(3,5 .;; X .;; 6,5) =

= p(3 ,5 - 5 "Z ,,6,5 - 5) = I 58 ~ - I 58 , ,

= P( - 0,94.;; Z .;; 0,94) = 0,6528,

ao passo que a probabilidade verda­deira é 0,656.

A justificativa formal de tal aproximação é dada pelo chamado Teorema Limite Central, que será visto no Capítulo 8.

PROBlEMAS

11 A temperatura T de destilação do petróleo é crucial na determinação da qualidade final do produto. Suponha que T seja considerada uma .... a. com distribuição uniforme no intervalo de 150 a 300. Suponha que o custo para produzir uma galão de petróleo seja C I u.m .. Se o óleo é destilado a uma temperatura inferior a 200", o produto obtido é vendido a C z u.m.; se a temperatura for superior a 200", o produto é ... endido a Cl U.fi ..

(o) Fazer o gráfico da função densidade de probabilidade de T. (b) Qual o lucro médio esperado por galão?

J<I. Se X: N(IO, 4) calcular:

(a) P(8 < X < IQ),

(b) P(9 '" X '" [2),

(c) P(X > 10), (á) P(X< 8 ou X> 11).

15. Na distribuição X : N(IOO, 100), encontre:

(a) P(X < I I 5). (b) P(X~ 80), (c) P(] X ~ 100 I ..;,;; 10), (á) o ... alor a. tal que P(IOO ~ a..;,;; X ~ 100 + a) = 0.95.

li. Na distribuição X : N(p, a 1), encontre:

(a) P(X:6;:J.I. +2a), (b) P(j X ~ J.l.1 ~a),

(c) o número a, tal que P(p ~ ao :6;: X ~J.I. + Da) = 0,99. (á) O número a, tal que P(X > a) = 0,90.

11. As alturas de 10.000 alunos de um cOlégio têm distribuição aproximadamente normal. com média 170cm e des ... io padrão 5em. .

(a) Qual o número esperado de alunos com ahura superior a 1,65 em? (b) Qual o inter ... alo simétrico em tomo da média, que conterã 75% das alturas dos

alunos?

'49

Page 82: Probabilidade e estatística

18. As vendas de um determinado produto têm distribuição aproximadamente normal com média 500 e desvio padrào 50. Se a empresa decide fabricar 600 unidades no m~ em estudo. qual ê a probabilidade de que não possa atender a todos os pedidos desse mês, por estar com a produção esgotada? 1 ,

19. Suponha que as amplitudes de vida de dois aparelhos elétricos, DI e Dl. tenharh dis_ tribuições N(42, 36) e N(45 , 9), respectivamente. Se o aparel,ho é para ser usado Por período de 45 horas, qual aparelho deve ser preFerido? E se fOf por um período de 49

horas ?

10. O diâmetro X de rolamentos de esfera fabricados por certa fábrica tem distribuição N(0,6140; (0,0025)2). O lucro T de cada esfera depende de seu diâmetro, e

T""O, IO se a esfera é boa (0,6100<X<0,6180); T = 0,05 se a esfera é recuperável (0,6080 < X < 0,6100) ou (0,6180 < X < 1),62001:

T = - 0,10 se a esfera é defeituosa (X<O,6080 ou X> 0,62).

Calcular :

(a) as probabilidades de as esferas serem boas, recuperáveis e defeituosas.

Ib) Em

21. Suponha que um mecanismo eletrônico tenha um tempo de vida X (em unidades de 1.000 boras) que é considerado uma v.a. continua com [d.p.

f(x) = e- x. x > O.

Suponha que o custo de fabricação de um item seja 2,00 u.m. e o preço de venda seja 5,00 u.m. O fabricante garante tOlal devolução se x ~O,9. Qual o lucro esperado por item?

22. Seja Y com distribuiçào binomial de parâmetros n = 10 e p = 0,4, determinar a apro­ximação nonnal para:

(a) P(3< Y<8) , (b) P(Y~ 7). (c) P{Y < 5).

23. De um lote de produtos manufaturados, extraimos 100 itens ao acaso ; se 10% dos itens do lote são defeituosos, calcular a probabilidade de 12 itens serem defei tuosos. Use a aproximação normal.

24. A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob as condições para as quais foi planejado. Uma amostra de 1.000 destes itens é es­colhida ao acaso. e os itens são testados. obtendo-se 30 defeituosos. Calcular a pro­babilidade de se obter pelo menos 30 itens defeituosos, supondo que a confiabilidada do item é 0,95.

'50

Bl.EMAS E COMPLEMENTOS

PfIO d-tenninada localidade a distribuição de renda em u.m. é uma variável aleat6ria lS- Em umll ... '

X com f.d.p. , , _ x + -, O ~ x ~ 2 10 10

1I.x) ~ - 3 9 2 ",6 40 ''(+20 ' <x

O .x<00ux>6.

Q ai a renda média nesta localidade? . ~:~ ~lhida uma pessoa ao acaso, qual a probabilidade de sua renda ser supenor a

3.000,00 u.m.? te) Qual a mediana da variável?

li- Se X tem distribuição unirorme com

a + b

parâmetros a e b, mostre que:

'\

(a) E(X) = -,- .

(b _ a)l (b) Var(X) =~.

{

O. «a x-a b

{c) F{x) = ~,para a ~ x ~

I , x ~ b.

17. Completar a tabela abaixo. que corresponde a alguns valores da

G(u) = P{O .:;;; U ~ u).

função

, , definida na seção 6.4,1, onde U ~ \Il riável uniforme com parâmetros - 2" e 2"'

Distribuição Unifonn~ Reduzida Probabilidades p, tais que p = P(O ~ U ~ u)

Primeira de­cimal de 11

0,0 O,, O,, 0,3 O,, O,,

Segunda dedmal de u 0123456789

Primeira de­cimal de u

0,0 O,, O,, 0,3 O,, O,,

'5'

"

Page 83: Probabilidade e estatística

28. Dada a v,a. uniforme X com parâmetros 5 e 10, calcule as probabilidades aba~o. usanóo a tabela do problema anterior. '"

(a ) P(X < 7),

(b) P(S < X < 9), (c) P{X> 8,5), (ti) PUX- 7,S J>2).

29. Se X : N(p., 112), calcular E(X) e /

Var(X) (dificiJ!)

JO. As notas de Estatística Econômica dos alunos de uma determinada universidade ~ Iribuem-se de acordo com uma distribuição normal, com média 6,4 e desvio padrão 0 ,8 . O professor atribui graus A, B e C da seguinte forma: I

No/a Grau

x < 5 C 5",;x<7,5 B 7 ,5~ x.o;;; IO A

Em uma classe de 80 alunos, qual o numero esperado de alunos com grau A?'B? Cf

31. O peso bruto de latas de conserva é uma v.a . normal, com média 1.000 g e desvio pa_ drão 20 g. As latas têm peso médio de [00 g e desvio padrão de 10 g, tambêm com dis. tribuição normal de peso.

(a) Qual a probabilidade de uma lata conter menos de 850 g de peso liquido ? (b) Qual a probabilidade de uma lata conter mais de 920 g de peso liquido?

(\ p32. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser repre­sentada por uma distribuiÇão normal , com média de 5 kg e desvio padrão de 0,8 kg. Um abatedouro comprará 5.000 coelhos e pretende classificá-los de acordo com o peso, do seguinte modo: 20"10 dos leves como pequenos, os 55% seguintes como médios, os 15% seguintes como grandes e os 10"';'; mais pesados como extras. Quais os limites de peso para cada classificação?

33. Urna enchedpra automática de pirrafas de reFrigerantes está regulada para que o vo-1ume médio de liquido em cada garrafa seja de l.000crn l e o desvio padrão de IOcml. Pode-se admitir que a distribuição da variável seja normal.

34.

(a) Qual a porcentagem de garrafas em que o volume de liquido e menor que 990cm3? Ib) Qual a porcentagem de garrafas em que o volume de liquido não se desvia da média

em mais que 2 desvios padrões?

(c) O que acontecerá com a porcentagem do item (b) se a máquina for regulada de forma que a media seja 1.200cm l e o desvio padrão 20cmJ,1

o diâmetro de certo tipo de anel industrial é uma v.a., com distribuição norma! de média O, lOcm e desvio padrão 0,02cm. Se o diâmetro de um anel diferir da média mais de 0,03cm, ele e vendido por 5,00 u.m., caso contrario, e vendido por 10,00 u,m. Qual o preço médio de venda de cada anel?

, , •

.152

I

od televisores e garante a restituição da quantia paga se qua.lquer .... Uma empresa pr uZI d,',,·,o """'ve no prazo de 6 meses. Ela produz teleVisores - . .presenlar a gum " ... -. 00 200000

televisor d . B de luxo com um lucro respectivo de 1.000. u.m. e, , do ,;poAcomume Ollpo. ' "w d, lOOOOO u.m. e 8.000,00 u.m.

h . t"t -o e com um preJul ., 11 m. caso não aja res I Ulça , .... , ...... orreneia de algum defeito grave . . . -o Suponha que o tempo pa... ...,.. . se houver restltUlÇ3 . '. ,I ,I"'o'ria com distribuição normal, respectlva-bos os casos uma vanav "" 2 . S!!ja. em am . . • 12 meses e variâncias 4 meses: e 9 meses . Se IIvesse que

ment~, CO::;!':t:g:e: ;arketing ~ara a empresa, você incentivaria as vendas dos

planejar u . ') lhos do tipo A ou do llpo B . ,pa"

~~""'rança e a variância das v.a, X, Y e Z : 36. Ache a ""'r- I ..

X uniforme em~. 3), Y = 3X + 4, Z ;= r. l

(,) 'dpf(x)- e- ' x > O Y = X,Z =3/(X+ l ) . (b) X tem . . ' - , , "

h ue X seja uniformemente distribllida em [- a, lal· -n. Supon a q Determine a variância

" x. ·h ·" "ponencial com parâmetro JJ. mostre que : li. Se X tem distn UI o

(,) '(X) " p. 1 . Ih) Var(X) = JJl.

. t a amostra de firmas de um determinado ramo de " . Os ~dos dabalxo repr.ese, n ;:'a~m observadas duas variltveis: fatllramento e número atiVidade e uma regi o.

de empregados.

Faturamenfo N." de Empresas N." de Empregados N." de Empresas

O I- 20 J5 10 J8 OI--20 I-- 50 75 50 " 10 I--501-100 45 100 30

30 50 I--

100 I- 200 200 26 100 I--200 I- 400 J5 400 24 2001--400 t- 800 8 4001-- 800 20

800 I- 1.600 16 > 800 2

1.6001-3.200 14 210 3.200 I- 6.400 6 TOTAL

>6.400 4

TOTAL 210

) Calcular a media e a variância para cada variável. _ esti-~:) Su ndo normalidade para cada uma destas variaveis com os parametros ma':,s pela amostra. calcule as freqüências esperadas para cada classe.

. h d 'ddf()-lparaO<x<leigual • Suponhamos que a variável aleatóna X ten a cnsl a e . x - . . I [O 11 ) F,-• d' 'b '''~o Uniforme no mterva o " " a zero no complementar. (Isto é. X tem Istn UI.,....

çamos Y = X 2•

153

Page 84: Probabilidade e estatística

"

(a) Determinar Fy(y) = P( Y "y), y real. (h) Determinar a função de densidade de Y

(c) Calcular f(.Yl). utilizando a f.d .p. de X.' (a') Calcular E(r), utilizando a f,d.p. de Y. e comparar com (c).

41. Dada a v.a.

x-" Z~ --'-" ,

u,

determ.inar a média e a variãncia de Z, sabendo-se que a [d.p. de X é

í") 42. ~~t~ibuiçiO Gama - Uma extensão da distribuição exponencial é dada

'-..-hulçao gama com parâmetros tI:, fi,!I > O e fi> O. Sua f.d.p. é dada por

[

I . _ 1 _ ~ II f(x)= f(tI:)p-x e ,x~O

O, x < O.

Aqui, r(tI:) é a Função gama dada por

r(tI:) = f '" e -~x· - I dx, ti: > O. ,

Vemos que (6.26) reduz-se a (6.23), com ti: = I.

(a) Prove que se ti: inteiro positivo, r(a) '.(a- I)! (h) Prove que r(tI: + 1) = a· r(a).

,

, pela dÜlri.

(6,26)

(e) Prove ~ue a média e a variância de uma v.a. X com distribuição gama (6.26) -respeçtlvamente. tI:{J e fil. sao.

A Figura 6.21 ilustra a f.d.p. (6.26) com ti: = 3 e fi = I.

ffx)

o ,

Fig. 6.21

{ 43. D stribuiç~o de Pardo - Est,a ê uma distribuição freqüentemcnte usada em Economia, ~em conexao com problemas de distribuição de renda.

Dizemos que a v.a. X tem distribuição ck Pareto com parâmetros a> O e b >0 se sua [d.p. ê dada por .

154

\-

[ (b)'" ~. _ .x ~b N)"'- b x

O ' x < b.

(6.27)

Em (6.27), b pode representar algum ní­vel minimo de renda ; x é o nível de renda, e j{:() • 6x dI!. a proporção de individuos com renda entre .'1: e x + 6x. Observe que (6.27) pOde ser e~ita na forma

{a ·b" 'X - ·-I, x ~ h

j(x) = (6.28) O , x < b.

o gráfico de (6.27) está na Figura 6.22.

(a) Prove que f" Jtx)dx = I. -.

f(x)

, ,b

Ib) Mostre que, para a> I. f(X)= - - e para a> 2, ,-I

b ,

Fig. 6.22

uh' Var(X) = .

(IX -l l(IX - 2)

44. Dlstribuiçio Lognormal - Outra distribuição usada em Economia ê a distribuição

L lognormal. A v.a. X, com valores positivos, tem uma distribuição lognormal com pa­râmetros I' e (Jl , _ 00 < I' < + 00 , (J l > O, se Y = (n X tem distribuição normal com média 11 e variância (J2 . A r.d.p. de X tem a forma

,

[

I - ' " ('=-'-)' - ---'- =e " , x > O x - (J • .,fiii

f(x) "" O , x ..;;;0.

O gráfico de f{x) está na Figura 6.23.

.' ,. -

(6.29)

(a) Prove que f(X) = e 2 (b) Se E{X) = m, prove que Var{X) = ml(e~' - 1).

f(x)

,

Fig. 6.23

45. Suponha que X tenha densidade dada por (6.23). Prove que

P(X > I+X) = P(X > I) P(X> x)

\

para todo /, x ~ O. Esta propriedade nos diz que a distribuição exponencial não tem memória. Por exemplo, se X ê a vida de um componente, a propriedade diz que, se o componente durou ate o instante x, a probabilidade de ele não falhar após o intervalo I +xea mesma de após o instante /. Neste sentido, X"esquece" a sua idade, e a eventual falha do componente não resulta de uma deterioração gradual e sim de alguma falha

repentina.

155

Page 85: Probabilidade e estatística

" 'I

I , 46. Se X for uma v.a. contínua. com Ld.p.Jlx), e se Y = g(X) for uma fu nção de X. então será uma v.a. com l I' •

E{Y) = f'" g(x)f(x)dx. -. Suponha que X tenha densidade

Obtenha E( Y). onde Y = I X [ .

A ( 47. Se X é unifonne no intervalo [O, 11, obter a esperança da v.a. Y = 0,5 • X2,

... cDist~bub~Ç,.idO de Weibull - Uma distribuição que tem muitas aplicações em Teoria da Ofl l1a II ade (ver exemplo 4. 12) é a distribuição de Weibull. Sua f.d .p. é dada por

156

1 !1x,-le-'X, x ~·o

f(x) = O . x < 0,

onde (1 é uma constante positiva. A v.a. X pode representar. por exemplo. a vida de u componente. In

(Q) Se P = I , qual a f.d.p. resultante'! tb) Obter E(X) para fi = 2.

--

CAPíTULO 7 Variáveis aleatórias

multidimensionais

7.1. DISTRIBUiÇÃO CONJUNTA

Na maioria das vezes, ao descrever os resu ltados de um experimen­to, atribuímos a um mesmo ponto amostrai os valores de duas ou mais variáveis aleatórias. Iremos nos concentrar no estudo de um par de va· riáveis aleatórias, indicando que os conceitos apresentados estendem·se facilmente ao conjunto formado de um número finito de variáveis alea· t6rias. Também o desenvolvimento será fei to para variáveis discretas, e noS limitaremos a indicar brevemente como a ex tensão para variá· veis contínuas pode ser fe ita.

Exemplo 7.L. Suponha que estamos interessados em estudar a com· posição dc fam il ias com 3 crianças, quanto ao sexo. Definamos:

x = nú mero de meninos

y ~ {I. se o primeiro fi lho é O, se o primeiro fi lho e

homem mulher

Z = número de vezes que houve a· variação do sexo entre um nas­cimento e outro, dentro de uma mesma família.

Com estas informações, e supondo que as possíveis composições tenham a mesma probabilidade. oblemos a TatX:la 7. \, onde. por exem· pio, o evento HMH ind ica que o primeiro fi lho e homem, o segundo é mulher e o terceiro é homem.

157

Page 86: Probabilidade e estatística

TABELA 7. 1 Nesta tabela , p(x, y) = P(X = x , Y = y) denota a probabilidade do , E\'entos Probabilidade X Y Z

evento (X=x e Y =y) = (X=x}n (Y=y). A Tabela 7.2 é denomi-nada distribuição conjun ta de X e Y.

HHH 1/8 , A partir da Tabela 7.1, podemos formar também as distribuições

,

3 I O I , conjuntas de X e Z , e Ye Z, bem como a distribuição conjunta de X, Y HHM 1/8 2 I I HMH 1/8 2 I 2

. e Z. que está na Tabela 7.3 .

MHH 1/8 2 O I --. HMM 1/8 I I I TABELA 7.3 MHM 1/8 I O 2 MMH 1/8 I O I MMM 1/8 O O O

(x , y, z) p(x , y, z)

. Para cada uma das variáveis X , Ye Z, temos as respectivas dist . (O , O, O) 1/8

bUIÇÕes de probabilidades : n· (I, O, I) 1/8 (1 , 0,2) 1/8 ,

(I, I, I) 1/8 x O I 2 3

" Y O I (2 . O. I) 1/8

,. p(x) 1/8 3/8 3/8 1/8 p(y) 1/2 1/2

(2 , I . I) 1/8

1 (2, 1. 21 1/8 (3, I, O) 1/8

z O I 2

p (z) 1/4 1/2 1/4

Aqui, p(x, y, z) = P(X = x , Y = y. Z = z). Vamos nos fixar nas dis-1ribuições bidimensionais, isto é, de duas variáveis. Neste caso, uma

. maneira mais cômoda de representar a distribuiçào conjunta é através de tabelas de duas entradas. Na Tabela 7.4, temos a distribuição con-

A Tabela 7.2 apresenta as probabilidades associadas aos pares de valores das variáveis aleatórias X e Y.

junta de X e Y.

TABELA 7.2 - TABELA 7.4 .

(x. y) p(x. y)

~ (0,0) 1/8 Q I 2 3 p(y)

(1 ,0) 2/8 • •

(1,1 ) 1/8 O .. 1/8 2/8 1/8 O 1/2 (2 ,0) 1/8 I O 1/8 2/8 1/8 1/2 (2,1 ) 2/8 (3, 1) 1/8

-p(x) 1/8 3/8 3/8 1/8 I

158 159 , t ......

Page 87: Probabilidade e estatística

"

- \

7,2, DISTRIBUiÇÕES MARGINAIS E CONDICIONAIS

Da Tabela 7.4, podemos obter facilmente as distribuições de X e }t,

A primeira e a última colunas da tabela dão a distribuição de Y, ~, p(y) ~ == P(Y = y», enquanto a primeira e última linhas da tabelfl dão a dis. t ribuição de X, (x, p(x) = P(X = x». Estas distribuições sào chá.Qladas distribuições marginais.

Observamos, por exemplo, que

2 I I 3 P(X~ I) ~ P(X ~ I, Y ~ O) + P(X ~ I, y~ I) ~ 8 + 8 ~ 8

Quando estudamos os aspectos descritivos das distribuições Com mais de uma variável, vimos que, às vezes, é conveniente calcular prQ. porções em relação a uma linha ou coluna, e não em relação ao total. Isto é equivalente aqui ao conceito de distri~uição ctmdicional. Por exemplo, qual seria a distribuição do número de meninbs, sabendo.se que o primeiro filho é do sexo masculino? Ou seja, queremos conhecer P(X = x I Y = I). Da definição de probabilidade condicional, obtemos

P(X ~ x l y ~ I) ~ P(X ~ x, Y ~ I) ~ p(x 1 y ~ I) (7,1) • P(Y ~ I) ,

para x = O, 1,2, 3. Pela Tabela 7.4, obtemos, por exemplo,

(21 Y ~ I) ~ P(X ~ 2 1 Y ~ I) ~ P(X ~ 2, y ~ I) ~ 2/8 ;" -'-o p P(Y - I) 1/2 2

Do mesmo modo , obtemos as demais probabilidades, e a distribui­çào condicional de X, dado que Y = I , está na Tabela 7.5.

TABELA 7,5

x O 2 3

p(x 1 Y ~ I) O 1/4 1/2 ' /4

Observe que 'Ep(x 1 y ~ 1 )~p(O 1 Y~ 1)+ , .. +p(3 1 Y~ I) ~ I. Do mesmo modo, podemos obter a distribuição condicional de Y,

dado que X = 2, que está na Tabela 7.6.

'.0

j

TABELA 7.6

Y O

p(y 1 X ~ 2) 1/3 2/3

. dsvaXeYas-P demos generalizar o que foi dito aCima . para ua .. o respectivamente . 'ndovaloresXj ,XI' .. . eYj'Y2' .. . ,

sumi (x»O f ' ,- SeJ" x um valor de X, tal que P(X = Xi) = P i . De lD)ÇIIO. I

A probabilidade

P(X - x" Y ~ y,l P(X _ x,)

(7.2)

é denominada 'probabilidade condicional de Y = (yyj., :(:0= ~í :: .;~)) C o observamos para Xi lixado , os pares J' J .

r. om distribuição' condicional de Y. dado que X = Xi' poiS deLmem a

• • P(Y~y"X~x,) ~ P(X~x,) ~ I. "P(Y~YjIX~x,)~ L P(X-x.) P(X -x,) L. la 1 , j O' I

. . t das variá· I 72 Considere agora a distribUIção conJun a Exemp o .. D T bel 7 I obtemos ' Ye Z delinidas no exemplo 7.1. a a a .. vels ,

, TABELA 7.7

~ O 2 TOTAL

O 1/8 2/8 1/8 1/2 1/8 2/8 1/8 1/2

TOTAL 1/4 2/4 1/4

Para esta }abela, observamos que

P(Z ~z, Y~Y) ~ P(Z ~ z) P(Z ~ z I Y ~ y) ~ P( Y _ y)

,.,

I I

,

'I

-

Page 88: Probabilidade e estatística

" ,

para quaisquer z = O, I, 2 e y = O, 1. O que signifi ca dizer que

P(Z ~ z, Y ~ y) ~ P(Z ~ z) • P(Y ~ y),

isto é, a probabilidade de cada casela é igual ao produto das respectivas probabi lidades marginais. Por exemplo,

Também é verdade que P(Y ~ Y I Z ~ z) ~ P(Y ~ y)

para todos os valores de y e z. Dizemos que Y e Z sào independentes.

Definição. As v.a. X e r , assumindo os valores x I , x2 , .. . e YI. Y2 • ... , respectivamente, são independentes se , e somente se, para, todo par de va lores (Xj , y) de X e Y tem-se

P(X ~ X; , Y ~ .Yi) ~ P(X ~ x;) • P(Y ~ Yj)' (7.3)

Basta que (7.3) não se verifique para um par (Xii y}) para que X e Y nào sejam independentes. Neste caso , diremos que X e Y sào dependentes.

De modo análogo , essa definição pode ser estendida para mais de duas v.a.

Definição. As variáveis a leatórias Xi' assumindo os valores Xii,

Xil ' ... , X ,'nl' para i = 1, 2, ... , ri , são independentes se , e somente se, para

toda n-upla (x t ;1' X2;" • . " XnlJ tem-se

P(X t = x t ;"X2 = XliI ' " ' , Xn = Xn;J = = P(X t = Xli,) P(X2 = Xl;) ... P(Xn = Xn;J =

" ~ n P(X. ~ x.;.). (7.4) . ~ ,

PROBLEMAS

I. Lançam-se, simultaneamente, uma moeda e um dado.

(a) Determinar o espaço amostrai correspondente a esse experimento .. (b) Determinar !l tabela da distribuição conjunta, considera!)do X o número de caras

no lançamento da moeda e Y o número correspondente à face do dado. (e) Verificar se X e Y são independentes. (á) Calcular:

L P(X = I) 4. P(X= 2, Y"" J)

2. P(X ~ I) 5. P(X;;. 0, Y ~ 4)

1 P(X< I) 6. P(X =O, Y;;'I)

162

' '" A tabela abaixo da a distribuição conjunta de X e Y. , (Dl Determinar as distribuições marginais de X e Y. (h) Obte~ as esperanças e~ v~riâncias de X e Y.

'te). Verifique se X e Y sao tndependentes. (d'l Calcule P(X = 1 I Y = O), P(Y = ~I f. = J).

.... (4.. Calcule P(X .,. 2) e P(X = 2, Y .,. I),

x 2 3

y

O I 2

0.1 O; O

0.1 O

0,1

0.1 0 .3 0,1

l. Considere a distribuição conjunta de X e Y, parcialmente conhecida, dada na tabela

a seguir.

(o) Completar a tabela. supondo X e Y independentes. Ib) Calcule E(X), E(}'), Vor(X) e Var(Y). (c) Obtenha as distribuições condicionais de X, dado que Y=O, e de Y, dado que X = 1.

~ .

- I O I P(Y = y)

- I 1/ 12 ,

O 1/3 I 1/. . /, 1/' I"

P(X = x) j( I

7.3. FUNÇÕES DE VARIÁVEIS ALEATÓRIAS

Retomemos a Tabela 7.4, que dá a distribuição conjunta das variáveis X e Y. A partir desta , podemos considerar, por exemplo, a v.a. X + Y ou a v.a. XY. A soma X + Y é definida naturalmente: a cada resultado do experimento, ela associa a soma dos valores de X e Y, isto é,

(X + Y) (w) ~ X(w) + Y(w). (7,5)

Do mesmo modo,

(XY)(w) ~ X(w) • Y(w), (7.6)

163

/

Page 89: Probabilidade e estatística

'I'

Podemos. então. construir a Tabela 7.8.

TABELA 7.8

(x" Yj) X+ Y XY p(x;, Y,)

(0,0) O O I/S (O, I) I O O (I , O) I O 2/8 (I, I) 2 I 1/8 (2, O) 2 O 1/8 (2, I) 3 2 2/8 (3, O) 3 O O

, (3, I) 4 3 1/8

A partir desta tabela, obtemos as distribuições de X + Ye XY, ilus­tradas nas Tabelas 7.9 e 7.10.

TABELA 7.9 TABELA 7. 10

x+y O 2 3 4 I xy O 2 J

p(" + Y) 1/8 2/8 2/8 2/8 1/8 p(xY) 4/8 1/8 2/8 1/8

No Capítulo 5, vimos como calcular a esperança de uma v.a . Para as v.a. X e Y da Tabela 7.4, temos:

E(X) = O x + + I

I E(Y) = O x 2 + I

Da Tabela 7.9, obtemos

3 3 I 12 x - +2x - +3x-=-= 1 5

8 8 8 8 '

I x - = 05 2 ' .

E(X + Y) = O x -'- + I x 2 + 2 x 2 + 3 x 2 + 4 x -'- - ~ = 2 8 8 8 8 8-8 '

Notamos que E(X + Y) = E(X) + E( Y). Poderia ser uma simples coin­cidência, mas esta relação é de fato verdadeira.

164

Teorema 7.1. Se X é uma v.a. com valores SI' .\:2 ..... x~ e proba­bilidades p(x d, P(X2), ... , p(xn ), e Y é uma v.a. com valores YI ,Y2, ... , }' ... , probabilidades p(y,) , p(y,) , .. ~' p(y.) e se p(x" Y,) = P(X = x" Y = Y,),

,'_12 ... ,n, J= I, .. . • m. cntao, - , ' E(X + Y) = E(X) + E(Y). (7.7)

Prova. Observando a Tabela 7.8, podemos escrever:

• • E(X + Y) = L L (x, + Y,) p(x" Yj) =

I " L j~ I

n '" n '"

= L L x,p(X"Yj) + L L Yj/J(X"Yj)' (7.8) / .. ] J"'" ;K' j ""

• Agora, para um i fixo, I p(X;'Yj}=p(x;}, e para umj fixo,

j - ,

• ~ p(Xi ,Yj}= P(Yj}; logo, podemos escrever ; .<\

~ ~ '" /I '"

E(X) = L x,p(x,) = L x, L p(x" Yj) = L L x,p(x" Yj) e i= ' ; " 1 j '" / .. \ j:\

'" '" /I " '"

E(Y) = L Yjp(Yj) = L Yj L p(x" Y} = L L Yjp(x" Yj)' j='\ j = 1 i= \ ; = \ j '"

. Comparando estas duas últimas relações com (7.8), obtemos a relação

(7.7). Do que foi visto acima, podemos concluir que, se X e Y são duas

v.a. nas condiç~s do Teorema 7.1, e se g(X, Y) é uma função de X e y, então,

• • /[g(X, Y)] = L L g(x" Yj)p(x" yJ

I '" 1 i "" 1

(7.9)

Exemplo 7.3. Da Tabela 7.8, obtemos

I 2 I I 2 E[XY) = O x 8 + O x O + O x 8 + I x 8 + O x 8 + 2 x 8 + O x O +

I 8 +3x

8=8= 1,0.

É claro que o mesmo valor pode ser obtido da Tabela 7.10, isto é, se Z = XY e p(z) = p(xy), então,

165

Page 90: Probabilidade e estatística

".

4 E(Z) ~ E(XY) ~ O x - +

8

Observamos que, neste caso,

I 8 x-:= - =

8 8

E(Z) ~ 1,00 + E(X)· E( Y) ~ (1,5) (0,5),

1,0.

ou ,seja, de um modo geral , a esperança de um produto não é o produto das esperanças. No entanto, existem situações em que essa propriedad se verifica. O teorema seguinte apresenta uma dessas situações. e

Teorema 7.2. Se X e Y são v.a. inde~ndentes, então,

E(XY) ~ E(X)E(Y). (710)

Prova. Nas condições do Teorema 7.\, usando (7.9) e (7 .3),

" m ~ m

E(XY) ~ L L X'Yjp(x" Yj) ~ L L X'YjP(X,) p(Yj), i=1 j a l i"'l l a l

logo, • m

E(XY) ~ L x,p(x,) L Yjp(Yj) ~ E(X)E(Y). j a ) j ~ 1

A reciproca do Teorema 7.2 não ê verdadeira, ou seja, (7.10) pode ser válida e X e Y serem dependentes. Veja o exemplo 7.6.

Observações: 1) Os Teoremas 7.1 e 7.2 sào válidos para X e Yassu­mindo valores em conjuntos enumeráveis infinitos.

2) Se temos um número finito de v.a. XI' X2, ... , Xft , então, (7.7) toma a fonna

E(X, + ... + X.) ~ E(X, ) + E(X,) + ... + E(X.). (7.1 1)

3) Se Xl' 0'0 ' Xn sào v.a. independentes (ver 7.4), então,

E(X, • X , • ... • X.) ~ E(X,) E(X,) .. . E(X.). (7.12)

Exemplo 7.4. Nas seções 5.6.2 e 5.6.3, definimos v.a. de Bernoulli e v.a. binomial. Seja X o número de sucessos em n provas de Bernoulli. Definamos :

x. = {I, se no i-ésimo ensaio ocorreu , 0, se no i~ésimo ensaio ocorreu

i = I,2, ... ,n. Então, segue-se que

166

sucesso fracasso,

e XI' ,,_, X~ são independentes. Se p = P (sucesso), então,

E(X,)~ I xp+Ox (I-p)~p, i ~ I , ... ,"

e, por (7. 11),

E(X) ~ E(X,) + ... + E(X.) ~ p + p + ... + P ~ Mp, (7.1l)

o que demonstra a relação (5.9). A relação (5.10) será demonstrada na seção seguinte.

PROBLEMAS

4. No problema 2 obtenha as distribuições de X + Y e de XY. Calcule E(X + Y). E(XY) ,

Var (X + Y), Var (XY).

5. (o) No problema 3, calcule E(X + Y) e Var(X + Y). (b) Se Z="oX+bY, calcule (J e b de modo que E(Z)=IO e Var(Z) = 600.

6. Dois tetraedros com as faces numeradas de I 11. 4 (dados com 4 faces) são lançados, e os números das faces voltadas para baixo são observados. Sejam as variáveis aleatórias:

X: maior dos números observados ; Y: menor dos numeros observados;

Z""X+Y. I (a) Construa a tabela de probabilidade conjunta de X e Y. (b) Detenn;ne E(X), E(Y), E(Z), Var(X) , Var(Y) e Var(Z).

7. Numa urna tem-se 5 tiras de papel, numeradas 1,3,5,5 e 7. Uma tira de papel é sor­teada e recolocada na urna ; então uma segunda tira ê sorteada. Sejam X, e Xz , res­pectivamente, o primeiro e o segundo números sorteados.

(a) Determine a distribuição conjunta de X, e Xl' (b ) Ache as distribuições marginais de X, e Xl' Elas sào independentes?

(c) Encontre a esperança e a variância de X, . Xl e X = X, ; Xl.

(cIj Como seriam as respostas anteriores se a L" tira de papel nào fosse devolvida antes

da segunda ser sorteada?

• 8. Numa urna tem-se 5 bolas numeradas com os seguintes numeros: -1.0,0,0,1. Reti­

ram-se 3 bolas. si multaneamente. X indica a soma dos numeros extraídos e Yo maior

número da trinca. Calcular:

(a) Função de probabilidade de (X, Y). (b) E(X) e Var(X). (e) Var (X + Y).

167

Page 91: Probabilidade e estatística

" "

/

9. Dada a distribuição conjunta pela tabela abaixo, detenninar a média e a variância dr:

(a) X + Y. X (6) X · Y. 2 3

Y

5/21 1/27 3/27 2 4/27 3/27 4/21 3 2/27 3/27 2/21

10. Suponha que X e Y tenham a seguinte tabela de distribuição conjunta:

y

I 2 3

X

0.1 0.1 0.1

2 3

0,1 0,2 0,1

0.0 0,3 0,0

\ I

(a) Determinar a função de probabilidade de X + Y c, a partir dai, calc~lar E(X + Y). Oe outra maneira, pode-se obter a mesma resposta'!

(6) Determinar a função de probabilidade de XY c, em seguida. calcular E(XY). (e) Mostrar que, embora E(XY) = E(.\') • E(Y) ocorra, X e Y não são independentes.

7.4. COVARIÂNCIA DE DUAS VARIÁVEIS ALEATÓRIAS

Vamos introduzir agora uma medida da relação linear en tre duas v.a.

Definição. Se X e Y são duas v.a. , a covariállcia de X e Y é defini· da por

Cov(X, r) ~ E[(X - E(X)) (Y - E(r))[ , (7. 14)

ou seja , o valor méd io do produto dos desvios de X e Y em relação às suas respectivas médias .

Suponha que X assuma os valores Xl " '" X~ , e Y os valores . YI , _ . , y"" e que P(X = Xi> Y = Yi) = p(X;, Y;). Então, (7. 14) pode ser escrita

• • Cov(X, r) ~ L L [x; - E(X)[ Lv) - E( r)[ • p(x;, y)). (7. 15)

A fónnula (7. 14) pode ser escrita de uma fonna mais simples. De fato ,

'68

Cov(X, r) ~ E[XY - XE(r) - YE(X) + E(X) E(r)] ~ ~ E(Xr) - E(X) E(r) - E(r) E(X) + E(X) E(r),

OU seja, Cov(X, r) ~ E(Xr) - E(X) E(r). (7.16)

Exemplo 7.5. Para as v.a. X e Y do exemplo 7.1 (ver Tabela 7.4),

obtemoS E(X) ~ 1,5, E(r) ~ 0,5, E(Xr) ~ 1,00,

de modo que

Cov(X, r) ~ 1,00 - (1 ,5) (0,5) ~ 0,25.

Definição. Quando Cov(X, Y) = 0, dizemos que X e y são não~cor~

relacionadas. t Exemplo 7.6. Consideremos a distribuição conjun~ X e Y dada

pela Tabela 7.11.

TABELA 7. 11

x O I 2

I 3/20 3/20 2/20 2 1/20 1 /2~ 2/20 3 4/20 1/20 ' 3/20

p(x) 8/20 5/20 7/20

Temos que

E(X) ~ O x 8/20 + I x 5/20 + 2 x 7/20 ~ 0,95 E(r) ~ I x 8/20 + 2 x 4/20 + 3 x 8/20 ~ 2,00

p(y)

8/20 4/20 8/20

1,00

E(Xr) ~ O x 3/20 + I x 3/20 + 2 x 2/20 + O x 1/20 + 2 x 1/20 + + 4 x 272Õ + O x 4/20 + 3 x 1/20 + 6 x 3/20 ~ ~ 38/20 ~ 1,90,

logo, Cov(X, r) ~ 1,90 - (0,95) (2 ,00) ~ O.

169

Page 92: Probabilidade e estatística

",

Exemplo 7.7. Retomemos o exemplo 7.2, onde vimos que Y e Z sào independentes. Então temos :

1 E(Z) ~ ° x "4 + 1

1 1 1 1 x - + 2 x - = - + - = 242 2

1 E(Y) ~ ° x 2 +

1 1 x 2 =2"'

Da Tabela 7.7, obtemos :

logo,

E(YZ) ~ 2 1 1 x - +2x-= -

8 8 2 '

1 Cov(Y, Z) ~ 2 - 1

1 x 2= o.

De modo geral, quando X e Y sào independentes, (7. 10) é válida' 199o, por (7. 16), temos que Cov(X, Y) ~ O. '

Vamos destacar este fato através da

Proposição 7.1. Se X e Y sào duas variâveis aleatórias independen_ dentes, então, Cov(X , Y) = O.

De outro modo, se X e Y sào independentes, isto implica X e Y não­correlacionadas.

A recíproca não é verdadeira , isto é. Cov(X, Y) = O não implica X e Y independentes. De fato , para as v.a. X e Y do exemplo 7.6, Cov(X, Y) = O; mas, como podemos verificar, X e Y não são independentes. Podemos agora demonstrar o

Teorema 7.3. Para as duas v.a. X e Y, temos:

(a) Var(X + Y) ~ Vor(X) + Vor (Y) + 2Cav(X , Y) ; (b) se X e Y são independentes, então ,

Vor(X + Y) ~ Vor(X) + Vo'(Y).

Prova:

(a) Vor(X + Y) ~ E[(X + Y) - E(X + Y))' ~

170

~ E)X - E(X) + Y - E(Y)) ' ~ ~ E[X - E(X))' + E[Y - E(Y))' + + 2 E[(X - E(X)) (Y - E(Y))),

e da definição de covariância, obtemos (7 .17).

(7. 17)

(7.18)

(b) A relação (7.18) segue imediatamente da Proposição 7. 1.

As relações (7. 17) e (7.18) podem ser generalizadas para mais de

d V a Em particular, se X I ' X2 , ... , Xn são v.a . independentes, então, uas . . VarrI, + ... + 1'.) ~ Var(X,) + ... + Vo,(I.). (7.19)

Continuemos o exemplo 7.4. Temos que

Vor (X,) ~ p(! - p),

logo, Vor(X) ~ Vor(X, ) + ... + Vor(X.) ~ np(! - p), (7.20)

que demonstra a relação (5. 10). o Vamos introduzir agora uma medida que não depende das unida­des de medida de X e Y.

Definição. O coeficiente de correlação de X e Y é definido por

p(X, Y) ~ CO"(X , Y) . o(X) • o(Y)

(7.21)

Exemplo 7.8. (a) Para X e Y do exemplo 7.6,' Cov(X, y)=O, logo, p(X, Y) = O. (b) Para X e Y do exemplo 7.5 , temos:

" Verifique que

logo,

Cov(X, Y) ~ 0,25.

Vor(X) ~ 0,75

Vor(Y) ~ 0,25,

p(X, Y) ~ 0,25 ~ 058. J(0,25) (0,75) ,

o seguinte resultado será demonstrado no problema 40.

Teorema 7.4. - 1 ~p(X, Y) ~ I.

Observações : 1) Quando p(X, Y) = ± 1, existe uma correlação per­feitaen treX e Y, isto é, Y = aX + b;sep(X, Y) = I ,a > O,esep(X, Y) = - I , a < O. O grau de associação linear entre X c Y varia à medida que p(X, Y) varia entre - 1 e +1 .

2) As seguintes propriedades podem ser provadas facilmente (ver problema 26); para a e b constantes,

171

Page 93: Probabilidade e estatística

li'

II "

p(X + a, Y + b) ~ p(X, Y).

ab p(aX, bY) ~ ~p(X, Y), (7.22)

Exemplo 7.9. Ainda usando o enunciado do exemplo 7.1, vamos definir a v.a. W como sendo o número de meninas. A distribuição COn.

junta de X e Westá na Tabela 7. 12.

TABELA 7.12

/

~ O 2 3 p(w)

O O O O 1/8 1/8 I O O 3/8 O 3/8 2 O 3/8 O O 3/8 3 1/8 O O O 1/8

p(x) 1/8 3/8 3/8 1/8

É fácil verilicar que

E(X) ~ E(W) ~ 1,5,

Va,(X) ~ Va,(W) ~ 0,75,

E(XW) ~ 1,5, logo.

Cov(X, W) ~ 1,5 - (1,5)' ~ - 0,75, e

(XW)~ - 0,75 __ p , 0,75 - I.

Este é um resultado esperado, desde que nós saibamos que a relação entre X e W é X = 3 - W.

Para se analisar a possível correlação entre X e Y, é convenien te usar os chamados diagramas de dispersão , que consistem no gráfico dos pares de valores de X e Y.

Ex emplo 7.10. Na Figura 7.1 temos os diagramas de dispersão para as v.a. X e Y, e X e Z , do exemplo 7.1.

172

r

, t I

z y

2 2 • •

• " • " " ,

o 2 3 X x 2 3 o ,., ''I

Fig. 7.1

Na Figura 7. 1 (a), por exemplÇl, vemos que os~ pontos (1,0) e (2,1)

têm probabilidades ~ , ao passo que os demais têm probabilidades t·

! I

I

Exemplo 7.11. O diagrama de dispersão das v.a. Ye Z do exemplo I

7.2 çstá ilustrado na Figura 7.2. Lembremos que, neste caso, Ye Z são independentes.

y

., • \ ,

O 2 z

Fig. 7.2

Exemplo 7.12. Na Figura 7.3 temos o diagrama de dispersão das variáveis X e W do exemplo 7.9. Observe que, neste caso, existe uma relação linear perfeita entre as duas variáveis.

w

3

2 .,

.,

O 2 3 x Fig. 7.3

173

i

I

:

Page 94: Probabilidade e estatística

PROBLEMAS

11. Para as v.a. X e Y do problema 2 c os resultados do problema 4. calcule lm'(X. Y)

e p(X, Y).

~ 12. Considere a situação do problema 8 do capítulo S.

(a) Obtenha as distribuições de X + Y e I X - Y I. (b) Calcule E(XY). E(Xl n e E(X + Y). (c) Verifique se X e Y são independentes. (á) Verifique se E(XY) = E(X) • E( r). O que você pode concluir? (e) Verifique se E(X/ Y} = E(X)/E(Y). IJ) Calcule Var (X + Y). E verdade que Var(X + 11 = Var(X) + Var( 1') '1

\

13. Sejam X e Y com a distribuição conj unta da labe1a abaixo. Mostre que CO\·(X. Y) = O mas X e Y não sào independentes.

y

-I O X

- I O 1/4 O O 1/4 O 1/4

O 1/4 O

I 14. Lançam-se dois dados perfeitos. X indica o número obtido no primeiro dado. e Yo maior ou o número comum nos dois dados :

(a) Escreva atravês de um quadro de dupla entrada a função de probabilidade p( :c . 1').

(h) As duas variáveis são independentes? Por quê? (e) Calcule as esperanças e variãncias de X e Y. (dj Calcule a covariãneia entre X e Y. (e) Ache f(X + Y). (f) Ache Var(X + Y).

15. Uma moeda perfeita é lançada] vezes. Sejam

X: número de caras nos dois primeiros resultados ; Y: numero de caras no ultimo resultado; S: numero total de caras.

(a) Atravês da distribuição conjunta de (X. Y), verifique se X e Y sào independentes. Qual a oovariãncia entre elas?

(b) Para cada variâvel X, Y e S, ache a esperança e a variância. (c) Existe alguma relação entre os parâmetros encontrados em (b) ? Por quê '!

16. Depois de um treinamento, 6 operarios submeteram-se a um teste, e mais tarde me­diu-se a produtividade de cada um deles. A partir dos resultados apresentados na la­bela abaixo. calcule o coeficiente de correlação.

174

r.

r

Operaria Teste ProdulMdade

9 22 2 J7 l4 3 20 29 4 lO J3 , 20 42 6 23 32

17. o exemplo seguinte ilustra que p=O não implica independência . Suponha que (X , Y) tenha a distribuição conjunta dada pela tabela abaixo.

y

-I O

x - I

1/8 1/' 1/8

O

1/8 O

1/8

(a) Mostre que E(XY) = E(X) - f ( }'). donde p = 0. (b) Mostre por que X e Y não são independentes.

\

7.5. VARIÁVEIS CONTíNUAS

1/' 1/8 1/8

Como frisamos no início deste capítulo, vamos nos concentrar no estudo de v.a. discretas. A exemplo do que foi visto no Capítulo 6, po­demos considerar também mais de uma v.a. contínua. Vamos nos fixar no caso de duas variáveis X e Y. Neste caso, a distribuição conjunta das duas variáveis é caracterizada por uma função J(x , y) , chamada fimçâo densidade conjunta de X e Y, satisfazendo:

(a) fl.x, y) ?l: 0, para todo par (x, y);

Ih) r~ f. flx , y)dxdy ~ I;

Ie) Pia " X " b, c " Y " d) ~ [ [ flx, y)dydx.

(7.23)

(7.24)

(7 .25)

175

Page 95: Probabilidade e estatística

Exemplo 7./3. Suponha queflx,y)=4xy , para O~x~l e O~Y~1 Então, (7.23) está satisfeita , e """ .

f f 4xydxdy ~ 4 f xdx f ydy ~ 4· [x:1 [Y;1 ~ I, ,

o que mostra que (7.24) também está satisfeita.

Calculemos p( X ~ +, y ~ +)-A Figura 7.4 mostra o domínio da va­riação de X e Ye a região pa ra a qua l

I X~- e ~ 2

Logo, por (7.25),

p(x,,+ , y,,+)~

= p(O ~X~+;O~Y~+)=

~ f I' f I' 4xydxdy ~

~ 4 [;'IT:r ~ 16

Fig. 7.4

,

Para v.a. contínuas, podemos também ra lar em di stribuições mar· ginais e condicionais. Ver Problemas e Complementos.

PROBLEMAS E COMPLEMENTOS

18. Um "si nal '· consiste em uma série de vibrações de magnitude X, tendo os valores I. o. - I , cada um com probabilidade 1/3. Um "ruído·' consiste em uma série de vi · brações de magnitude Y. tendo os valores 2, O e - 2 com probabilidades 1/6 . 2/3 e 1/6, respectivamente. Se ruidos e sinais são combinados, a soma consiste em vibrações de magnitude Z = X + Y. Construir a funçã o de probabilidade para Z e calcular sua média e variância. admitindo a independência de ruido c sinal.

176

(

~

. ,. Numa comunidade em que apenas 10 casais trabalham. fez-se um levantamento no qual foram obtidos os seguintes valores para os rendimentos anuais :

Casal Rendimtnlo do Homem (H) Rem/imenlo lia Mulher ( Y)

I 10 5 2 10 10 3 5 5 4 10 5 5 1"5 5 6 10 10 7 5 10 8 15 10 9 10 10

10 5 10

Um casal é escolhido, ao acaso. entrc os 10. Seja X o rendimento do homem e Yo ren· dimento da mulher :

(a) Construa a distribuição de probabilidade conjunta de X e Y. (h) Determine as distribuições marginais de X e Y.

(e) X e Y são variàveis independentes'! Justifique a resposta. (a') Calcule E(X). E( }"), Var(X), Var{Y) e Cm-(X. Y). (e) Considere a variável Z igual à soma dos vencimentos do homem e da mulher.

Calcule E(Z) e Var(Z). (j) Supondo que todos os casais tenham a renda de um ano disponível. e que se vâ

\ oferecer ao casal escolhido a possibilidade de com prar LIma easa pelo preço de apenas 20 u.m .. qual a probabilidade de o casal escolhido poder e fetuar a compra '!

10. Suponha que realiumos um experimento. e os resultados possiveis são 11",. "'l. "'3. 11"4 e II" s' Definimos as v.a. X e Y. cujos valores em cada ponto 11" sào dados na tabe· la abaixo.

Resll//ado X Y

'-, 3 I

'- , 2 2 '-, 2 O 11"01 I O lI"s 3 2

Obtenha as dis tribuições de probabi lidade de X. Y. X + Y. X - Y - 1 e X - Y, su­pondo que os 5 resultados tcnham a mesma probabilidade. Faça um diagrama de dis­persão para as variáveis X e Y. Idem põlra X e X + Y.

177

Page 96: Probabilidade e estatística

,

21. Numa sala estão 5 crianças, cujas idades são: 3, 3, 4.5,5. Escolhem-se 3 crianças acaso para foonar uma trinca. X indica a idade da mais nova da turma, e Y a ida: da mais velha.

(a) Escrever a f.p. conjunta de X e Y. (b) Cakular E(X) e Var(X).

(c) Calcular Cov(X, Y). (ri) Calcular Var(X + Y).

22. A distribuição de notas de um cerlO tipo de teste e norma! com IJ.H = 70 e o H == la pa~ os homens e IJ.M = 65 e 11M = 8 para as mulheres. Se esse teste é proposto numa classe em que o número de homens é Igual ao dobro do numero de mulheres, qual a po ,. centagern de pessoas que deverá obter nota maior que 80 '1

23, Se E(X)=IJ. e Var(X) = u 1, escreva em função de IJ. e 0 2 as seguintes expresSôes:

(a) E(,Y'l) (h) E[X(X - I»)

24. Em um estudo sobre rotatividade de mão-de-obra, foram definidas para uma \:crta população as v.a. X = numero de empregos QUC um funcionário teve no último ano e Y = salário. Tabulados os dados, foi obtida a seguinte distribuição conjunta:

X 2 J 4 Dados:

y E{X) = 2.5 DP(X) = 1,0

800 O O 0,10 0,10 E(r) = 2.120 1.200 0.05 0,05 0,10 0,10 DP(Y) = 1.505,2 2.000 0,05 0,20 0,05 O '.000 0,10 0,05 0,05 O

(a) Calcular P(X = 2) e P(X = 2 [ Y= 1200). X e Y são independentes? (b) Obter p e interpretar este coeficiente em termos das variaveis em estudo.

25. Uma urna contém 3 bolas numeradas O, 1,2. Duas bolas são retiradas ao acaso e su­cessivamente. X = mimero da L' bola retirada e Y = numero da 2. ' bola retirada. Calcule:

(a) E(Xy) (b) Cov{X, r) (e) Var(X + Y),

nos casos em que as bolas são retiradas

i) com reposição; ii} sem reposição.

26. Prove a relação (7.22) do texto.

27, Distribuiçiies Marginais ; V.a. ConlinUll!J. Na seção 7.5, vimo~ que uma v.a. bidimen­sional (X, Y) é caracterizada por uma f.d .p.- f(x. y), satisfazendo às condições (7.23) ~ (7.25). As [d.p. marginais de X e Y são dadas por

g(x) "" f" Jl.x, y)dy - •. f7.26)

178

(

, h(y) = f'" ilx, y)dx, -.

respectivamente. Determine g(x) e h(y) para a f.d .p. ilx.y) do exemplo 7.13.

28- As v.a. X e Y têm dist ribuição conjunta dada por:

f(x,y) = {+ .t(X- y), O <.t < 2, ~x <y<.t

O , nos demais pontos.

(a) Faça um gráfico do domínio de variação de x e y. (b) Prove que I~", I~",Jl.t, y)dxdy = I. (c) Encontre os f.d.p. marginais de X e Y.

ZfJ. Suponha que as v.a. X e Y tenham f.d.p. conjunta

{e~~+rl. x> O. y> O

flx.y) = O . nos demais pontos.

(a) Encontre as f.d.p. marginais de X e Y.

(b) Calcule prO < X < I , I < Y < 2).

(7.27)

30. Se Pxr é o coeficiente de correlaç-Jo entre as v.a . X e Y. e se temos que Z = AX + B e W =C Y +D, onde A>O, W >O, mostre que:

\ Pxr = p~w ·

31. Uma urna contem n bolas numeradas de I ate /I. Duas bolas são retiradas sucessiva­mente, sem reposição. Determine a distribuição da diferença entre os dois nútneros obscrvados.

31. Suponha que X e Y sejam variáveis aleatórias com Var{X) = I, Var( r) ='2 e p(X Y) = 1/2. Determine Var(X ~ 2Y).

3J. Sejam X e Y v.a. com E(X)= E(r) = O e Var(X) = Var(Y) =: I. Prove que p(Z, U) = O, onde Z=X + Y e U =: X - Y.

34. Distribuições Condicionais: V.a. Continuas ~ Sejam X e Y v.a. continuas com f.d.p. conjunta f(x, y) e g(x) e h(y) , dados por (7.26) e (7.27). A [d-p. cO/ldicional de X, dada que Y = y, é definida por

f(x [ y) = f(x, y), h(y) > O. (7.28) 1J(y)

(a) Prove que I~,J(x [ y)dx = I para y fixo. (b) Calcule f{x [ y) e Iú' I xl para a f.d.p. fix, y) do eJlemp!o 7.13. (c) Idem para f(x, y) do problema 28.

179

Page 97: Probabilidade e estatística

35. Variheis AIeJ.tória~ ~ontínuas Independen~es - As v.a. )( e Y. com f.d .p. Conjunta f(x. y) e f.d.p. marginaIS g(x) e h(y) , respectIvamente, são independen~ se, e SOmente se,

j{x, y) = g{x) . hl» ('1.29) para lodo par (x . y).

(a) Prove (7.10) para X e Y contínuas. (b) Se X: N(pl.un e Y: N(pI' ui), e X e Y sào independentes, encontre a es~ra (

e a variância da v.a. aX + b Y, a e b constantes. nça

(c) Um fato importante é o segui:lte: se XI . ... , X. são v.a. normais e independem então, X, + ... + X. é uma v.a. normal. Qual a média e a variãncia de X, + " . + ~' se cada Xi é N{p ro u f), i = I • .... n? •

36. As v.a. X e Y do problema 28 sào independentes?

37. Mostre que X e Y do problema 29 são independentes.

38. Se X I , ... , X. são v.a. independentes. cada Xi com média }). . e variãncia /T 1, i = I , , .. .. ,/I calcule E(X) e Var(X). onde ' . ,

X = X, + ... + X, .

" 39. Calcule E(:f) e Var(l') para o problema 38 , se todas as v.a . Xi têm a mesma m&lia IA

e a mesma variãncia UI .

40. Vamos considerar as variáveis X e Y, com os respectivos parâmetros

180

logo,

A runção

E(X) = }).!

E(Y) = pl

CM (X, n = U1 1 '

f(1) = E!(X-}).I) + I(Y - }).lW =

Var(X) = u;

Varj n '" ui

= E[(X _ }).,)l + 2/(X - }).!l (Y-}).1) + t1(Y _ P1)lj = = CT~ + 2tCT 11 + 11ui

ê sempre positiva ou nula, quaisquer que sejam os parâmetros O"i , uf e u 12' Sendo um trinômio do segundo grau, a função acima deve ter o discriminante negativo ou nulo, isto é:

ou seja,

que implica

(~)l ..;;;1. alO"I

pl ..;;; I.

AJlTE 111 , rNFER~NCIA ESTATISTICA CAPíTULO 8 - Introducão à Inferência •

Estatística

-8,1, INTRODUÇÃO

Na Parte l , vimos como resumir descritivamente um conjunto de dados. Na Parte 11 , vimos como construir modelos probabilísticos para des~ crever alguns fenômenos . Nesta parte, iremos ver como reunir os dois tópicos para estudar um ramo muito importante da Estatística conhecido como Inferência Estatística, ou seja, como fazer afirmações sobre caracte~ risticas de uma população, baseando~se em resultados de uma amostra. O uso de informações da amostra para concluir sobre o todo faz parte da alividade diária da maioria das pessoas. Basta observar como uma

..çozinheira verifica se o prato que ela está preparando tem ou não a quan~ tidade adequada de sal. Ou ainda, quando uma dona~de·casa, após ex~ perimentar um pedaço de laranja numa banca de feira, decide se as compra ou não. Essas são decisões baseadas em procedimentos amostrais.

Nosso objetivo nos capítulos seguintes é procurar a conceituação fonnal desses princípios intuitivos do dia*a~dia para que possam ser utilizados cientificamente em situações mais complexas.

8,2, POPULAÇÃO E AMOSTRA

Nos capítulos anteriores, tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos ca~ suais de acordo com suas ocorrências: as distribuições de probabilidades de variáveis aleatórias (qualitativas ou quantitativas). Na prática, rara~ mente o pesquisador sabe qual distribuição representa a sua variável.

Por exemplo, parece razoável supor que a distribuição das alturas dos brasileiros adultos possa ser representada por um modelo normal.

181

Page 98: Probabilidade e estatística

Mas esta afirmação não é suficiente para determinar qual a distribuição normal correspondente ; precisaríamos conhecer os parâmetros (média e variância) desta normal para que ela ficasse muito bem caracterizada. O propósito do pesquisador seria, en tão , descobrir os parâmetros da dis. tribuição para sua posterior utilização. "

Se pudéssemos medir as a lturas de todos os brasileiros adultos teriam os meios de obter a sua distribuição exata e, daí, produzir os Cor~ respondentes parâmetros.

Contudo, raramente se consegue obter a distribuição exata de alguma variável , ou porque isto é muito dispendioso, ou muito demorado ou às vezes porque consiste num processo destrutivo. Por exemplo, se estivés. semos observando a durabilidade de lâmpadas e testássemos todas até queimarem, não restaria nenhuma para ser vendida. Assim, a solUção é selecionar parte dos elementos (amostra), analisá·la e inferir propriedades . para o todo (população). Este é o objetivo da Inferência Estatística .

Assim, dois conceitos básicos são necessários para o desenvolvi­mento da Inferência Estatística: população c amostra.

Definição. População é o conjunto de indivíduos (ou objetos), tendo pelo menos uma variável comum observável.

Definição. Amostra é qualquer subconjunto da população.

Vejamos outros exemplos para caracterizar essas definições:

Exemplo 8.1. Consideremos uma pesquisa para estudar os salários dos 500 funcionários da Companhia Milsa. Seleciona·se uma amostra de 36 individuos, e anotam·se os seus salários. A variável a ser observada é o salário. A população é formada pelos 500 funcionários da companhia. A amostra é constituída pelos 36 indivíduos selecionados. Na realidade, estamos interessados nos salários; portanto, para sermos mais precisos, devemos considerar como população os 500 salários correspondentes aos 500 funcionários. Conseqüentemente, a amostra será formada peJos 36 salários dos indivíduos selecionados. Podemos estudar a distribuição dos sal.árias na amostra, e esperamos que a mesma reflita a distribuição de todos os salários, desde que a amostra tenha sido colhida com cuidado.

Exemplo 8.2. Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a um ce~to projeto governamental. Uma amostra de 200 pessoas é sorteada , e a opinião de cada uma é registrada. Então. a variável de interesse é a resposta: a favor ou contra o projeto. A população

182

. ' em todos os moradores da cidade , e a amostra é formada pelas

"'nslste . r " C't I 3 pessoas selecionadas. Podemos , COJTlO Já 101 Visto no apl u o ,

200 . da morador da cidade o valor um, se sua resposta for favorãveJ . ~~llCla r a ca . 'd"d' d" ...-" " zero se for contra. Assim nossa população sera re UZl a ais· o proJeto, e. ' , , a. . -o da variável assumindo o valor O ou 1. E a amostra sera uma tnbUlça ., . seqüência de 200 numeros zeros ou uns.

Exemplo 8.3. Queremos investigar a duração de vida de ~m no.vo . de lâmpada, pois acreditamos que ela tenha uma du~açao _ mal~r

tiPO ue as fabricadas atualmente. Cem lâmpadas do novo tl~ sao del~ do q as até queimarem. A duração em horas de cada lampada e xadas aces d I" d A " d Aqui a variável é a duração em horas de ca a ampa a. r<glstra a. r . d ham

I -o é formada por todas as lâmpadas labflca as ou que ven popu ;çab 'cadas por esta fábrica A amostra é formada pelas 100 lâmpadas aser la fi ' I -

" d s Notem que neste caso não podemos observar a popu açao , seleÇlona a . , ' . ~ . 1-. distribuição da duração de Vida das lampadas na popu açao,

ou seja, a I' dA ' alguns " responderia a queimar todas as ampa as. SSlm, em . poiS cor . . d a ão podemos observar a população toda , POiS ISSO correspon en

ca50d s"rncar todos os elementos da população. Esse problema geralmente a aOl I . d' 'b "' d é contornado, atribuindo-se um modelo teórico para a Istn U1Ç30 , a variável. Incidentalmente, neste caso , ? modelo geralmente ~d~tado e o

mod I xponencial isto é o conheCimento do problema flSICO sugere eo e " _ - d a ~oçàO do modelo exponencial para a duraçao das lampa as.

E / 8 4 Em alguns casos fazemos suposições mais precisas xempo .. . ' sobre a população (variável). Digamos que X represente o peso re~J d.e pacotes de café, enchidos automaticamente. Sabe-se que X tem d~~tfl.

bui • armai Sorteamos 100 pacotes e medimos seus pesos. A vana vel ~on . . , . d de interesse é X, peso de cada pacote. A população .sera o conJ~nt~ e todos os pacotes enchidos ou que virão a ser enchidos pela maquma, e que obedece a um modelo normal . E, finalme~te , a amostra será formada pelas 100 medidas obtidas dos pacotes selecionados.

Exemplo 8.5. Para investigar a "honest idade" de uma moeda, nós a lançamos 50 vezes e contamos o número de caras observadas. A po­pulação, como no ~so do exemplo 8.2, pode ser considerada. ~mo a distribuição da variável X. assumindo o valor I ~m probabilidade p se ocorrer cara e assumindo o valor O com probabilidade I·p se ocorrer COroa, A amos~ra será uma seqüência de 50 números zeros ou uns.

183

Page 99: Probabilidade e estatística

1

8 .3 . PROBLEMAS DE INFERÊNCIA

Como dissemos, o objetivo da Inferência Estatística é produi f, d " a Irmaçõcs sobre uma da a característica da população, na qual estamo

interessados, a partir de informações colhidas de uma parte dessa POPula~ ção (amostra). Esta caracteristica pode ser representada por uma variáv~1 f aleatória. Se tivéssemos informação completa sobre a função de pro_ babi lidade, no caso discreto, ou sobre a função densidade de probabili. dade, no caso contínuo, da variável em questão, não teriamos necessidade de colher uma amostra. Toda afirmação desejada seria obtida através da distribuição da variável , usando-se as propriedades estudadas anterior. mente. Mas isso raramente acontece. Ou não temos qualquer informação a respeito da variável, ou ela é apenas pa rcial. Podemos admitir, como no exemplo das alturas dos brasileiros adultos, que ela siga uma distribuição nonnal, mas desconhecemos os parâmetros que a caracterizam (média' e variância). Em outros casos, podemos ter uma idéia da média e da variân_ cia, mas desconhecemos a fonna da curva. Ou ainda, o que é muito freqüe n_ te, não possuímos informações nem sobre os parâmetros, nem sobre a forma da curva. Então, o uso de uma amostra nos ajudaria a fonnar uma opiniào sobre o comportamento da variável (população).

Vejamos a lguns exemplos simples que nos darão uma idéia do tijXl de problemas que a Inferência Estatística pode nos ajudar a resolver.

Exemplo 8.5 (cont inuação). Voltemos ao. exemplo da moeda. In­dicando por X o número de caras obtidas depois de lançar a moeda 50 vezes, sabemos que, se tomados alguns cuidados quando do lançamento, X segue uma distribuição binomial, isto é, X: b(50,p). Esse modelo é válido, admitindo ou não a "honest idade" da moeda. Ou, em termos mais precisos, sendo ou não I' = 1/2. Lançada a moeda, vamos supo r que tenham ocorrido 36 caras. Esse resultado evidencia alguma coisa sobre a "ho­nestidade" da moeda? Para torparmos uma decisão, podemos partir do princípio de que a moeda não favorece nem cara e nem coroa, isto é, I' = 1/2. Com este parâmetro, no modelo binomial podemos encontrar qual a probabilidade de se obter 36 caras ou mais, e este número nos ajudaria a tomar uma decisão. Suponhamos que tenhamos sido levados L a. rejeitar a "honestidade" da moeda; qua l a melhor estimativa para p, baseando-se no resultado observado?

Descrevemos ai os dois problemas básiC9S da Inferência Estatística: o primeiro é chamado teste de hipótese e o segundo, estimação. Nos capí­tulos seguintes, estes problemas serào abordados com mais detalhes.

184

. Exemplo 8.4 (continuação). Às vezes, o modelo teórico associado ao problema não é tão evidente como o visto no exemplo anterior. No caso da máquina de encher pacotes de café automaticamente, digamos que ela esteja regulada para enchê-los segundo uma normal com média 500 gramas e desvio padrão de 10 gramas, isto é, X : N(5oo, 100). Sa­bemos também que. às vezes, a máquina se desregula e, quando isso acontece, o único parâmetro qu~ se altera é a média (500 g), pcnnane­cendo a variância a mesma. Para manter a produção sob controle, iremos colher uma amostra de 100 pacotes e pesá-los. Como essa amostra nos ajudará a tomar uma decisão? Parece razoável, neste caso , usarmos a média x da amostra como a infonnação pertinente para wna ~ecisão. Mesmo que a máquina esteja regulada , dificilmente x será igual a 5OOg, uma vez que os pacotes têm uma certa variabilidade no peso. Mas se _~ não se afastar muito de 5OOg, não existirào razões para suspeitannos da qualidade da sua produção. Só iremos pedir uma revisão se i-5oo, em valor absoluto , for '"muito grande". O problema que se apresenta agora é o de decidir o que é próximo ou longe de 500 g. Se o mesmo procedi­mento de colher a amostra de 100 pacotes fosse repetido um número mui to grande de vezes, sob a condição da máquina estar regulada, leríamos idéia do comportamento de x, e saberíamos dizer se aquele valor observado é ou não evento raro de ocorrer. Caso o seja, é mais fáci l suspeitar da regulagem da máquina do que do acaso. Vemos, então, a i~rtância neste caso de se conhecer as propriedades da distribuição

de x.

Repetir um mesmo experimento r:nuitas vezes, sob as mesmas condi­ções, nem sempre ê possível , mas, em determinadas condições, é possível determinar teoricamente o comportamento de algumas medidas feitas na amostra, por exemplo, a méd ia. Mas isso depende em grande parte do plano adotado para selecionar a amostra. Assim, em problemas en­volvendo amostras, antes de tomannos uma decisào, teríamos que res­ponder a três perguntas:

(i) Como escolher a amostra? (ii) Que informação pe rtinente (estatística) será retirada da amostra? (iii) Como se comporta a estat ística quando o mesmo procedimento

de escolher a amostra ê usado numa população conhecida?

Nas seções e capítulos subseqüentes, tentaremos responder a essas perguntas e mostraremos como usar os resultados.

185

I

Page 100: Probabilidade e estatística

8.4. COMO SELECIONAR UMA AMOSTRA

As observações colhidas numa amostra sào tanlo mais informativas sobre a população quanto mais conhecemos esta mesma população. Por exemplo, a análise da quanüdade de glóbulos brancos obtida 'f

. \ algumas gotas de sangue das pontas do dedo de um paciente dará Unta

idéia geral da quantidade de glóbulos no corpo todo, pois sabe-se que a distribuição dos glóbulos brancos é mais ou menos homogênea, e de qualquer lugar que se tivesse retirado a amostra ela seria "representativa". Mas nem sempre a escolha de uma amostra representativa é imediata. Por exemplo, voltando ao exemplo 8.2 , onde queríamos obter uma amos_ tra de habitantes para saber sobre um projeto governamental, se escolher. mos intencionalmente uma amostra de 200 indivíduos moradores de uma certa região que será beneficiada pelo projeto , saberemos de antemão que o resultado conterá um "viés de seleção", Isto é, na amostra, a propOrção de pessoas favoráveis ao projeto deve ser maior do que no todo.

A maneira de se obter a amostra é tào importante , e existem tantos modos de fazê-lo , que estes procedimentos constituem uma especialidade dentro da Estatística, conhecida como Amostragem. Mas esses vários procedimentos podem ser agrupados em dois grandes grupos: os chamados planos probabilísticos e planos não-probabilísticos. O primeiro grupo reúne todas . aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra , atribuindo a cada um deles uma probabilidade, conhecida a priori, de pertencer à amostra. No segundo grupo estào os demais procedimentos, tais como: amostras intencionais, onde os ele­mentos são selecionados com auxílio de especialistas, c amostras de voluntários, como ocorre em alguns testes sobre novos remédios.

Ambos os procedimentos tem suas vantagens e desvantagens, A grande vantagem das amostras probabilísticas é medir a precisão da amoslra obtida, baseando-se no resultado contido na própria amostra. Tais medidas já são bem mais dificeis para os procedimentos do segundo grupo.

Neste livro, iremos nos concentrar no caso mais simples de amos­tragem probabilística: Amostragem Casual Simples.

PROBLEMAS

I. Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amos­trais:

186

(a) Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do inicio das atividades das 7:00 h para as 7:30 h, decidiu-se entrevistar os 30 pri­meiros operários que chegassem na fábrica na quarta-feira.

MesmO procedimento, só que o objetivo é estimar a altura média dos operários. ~ . . ,. , . 'd I . Para estimar a porcentagem méd13 da receita mUnlClpa investi a em azer. enVLa-(e) ram.se questionários a todas as prefeituras, e a amoslra foi formada pelas prefeituras

que enviaram respostas. d Para verificar o efeito de brinde nas vendas de sabão em pó. tomaram-se 4 super­t ) mercados da zona sul e 4 da zona norte de uma cidade. Nas 4 lojas da ~na sul,

o produto era vendido com brinde, enquanto que nas outras 4 era \lendldo sem brinde. No fim de um mês, compararam·se as vendas da zona sul com as da zona

norte.

2. Refazer problema 7 do Ca~itulo 7.

8.5. AMOSTRAGEM CASUAL SIMPLES

A maneira mais fácil de selecionarmos uma amostra é atribuir a da elemento da população a mesma probabilidade de seleção, e repor

~ elemento sorteado na população antes do próximo sorteio. Podemos

bter uma amostra nestas condições , escrevendo cada elemento da po-o d -

I ção num cartão misturando-os numa urna e sortean o tantos cartoes pu a , . . . '. uantos desejarmos na amostra. Este procedImento torna-se IOvlavel

~uando a população é muito gr?nde. Neste caso, usa-se. um processo "alternativo, onde os elementos sao numerados e em segUIda sorteados

através de uma tabela de números aleatórios . (Veja sua utilização em Problemas e Complementos.)

Vejamos com maiores detalhes o significado mais preciso de amostra.

Exemplo 8.6 - Voltemos ao problema 2, em que colhíamos todas as possíveis amostras de tamanho 2, com reposição, da população ~ 1.3,5,5, 7}. Definida a variável X = valor assumido pelo elemento na população , temos que a distribuição de X é dada por

x J 5 7

1/5 1/5 2/5 1/5

Indicando por XL o número selecionado na primeira extração e por X 2

o nÚmero extraído na segunda extração, vimos que era possível escrever a distribuição conjunta do par (X I' X 2)' Vimos ainda que as distribuições marginais de X L e de X 2 eram independentes e iguais à distribuição de X.

181

Page 101: Probabilidade e estatística

1

Assim, as 25 possivcis amostras de tamanho 2 que podemos extrair dessa popu lação correspondem a observar uma particular realização da variável aleatória (Xl' X 2), Xl eX 2 independentes, e tais que P(X 1 == x)::::: = P(X2 = x)= P(X=x) para todo x. Veja a Tabela 8. 1. Esta é a caracte_ rização de amostra casual si mples que iremos usar neste livro.

Dtfinição. Uma amostra casual simples de tamanho 11 de uma Va _

riável aleatória X com uma dada distribuição é O conjunto de n variáveis aleatórias independentes XI. X2 • .. " X" . cada uma com a mesma dis_ tribuição de X . Ou seja., a amostra será a n-upla ordenada (XI ' X 2' "', X~), onde Xi indica a observação do i-ésimo elemento sorteado.

PROBLEMAS 3. A dislribuição do número de filhos, por família, de uma zona rural ~slâ no quadro

abaixo. N." de Filhos Porcentagem

O 10 1 20 2 J()

J 25 4 "

TOTAL 100

(o) Sugira um procedimento para sortear uma observação ao acaso dessa população. (b) Dê, na forma de uma tabela de entrada dupla, as possíveis amostras de duas fam í·

lias que podem ser formadas e as respe<:tivas probabilidades de ocorrência. (r) Se fosse colhida uma amostra de tamanho 4. qual a probabilidade de se obscmlr

a quádrupla ordenada (2,3,3. 1)1

8 .6. ESTATíSTICAS E PARÂMETROS

Obtida uma amostra , muitas vezes desejamos usá·la para produzir alguma característica da amostra . Por exemplo, se queremos calcular a média da amostra (Xl, X2 • .. . , XII)' esta será dada por

X = ~ {X, + X, + ... +X.). n

É fa ci l verificar que X é também uma variável aleatória. Podemos também estar interessados em qualquer outra característica da amostra, que sempre será uma função do vetor aleatório (XI ' X 2 , .... X~).

188

Definição. Uma estolística é uma característica da amostra, ou seja, ma estatística T é uma função de X L' X 2, .. '. X~ . T = flXI> X 2, , . " X,,) .

li As estatísticas mais comuns são:

- I -<- X (:d' d X= - L. I: m la a amostra, fi i= I

S2 = _1_ t (Xi - X) 2: variância da amostra, n~ I i"'\

X(I) = min{X .. X2 • "', X~): o menor valor da amostra, X(~I = max(X1, X 2, .. . , X~) : o maior valor da amostra, W =X(~)~X(II: amplitude total da amostra , Xli) = i-ésima maior observação da amostra.

,,' = ~ i (X,- X)' 11 i . I

Para facilitar a linguagem usada em Inferência Estatística" iremos di ferenciar as características da amostra e da população.

Definição, Um parâmetro é uma medida usada para descrever uma característica da população.

Assim, se estamos colhendo amostras de uma população identi­ficàda pela v.a. X, então. seriam parâmetros a média E{X) ou, ainda. sua variância Var(X).

Os símbolos mãis comuns sào dados na tabela a seguir.

Estatística População

Média X ~

Variância S' .' N.O de elementos n N

Proporção p p

8.7. DISTRIBUiÇÕES AMOSTRAIS

Vimos na seção 8.3 que o problema da Inferência Estatística é fazer uma afinnação sobre parâmet ros da população através da amostra. Digamos que nossa afirmação deva ser feita sobre um parâmetro O da

'89

Page 102: Probabilidade e estatística

população (média , variância ou qualquer outra medida). Decidimos que usa remos uma amostra casual simples, com reposição, de n elementos sorteados dessa população. Também decidimos que a nossa decisão serâ baseada na estatística T, que serâ uma função da amostra (Xl. Xz, ... ,X,,), ou seja, T=j{X"X2 , ••• ,X,,). Colhida uma amostra teremos observado um particular valor de T. digamos to, e baseados ness~ valor é que faremos a afirmação sobre 0, o parâmetro populacional.

A validade da nossa resposta seria melhor compreendida se soubés. semos o que acontece com a estatística T, quando retiramos todas as amostras de uma população conhecida segundo o plano amostrai adotado. Isto é, qual a distribuição de Tquando (Xl. X2 • .... XII) assume todos os valores possíveis. Esta distribuição é chamada de dislribuição amo.flral da eSlurÍSlica T e desempenha papel fundamen tal na teoria de Inferência Estatística . Esquematicamente. teriam os o procedimento representado na Figura 8. 1, onde temos:

(i) Uma população X, com um certo parâmetro O de interesse. (i i) Todas as amostras retiradas da população. de acordo com um

certo procedimento. (iii) Para cada amostra. calculamos o valor r da estatíst ica T. (i v) Os valores de ! formam uma nova população. cuja distribuição

recebe o nome de distribuição amostrai de T.

POPULAÇÃO AMOSTRAS

x

,

------------Q k •

'"

, , , , , , , , I , Ihl

Fig. 8. 1 Distribuição amostraI da eslatística T

Vejamos alguns exemplos si mples para aclamr um pouco melhor o conceito de distribuição amostraI.

'90

f

. Exemplo 8.7. Voltemos ao exemplo 8.6. onde selecionamos todas mostras de tamanho 2, com reposição, da população l IJ.5.5.7}. A

~~s~ribuiçàO conjunta da variâvel bidimensional (Xl ' X2) é dada na

Tabela 8.1.

TABELA 8.1 _ Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser seleciona­da' com repo,ição da população 11 ,3,5,5,7 J.

~ TOTAL I 3 5 7

X, ~

I 1/25 1(25 2(25 1(25 1(5

3 1(25 1/25 2(25 1(25 1(5

5 2/25 2(25 4(25 2(25 2(5

7 1(25 1(25 2/25 1(25 1(5

TOTAL 1(5 1(5 2(5 1(5 I .

Vejamos qual a distribuição amostrai da estatíslica

x= X1 + X2

2

Esta di stribuição é obtida através da Tabela 8.1. Por exemplo. quando a amostra selecionada é o par (1, 1 l, corresponderâ li média 1; então. temos P(X= 1) = 1/25. Obteremos média igual a 3 quando oçorrer o evento A= j(I ,5), (3 ,3). (5 . 1) ;. logo.

__ 2 I 251 P(X ~ 3) ~ P(A) ~ 25 + 25 + 25 ~ 25 ~ '5.

Procedendo de modo análogo. obtemos a distribuição amostraI da estatística X (Tabela 8.2 e Figura 8.2).

TABELA 8.2 - Dislribu ição amostrai da estatística X.

x 2 3 4 5 6 7 TOTAL

P(X ~ x) 1(25 2(25 5(25 6(25 6(25 4(25 1(25 1.00

'9'

Page 103: Probabilidade e estatística

r­, , , r---'" , , ,

2

r---r---~ , , , , r ___ ...J

, ' , ' , '

, -~ , , , , , , ,

3 4 5

, , , ~-, , , , , , , , , , , , , ,

-, , , , , , ,

\ , , , f----., , , , , , ,

6 7 • Fig. 8.2 Dislribuição de X (linha cheia) e de X (linha tracejada)

\

Com um procedimento análogo , podemos determinar a distribuição amostrai da amplitude total W, dada na Tabela 8.3.

TABELA 8.3 - Distribuição amostrai de W.

w o 2 4 6 TOTAL

7/25 10/25 6/25 2/25 1,00 __ ----L-_ _

Ou, ainda , da variãncia S2 (Tabela 8.4).

TABELA 8.4 - Distribuição amostrai de S2

s' o 2 8 18 TOTAL

P(S'= s') 7/25 10/25 6/25 2/ 25 1,00

\ ExemplQ 8.5 (continuação). No caso de lançarmos a moeda 50 vezes,

usando como estatística o número de caras obtidas, a derivação da dis­tribuição amostra i, que já foi vista, segue o modelo binomial b(50, p),

192

fi

ualquer que seja p ~ probabilidade de ocorrência de cara num lança­~enIO , O <p < I. Se estamos interessados em julgar a " honest idade" da moeda , queremos verificar se p = 0,5. Nestas condições a p(X ;,361 ,, = 50 e p = 0,5) ':' 0,001 3 = 1,3°/00 _ _ _

Assim, caso a moeda seja honesta, em 50 lançamentos a probabili­dade de obter 36 ou mais caras é da ordem de I ~r I 000. Serâ que fomos tão infelizes em nossos lançamentos, ou é o parâmetro p = 0,5 que nào está correto ? Neste caso, parece existirem evidências contra p = 0.5.

Comparando os dois últimos exemplos, vemos que nos interessa determinar propriedades das distribuições amostrais que possam ser aplicadas em casos gerais (como no caso do binomial) e não em casos muito particulares (como no exemplo 8.7). Iremos agora estudar as distribuições amostrais de algumas estatísticas, para que , nos próximos capítulos, possamos mostrar como usá-Ias para inferir resultados para a população.

PIIOBlEMAS

... Usando os dados da Tabela 8.1 , construa a distribuição amostraI da estatística aI.

5. No problema 3. se X indica O número dé rilhos na população, Xl o numero de filhos observados na primeira extração e X 1 na segunda :

(a) Calcule E(X) e Var(X). (b) Calcule E(X r) e Var{X ,), para i= I. 2.

(e) Construa a distribuição amostraI de X _ Xl; X2 •

(a') Calcule E(X) e Var (X). (e) Faça num mesmo desenho o histograma de X e de X.

, I ' (j) Construa as distribuições amostrais de S I = ~)Xj - xi e õ1 = - L (X j - X)I.

, 2 ,

11) Baseado no resultado de (j) qual dos dois eslimadores você usaria para estimar Var(X)? Por quê?

(11) Calcule P( I X - I" I > 1).

6. Ainda com os dados do problema 3, e para amostras de tamanho 3:

(a) Determine a distribuição amostraI de X, e faça o histograma. (b) Calcule E(X ) e Var(X ). (e) Calcule P( I X - I" I > I). (ti) Se as amostras rossem de tamanho 4, a P(j X - I" I> I) seria maior ou menor do

que a probabilidade encontrada em (t)? Por quê?

193

I •

)

!

Page 104: Probabilidade e estatística

8.8. DISTRIBUiÇÃO AMOSTRAL DA MÉDIA

Vamos estudar agora a distribuição amostraI da estatística X~ a média da amostra. Consideremos uma população identificada pela variável X, cujos parâmetros média populacional !.1 = E(X) e variância populacional (12 = Var(X) são supostamen te conhecidos. Vamos reti rar todas as possíveis amoslras casuais simples de tamanho n dessa popula. ção, e para cada uma calcular a média X. Em seguida , construamos a distribuição amostrai e estudemos suas propriedades. Ilustremo~' com os dados do exemplo 8.7.

Exemplo 8.8. A população fi ,3 ,5,5,7} tem média Jl = 4,2 e (T2 = 4,16 - . ,

e a distribuição amostra i de X para n = 2 está na Tabela 8.2. Baseando-nos naqueles dados, podemos verificar que:

De modo análogo, encontramos

Var(X) = 2,08. (Verifique este número.)

Será que foi coincidência o fato de a média das médias amostrais tcr coincidido com a média populacio nal ? E a variância de X ser igua l à Var(X) dividida por 2? Não, vamos mostrar que isso sempre acontece.

Teorema 8.1. Seja X uma v.a. com méd ia J1 e vanància (J2, e seja (XI' X2 , . • . , Xn ) uma amostra casual simples. Então, se

temos

X= X1 + X2 + ·· ·+Xn

11

E(X) ~ " e

Prova. Pelas propriedades vistas no Capitulo 7, temos:

- 1 . E(X) ~ - :E(X,) + E(X,) + ... + E(X.) : ~

n

'94

,

De modo análogo, e pelo fato de as variáveis serem independentes, vem

Já detenninamos a média e a variància da distribuição de X. Para derivar as demais propriedades de X, bastaria a~or~ de~er~i~1ar q~a l a fonna (modelo probabilístico) da cu rv~ referent.e a dlstnbUlçao (hl,st.ograma) de X. A derivação dessa propnedade. eXl~e recu'rsos matem~t.lcoS que

tão fora dos objetivos deste livro. Ass im...!. Iremos mostrar emplflcamenle ~ que aconcete com a distribuição de X.

Exemplo 8.8 (continuação). Na ~pulação p ,3,5,5,7], construi mos os histogramas das distribuições de X para fi = 1, 2 e 3.

(i) Distribuição de X para fi = I ; a distribuição coincide com a distribuição de X.

Var (XJ = 4.16

[ , - -3 E(X) 5 7

'95

f

Page 105: Probabilidade e estatística

1

(i i) Distribuição de X para ti = 2, baseado na Tabela 8.2.

I 2 3

. , 4

E(XJ

5

Var (X) '" 2,0

I .

6 7

(iii) Distribuição de X para n = 3, baseado na Tabela 8.5.

,--c-

f-

,---

B

c-Var (XJ '" - 1 )<"

~ I. ---, -E(X)

\

Observe que, conforme n vai aumentando, o histograma vai ficando mais serrilhado e tende a concentrar-se cada vez mais em torno de E(X). Os casos extremos passam a ter pouca probabilidade de ocorrência. Quando n for suficientemente grande, o histograma alisado aproxima-se da distribuição normal. Esta convergência é melhor verificada, aitdli­sando-se os resultados da Figura 8.3, que mostra o comportamento do histograma de X para várias pópulações e diversos valores do tamanho da amostra n.

196

" ,- " ,-

o ~

• M o N N

" < < < <

'" '" '" '"

o • • • -. < <

< <

,-

Fig. 8.3 Histogramas correspondentes à distribuiçào amostrai de algumas populações

197

Page 106: Probabilidade e estatística

TABELA 8.5 - Distribuição amostraI de algumas estatísticas obtidas de amostra de tamanho 11 = 3, retiradas da população 11,3,5,5,7) (}J.=4,2; (J2=4,16 e Md~ 5).

Tipo de Freqüência Soma

Soma de Média Mediana Variância Amoslra (prob x 125) Quadrados i md .I' li'

111 I 3 3 1,00 I O O 113 3 5 11 1,67 I 4/3 8/9 115 6 7 27 2,33 I 16/3 .3219 117 3 9 51 3,00 I 12 8 133 3 7 19 2,33 3 4/3 8/9 135 12 9 35 3,00 3 4 8/3 137 6 11 59 3,67 3 28/3 56/9 155 12 11 51 3,67 5 16/3 32/9 157 12 13 75 4,33 5 28/3 56/9 177 3 15 99 5,00 7 12 8 333 I 9 27 3,00 3 O O 335 6 11 43 3,67 3 4/3 8/9 337 3 13 67 4,33 3 16/3 32/9 355 12 13 59 4,33 5 4/3 8/9 357 12 15 83 5,00 5 4 8/3 377 3 17 107 5,67 7 16/3 32/9 555 8 15 75 5,00 5 O O 557 12 17 99 5,67 5 4/3 8/9 577 6 19 123 6,33 7 4/3 81' 777 I 21 147 7,00 7 O O

TOTAL 125

Os exemplos vistos sugerem-nos que, quando o tamanho da amostra a~m~n~ , independend~ da distribuição da população origina l, a dis­tnbUlçao amostraI de X aproxima-se cada vez mais de uma distribuição normal. Este I"esultado , fundamental na teoria de Inferência Estatística é conhecido como Teorema Limite Central. - ' "

Teol"ema 8,2, Para amostras casuais simples (Xl' X3 , •.. , Xn) , re­tiradas de uma população com média J1. e va riância 0"2, a distribuição

198

ostral da média X = (X 1 + X 2 + ... + X")/n aproxima-se de uma dis­a~buiÇãO normal com média 11 e variância (12/n, quando" tende ao infinito. In . . d'

Este teorema deve ser aceito sem demonstração, poiS como lssemos esta exige recursos que estão fora do objetivo deste livro: O 2mp?rtante é sabermOS como usar esse resultado. Vejamos uma aphcaçao SImples.

Exemplo 8.9. Voltemos ao exemplo 8.4, onde a máquina enchia cotes clljos pesos seguiam uma N(5oo, 100). Colhendo uma amostra

~: 100 pacotes e pesando-os, sabemos pelo Teorema Limite Central que X terá distribuição normal , com média 500 e variância 100/ 100 = I (g)2. Assim, se a máquina estiver regulada , a probabilidade de enco ntrar­moS a média de 100 pacotes diferindo de 500 com menos de 2 gramas

será P(I X - 500 I < 2)~ P(498 < X d02) ~ P(- 2 <Z < 2) "95%.

Ou seja, dificilmente 100 pacotes terão uma media fora do intervalo }498, 502[. Caso 100 pacotes apresen tem uma média fora ~esse intervalo. podemos considerar como sendo um evento raro , e sera razoável des­

confiar que a máquina esteja desregulada. Outra maneira de apresentar o Teorema Limite Central é atraves do

Corolário 8.1. Se (Xl ' X2 , •..• X~) é amostra casual simples da po­pulação X com media 11 e variância (J2, e X = (Xl + X2 + ... + Xn )/ II ,

então,

Z~X-~ _ N(O , I ).

"1.fiI Basta notar que se usou a transformação usual de reduzir a distribuição de X a uma distribuição nonnal padrão.

Seja e a variável aleatória sue mede a diferença entre a estatística X e o parâmetro 11, isto é, e = X.- 11; então, temos o

COl"Olário 8.2. A distribuição de e aproxima-se de uma distribuição normal com média O e variãncia (J2/n, isto é, e : N(O, (J2/n). (Por quê?)

O Teorema Limite Central afinna que X aproxima-se de uma normal quando fi -tende para íilHnito. É fácil perceber (veja Figura &:"3rque a rapidez dessa convergência depende da distribuição da população da qual a amostra é retirada. Se a população original é próxima da normal , sua convergência é rápida ; já , se a distribuição da população tem a forma de um V, essa convergência e mais demorada. Como regra prática , aceita-se que para amostras com mais de 30 elementos a aproximação já pode ser considerada muito boa.

199

\

Page 107: Probabilidade e estatística

PROBLEMAS

7. Uma variável alcatôria X tem distribuição normal. com média 100 e desvio padr.1o 10.

(a) Qual a P(90 < X < I lO)?

...., 8.

(b) Se X é a media de uma amostra de 16 elementos retirados dessa população, cal. cule P(90 < X < 110). \

(e) Desenhe, num úniço gráfico, as distribuições de X e X. (d) Que tamanho deveria tcr a amostra para que P(90 < X < 110) = 95%?

A máquina de empacotar um detenninado produto o faz segundo uma distribuição nonnal, com média ti e desvio padrão lOgo

(a) Em quanto deve ser regulado o peso media!J para que apenas 10"10 dÇls paCOtes tenham menos do que 500 g?

(b) Com a máquina assim regulada, qual a probabilidade de que o peso total de 4 pa_ COles escolhidos ao acaso seja inferior a 2 kg?

...À 9. No exemplo anterior, e após a máquina estar regulada, programou-se uma carta de controle de qualidade. De hora em hora, será retirada uma amostra de 4 pacotes, e estes serão pesados. Se a média da amostra for inferior a 495 g ou superior a 520 g, pára-se a produção para reajustar a máquina. is to é, reajustar o peso médio.

(a) Qual a probabilidade de ser feita uma parada desnecessária? (h) Se o peso médio da máquina desreguJou-se para 500g, qual a probabilidade de

continuar-se a produção fora dos padrões desejados?

10. A capacidade máxima de um elevador é de 500kg. Se a distribuição X dos pesos dos usuários é suposta N(70 , [00):

(a) Qual a probabilidade de 7 passageiros ultrapassarem esse limite ? (h) E seis passageiros?

8.9 . DISTRI8UIÇÃO AMOSTRAL DA PROPORÇÃO

Vamos considerar uma população em que a proporção de elementos portadores de uma certa característica é p. Assim, a população pode ser considerada como a variável X , tal que

x~ {I, 0,

se o indivíduo é portador da característica,

se o indivíduo não é portador da característica;

logo,

" ~ E(X) ~ p e a' ~ Var(X) ~ p(1 - p).

Retirada uma amostra casua l simples, com reposição, dessa população, e se indicarmos por S~ o total de indivíduos portadores da característica

200

I I li

na amostra , já vimos que

S. : b(l/, p).

Definindo como p a proporção de indivíduos portadores da caracte­rística na amostra, isto é,

temOs que

~ S. p ~ -- ,

1/

. a distribuição amostrai de p é obtida da distribuição de S~. ou seja,

Vimos na seção 6.5 que a distribuição binomial .po~e. se~ apr~xi­d pela distribuição normal; vamos mostrar que a JustIfIcativa diSSO

~~á ano Teorema Limite Central. Inicialmente , observe que

Sn = XI + X2 + .. + Xn,

onde cada X j tem distribuição de Bernoulli com média J1 = p e variâncla a2 = p(1 - p), e sào duas a duas independentes. Podemos escrever que

Sn = nX, mas pelo Teorema Limite Central , X terá distribuição aproximadamente

" . p(1 - p) . normal , com média p e vanancla .

1/

Logo, a transfonnada S~ terá a distribuição

S. : N(np, np(1 - p)) ,

que foi a aproximação adotada na seção 6.5 .

Observe que X, na expressão acima, é a própria ~ari~ve~ ~ ; assim, para n su ficientemente grande, podemos considerar a dlstnbUlçao amos­trai de p do seguinte modo:

íi: N(P,P(J ;P)}

20'

Page 108: Probabilidade e estatística

PROBLEMAS

11. Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se 8 peças. Com re_ posição. e calcula-se a proporção íi de peças defeituosas na amostra.

(a) Construa a distribuição exata de íi (use a tabua da distribuição bino~ial). ( (b) Construa a aprollimação normal à binomial.

Cc) Você acha que a segunda distribuição é uma boa aproximaçào da primeinl? (d) Já sabemos que. para dado p fixo, a aproximação melhora à medida que 11 aUmenta

Agora. se 11 é filiO , para qual valor de p a aproximação é melhor ? .

12. Um procedimento de controle de qualidade foi planejado para garantir um mãximo de 10"10 de itens defeituosos na produção. A cada 15 minutos sorteia-se uma amostra de 20 peças. c, havendo mais de 15% de defeituosos. pára-sc a produção para verifica_ ções. Qual a probabilidade de uma par.tda desnecessaria?

13. Supondo que a produção do exemplo anterior esteja sob çontrole, isto 1:, P = 10%, e que os itens sejam vendidos em çaixas com 100, qual a probabilidade de que uma çaixa;

(a) Tenha mais do que 10% de dereituosos? (b) Tenha nenhum dcreituoso?

Se um çJiente ençontrar mais do que 18 dereituosos ele reçebe uma caixa grátis. Qual a proporçào esperada de çJientes bonifiçados?

B.10. OUTRAS DISTRIBUiçÕeS AMOSTRAIS

Do mesmo modo que estudamos a distribuição amostraI de X, po. demos estudar a distri buição amostraI de qual quer estatística T= =f(X],X2 , ... ,Xn)· Mas, quanto mais complexa fo r essa relação f, mais difíci l será a derivação matemática das propriedades dessa estat ística. Vejamos algumas ilustrações de distribuições empíricas de algu mas estatísticas.

Exemplo 8.10. Na Tabela 8.5 , apresentamos a distribuição de duas outras estatísticas: a variância da amostra

• S' ~ L (Xc - %)'/(11- I)

; " 1

e a mediana amostrai md. De lá, obtemos as seguintes dist ribuições amos. trais (Tabelas 8.6 e 8.7):

202

TABELA

Probo

40 125

30 125

20 fi

10 fi

"

o 1,33

TABELA

8.6 - Distribu ição amostrai da variância 52, pa ra amostras de tamanho 3, reti radas da população {1.l,5,5,7}.

0,00 1,33 4.00 5,33 9,ll 12,00

11/125 42/125 24/125 24/125 18/125 6/1 25

E(S' l ~ 4,16. Var(S') ~ 11 ,28.

I 4,00 5,33 9 ,33 12,00

8.7 - Distribuição amostrai da mediana da amostra md para amostras de tamanho 3, retiradas da população {I ,3,5,5,7}.

md 3 5 7

Probo 13/125 l l/ 125 68/125 Il/125

E(m(~ ~ 4,30, Va,(mel) ~ 2,54.

203

Page 109: Probabilidade e estatística

PrOb.

" 1"2"5

3

,

5 7

A de'rivação das propriedades gerais das distribuições dessas esta. tísticas nào ê muito fácil, e os modelos de probabilidade resultantes COr. respondem a distribuições mais complexas, Por exemplo, pode-se de­monstrar que a distribuição de S2 segue uma distribuição chamada qui­quadrado (Xl) quando a população parente tem distribuição normal. Já a distribuição da mediana md de amostras de uma população simétrica X, com média 11 e variância (T2, segue aproximadamente uma distribuição

2 nonnal com média E(md) = 11 e Var(md) = ~ . ~. Observe que as Con-

" 2 clusões não são tão gerais como o Teorema Limite Centra l; elas exigem mais suposições. No Capítulo 11 , voltaremos a discutir algumas dis­tribuições amostrais e suas aplicações,

PROBLEMAS

14. Usando os dados da Tabela 8,5 :

(a) Construa a distribuição amostrai de [j2 e compare com a distribuição amostra'" de S2 (Tabela 8,6). Vote notou alguma propriedade de S2 que é "melhor" do que ij2?

(b) Seja U a media do~ elementos distintos da amostra. Por exemplo, se a amostra observada é (1,1 ,3), então u = (I + 3)/2 = 2, Construa a distribuição amostrai de U.

(e) Compare as distribuições amostnl.is de U e X.

204

(

, adro abaixo tem-se a distribuiçào dos salários da Secretaria A, 15. No qu

C/asse til' Salários

4,51- 75 7,5 1- 10.5

10,51- 13.5 13.51- 16.5 16.51- 19,5

Freqüi-l1cia RelU/ira

0,10 0.20 0.40 0,20

0,10

(a) Calcule a média, a variância e a media~a . dos salários. na pop~lação. , (h) Construa a distribuição amostrai ~a media e da mediana para amostras de ta-

manho 3. retiradas dessa populaçao. .• . lel Mostre que a media X e a mediana md ~a amostra são esllOJadorcs nao vlesados

d Mediana Md da população. no sentido que E(X') = E(md) = Md. (cf) Qaual dos dois. eSlimadorcs não viesados você usaria para estimar Mil neste caso'!

Por quê '! . . __ (f) Baseado na distribuição amOStrai da media, encontre a dlstflbulçao amostml da

estatistica

(j) Quais os valores de E(Z) e Var(Z)'! . ' (g) Construa a distribuição amostrai da estat lsllC'd

e faça o histograma.

I · - 2 S2=_ L (Xf- X) .

n - 1 ; _ 1

(h) Calcule E(S2) e Var(Sl). .. ., . ' . • (i) Baseando-se nas distribuições amostrais antcnores, determlOe a dlstnbulção amos

traI da estatística

1= X;#.;n, e construa o seu histograma.

UI Eliminando incongruências que possam surgir, calcule E(I) e Var(I).

(/) Qual a PU II < 2) e PU 1I < 4.30)'?

I~. Tente esboçar como ficariam os histogramas alisados das estatísticas abaixo. para amostras de tamanho grande.

(a) S2 (Sugestão: faça o histograma da distribuição da Tabela 8.6.)

(b) Z = X - # ,fi (Veja o Teorema Limite Central.) •

(e) I = X - # (.jii), definida no exercício anterior. (Sugestão: compare com a expressão S

e o resultado obtido em (b».

205

I

,

Page 110: Probabilidade e estatística

PROBLEMAS E COMPLEMENTOS

17. Uma variável X tem distribuição normal, com média 10 c desvio padrão 4. Aos par_ ti cipantes de um jogo, Í! permitido observar uma amostra de qualquer tamanho e calcular a média amostraI. Ganha um prêmio aquele cuja média amostraI for maior que 12.

(a) Se um participante escolher uma amostra de tamanho 16, Qual a Probabilidad\ de ele ganhar um prêmio? e

(b) Escolha um tamanho de amostra diferente de 16 para p;l.rticipar do jogo. Qual a probabilidade de você ganhar um prêmio? .

(c) Baseado nos resultados acima, qual o melhor tamanho de amostra para panicipar do jogo?

~ Se uma amostra com 36 observações é tomada de uma população. qual deve ser o \a­manha de uma outra amostra para que o e rTO padrào desta amostra seja 2(3 do erro padrão da média da primeira amostra ?

19, Definimos a variável e = X - ~ como sendo o erro amostra! da média. Suponha que a variância dos salários de uma certa região seja 400 unidades ao quadrado.

(a) Detennine E(e) e Varie).

(b) Que proporção das amostras de tamanho 25 terno erro amostrai absoluto maiOr do que 2 unidades?

(c ) E que proporção das amostras de tamanho IOt)? (d) Neste último caso, qual o valor de d, tal que PU e I > ti) = 1%1 (e) Qual deve ser o tamanho da amostra para que 95% dos 'erros amostrais absolutos

sejam inferiores a uma unidade '!

20. A distribuição dos comprimentos dos elos de corrente de bicicleta é nonnal, com "< média 2cm e variância igual a O,O[cm l . Para que uma corrente se ajuste à biciclela,

deve ter comprimento total igual entre 58 e 61 em.

(a) Qual a probabilidade de uma corrente com )0 elos não se ajustar ã bicicleta? (b) E uma corrente com 29 elos?

Cada seção usada para constT1,lção de um oleoduto tem um comprimento médio de 5m e desvio padrão de 20cm. O compri mento tota l do oleoduto será de 8km.

(a) Se a firma construtora do oleoduto encomendar 1.600 seções, qual a probabili­dade de terem que comprar mais do que uma seção adicional (isto i:, das 1.600 seções somarem 7.995 m ou menos)?

(b) Qual a probabilidade do uso exato de [.599 seções, isto é, a soma das 1.599.seções estar entre 8.000 e 8.005 m?

, 22. Um professor dá um teste rapido. constante de 18 questões do tipo certo-errado. Para

testar a hipótese de o estudante estar adivinhando a resposta, ele adota a seguinte regra de decisão: "Se 12 ou mais estão corretas, ele não está adivinhando" . Qual a proba­bilidade de rejeição da hipótese, quando verdadeira?

206

(

-

r, U distribuidor de sementes determina, atravês de testes, que 5% das sementes não lJ..J ;minam. Ele vende pacotes de 200 sementes com garantia de 90";'; de germinação.

~ual a probabilidade de um pacote não satisfazer a garantia?

Uma empresa fabrica cilindros com 50 mm de diàmetro. O desvio padrão dos diâmetros

" d 4 ' " d ~ cd'do" . dos ci lindros é 2.5 mm. Os diâmetros de uma amostra e CI tO ros sao.m I >

cada hora . A média da amostra é usada para decidir se o processo de ~a.bncação ~~a operando satisfatoriamente: ~plica-se a seguinte regr~ de d~cisàO : se o d13melro médIO da amostra de 4 cilindros e Igual a 53.7 mm ou maIS, ou Igual a 46,3 mm ou menos, deve-se parar o processo. Se o diâmetro médio estiver entre 46,3 e 53,7mm, o processo

deve continuar.

(a) Qual a probabilidade de se parar o processo se a média do processo ~ continuar com 5Omm1

(b) Qual a probabilidade do processo continuar se a média do processo se deslocar para

j.I "" 53,7?

~ x ..... riência indica que 60% dos passageiros de võos interestaduais preferem refeições 15. · e,.._ . f' P d - ha se

"1- ,"quanto os restantes 40"10 preferem refeIções nas. ara ca a VOO, ac m-que" ".." o . • .~ disponíveis 72 refeições quentes e 48 fnas. Se 100 passageIros tomam o aVIa0, pergun-

ta-se :

(a) Qual o número máximo de passageiros que podem receber refeições quemes ? Neste caso, quantos receberão rereiçõcs frias'!

(b) Qual o número máximo de passageiros que podem receber r~feiç~ ~frias? Nest~ caso qual o número mínimo de passageiros que podem pedir refelçoes quen~es.

(c) Quais os números mínimos e mhimos de refeições quentes. que podem ser pedIdas de modo que todos recebem a refeição de sua preferênCia ?

(d) Qual a probabilidade de que cada passageiro receba a refeição de sua preferência?

2'- Tabela de Números Alutórios - Para sortear amostras ca~u,ais simples,. costuma-se usar tabelas de números aleat6rios, que são coleções de dlgltos constrUIdos a leato­riamente e que simulam o processo de sorteio. Na Tábua VIII, apresentamos um peque­no conjunto de números aleatórios. Podem ser usados do seguinte modo: se quere­mos selecionar dez nomes de uma lista de 90 pessoas, devemos começar numerando-os de OI. 02, ... , 90. Em seguida, escolhemos uma coluna, digamos a primeira, e tomamos 0$ 10 primeiros números ; no caso serão : . :>

61,..9( 50, 5 [, 25, 63, 12, )8, 22, 07,.61.

Observe que o 94 foi eliminado, pois não existe eSfe número ~a população. e o 61 deverá aparecer repetido. Para maiores explicações e tabelas maiores, consultar as Tábuas de Es/a/islico e Maltmálica, J.S.c. Pereira e W.O. Bussab, HARPER & ROW 00 BRASIL, 1985.

n. Como voei usaria a tabela de números aleatórios para sortear uma amostra nas se­guintes si tuações?

(a) 5 alunos da sua classe. (b) 10 alunos da sua escola.

(c) 15 domicílios do seu bairro. (d) :ro ações movimentadas na Bolsa.

207

/

Page 111: Probabilidade e estatística

(e) S números de uma população numerada de I a IIS. Existe algum modo de "aPfessa .. o_~ ,

(j) S números de uma população de IIS nomes, cujos numeros vão de 612 até 726 (g) S numeros de uma população de IIS nomes, cuja numeração não é seqüencial, m~

está compreendida entre os números 300 e S99. , 28. Distribuiçio Amostrai da DifereltÇa de DtIas Médias - Consideremos duas populações

X com parãmetros JlL e O"~ e Y com paràmetros #012 e O"~. Sorteiam-se duas amost~ independentes: a da primeira popula~o de_tamanho 11 e a da segunda de tamanho m. Calculam-se as mêdias amostrais X e Y.

(a) Qual a distribuição amostrai de X? E de Y1 (b) Derina D = X - Y. O que você entende por distribuição amostrai de D1 (c) Cakule E(D) e Va;(D). (ti) Como você acha que será a distribuição de D1 Por que ?

~. A distribuição dos salários (em salários mini mos) de operários do sexo masculino de

uma grande fábrica é N(S,4; 1,69), e a de operários do sexo feminino é N(S,4; 2,25). Sorteiam-se duas amostras, uma com 16 homens e outra com 16 mulheres. Se D éll diferença ent re o salário médio dos homens e das mulheres :

(a) Calcule PU DI > O,S). (b) Qual o valor de d tal que P(I DI > a') = O,OS ? (c) Que tamanho comum deveriam ter ambas as amostras para que P(I DI > 0,4) =

=0,OS1

30. Numa escola 11 , os alunos submetidos a um leste obtiveram mMia 70 e um desvio padrão 10. Em outra escola B, os alunos submetidos ao mesmo teste obtiveram mMia 6S e desvio padrão 15. Se colhermos na escola li uma amostra de 36 alunos e na B, uma de 49 alunos, qual a probabilidade de que a diferença entre as médias seja su­perior a S unidades?

31. Distribuiçio Amostnl da Diferença de Doas Propo.-Ç'ÕeS - Usando os resultados do pro­blema 28, qual seria a distribuição de '11 - P2' a diferença entre proporções de amos­tras independentes retiradas de populações com parâmetros PL e P2?

32. Amostras sem Reposição de Populações Finitas - Suponha uma população com N ele­mentos. Vimos que se extrairmos uma amostra de tamanho n, com repoJiçdo, e cal-

_ _ _ ~2

curarmos a média amostrai X, então, E{X) = Jl e Var(X) = -, onde #oi e 0"1 são a

" média e a variância da população, respectivamente. No entanto, se a amostragem for fei ta sem repasiçào , então. E{X) :o: J.I continua a valer, mas

- N - n Var{X) = ~2 . n(N-I )

(' I ,

Considere lima população com N = 4 e com valores O, 2, 3, 3. Retire amostras de ta·

h 2 ' • d' 'h " ' m-t-l do X- _'1 + X" man o n = ,sem repWlçao, e construa a lstn UlçaO U~ . .. _

2 Obtenha E(X) e Var(X), e verifique que esta é dada pela rónnula (e) acima.

208

(

CAPíTULO 9 ~------------------

Estimacão I

-9.1, PRIMEIRAS IDÉIAS

Vimos que a Inferência Estatística tem por objetivo fazer gener~liza­ções sobre uma população co~ base em dados de u~a. amostra_ Salienta­moS que dois problemas báSICOS neste processo sao.

(o) estimação de parâmetros; (b) teste de hipóteses sobre parâmetros.

Lembremos que porámetIoS são funções de valores populacionais , enquanto que esta tÍS ticas são funções de valores amostrais.

O problema do teste de hipóteses sobre parâmetros ~e u~a po.p~~a­ção será tnltado no Capítulo 10. Neste capí~ulo, iremos discutir as l~etaS básicas sobre estimação. Para ilustrar, conSideremos o exemplo segumte.

Exemplo 9.1. Uma amostra de n = SOO pessoas de uma cidade. é escolhida , e a cada pessoa da amostra é feita uma pergunta a respet:o de um problema municipal , para o qual fo.i apresentada u';la s?luçao pela Prefeitura . A resposta à pergunta pod~ra ser S~M (favoravel a sol~­ção) ou NÃO (contrária à solução). Deseja-se estimar a proporção de pessoas na cidade favoráveis à solução apresentada.

Se 300 pessoas responderem SIM à pergunta, então, a resposta na­tural seria 300{500 ou 60%. Nossa resposta é baseada na suposição de que a amostra é uma perfeita reprodução da população. Sabemos, tam­bém, que outra amostra levaria a uma outra est j m~t.iva . Co?h~cer as propriedades desses "estimadores" é um dos proposltos mal~ Impor· tantes da Inferência Estatística . Vejamos como isto pode ser feito neste caso particular.

209

,

Page 112: Probabilidade e estatística

I I

Definamos as v.a. X 1 , X 2 , ... , Xn , onde

x.=f ,se a i-ésima pessoa na amostra responde SI M, , 0, se a i-ésima pessoa na amostra responde NÃO.

e seja p = P(sucesso), considerando que aqui "sucesso" significa respoSta SIM à questão formulada. \

• Logo , se Sn = L Xi> S~ tem distribuição binomial com parâmetros

1=1

n e p, e o problema consiste em estimar p. É claro que Sn representa o número de pessoas na amostra que responderam SIM; portanto, Um possível estimador de p é ,L .....

Ir"' " . /' L X ..... S~ /"' 1 ' número de SIM

\ p~ - ~ ~

n n número de indivíduos' (9.1)

Então, se Sn = k, isto é, observamos o valor k da v.a. Sn , obtemos

p =!!.. como uma estimatÍl'a de p. Observe que p, dado por (9.1), é Uma n

v.a., ao passo que k/n é um número, ou seja, um valor da v.a. No exemplo acima, uma estimativa é 0,6 ou 60%.

O eslimadbr p, defin ido acima, teve sua distribuição amostrai estu­dada na seção 8.9. De lá podemos concluir que p tem distribuição apro_ ximadamente nonnal, Com parâmetros:

Erp) ~ p ,

Va,rp) ~ p(1 - p)/n. (9.2)

(9.3)

Estes resultados nos ajudam a avaliar as qualidades desse estimador. Por exemplo, o resultado (9 .2) indica que o estimador p, em média, "acer­ta" p. Dizemos que p é um estimador não-viesado (não-viciado) de p. Ou, ainda, o resultado (9.3) indica que para amostras "grandes" a\liferença entre íi e p tende a ser pequena, pois para n -+ 00, Var@)-+O. Neste caso, dizemos que íi é um estimador cOflsÍJlente de p. Observe que essas pro­priedades são válidas para o estimador no conjunto de todas as amostras; pode acontecer que, para uma dada amostra, íi esteja bem distante de p.

Em algumas situações, podemos ter mais de um estimador para um mesmo parâmetro, e desejamos saber qual dos dois é "melhor". o-. julgamento pode ser feito , analisando as propriedades desses estimado­res. No exemplo abaixo, procuraremos mostrar como as propriedades de um estimador podem ajudar-nos a analisá-lo.

210

(

. Exemplo 9.2. Desejamos comprar um rifle e, .após algumas seleçõe~, nos 4 al ternativas que chamaremos de nfles A, B, C e D. F01-taram- .. r:

res ·t'do fazer um teste com cada rifle. Esse teste conSIstiU em LIxar nosperOll 1

. \5' R 'fi num cavalete mirar o centro do alvo e dIsparar tiros. epe-

n e, ~'I d o. o procedimento para cada rifle e os resultados estao I ustra os \lU-se na Figura 9.1. . .. P

Para analisar qual a melhor arma, podemos fix~~ cntenos; or pio segundo o critério de "em média acertar o alvo , escolhenamos

excm , . d' ." ( rtn s A e C Segundo o critério de "nào ser mUIto Isperslvo va-

asa a . A C' la .. cia pequena), a escolha recairia nas annas C e D. arma .e aque - . &a_ ue reúne as duas propriedades e, segu~do este~ cntenos, se -q rma Mas se outro critério fosse IOtroduZldo (por exemplo, pre-lhora . , - ~ d

) talvez não fosse a arma mais interessante. As vezes. a soluça0 eve ~ , 'dd ser um compromisso entre todas as pr.opne a . es. . .

Este exemplo também nos permite mtroduzl~ ~s conceitos de acura­. recisão. Chamaremos de precisão à prOXImIdade de cada obser-

claep . . 'dd d d be vação de sua própria média. Acurácia ffi:de.a proXlffil a e e ca a o s r-"ação ao valor-alvo que se procura atmglr.

(A)

(C)

• •

J{js . '8. x x

~----:x

,------:-. --------,

(B)

(D) L-____ ---'

F· 9.1. Resultados de /5 liros dados por 4 rifles Ig.

211

Page 113: Probabilidade e estatística

Desse modo, podemos descrever cada arma da seguinte maneira:

Arma A: Arma B: Arma C: Anna D:

Não-viesada, baixa precisão e pouco acurada. Viesada, baixa precisão e pouco acurada. Não-viesada, boa precisão e muito acurada. Viesada , alta precisão e pouco acurada. \

Do exposto acima, notamos a importância de se definir proprieda_ des desejáveis para estirnadores. Trataremos deste assunto na próxima seção. Outro problema que aparece em estimação é detenninar Um es_ timador. Nem sempre temos uma sugestão para um estimador, como no caso da proporção no exemplo 9.1. Aqui , também, precisamos de métodos para encontrar estimadores; nas seções 9.3 e 9.4 tratacemos de dois destes métodos: mínimos quadrados e máxima verossimilhança, res_ pectivamente.

9.2. PROPRIEDADES DE ESTIMA DORES

Inicialmente vejamos a questão da estimação de um modo mais geral. Consideremos uma amostra (X I , X 2, "', Xn) de uma v.a. que des­creve uma característica de interesse de uma população. Seja O um pa_ râmetro que desejamos estimar, como por exemplo a média Jl = E(X) ou a variância (J2 = Var(X).

Definição. Um estimador do parâmetro (J é qualquer função das observações XI> X2 , ... , Xn.

Notemos que, segundo esta definição, um estimador é o que cha­mamos antes de estatística.

O problema da estimação é, então, detennimu. uma função T = = g(X I , X 2, ... , Xn) que seja " próxima" de 0, segundo algum critério.

O primeiro critério que iremos abordar é o de não-viesado.

Definição. O estimador T é dito um estimador não-l'iesado de (J se

E(7) ~ a, (9 .4)

para todo a. ~

Note que a esperança de T é calculada sobre a distribuição amC?,stral de T, como foi apresentado no Capítulo 8.

Exemplo 9.3. De apresentações anteriores, vimos que p é um es­timador não-viesado de p e que X é um estimador não-viesado de Il. Estes

212

(

. stimadores nada mais são do que a própria definição do parâmetro, ~e . . ' t' s aplicada à amostra. Com esse mesmo raClOClOlO, vemos que o es 1-

:dor para a variância de uma população finita com N elementos,

a' ~ ~ t (X, - ~)', (9.5) N,

seria

ii' ~ ~t(X, - X)', n ,

(9.6)

onde n é o tamanho da amostra. Mostremos que o estimador (9.6) é vie­sado. Escrevamos

" " I (X,-X)'~ I (X,-~+~-X)'~ 1" 1 i =1

~ t (X, - ~)' + 2 " " I (X,-~) Ú'-X) + I Ú'-X)'. ,. , i z 1 1= I

" Como 11 - .'f é uma constante e L (Xi - 11) = n(X - 1-l), vem que i = 1

" " I (X,- X)'~ I (X, -~)' - n(X-~)'. 1"' 1 1=1

Portanto,

E(ii') ~ - I E(X, - ~)' - n E(X - ~)' ~ 1 {" - } ~ n i= I

= ~ {n(12 _ n (J2} = ~(12, (9.7) n n n , ,

,-, (X)-a ja que E(X,- ~)' ~ Var(X,)~ a e E(X - ~) ~ Vor ~n '

Segue-se que â2 é viesado, para (12. Ê fácil ver como obter um esti­

mador nào-viesado para 0'2, a partir de (9.7): basta considerar ~: I â2,

pois de (9.7) segue-se que E(n: ](2) =(12.

213

Page 114: Probabilidade e estatística

Logo, se

S' ~ _ 1_ t (X, - X)', fI-l; " 1 (9.8)

então E(S2) = (12 e S2 é um estimador não.viesado para (12. \

Esta" é a razão de se usar fi - I , em vez de n, como denominador da variância da amostra. No Capítulo 2, usamos sempre 11 como denomina. dor porque nào havia preocupação em saber se estávamos trabalhando com população ou amostra. Daqui por diante, sempre será feita a distinção.

Vimos que o estimador p é tal que Var@)----oO, quando fi ----o 00; cha. mamo·lo de consislente devido a este fato e a (9.4).

O conceito de consistência é um pouco mais difici l de se definir Vejamos um exemplo para ilustrar. Considere a média X calculada par~ diversos tamanhos de amostras; obtemos, na realidade , uma seqüência de estimadores [XII' fi = 1,2, ... }. A medida que fi cresce, a distribuiçào de XII torna-se mais concentrada ao redor de 11. Veja a Figura 8.3 do Ca­pítulo 8.

Dizemos que :X"J- é uma seqüência consistente de estimadores de il. Formalmente, uma seqüência ·1 T,, ] de estimadores de um parâmet ro

O é consistel/le se, para todo l: > O,

P{ I Til - 0I >c: ....... 0, tI----o 00. (9.9)

Não é muito dificil ver que esta condição está sa tisfeita para lX~:. Ao invés de utilizarmos (9.9) para verificar se uma seqüência de estio

madores é consistente, podemos usar o seguinte falo: : T,, : é uma seqüên­cia consistente de eSlimadores de O se

(ii) lim Va,(T.) ~ O. (9 .10) .-. Se Til é não-viesado , a primeira condição estará. obviamente , satisfeita. Usando este resultado , vemos que íf c XII são estimadores consistentes de p e Jl, respectivamente. nos exemplos 9.1 e 9.3.

Exemplo 9.4. Vimos que 52 , dado por (9.8), é mlo-viesado para.n~. É posslvel demonstrar, no caso que Xl' ... , XII são observações de uma , NÚl, UI), que

(S') 2a' VaI" =--. fi - I

(9.11 )

21'

• ,

I

lim Var(S2) = O e S2 é consistente para (12. Segundo o exposto Logo, ~_ .., , l]'é Ihor escrever S.'. acima, ta vez osse me

Exemplo 9.5. Vimos que E(âl) = (12(1 - 1/11). de modo que liJ11 E(-q2) = q2. Também , de (9.7) e (9.11), temos

.-~ I (n - I) ,(n - I)' ~ Var(Õ"2) = 112 Var«tI - I)S2)= -n- Var(S)= -n- ti _ I ' (?12)

ue mostra que Var(Ô"2) -4 O quando n ----o 00, logo , o q , &2 = â; também é

consistente para (1 .

De (9.12), também obtemos que

(n - I)' 2a' 2a'

Var(â2) = - n- . -,, ---1 < -,,--- 1 ~ Va,(S'). (9 .13)

d .A· .... 1 scria um Portanto , usando-se somente o critério e vananCla , (1 "melhor" estimador de (12. . . .._

Vejamos agora um critério que nos penntte Julgar entre dOIS esll madores para um mesmo parâmetro.

Definição. Se Te T' são dois estimadores não-viesados de um mes­

mo parâmetro O, e ainda

Va,(7) < Va,(T'),

então, T é dito mais eftcienle do que T.

(9.14)

E I 9 6 Consideremos uma população normal X, com parã-xempo.. I-P metros 11 e 0- 2• Queremos estimar a mediana desta popu aç~o. or ser uma distribuição simétrica, sabemos que 11 = Md(X). De.fintn~o como X a média e como md a mediana da amostra , qual dos dOIS estlmadores é o ·'melhor" para a mediana populacional?

Pelo que vimos no capílUlo anterior,

x+, a:) Pode-se demonstrar que a distribuiçào da mediana

uma distribuição próxima á

mtl: N (Md(x), ; . ~;}

(9.15)

amostrai tem

(9.16)

215

Page 115: Probabilidade e estatística

I I

Assim, vemos que os dois estimadores são não-viesados eficiente, pois '

mas X é mais

Var(md)

Var(>.) " = - > 1. 2

AS,si,m , para estimar-se a mediana desta populaça"o, e' p , ' I ' relenve usa r a media da amostra como estimador.

Para precisar o conceito de estimador acurado discutido na " I

. . '. ' seçao an erlor , vamos introduzir o conceito de erro quadrático méd'

Ch ~

amemos de e = T- O

o erro amostrai ,que cometemos ao estimar o parâmetro () da di stribuição da v.a . X atraves do est imado r T = g(X I , X 2, .•• , XJ, baseado na amo tra (X I , X2 , ••. ,X~). 5-

Definição. Chama-se de erro quadrático médio (EQM) o valor

EQM(T) ~ E(e') ~ E(T - O)',

Desta última relação temos

EQM(TJ ~ E(T - O)' ~ E(T - E(T) + E(T) - O)' ~

(9,17)

~ E(T - E(T)' + 2E[(T - E(T) (E(T) - O») + E(E(T) - O)' ~ ~ E(T - E(T) ' + E(E(T) - O)',

já que E(7) - O é constante e E(T - E(7)) - O. Assim, podemos escrever

EQM(T) ~ Var(T) + Vies'(T) ; (9,18)

onde Viés = E(T) - O indica a diferença entre a média do estimador e o parâmetro que se quer estimar. A Figura 9.2 ilustra estas medidas, usando o caso das armas discutido no exemplo 9.2.

Fig. 9.2. Representação gráfica da relação EQM(T) = Var(T) + Viés1(n.

216

(

. Assim, para os conceitos discutidos na seção anterior, um estima­reciso tem variância pequena, mas pode ter EQM grande. Por outro

dor P . d d ' - " d t '" c' a q 'o d

Um estima or acura o e nao-vlesa o e em vanan 1 pe uena, la 0 , que implica EQM pequeno (ver 9.18).

PROBLEMAS

Obtenha a distribuição de p quando p = 0.2 e n = 5. Depois calcule E(jr) e Var(p). t.

l. Encontre um limite superior para Var@)quandon=I O. 25. 100 e 400. Faça o gráfico

em cada caso.

J. Suponha um ex~rimcnto c~nsisti ndo de n provas de Bernoulli. Seja X o numero de

sucessos. e considere os estlmadores :

X {

I ~, primeira prova resulta sucesso. (b) - ~ ,

(o) PI = -;; Pl 0, caso contrário.

Determine a esperança e a variância de cada estimador. Por que 'FI- não é um "bom"

estimador?

4. Verifique se Pl c Pl do problema 3 são consistentes.

S. Têm-s<: duas fórmulas distintas para estimar um parâmetro populacional O. Para aju? dar a escolher o melhor. simulou-se uma situação onde 0= 100. Desta popula.Çao retiraram-se 1.000 amostras de \O unidades cada uma, e aplicaram-se ambas as fór­mulas ãs \O unidades de cada amostra. Desse modo obtêm-se 1.000 valores para a primeira fórmula I L e outros 1.000 valores para a segunda fórmula /,. cujos estudos descrit ivos estão resumidos abaixo. Qual das duas fórmulas você acha mais conve­

niente para estimar O. Por quê?

Fórmula f

11 = 102 Var(t l) = 5 Mediana = 100 Moda = 98

Fórmula 2

I l = 100 Vadl :) = 10 Mediana = 100 Moda = 100

9,3, ESTIMADORE,S DE MíNIMOS QUADRADOS

Neste capítulo e em capítulos anteriores, temos usado certos esti­madores de parâmetros populacionais, comO a média e a variância , sim­plesmente tentando imitar na amostra o que acontece na população. Foi assim que construímos X e S 2.

217

Page 116: Probabilidade e estatística

,

Todavia, seria .interessante que tivéssemos procedimentos ou . todos para _obt~r estlmadores. Felizmente, a lguns destes métodos exis me. e, nesta seç~o, Iremos a.pre~entar um deles: o método de minimos tem dos, que fOI um dos primeiros a serem ut ilizados Por Gauss em q'fldra­com problemas de Astronomia e Física ' conexão

~ejamo~ o procedimento a través de um exemplo simples. Um genhclfO está estudando a resistência Y de a fib f _ cn· d ' ~ um I ra em unçao d .tam~tro. X , e descobriu que as variáveis são aproximadamente e seu

clonals, Isto é, elas obedecem à relação propor_

y" OX,

onde? é o coeficiente de proporcionalidade. Agora, ele deseja esti ~ parametr~ a, baseado numa amostra de 5 unidades que, subm t~ar a mensuraçao e testes, produziram os resultados: e I as

X: 1,2

Y: 3,9

1,5

4,7 I~ 5,l!'

2,0

5,8

2,6

7,0

x~ 18 ' , , f~ 5,4.

Ins~cionando os ~esultados, concluiu que ô= 3 parece ser um v _ IOfir razoavel. Como ver!fcar a qualidade desta estimativa? Podemos a fi lcar como o modelo r 3X _ ve· . . = preve os valores da amostra e ual a nl tude ~a~ dlscr:pància~ entre os valores observados Y e e~imad ma~. Esta anahse esta resumida no quadro abaixo. os .

Analise do Modelo í' ~ 3X

X Y 3X Y ~ 3X (Y~ 3X)'

1,2 3,9 3,6 0 ,3 0,09 1,5 4,7 4,5 0,2 0,04 1,7 5,6 5,1 0,5 0,25 2,0 5,8 6,0 ~0,2 0,04 2,6 7,0 7,8 0,8 0,64

Total 1,06

Os valores da .coluna (Y - 3X) medem a inadequação do modelo ~ara cada o~servaçao da amostra, enquanto o valor I:(Y - 3X)2 - I 06 e um~ tentativa de medir o erro total da amostra. Como em sit~çÔes antenores, elevou.se ao quadrado para evitar o problema do sinal. Quan­to menor for o erro total, melhor será a estimativa, Isso nos'suger~ pro-

218

cU ·ar a estimativa que torne mínima essa soma de quadrados. Mate­maticamente, o problema passa a ser o de encontrar o valor de O que

minimiza a função

S(9) ~ l:(Y ~ 9X)'.

o min'imo da função é obtido derivando-a em relação a O, e iguala0· do o resultado a zero (Ver Métodos Quantitarivos , vol. I) , o que irá re·

sultar em: dS -_ ~ I: (Y ~ eX) (~2X) ~ o. de

Resolvendo a equação obtemos _ l:XY e~ " I:X' .

Usando os dados acima encontramoS li = 2,94, que é o valor que tor­na mínima a função 8(0), e o valor mínimo da função será 8(2 ,94) = 0,94, Observe que este valor é realmente menor do que aquele observado para

fi = 3, ou seja, 1,06, Como foi dito , não esperávamos uma relação perfeita entre as duas

variáveis, já que o diâmetro da fibra não é o único responsável pela re· slStência; outros fatores não controlados afetam o resultado. Deste modo, duas amostras de mesmo diâmetro X, submetidas a teste, não teriam obrigatoriamente que apre~ntar o mesmo , resultado Y, mas valores em torno do esperado ex. Este fato nos sugere reescrever a relação (9.19)

do seguinte modo:

Y = OX + a, (9.19)

onde a é uma variável aleatória com média zero, representando as pos· siveis variações da variável de interesse em torno do valor esperado OX. O parãmetro é escolhido de modo a tornar mínima a soma dos quadra-

dos dos erros. , l:a' ~ I:(Y ~ OX)'.

O modelo acima pode ser generalizado, de modo a envolver outras

funções do parâmetro 0, resultando no modelo:

Y ~ f(X; e) + a,

e devemos procurar o valor de O que minimize a função

S(O) ~ l:a' ~ I: (Y ~ f(X; e»'

(9.20)

(9.21)

219

Page 117: Probabilidade e estatística

A solução Ô é chamada de estimador de mínimos quadrados (EMQ) de O.

Exemplo 9.7. Suponha o modelo Yt = f(t) + aI' onde f(l) = IX + qr, ou seja, a função detenninística é uma reta. Obtemos um modelo de re. gressão (ou de tendência) linear simples.

Neste caso, a soma dos \ uadrados dos erros é

" " S("P) ~ L a~ ~ L (y, -, - PI)'. 1=1 1=1

Derivando em relação a o: e a {3, temos (ver, desta mesma coleção, Cálculo - funções de V árias Variáveis)

as " ~ L· (y, - fi - iJl) (- 2) ~ o, a, 'o,

as " ~ L (y, - â - iJl)( - 21) ~ o, ap ,- , ,

donde os estimadores íi e TI satisfazem

" " L y, ~ nâ + iJ L I , 1= 1 'o,

" " " L Iy, ~ â L I + iJ L I'. (9.22)

,., ,o, ,., ,

Resolvendo (9.22), obtemos os EMQ ~ e íJ dos parâmetros IX e fi do modelo.

Suponha que os dados sejam como na tabela abaixo, representando as vendas (em milhares de unidades) de uma empresa durante 10 meses.

220

2 3 4 5 6 7 8 9 10

y, 5,0 6,7 6,0 8,7 6,2 8,6 11 ,0 11 ,9 10,6 10,8

Então , (9.22) fica :

85 ,5 ~ lOii + 55fi 529,4 ~ 55â + 385iJ,

que resolvida resulta â ~ 4,6 fi ~ 0,72,

de modo que os futuros

equação

d ser Previstos através da valores de Y I po em

:VI = 4,6 + O,72l.

PROBLEMAS

ra o ual uma amostra de 5 elementos 6 Estamos estudando o modelo y,=I-'+.a" pa ~ . oduziu os seguintes valores para Yr' 3, 5, 6, 8, . áfí

pr I:{y i para 1-'=6 7 8 9, lO, e faça o gr 100 (a) Calcule os valores de S{}.I) =, '-\" do .. q" pa;~ t~mar mínimo S{}.I)?

) \ ~oa" Qua ovaor ... ,..J.. de S{}.I em re açO',.... . d ltado a zero voce enoontrara S''') lação a I-' e Igualan o o resu ,

(b) Derivando IJ-" em re : ontre a estimativa para I-' e compare com o EMQ 'ji.. Usando os da~os aCima enc a resposta do item anteflor.

7. '" . ~ ' ndioe de inflação (y) de 1967 a 1979: dad abaixo re,erem·se ao 1 o.

Ano (t) 1967 1969 1971 1973 1975 1977 1979

Inflação (y) 128 192 277 37J 613 1236 2639

(a) Faça o gráfico de y em relação a l. _

(b) Encontre as estimativas para o modelo j{1) - (l + PI. I . . flação em 1981?

(c) Qua sena alO . . . d o modelo linear neste caso? (ti) Você teria alguma restnçao em a otar

. d d mínimos quadrados para o mo, I 9 7 determinamos os estima ores e 8., N o, exc~Pflo,) +'a' onde ftl) "" (l + PI. Suponha agora que

co Yr - r' ft') = (I: + px" I = I , ... ,n,

de uma variável fixa (não,aleat6ria) x. Obtenha ou seja, temos n valores x I' ••• , x. os EMQ de (l e P para este modelo.

bl 8 para os dados a seguir: 9. Aplique os resultados do pro ema

2 3 4 5 6 7 8 9 \O

4,0 3,8 4,5 5, ' 6,5 6,0 ',5 ',8 ' ,6 2,5

69.8 71,0 70,6 x, 68,7 69,3 67,0 66,9 67,6 68,9

" 66,8

221

Page 118: Probabilidade e estatística

9.4 . ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA

~u~ro método de estimação bastante em re . . . de max/ma verossimilhança (MV) que fi p gado .utlllza o princípio colher aquele valor do parâmetr~ O u: Irma. o. seguinte: devemos eg_ obter a amostra observada na d q m.axlmlla a probabilidade de d ' ar em partIcular em q 1 a mesma aparecem. ue os e ementos

Exemplo 9.8. Suponha que te cesso) = p O < p < J e X _' mos 11 provas de Bernoulli com P(su . ' - numero de sucessos De -

estlrnador aquele valor de t . vemos tomar Corno vável de ocorrer. p que orna a amostra observada a mais pro-

Su~nba, por exemplo, que n = 3 e obtem . A funçao de verossimilhança é os 2 sucessos e I fracasso.

L(P) = P(2 sucessos e 1 fracasso) = p2(! _ p).

Maximizando esta função obtemos

L"(P) ~ 2p(l - p) - p' ~ 0= p(2 - 3p) ~ O.

~o que seguem p = O ou p == 2/3. É C "I p = 2/3, que é o estimador de m' . aCI ver ~u~ o ponto de máximo é

De modo geral o EMV d aXI,:a verossimilhança (EMV) de p. sucessos em n prov'as é o par~metro p de uma binorninal, com X

~ X p~ ­

n'

anteflormente no exemplo 9 I

(9.23)

que é o estimador usado Para se chegar a

neste caso é (9.23), observe que a função de verossimilhança

L(P) ~ p' (l - pr', e que o máximo desta função ocorre (por quê?). Portanto, no mesmo ponto que t(p) = log L(P)

fip) ~ x logp + (n - x) log (I _ p),

e derivando

f '(P) _ .:õ. n - x - ---~ O p n -p ,

de onde obtemos fi =~. n

222

r

PflOBLEMAS

10. Na função de verossimilhança L(P) da binomial acima, suponha que n = 5 e x = 3. Construa o gráfico da função para os possíveis valores de p = 0, 1(5. 2(5, 3(5,4/5, 1. e verifique que o proximo ocorre realmente para p = 3/5.

11 . Observa-se uma seqüência de ensaios de Bernoulli, independentes. com parâmetro p(seçào 5.6.2), até a ocorréncia do primeiro sucesso. Se X indica o número de ensaios

necessários: (a) Mostre que P(X = x) = {I - py - Ip (distribuição geométrica). (b) Repetiu-se esse experimento n vezes, e em cada um deles o número de ensaios ne­

cessários foram XJ , X2' •..• x •. Encontre o EMV para p. (c) Usando-se uma moeda. repetiu-se esse experimento 5 vezeS. e o número de ensaios

necessários até a ocorrência da primeira coroa foi 2, 3, I , 4, 1, respectivamente. Qual a estimativa de MV para p = probabilidade de ocorrência de coroa nesta moeda? Existiria outra maneira de estimar p?

12. Uma v.a. X tem densidade ftx). Seja XI' ... , X. uma amostra de X , e Xl' ... , X. os valores amostrais. Definamos a Junção de verossimilhança L como

L(X p ..• , X.i B) = J(X l ; e) -J(X 1 ; O) •. .IX.; e), onde a disuibuição de X depende do parâmetro 9. O estimador de máxima verossi­milhança de e, baseado na amostra Xl' .. . , X., é o valor de Ô de O que maximiza L. considerada como uma função de O para uma dada amostra Xl' ... , X • . Suponha que a v.a. T tenha dis\ribuição

f{ {!l ·e- ·', I ~ O

I) = O , I < O.

Obtenha o EM V de !l.

13. Suponha que X seja uma v.a. com distribuição normal, de média /l e variância I. Obte­

nha o EMV de /l.

9 .5. INTERVALOS DE CONFIANÇA

Até agora, todos os estimadores apresentados foram estimadores pon· tuais, isto é, especificam um único valor para o estimador. Este procedi­mento não permite julgar qual a possível magnitude do erro que estamos cometendo. Daí surge a idéia de construir os intervalos de confiança, que são ' Qasead~ na distribuição amostrai do estimador pontual.

Exemplo 9.9. A estimativa pontual da média populacional 11 será fe ita por um valor x. Qualquer que seja esta amostra, teremos um erro que será x _ IJ.. De acordo com o Teorema Limite Central, teremos

e ~ (X - ~): N(O, a}), (9.24)

223

Page 119: Probabilidade e estatística

com u2 - a 21 D . :f - n. aqUI podemos d t . ter eJ;TOS de determinada "edenmnar qual a probabilidade de Co

magm u e. Pqr exemplo, n-

P(lel < 1,96 a,) ~ 095 , ou

. P(I X - ~ 1 < 1,96 a,) ~ 0,95,

que e equivalente a

P(~ - 1,96 a, < X < ~ + 196 _) - O Esta afirmação probabT f ' u'" - ,95. (9.25)

I 15 Ica po~e ser reescrita do seguinte d P(X _ mo o:

- 1,96 a, < ~ < X + 1,96 a-) ~ 095 Convém lemb ~ x > . (9.26)

rar que J1. nao' -, expressão (9.26) deve ser inte;p~:~~ve~ aleató~ia mas um parâmetro, e a dos os in,tervalos da forma X + I 9: _0 se~umte modo: construídos to­lro ~ (veJ~ a Figura 9.3). -, u",,95% deles conterão o parâme_

a Figura 9.3, estào esquematizad . cada, de um intervalo de confiança (IC~S o funcIOnamento e o sign ifi. nhe<:Jdo. para f.J., com)' = 0,95 e a 2 co-

Populaçeo

amostra

amOstra

"

amOstra r---~

" Xk, ± 1.960;

Il - 1.960;

, , , _~:=::T - I __ )(k--""':

1 I

)1 + 1.960.,

Fig. 9.3. . . 95% dos intervalos contêm I!

Significado de um IC para 11, Com y = 0,95 e (J2 conhecido

224

r

--

Sorteada uma amostra e encontrada sua média io , e admitindo co­

nheCidO ai, podemos construir o intervalo

Xo ± 1,96 ai' (9.27)

Este intervalo pode ou nào conter o parâmetro 11 , mas pelo exposto aci­

ma temoS 95% de confiança de que contenha. Desse modo. se T é um estimador de O, e conhecida a distribuição

amostraI de T, sempre será possível achar dois valores tI e '2 . tal que

(9.28)

a probabiliqade interpretada como em (9.26), e y um valor fixado, O < y < I. Para uma dada amostra, leremos dois valores fixos para 11 e 12 ' e o in­tervalo de confiança para O com nível de confiança y será indicado do

seguinte modo:

IC(e: y) = ]1,,1,[. (9.29)

Exemplo 9.10. Uma máquina enche pacotes de café com uma va­riãncia igual a 100 g2. Ela estava regulada para enchê-los com 500 g, em média. Agora ela se desregulou. e queremos saber qual a nova mé­dia 11. Uma amostra de 25 pacotes apresentou uma média igual a 485 g. Vamos construir um . intervalo de 95% de confiança para 11· De (9.27),

teremos

IC(W 95%) ~ 485 ± 1,96 x 2 ~ 1481 ,489[,

"' o' 10 2 Ja que ai = fi = 5 = g.

Exemplo 9./1. Vamos obter um intervalo de confiança para p do exemplo 9.1. Sabemos que se X=número de sucessoS nas n provas, então X tem uma distribuição aproximadamente normal , com média p. = np e variância (12 = npq , q = 1 - p. Conseqüentemente,

ou ainda,

_ X - np. Z _ =' N(O, I) ,

"npq

X - -p n p-p

Z = '--'J'-=~ - =: N(O, I). pq/n v pq/n

(9.30)

225

Page 120: Probabilidade e estatística

Assim, se y= 0,95 , temos, consultando a Tábua 111. que

p I ~ I ,96 :<::;; Z :<::;; 1,96) = 0,95 ,'

ou seja ,

P { - 1,96 " j;q; " 1,96} ~ 0,95.

Portanto, com probabilidade 095 t , , emos que

-1 ,96!fQ "p -p" I 96ftQ n "". ,

" do que segue

p - 1,96 ft:<::;;p:<::;;p + 1.96 ft Como nào conhecemos p,

ft

q I usamos o fato de que pq :<::;; 1/4, logo, - ,,-- obtendo-se n foi '

- 1,96 I 96 P - --:<::;;p~p+-'-.,j4n .,j4n ' (9.3 1 )

Então ['P ~ 1,96 . ~ 1,96J ' , Fn ' p + Fn e um ilflerl'alo de confiança para p .

com ;oeficiente de confiança (c.c. ) de 95%. am um c.c. y qualquer. 0</,<1, (9.3 1) fica

~ ~ Z p ~ fL~P:<::;;P+ ...::L.

v 4n .,j4n' (9.32)

onde Z7 é obtido da Tábua 111 , ta l que P( Z - y:<::;;Z:<::;; Z r)=Y.

Exemplo 9. 12 Numa pesqu ' d . . Isa e mercado n ~ 400 pe ~ entrevistadas sobre determinado roduto ,, ' ~ ssoas oram ram a marca A . p, e 60% destas pessoas preferi-

Aquip~ - 0 6 . I ~ , , e um mterva o de con fiança para - . P com c.c. /' = 0,95 sera

0 ,6 ± (1 ,96) I ~ 0.6 ± 0,049, J I600

226

t I

oU seja,

IC(p : 95%) ~ [0 ,551 ; 0 ,649[.

o intervalo (9.32) é chamado cOllservativo, pois se p não for igual a 1/2 e estiver próximo de zero ou de um, então, ele fornece um intervalo de amplitude desnecessariamente grande, porque· substituímos pq pelo valor máxfmo 1/4. A menos que p;= 1/2. podemos proceder como segue.

Exemplo 9.13. Suponha que em 11 = 400 provas obtemos k=80 su­cesSOS. Vamos obter um intervalo de confiança para p, com y = 0,90. Pa ra isso, usamos pq como estimador de pq , onde li = I -; p. Então. o

intervalo fica

~z/êI -z/êI p- Y -J-;~P:<::;;P+ Y-J -; ' (9.33 )

Z1 definido como em (9.32). Em nosso caso, P = 80/400 = 0,2 e íi ~ I - P ~ 0,8, e (9.33) fica

~== 0.2 ± (1,645) J(0,2)(0,8)/4OO ~ 0 ,2 ± 0,033 ,

ou seja ,

IC(p: 90%) ~ [0 ,167; 0,233].

Usando (9.32) obtemos

02 + 1,645 ~ 02 + 0041 , ~ 40 ' -' ,

ou seja,

IC(p: 90%) ~ [0,159 ; 0,241].

Observe que o primei ro intervalo tem amplitude menor que o segl:mdo. Outra observação importante é a seguinte. Usando (9.32) para um

'i fixo , os intervalos que podemos obter para amostras diferentes (de mesmo tamanho n) terão todos a mesma amplitude, dada por 2Zy/ fo.

Por outro lado. usando . (9.33), a amplitude do intervalo será

2Z~ % que é I'ariál'el de amostra para amostra. pois fi (conseqüen­

temente 4) va riará de amostra para amostra.

227

Page 121: Probabilidade e estatística

PROBLEMAS

14, CalcuJc o 'n! r f erva o de confiança para a 'd ' m, IR em cada um dos casos aba '

IXO.

Média Amos/ral Tamanho da Amostra Desvio POlirão Coeficiel/te dI'

da População Confiança

170crn 100 165cm

18' """ 95% 180 ""

'" 30 "" 85% lO"" 700,,{

IS. De 50.000 vâlvulas fabricadas por uma com . . vulas, e obtém-se a vida mêdia de 800 h panhl8 relt.ra_se uma amostra de 400 vãl

oras e o deSVIO pad 11 d 100 -(a) Qual o intervalo de confiança de 990 r . r o e horas. (o) Com que confiança dir-sc_ ' ~ pa ~ ~ VIda média da população? (c) Que tamanho deve ter a a~aos~~: a VIda mOO!8 é 800 ± 0,981

va 800± 7,841 para que scJa de 95% a confiança na estimali.

(Que suposições voei fez para responder às questões acima?)

16. Qual deve ser o tamanbo de uma amostra cu'o . da média amostraI para a média da J _ desVIO padrão é 10 para que a diferen Com coeficiente de confiança igual ~puraçao, em valor absoluto, seja menor que ~ (a) 95%.

ih) ... /. ,

17. Uma população t d ' em C$VIO padrào igual a 10

(a) Q~c tamanho deve ter uma amost . Ih) ~tlmar a média seja Superior a ,raU:d~d:~e, com probabilidade 8%, o erro em

upondo-se colhida a amostra .. se X = 50? no caso antcflor, qual o intervalo de confiança,

18. Uma amostra aleatória de 625 donas.de-casa X de detergente. Construir um intervalo de re~eJa que 70"..{ delas preferem a marca de-casa que preferem X com c.c. )' "" 90%. con lança para p = prOporção das donas.

19. En:contre os intervalos de confianÇ"d ra dOIS enfoques apontados na ~-:t ,"', P se kln = 0,3, com e.e. )' = 0,95. Utilize os

........ 0 " com " = 400.

20. Antes de uma eleição, um determinado . . . cão p de eleitores favoráveis ao scu ca ~;tldo eSla mleressado em estimar a propor. revelou que 60"/0 dos eleitores eram r:v~r~to: Uma am?stra piloto de tamanho 100

228

(o) Determine o tamanho d avelS ao c-..nd,dato em questão. . a amostra necessario

mação scJa de, no mâximo ° OI ~ra que o erro cometido na esti-(h) Se na amostra fina l Co " ~m prObabIlIdade de 80"/0. di' m tamanho Igual ao obtid )~.

os e ci tores eram favorãveis a d'd o em (a , observou·se que 55% de co " o can I ato em questã o nllança para a proporção i U 'I ' o, Construa um intervalo

p. 1I lze )' = 0,95.)

lI. Suponha que estejamos interessados em estimar a porcentagem de consumidores de um certo produto. Se uma amostra de tamanho 300 forneceu 100 indivíduos que con­somem' o dado produto, determine :

(a) O intervalo de confiança de p, com coeficiente de confiança de 95% (interprete o resultado).

(b) O tamanho da amostra para que o erro da estimativa não exceda a 0,02 unidades com probabilidade de 95% (interprete o resultado).

PROBLEMAS E COMPLEMENTOS

22. ' Um pesquisador está em dúvida sobre duas possíveis estatísticas, t e t' , para serem usadas como estimadores de um parâmetro 9. Assim, ele decidiu usar simulação para uma si tuaçào hipotética, procurando encontrar pistas que o ajudassem a decidir qual o melhor estimador. Partindo de uma população fictícia, onde O = la, ele retirou 1_000 amostras de 20 elementos, e para cada amostra calculou o valor das estatístIcas t e t'. Em seguida , construiu a distribuição de freqiiências, segundo o quadro abaixo.

Cla~ses % de t % det'

la) Verifique as propriedades de t , >-- 7 10 , e t' como cstimadores de 9. 7 >-- , 20 30

(h) Qual dos dois voei adotaria? , >-- 11 40 J5 Por quê ? 11 >-- lJ 20 25

lJ >-- " 10 ,

lJ. Da eJtptriência passada, ube-se que o desvio padrão da altura de crianças de 5." série do 1.- grau é 5em.

(a) Colhendo uma amostra de 36 dessas crianças, observou·se a média de ISO em. Qual o intervalo de confiança de 95% para a mêdia populacional?

(h) Que tamanho deve ter uma amostra pam que o intervalo 150± 0,98 tenha 95% de confiança'!

24. Um pesquisador está estudando a resistência de um determinado material sob deter­minadas condições. Ele sabe que essa variável é normalmente distribuída com desvio padrão de 2 unidades.

(a) Utilizando os valores 4,9; 1,0; 8,1 ; 4,5; 5.6; 6,8; 7,2; 5,7; 6,2 unidades, obtidos de uma amostra de tamanho 9, determine o intervalo de confiança para a resis· tência média com um coeficiente de confiança )' = 0,90.

(h) Qual o tamanho da amostra necessário para que o erro cometido, ao esti'marmos a resistência mêdia, nào seja superior a 0,01 unidades com prObabilidade 0,90?

(c) Suponha que no item (a) não fosse conhecido o desvio padrão. Como voei pro­cederia para determinar o intervalo de confiança, e que suposições voei faria para isso?

229

Page 122: Probabilidade e estatística

25. E~timc o salaria med' d 10 OS empregados de uma indústria têxtil sabendo se amostra de 100 indivíduos apre.scnlou os seguintes resultados:' - que uma

(Use i'= 0.95.)

U. m.

150.00 j--- 250.00 250,00 I-- 350,00 350.00 I-- 450,00 450,00 I-- 550,00 550.00 I-- 650.00 650,00 I-- 750,00

Freqiicm:ia

8 22 38 28 2 2

26. Suponha que as vendas de um produto satiSfaçam ao modelo

V, = ~ + {li + (I,. ;:d~ ~s da, são as variáveis aleatórias satisfazendo as suposiç~s da scç;i.o 9 3 c I

e a. o em meses. Suponha que os valores das vendas nos 10 ri~ejr~ ' o Cm_ 1979 sejam dados pelos valores da tabela do exemplo 9 7 Oh h'

P s. ~eses de o, d .. ten a as prevlSOCs

meses e novembro e dezembro de 1979 . . I ",c, . c para JU ho c agosto de 1980,

27. Nu . d ma pesquisa e mercado para estudar a preferência dll J c em relac.lo a llm determ O . d . popu açao de uma Cidade

28.

29.

'd d . ma o produto. eolheu-se uma amostra aleat6ria d- 300 ' d ~l uos, os quaiS 180 preferiam esse prodl.llo, " In i_

(a) Dctennine um intervalo de confiança 'ra a ro c -o produto em estudo. pa p porçao da populaçao que prefere

(h) Determine a probabilidade d" . ' , do verdadeiro valor em ma~s ~u: ~,~\I~aIlVa ponlllal dessll proporçào nào di fim

(fJ É possivel obter uma estimativa pontual dessa ro r ,- , ,- " verdadeiro em mais d 00005 . , P po çao qUI: n,1O difira do valor ne o que deve ser ' fei~o.· com probabilidade 0.95'.' CllSO contrário. determi_

Uma amostra de 10,000 Iten, d- om I ... a te de p,odo,O" 'o,' ' ri • d d

- do', . l"speClona a. e o "O· mo,o ~ ... ,el os por Item foi registrado na tabela abllixo. " ...

N.~ de defeitos o

Quantidade de Peças 6.000 3,200

(a) Dctt:r~nine os limites de confiança para a proporção pulaçao, com coeficiente de confiança de 98,% U

(b) Mesmo problema. usando (9.33). '" se

2 3 4

600 ISO 50

de itens 19.32).

defeituosos na pc-

Antes de uma elciçiio em que existiam 2 ealldldal A .. 400 eleitorp~ p~'olh·d . os e 8 . fOI fella uma pesquisa com

,.... ... ~ I os ao acaso e venfic 208 didato A. Construa um interval~ dt: c fiou-se que deles pretendiam votar no can-

d.. on lança. com c.c, }' = ° 95 para

e eleltore.~ favoraveis ao candidllto A "' 'po'_. ..' a porcentagem "'" ü dllS eleições.

230

30· Encontre o c.e. de um intervalo de Confiança para p, se 11 = 100, P = 0,6 e a amplitu­

de do intervalo deve ser igual a OJ)90.

31. Usando os resultados do problema 8,28, mostre que o intervalo de confiança para a diferença das médias populacionais. com variãncias conhecidas, e dado por

I C{PI - 1-'1 : y) = (X - Y) ± Z,

]2. Eslão sendo eSIudados dois processos para conservar alimentos, cuja principal va­riável de interesse é o tempo de duração dos mesmos. No processo A, o tempo X de duração segue a distribuição X ; N()I.A' 100). e no processo B o tempo Yobedece a dis­tribuição Y ; N()I.~, 100). Sorteiam-se duas amostras independentes: a de A , com 16 laIaS. apresenlou lempo medio de duração igual a 50, c a de B, com 25 laIas, dura­

ção media igual a 60.

(a) Construa um IC para 1-' .. e 11", separadamente. {b} l'ara verificar se os dois processoS podem ter o mesmo dcsemp.:nho, deCidiu-se

construir um IC para a diferença 1-' .. - 111/ ' Caso o zero pertença ao intervalo. pode-se concluir que existe evidência de igualdade dos processos. Qual seria sua resposta '!

33. Numa pesquisa sobre a opinião dos moradores de duas cidades. A e B, com relação

a um determinado projeto, obteve-se:

34.

35.

Cidadt'

N.O de entrevistados N.Q de favoráveis

A

400 180

B

600 350

Construa um IC para a diferença de proporções de opiniões nas duas cidades. (Ver

problema 8.31.)

Seja X uma v.a. com E(X) "" 11 e Var(X) "" G1 finita. Então, para todo k > O, a seguinte

desigualdade (chamada desigl4Uldadc de Chebyshe\') e válida :

P' I X I kl Var(X) I - Jl ~ I ~ - -k-'- · (',

Usando (-), prove que X i: um est imador consistente para a média /1 de urna popu­

lação com variância 01.

Lei dos Grandes Nümeros _ Consideremos /I provas de Bernoulli com P = P(sucesso). c seja k o numero de sucessos nas n provas. A Lei dos Grandes Numeras (LGN) afirma que. para n grande, a proporção de sucessos k/n estará próxima de p'" P(succsso),

Formalmente, para todo f- > O.

P fi!!... - p I- ,} ~ p(1 -: p) . l /I nr.-

Prove (U), usando (-) do problema 34.

231

Page 123: Probabilidade e estatística

36. A LGN pode ser usada de maneira útil na seguinte si tuação. Suponha que queiramos saber quantas repetições de um experimento dc Bernoulli dcvemos realizar a fim de que k/n difira de p de menos de t. com probabilidade maior ou igual a ,. Ou seja, que. remos detenninar fI, tal que

De (U) do problema 35, temos

p{l ~-pl<e}~ I _p(I,,~P); logo. comparando temos que " deve satisfazer

I - p(1 - p) = l' _" = p(l - p) , onde ó = I - ,. "t' Ó,l

Como nào conhecemos p. usamos o fato de que p{1 - p) " 1/4: logo. basta tomar" I

tal que" = ~-, " .& Usando este resultado, resolva este problema : suponha que a proporção de fumantes de uma população e p, desconhecida. Queremos detenninar p com um erro de. no máximo, 0.05. Qual deve ser o tamanho da amostra n. a ser escolhida com reposição, se ., = 0,951

37. Se a distribuição de X depende de mais de um parâmetro. digamos O, e Ol' então. 1 L(X , • ...• x.; f}1 ' 0l)' e para maximizar L basta derivar L em relação a O, e 01 (em algumas si tuações, derivar L não cond\lz ao EMV, mas não trataremos deste caso aqui). Considere, então, X: N(p., O'l). Detennine os EM V de ~ e 0'1, considerando êt /iJp. "" O e iJf/ikl 1

"" 0, onde e"" log L.

38. Suponha que X tenha uma distribuição unifonne no intervalo (O, O), onde (} e des­conhecido. Uma amostra de n observações é escolhida. Suponha que n seja suficien­temente grande para que o Teorem"a limite Central se aplique e se possa aproximar a distribuição de % por uma normal N(p,O'1;n). Obtenha um intervalo de confiança para 0, com c.c. ,= 90";';.

39. Aplique o resultado do problema 38 para X _ 3,2 e n = 20.

40. Suponha que uma amostra de n = 100 de uma distribuição normal N(p. , /12) forneceu %=510,6. Supondo q2 conhecido e igual a 16, obtenha um intervalo de confiança para }l , com c.c. ,= 0,95.

41. Dizemos que X tem distribuiçào de Weibull. com parâmetros a: e fJ positivos, se sua densidade é

Supondo que P seja conhecido, encontre o EM V de 12, baseado numa amostra de ta­manho n.

232 •

"d Uma amostra de tamanho 11 := 600 . /.. 2) 11 e 0'1 desconhecl os. - .

1 Suponha que X . NIJA' O' , Z _ X - 11 seja aproxlmada-• • - _ \O 3 e S1 "" 1,96. Supondo que a v.a. -~ .

forneceu X - , _ O 95 (Se J1 i:: pequeno, Z não e apro-te normal obtenha um IC para 11, com c.c. l' - , .

~en damente 'normal; ver Capitulo lI). luma O Se obtiver-

. . eocial de parâmetro IX >. . h ue T tenha uma distrlbulC.ão expon _ II qual será um estlmador .o. Supon a q r T de T sabendo que E{D - 12,

mOS uma amostra I • ..... '

racional para IX?

233

Page 124: Probabilidade e estatística

CAPíTULO 10

Testes de hipóteses

-10.1. INTRODUÇÃO

Vimos no Capitulo 8 que um d Inferência Estatística é o de testa os ~.o~lemas a serem resolvidos pela afirmação sobre uma pop I _ r uma tpotesc. Isto ê, feita determinada

d . U açao, usualmente sobre •

eseJarnos saber se os resultado d um para~elro desta, tal afirmação. Muitas vezes esta!fi e u~a amostra contrariam ou não de teorias desenvolvidas no' cam ~açao ~obre a população é derivada quação ou não dessa teoria a: s~ stantlvo do conhecimento. A ade­refutada pela amostra. O ob' t' u~lverso real p~de ser verificada ou necer ferramentas que nos ~e :v~ . o test~ estatlstlco de hipótese é fo r­(estatística) através dos resulpetadmltadffi validar ou refutar uma hipôtese

os a amostra Neste capítulo, iremos introduzir o . d"

de hipótese sobre um parâmetro de proce _.mento básico de teste daremos a lguns testes um_a populaçao. No capitu lo seguinte

para comparaçao de par- d ' ções e outros testes mais usuais. ametros c duas popu la-

10.2. UM EXEMPLO

. Iremos introduzir a ideia de teste de h' , hlpotetico que partindo de , ~pot~ses at ravés de um exemplo

_ ' uma sl tuaçao SI I ' ampliado para atender à si tuaç- I d mp es, sera gradualmente ao gera o teste de hi póteses.

Exemplo /0, 1, Uma industria usa c máquinas que produz um parafu omlo , um dos componentes das r SO especla Importado d . lazer a a lgumas ex igências U d . _ , , que eve satls-. ma estas eXlgenclas ' . - . . Esses parafusos sào f b · d e a reslstenCla a tração. , . a nca os por alguns pa' , . -

tecmcas variam de país par . P ISes, e as especificaÇões americano afirma que a re:isr::~~·., or~~,e~Plo. ~ catá logo do produto la m la a traça0, de seus parafusos •

23.

J.

---

e de 145 kg, com desvio padrão de 12 kg. Já , para o produto japonês, a

média é de 155 kg e -desvio padrão, 20 kg. Um lote destes parafusos, de origem desconhecida, será leiloado

a um preço muito convidativo. Para que a indústria saiba se faz. ou não uma oferta , ela necessita saber qual o pais que produziu tais parafusos. O edital do leiloeiro afirma que, pouco antes do leilão, será divulgada a resistência média .~ de uma amostra de 2S parafusos do lote. Que regra de dedsão devem usar os responsáveis da indústria para dizer se os para­

fuSOS são de procedência americana ou japonesa? Uma resposta que ocorre imediatamente é a que conside ra como

país produtor aquele em que a média da amostra mais se aproxima da média da população. Assim, a regra de decisão seria:

'-Se XC ~ ISO (o ponto médio entre 145 e ISS), diremos que é de procedência americana; caso contrário, isto é, x> ISO, é de .

procedência japonesa."

Na Figura 10.1, ilustramos a regra de decisão.

Americano .. , 145 150

Fig. 10.1

Japonês

155

Suponha que, no dia do lei lão, fôssemos informados de que x= 148; de acordo com nossa regra de decisão, diríamos que os parafusos são de origem americana. Podemos estar enganados nesta conclusão '! Ou, em outras palavras, é possível que uma amostra de 25 parafusos de origem japonesa apresentem média x = 148? Sim, é possível. Então, para melhor entendermos a regra de decisão adotada, é interessante estudarmos os tipos de erros que podemos cometer e as respectivas probabilidades de

cometermos estç:S erros. Podemos cometer dois tipos de erros, e vamoS numerá-los apenas

para facilitar a linguagem : Erro I _ dizer que os parafusos são americanos quando na realidade

são japoneses. Isto ocorre quando uma amostra de 25 parafusos japoneses apresenta média XC inferior ou igual a ISO kg.

Erro /l _ dizer que os parafusos são japoneses quando na realidade sào americanos. Isto ocorre quando uma amostra de 25 parafusos americanos apresentam media XC superior a ISO kg .

235

Page 125: Probabilidade e estatística

P~ra facilitar mais ainda a linguagem, vamos definir duas hipóteses t bem numeradas: am-

Ho: os parafusos são de origem japonesa. Isso equivale a d"z . _ . X d I cr que a :e~tstencla e ca~a parafuso segue uma distribuição COm

media J1 = 155 e desvIo padrão (J = 20. H]: os parafusos sào de origem americana isto é a 'd'

o • I .. ." me ta popula. ClOna fi e Igual a 145 e O deSVIO padrão é a = 12.

Finalmente, vamos indicar por RC a região valores menores que 150, ou seja,

correspondente aos

RC ~ {ye Ul I y ,;; 150),

Com a~ notações indicadas a~ima. a probabilidade de cometer cada um dos dOIS erros pode ser escrita do seguin te modo:

P(erro I) = P(X E RC I Ho é verdadeira) = CI:

e P(erro If) = P(X ~ RC I H I é ve rdadeira) = [l.

be Quando Ho é verdad.eir.a. isto é, os parafusos sào de origem japonesa sa mos do Teo~em~ ~Iml.te Central que X, a média de amostras d~ tamanho 2.5, tera _ dl~tnbUlçào aproximadamente normal, com média 155 e deSVIO padrao Igual à 20;$=4, isto é,

X: N(155, 16),

Assim, se Z indica uma d' v.a. com Istribuição N(O, I ),

P(erro I) = P(X E RC I /lo é verdadeira) =

~ P(X ,;; 150IX:N(155, 16)) ~ p(z,;; 150:155) ~

~ P(Z,;; - 1,25) ~ 0,10565 ~ 10,56% ~ 0,

De ~,odo anál?g.o, .suando /lI for a alternativa verdadeira, teremos que a vanavel aleatona X, média de amostras de tamanho 25, obedecerá a

Logo,

236

X: N (145 12') '25 '

)

P(erro 11 ) = P(X ~ RC I HI é verdadeira.) =

~ P(X> 150 I X: N(145. 5, 76)) ~

150 - 145) 2.4 ~ P(Z >2,08)~0,0 1 876 ~ 1,88%~fl,

~ I

Observando estes dois resultados, notamos que , com a regra de de­cisão adotada, estaremos cometendo o erro I com maior probabilidade do que o erro 11 . De certo modo , esta regra de deci são privilegia a afirma­çãO de que os parafusos são americanos. Na Tabela 10.1, ilustramos as conseqüências que podem advir da reg.ra de decisão adotada.

TABELA 10,1

RC Origem real dos parafusos

150 x Japoneses Americanos

\ Japoneses Sem erro Erro 1I p ~ 1,88%

Decisão

L ~ Americanos Erro I Sem erro IX = 10,56%

Da Tabela 10.1, podemos observar que se os parafusos forem real­mente japoneses (primeira coluna) e a amostra tiver média superior a 150 (primeira linha) , diremos que são japoneses, e não cometeremos erro algum. Já, se a média x for inferior a 150 (segunda linha) , devemos dizer que são americanos, e estaremos cometendo um erro cuja probabilidade neste caso é de 10,56%. De modo análogo, temos uma interpretação para o caso de os parafusos serem realmente americanos (segunda coluna).

Para cada regra de decisão adotada, isto é, se escolhermos um valor Xc em vez de 150, na Tabela 10.1, apenas as probabilidades IX e # mudarão. Se Xc for escolhido menor do que 150, notaremos que IX diminuirá e fI aumentará . Assim, deve existir um ponto em que IX é igual a {J" ou seja, uma regra de decisão em que a probabilidade de errar contra japoneses é a

-. mesma de errar contra americanos. Mostre que este ponto é Xc = 148,75 , e neste caso IX = {J = 5,94%.

Do exposto acima constatamos que, escolhido um valor de Xc, po­demos achar as probabilidades IX e p de cometer cada tipo de erro. Mas lambém poderíamos proceder de modo inverso: fixar um dos erros, di­gamos IX, e encontrar a regra de decisão que irá corresponder à proba­bilidade de erro I igual a IX.

Por exemplo, fixemos a: em 5%, e vejamos qual a ' regra de decisão

correspondente:-

237

Page 126: Probabilidade e estatística

5% ~ P(erro I) ~ P(X" x, 1 X: N(155, 16)) ~ ~ P(Z < - 1,645),

mas, da transformação para a normal reduzida, sabemos que

- 1 ,645~

ou seja,

x, ~ 148,42.

Então, a regra de decisào será:

;'Sê.i f?f in~erior à 148,42 , dizemos que o lote é americano ' ca contráriO, dIzemos que é japonês." ' 50

Com esta regra, a probabilidade do erro II será:

p ~ P(erro ll) ~ P(X > 148,421 X: N(145, 5,76)) ~ ~ P(Z > 1 ,425) ~ 7,93%.

Veja ilustração na Figura 10.2.

Americano

!l = 5% Japonês

, Fig. 10.2 Distribuição amostraI de X (média de 25 ., )

d- . paraJusos para o caso de

proce enc/O americana e japonesa

238

, -'

,

, , , ,

• Fig.

AC

10.3 Regra de decisão com'" - 5% fi _ .... - 'I IxallO

Este segundo tipo de procedimento é o mais utilizado, porque, usualmente , a decisão que devemos tomar não é apenas entre duas pos~ síveis populações. Os parafusos poderiam ser produzidos por outros países além daqueles citados e, portanto, com outras características quanto à resistência media. Suponha, ainda, que interesse à indústria fazer uma proposta apenas no caso de o parafuso ser de origem japonesa. Qual a regra de decisão que deve adotar?

A hipótese que nos interessa mais de perto é:

Ho: os parafusos são de origem japonesa (p = 155 e u=20).

Caso esta não seja a hipótese verdadeira , a alternativa é muito mais ampla e pode ser expressa como:

H I : os para fusos não são de origem ja ponesa.

Aqui não podemos especificar os parâmetros, pois se não forem japoneses, podem ser de vários outros países , cada um com suas pró­prias qualificações. Alguns países podem ter técnicas mais sofisticadas de produção e, portanto , produzir com resistência média maior que 155. Outros, como no exemplo dado, com resistência média menor. A especi­ficação da hipótese alternativa depende muito do grau de informação que se tem do problema. Por exemplo, vamos admitir que a indústria japonesa para esse caso seja a mais desenvolvida, e nenhum outro país possa produzir uma resistência média superior á dela. Então , a nossa hipótese alternativa seria mais explícita:

HI

: os parafusos não são de origem japonesa (p < 155) .

Isto significa que só iremos desconfiar de Ho se x for muito menor do que 155'. Ou seja, a nossa regra de decisão deverá ser semelhante ã

239

Page 127: Probabilidade e estatística

vista anterionnente. Como os parâmetros alternativos são muitos, a melhor so luçào para construir a regra de decisão é fixar a, a probabili_ dade de erro I, ou seja, rejeitar No quando ela é verdadeira. Se fixarmos novamente IX = 5%, e neste caso a regra de decisão depende apenas das informações de R o, a regra de decisão será a mesma encontrada anterior_ mente :

"Se x for superior à 148,42, diremos que o lote é de origem japo_ nesa; caso contrário , diremos que não e de origem japonesa."

Com essa regra de decisão e com a hipótese alternativa mais ampla, nào podemos encontrar (l, pois nào temos um único parâmetro J1 como alter_ nativa. Então, aqui não podemos controlar o erro lI. As implicações desta regra de decisão estão resumidas na Figura 10.l

Admitamos agora que não exista razão alguma para acreditarmos que a resistência média dos parafusos japoneses seja maior do que a de outros países. Isto irá nos levar a duvidar de que não são japoneses, se a média observada for muito menor ou muito maior do que 155. Isto equivale à seguinte hipótese altern~tiva :

RI : não são de origem japonesa <P 'i= 155).

Assim, a regra de decisão deverá indicar dois pontos XCJ e x<2' tais que:

" Se x estiver entre XC] e x"2' diremos que os parafusos são de origem japonesa ; se x estiver fora do intervalo, diremos que não são japoneses."

Fixado IX, a probabilidade do erro I, existirão muitos valores que satis­fazem essa condição. Daremos preferência àquelas soluções x q e X"2' simétricas em relação à média. Veja Figura 10.4.

2""

, , ,

155

Fig. 10.4

• •

RC RC Origem dos parafusos

\ 147,16 162,84 Japoneses Não-Japoneses

DeciS~ Erro II

Japoneses Sem erro p~ ?

Erro I Sem erro fi. Não-Japoneses IX = 5%

Voltando ao nosso problema, e fixado a em 5%, temos

5% = P(erro I) = P(X < xq ou X> x"l l X: N( 155, 16)) = ~ P(Z < - 1,96 ou Z> 1,96),

e daqui encontramos

e ~ 162,84.

Assim, neste caso, a região de rejeição da hipótese R o é

RC ~ {x E UlI x < 147 ,16 ou x> 162,84 }.

Do apresentado acima, vemos que, dependendo do grau de infor­mação que se tem do problema, podemos ter regras de decisões. uni ?u bilaterais. Na seção seguinte, iremos dar os passos para a construçao de um teste de hipótese.

PROBLEMAS

I. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B,

iremos proceder do seguinte modo:

(i) se1cóonamos uma amostra de 100 moradores adultos da ilha, e determinamos a altura média deles;

(ii) se essa altura média for superior a 176, diremos que são descendentes de B ; caso contrario, sào descendentes de A.

241

Page 128: Probabilidade e estatística

Os parâmetros das alturas das duas civilizações são:

A : !.I"'" 175 e G=IO.

B: J.' = 177 e (1 = 10.

Definamos: Erro J di h b' - zer que os a Itantes da ilha são descendentes d B na realidade, são de A. e quando,

Erro 1I - dizer que são de A quando, na realidade, sào de 8,

(a) Qual a probabilidade do erro 11 E do erro li ? (h) Qual deve ser a ~~gra de decisão se quisennos fixar a probabilidade do Cf I

Qual a probabilidade do crro lI, nesse caso? TO em 5%1

(e) Se ~,,= 5, como ficariam as respostas de (h)? (ti) QuaiS as probabilidades do erro 11, nas condições da questão (h) se M "

E JlB= 180? E }la = 181? Coloque num gráfico os pares {JJ.a: P~~o ;~~:;.1181

~ Fazendo o teste

HO:JJ= 1.150 (a=150)oonlra H, :J.I= 1-.200 (11=200),

e n= 100, estabeleceu-se a seguinte região critica:

RC = f1.170, + co[. +-1 (a) Qual a probabilidade IX de rejeitar Ho quando verdadeira? 11:

./ (6) Qual a probabilidade fi de aceitar Ho quando Hl é ver~deira? (c) Qual deve ser a região critica para que (X = P?

I I ~ ~.

3. Nas situações abaixo, escolha como bi . te I um erro de primeira cs ...... · . . po se nu a, 11o, aquela que para você leva a

_ >",,~Ie mais Importante. Descreva Quais d ' - -----(o) O trabalho de um operador de radar é detecta . . .

algum,a coisa estranha na tela, ele deve deci~i~e;~t~:v:: 1~;;:~ea~?Uando surge - esta começando um ataque; . - tudo bem , apenas uma leve interferência

(b) Nu~ jtiri, um individuo está sendo julgado 'por um . ao JUfl são : crime. As hipóteses sujei tas

- o aeusado é inocente; - o acusado é culpado.

(ç) ~u:~S~~iS~d~~i:~r~~t~a:e d;s.cobriu um~ ~acina contra resfriado. Ele irá con.

acordo com o resultado, el:~~:~~rfa;: ~~:f~:a~i::~~id~~~c:~oaf~~ah?ã? De que pode testar são: . lpoteses

- a vacina é boa; - a vacina não (: boa.

4. Se, ao lançarmos três vezes uma mocd hipótese de que li moeda é .'ho ta" Qa, ~parecerem ,3, coroas, decidimos rejeitar a

nes . uals as probablhdades de erro I e erro li?

242

S. A variável X, custo de manutenção de um tear, pode ser considerada como tendo dis· tribuiçãO normal de média p. e desvio padrão 20 unidades. Os valores possíveis de p. podem ser 200 ou 2\0. Para verificar qual dos dois valores é o mais provilvel, usar·se·á

uma amostra de 25 teares. Defina:

(o) uma hipótese a ser testada; (b) uma regra de decisão e encontre as probabilidades dos erros de tipo I e 11.

10.3, PROCEDIMENTO GERAL DO TESTE DE HIPÓTESES

A construção de um teste de hipótese, para um parâmetro popula­cional , pode ser colocada do seguinte modo. Existe uma variável X em uma dada população. Tem-se uma hipótese sobre determinado parã­met ro O dessa população. Por exemplo, afirmamos que esse valor é um número 9

0, Colhe-se uma amostra aleatória de elementos dessa popula­

ção, e através dela deseja-se comprovar ou refutar tal hipótese . Como jà vimos anteriormente, iniciamos explicitando claramente

qual a hipótese que estamos colocando à prova, e a chamamos de hi­pórese nula. No nosso caso:

Ro : O = 00 ,

Em seguida , convém explicitar também a hipótese que serà considerada como aceitável, caso Ho seja rejeitada. A esta hipótese chamamos de hipófese alrernativa, e a sua caracterização estatística irá depender do grau de eonhecimento que se tem do problema estudado. A alternativa

mais geral seria:

H, ,O cfo 00 ,

Poderíamos ainda ter alternativas da forma:

H,:O < 00 ou Rt :9> 90 ,

dependendo das informações que o problema traz, Qualquer que seja a decisão tomada, já vimos que estamos sujeitos

a cometer erros. Para facil itar a linguagem, necessitamos das seguintes definições : .

Erro do tipo I - rejeitar: a hipótese nula quando esta é verdadeira. Cha­mamos de C( a probabilidade de cometer este erro , isto é,

C( = P(erro do tipo I) = P(rejeitar Ho I Ho é verdadeira).

243

Page 129: Probabilidade e estatística

Erro do lipo 11- nào rejeitar Ho quando Ho é fal sa. A probabilidade d cometer este erro é indicada por /1, logo, e

f1 = P(erro do tipo lI) = P(não rejeitar Ho I Ho. é falsa).

O objetivo do teste de hipótese é dizer , através de uma estatística Ô obtid de uma amostra, se a bipótese Ho e ou não aceitável. üperacionalment a isto é conseguido através de uma região RC. Cas9 o valor observado de,

es~a.tística pertença _a e~ta região, rejeitamos Hoi-caso c~!I lrário, nà~ rejeitamos Ho· Esta região é constru ída de modo que P(fJ E RC I H~ verdadeira) seja igual a 11, um número fixado. RC recebe o nome de ~e~ gi~~ cr~tica ou de, rejeição (~o~vém observar que a c,onstrução da região cntlca e sempre f cita sob a hlpOlese de Ho ser verdadeira). A delenninaçã d,a valor de p já é mais difícil , pois usualmeme não se especificam valore~ fIXOS para o ~râmetro na situação alternativa. Podemos atribuir alguns valores , escolhIdos dentro do caso alternativo , e encontrar o valor cor_ respondente de fJ; veremos esse procedimento mais adiante quando tratarmos de poder do teste.

A probabilidade rx de cometer um erro de primeira espécie é um valor arbitrário e recebe o nome de 1IÍ1,e/ de signijicância do teste. O resultado da amostra é cada vez mais significante para rejeitar Ho quanto menor for esse nível rx. Usualmente esses valores são fixados em 5% 1% ou 01 %

' o. o 'o.

10.4. PASSOS PARA COi\[STRUÇÃO DE UM TESTE DE HIPÓTESES

Vimos, nas seções anteriores , o procedimento que se deve usar para realizar um teste de hipótese, discutindo as notações técnicas. Daremos abaixo uma seqüência que pode ser usada sistematicamente para qualquer teste de hipóteses.

Primeiro Passo: Fixe qual a hipótese Ho a ser testada e qual a hipótese alternativa H I .

Segundo Passo: Use a teoria estatística e as informações disponíveis para decidi r qual estatística (estimado r) será usada para julgar a hipótese Ho. Não se esqueça de levantar as propriedades dessa estatíst ica .

Terceiro Pa.~.ÇQ: Fixe a probabilidade a de cometer um ·erro de primeira espécié, e use este valor para construir a região crítica RC. Lembre que esta região é construída para a estatística definida no segundo passo, usando os valores hipotetizados por Ho.

244 •

1

Quarto Passo: Use as informações fornecidas pela amostra para encontrar o valor da estatística que definirá a decisão.

Quinto Pass~ .: Se o v~lor da estatíst ica ob~e.rvado. ~a amostra não pertencer à região cntlca, aceIte Ho; caso contrano, reJeite.

Procuraremos, sempre que fizermos teste de hipóteses, distinguir

bem .estas cinco fases.

10.5. TESTES SO.BRE A MÉDIA DE UMA POPULAçÃO, COM VARIANCIA CONHECIDA

Vejamos agora uma aplicação dos cinco passos, definidos na seção anterior, para testar a hipótese de que a média de uma população 11 é igual a um número fixado 110. supondo--se a variância (f2 da população

conhecida.

Exemplo 10.2. Uma máquina automática de encher pacotes de café enche-os segundo uma distribuição normal, com média 11 e variância 400 g2. O valor de f1 pode ser fixado num mostrador situado numa posição um pouco inacessível dessa máquina. A máquina foi regulada para p 0= 500 g. Desejamos, de meia em meia hora, colher uma- amostra de 16 pacotes e verificar se a produção está sob controle, isto é, se J1 = 500 g ou não. Se uma dessas amostras apresentasse uma média x = 492 g, você pararia ou não a produção para verificar se o mostrador está na posição correta?

Este é um exemplo típico de teste de hipóteses.

Primeiro Passo: Indiquemos por X o peso de cada pacote ; então , X : N(p, 4(0). E as hipóteses que nos interessam são:

H,:~ ~ 500g

H,:~*5OOg,

pois a máquina pode desregular para mais ou para menos .

Segundo Passo: Pela afirmação do problema, (f2 = 400 será sempre a mesma; assim , qualquer que seja a média 11, a média X de 16 pacotes terá a distribuição

X: N (~, ~). isto é, X: N(p, 25).

245

Page 130: Probabilidade e estatística

Em particular, se Ho é verdadeira,

X: N(500 , 25).

Terceiro Passo : Vamos fixar IX = 1%; pela hipótese alternativa , vemos que a hipótese Ho deve ser rejeitada quando X por muito pequeno ou muito grande (teste bicaudal). Assim, nossa região crítica será Como a da Figura 10.5.

-r ", 0.5 %

I 500

Fig. 10.5

1- '" 0 ,5%

Da tabela da curva normal , obtemos que

i - 500 ZI = -2,58= c, 5 ... xc, = 487,1,

Logo,

i -500 Z2 = 2,58= C2 5

RC = [ielR l x< 487, 1 ou i>5 12 ,9}.

I Quarlo Passo: A infonnação pertinente da amostra e a sua média, que neste caso particular é Xo = 492.

Quinto Passo: Como io ~ RC. a nossa conclusão será não rejeitar Ho· Ou seja, o desvio da médi~ da amostra pa ra a média proposta por Ho pode ser considerado como devido apenas ao sorteio aleatório dos pacotes.

PROBLEMAS

6. Sabe-se que o consumo mensal pEr capita de um detenninado produto tem dist ribuiçãO normal. com desvio padrão 2 kg. A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capira fosse menor que 8 kg. Caso cont rario. continuaria a fa bricá-lo. Foi realizada uma

246

pesquisa de mercado. tomando-se uma amostra de 25 indivíduos. e verificou-se que

" L Xi = 180 kg, o nde XI representa o consumo mensal do i-esimo ind ividuo da amostra. I - I

(a) Construa um leste de hipótese adequado. utilizando IX = 0.05, e com base na amostra colhida detennine a decisão a ser tomada pela diretoria.

(b) Qual a probabilidade fi de se tomar uma decisão errada se. na realidade, a mêdia populacional ê I' = 7.8 kg?

(e) Se a diretoria tivesse fixado IX=O.Ol, a decisão seria a mesma ? (Justifique sua res­posta .)

(á) Se o desvio padrão da população fosse 4 kg. qual seria a decisão? (Jus ti fique sua resposta.)

I.J} A associação dos proprietários de industrias metalurgicas está muito preocupada com o tempo perdido com acidentes de trabalho. cuja mêdia, nos últimos tempos. tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 horas/homem, Tentou-se um programa de prevenção de acidentes e, após o mesmo. tomou-se uma amostra de 9 industrias e mediu-se o rumero de ho rasjhomens perdidas por acidente, que foi 50 horas. Você diria. ao nivel de 5%, que há evidência de melhoria?

8: O salário medio dos empregados das industrias siderurgicas é de 2.5 salários minimos. com um desvio padrão de 0,5 salários minimos. Se uma finna particular emprega 49 empregados com um salário mêdio de 2,3 salários mínimos, podemos afinnar que esta industria paga salarios inferiores, ao nível de 5%?

9. Uma companhia de cigarros anuncia que o índice mêdio de nicotina dos cigarros que fabrica apresenta-se abaixo de 23 mg por cigarro. Um labora tório realita 6 análises desse índice, obtendo : 27. 24, 21, 25. 26, 22. Sabe·se que o índice de nicotina se distribui nonnalmente. com variãncia igual a 4.86 mg2

. Pode-se aceitar. ao nível de 10"10. a a fir­mação do fabricante?

10.6. PODER DE UM TESTE

Vimos que, na construção do teste de hipóteses, procuramos con· trolar o erro do tipo I, fixando a sua probabilidade de ocorrência IX. Fi· xado esse número , a região de rejeição RC é const ruída de modo que P(RC I Ho é verdadei ra) seja igual ao número fixado IX. OU seja, admi­tindo que Ho seja verdade ira, estamos admitindo conhecidos os parâ­metros que definem a distribuição da estatística usada no teste. Já , a probabilidade do erro do tipo 11 , na maio ria dos casos, não é possível calcular, pois a hipótese alt'ernativa usualmente não especifica uma única possibilidade, mas uma familia de possibilidades alternativas. Voltemos ao exemplo da seção anterior.

247

Page 131: Probabilidade e estatística

Exemplo 10.2 (continuação). No exemplo 10.2, da máquina automá_ tica de encher café, a regra de decisão para verificar se a máquina estava ou nào produzindo sob controle foi :

"Se X. E RC, está sob controle; se i E RC', nào está".

onde RC = {i E IR I x < 487,1 ou x> 512,9} e RC é o complementar de RC em relação a R.

Esta região foi construída sob a hipótese de que Ho era verdadei ra isto é, ,l/. = 500 g ; portanto , a média X de 16 pacotes tem distribuiçã~ N(500 , 25 ).

Esta regra pennite-nos const ruir a Tabela 10.2 contendo as decisões que podemos tomar e suas Jespectivas implicações. Do exposto na ta­~l.a, vemos que o erro fJ não pode ser calculado, a menos que se espe­CIfIque um valor alternativo p~a ,l/.. Por exemplo, se a máquina se des­regular para J1 = 505, a média X de 16 pacotes sorteados dessa população terá distribuição N(505 , 25); portanto ,

fi = P(X E RC' I ~ = 505) = 94,2%.

TABELA 10.2

Valor real do parâmetro

Decisão Ho : J1 = 500 H, : ~ + 500

A máquina está sob P(RC'l Hol= 0,99

P(RC I H,) = fi controle : ,l/. = 500 depende de valor

alternativo de J1

A máquina não está P(RC lHo) = 0,01

P(RC I H,) = I - fi so b controle: J1 t 500 depende de valor

alternativo de J1

Para qualquer outro valor do parâmetro f1. . podemos encontrar o respectivo erro p para a regra de decisão fixada acima. Costuma-se de­tenninar este erro p, atribuindo alguns valores arbitrários para o parâmetro J1. A Tabela 10.3 apresenta alguns desses valores, e a Figura 10.6, a representação gráfica da determinação dessas probabilidades. Observe que quanto maior for a distância entre o valor fixado em Ho(P = 5(0) e o valor atribuído para a hipótese alternativa, maior a pro-

248

r

babilidade de tomar a decisão correta. Com estas informações podemos construir a curva (p. , I - {J) que , com exceção do valor J1 = 500, indica o comportamento do teste em tomar a decisào correta, segundo valores alternativos de J1. Esta é a curva representada na Figura 10.7, que recebe o nome de função poder do leste.

TABELA 10.3 - Probabilidade de tomar a decisão correta para um dado valor de J1 , usando a regra de decisão .

RC = !x E IR I x < 487,1 ou x> 512.9}

Verdadeiro Valor de J1 Probabilidade de Probabilidade de

À esquerda À direita decisão correta decisão incorreta (I-aou l -fi) (a ou fi)

de 500 de 500 (em %) (em %)

500 500 99 ,0 1,0

498 502 1,7 98 ,3

495 .. 505 5,8 , 94,2

492 508 16,4 83,6

490 510 28 ,1 71 ,9

487 513 49 ,0 51 ,0

485 515 66,3 34,7

480 520 92,1 7,9

475 525 99,2 0,8

Assim, definida uma hipótese Ho sobre um parâmetro B = Bo , e determinada uma região crítica RC para sua estatística ê, chamaremos de função poder do leste a· função I - fJ(B) = P(Ô E RC I O). Esta função indica a probabilidade de uma -decisão correta, segundo as diversas al­ternativas do parâmetro, e pode ser usadà para julgar-se como decidir entre dois .testes para unia mesma hipótese.

Exemplo 10.3. Se, no exemplo 10.2, a amostra colhida fosse de 100 pacotes ao invés de 16, e mantivéssemos o mesmo nível de significância o: = I %, a nova região critica seria

RC = {x E IR I x < 494,8 ou x> 505,2}.

Construindo a função poder para esse teste, obtemos a linha pontilhada da Figura 10.7. (Verifique as duas arinnações acima sobre a RC e a curva poder.)

249

Page 132: Probabilidade e estatística

« = 1%

0,5%

487 , 1

1,7%

1-1} =. 28,1%

1 - P = 66,3%

515

1 - P 5,8%

1 - I} = 49 %

Fig. 10.6

250

Probo 1 - P

" 100 -~ .------, , 90

, , \ / , , ,

100 80 , , " ~ , , " -16

70 , , , , , ,

60 , , , , ,

50 , , , , , , 40 , , , , 30

, , , , , , , 20 , , , , 10

, , , , , ,/

480 490 500 510 520 " Fig. 10.7 Poder do lesle ; n = /6 (linha cheia), fi = /00 (linha lracejada).

Observando as duas curvas na Figura 10.7 , notamos que, para todos os valores alternativos, a probabilidade de uma decisão correta é maior para amost ras de tamanho 100 do que de tamanho 16. Dizemos, neste caso, que o primeiro teste é mais sensível do que o segundo, e deve ser o preferido. Este conceito está de acordo com a intuição de que um teste com amostras maiores deve levar a resultados melhores.

PROBLEMAS

G~ Suponha que estejamos testando Ho : p = 0,5 contra H, : p 1= 0,5, e que. para uma amostra de tamanho n = la, decid imos pela região crítica RC = {O. 1, 2,8,9, lO}.

(a) Determine o nivel de significâ ncia !l.

(b) Calcule o poder do teste para p = 0,2, p = 0,4, p = 0,6 e p = 0,8. Faça um grá fico do poder como função de p'.

(e) QUilI o poder do teste para p = 0,5?

11 . Sendo X o custo de manutenção de um tear, sabe-se que X: N(p. , 4(0). Para testar a hipótese Ho : li "" 200, contra a atternativa H, : /.I > 200, será usada uma amostra de 25 teares.

(a) Fixando-se IX = 5%, encontre a correspondente RC. (b) Atribuindo-se valores arbitrários para li, esboce a função poder do teste. (e) Para que valores de /.I , o poder será maior do que 50%?

251

Page 133: Probabilidade e estatística

10.7. TESTE PARA PROPORÇÃO

Vamos usar os passos descritos na seção 10.4 para mostrar a cons_ trução do teste para proporções.

Primeiro Passo: Temos uma população, e temos uma hipôtese sobre proporção p de indivíduos portadores de uma certa característica. Es~ hipótese afirma que essa proporção é igual a um certo número Po. Então ,

Ho:p=po -

O problema fornece informações sobre a alternativa, que pode ter uma das três formas abaixo:

(i) H 1 : P =1= Po (teste bicaudal) ; (ií) H I : P > Po (teste monocaudal à direita) ;

(iii) H I : P <Po (teste monocaudaI à esquerda).

Segundo Passo: Como vimos na seção 8.9, a estatística p, a proporção da amostra, tem uma distribuição aproximadamente normal , isto é:

~. N ( p(1 - Pl) p. p, . n

Terceiro Passo: Fixado um valor a, devemos construir a região crítica para .p na suposição de que os parâmetros definidos em Ho sejam ver­dadeiros. Isto nos pennite concluir que

p: N(PO' Po(l ;po)),

e, conseqüentemente, teremos a região crítica da Figura 10.8 (no caso,

supondo H I :P =!= Po), onde P=ZIl Jpo(l :po).

O quarto e o quinto passos irão depender da am~stra , e o procedi-mento está descrito no exemplo seguinte. I

. Exemplo 10.4: Uma estação de televisão afinna que 60% dos tele­vl~ores estavam Itgados no seu programa especial da última segunda­fei ra . Uma rede competidora deseja contestar essa a finnação e decide para isso, usar uma amostra de 200 famílias. Qual deve ser ~ procedi~ menta adotado para julgar a veracidade da afirmação da estação? No

252

Po - p 'o Po + p

Fig. 10.8

passo 4 abaixo, daremos o resultado da amostra, pois é importante ficar claro que o resultado da amostra não deve influenciar a escolha da hi­pótese alternativa.

Primeiro Passo: Vamos colocar à prova a afirmação da estação, isto é,

Ho:p ~ 0,60.

Sabemos que, se esta hipótese não for verdadeira , espera-se uma pro­porção menor, nunca maior. A estação sempre divulgaria o máximo possível. Isto nos leva à hipótese alternativa

H I :p < 0.60.

Segundo Passo: A estatística a ser usada é p, a proporção de 200 famíl ias que assistiram o programa na última segunda-feira. e da teoria temos

p: N 0, p(~~pl ) Tercei'ro Passo: Fixaremos tx = 5%, e sob a suposição de que Ho seja verdadeira, a distribuição de p será:

-. (o 60 0,24) p.N " 200 '

o que mi fornecer a região crí tica (de acordo com a Figura 10.9)

RC ~ {pE R I p ,,0,544).

253

Page 134: Probabilidade e estatística

Q.

Fig. 10.9

Pois devemos achar o valor Pro tal que

PiJi ,;; p,) ~ 0,05 ,

e como p é aproximadamente normal, temos

o que implica

p(z<: p,-0,60 ) ~ 005 ~ JO,24/2oo "

p - O,6O

JO,24/2oo = - 1,645,

"

o valor 1,645 sendo obtido da normal padronizada N(O, 1). Logo,

Pc = 0,544,

correspondendo à região crítica acima.

Quarto Passo: Admitamos que , do trabalho de campo, entrevistando as 200 famílias sorteadas aleatoriamente , obtivemos 104 respostas afirma-

tivas . Isto equivale a um valor observado da proporção de Po = 104 = 0,52 200 .

Quinto Passo: Do resultado acima, vemos que 0,52 E RC; portanto , somos levados a rejeitar Ho. Isto é, há evidências de que a audiência do programa de segunda-feira não foi de 60% e sim inferior a este número.

254

PROBLEMAS

12. Uma pessoa gaba·se de adivinhar qual será o resultado do lance de uma moeda, mas é preciso que os presentes nào o perturbem com pensamentos duvidosos. Para testar tal capacidade, lançou-se uma moeda perfeita 6 vezes, e o adivinhador acertou 5. Qual

seria sua ooncl usão ?

13> O consumidor de um certo produto acusou o fabricante, dizendo que mais de 20"10 das unidades fabricadas apresentam defeito. Para confirmar sua acusação. ele usou uma' amostra de tamanho 50, onde 27"10 das peças eram defeituosas. Mostre como o fabricante poderia refutar a acusação. Utilize um nível de significância de 10~o'

14. Um fabricante garante que 90"10 dos equipamentos que fornece a uma fabrica estão de acordo com as especiricaçõcs exigidas. O exame de uma amostra de 200 peças desse equipamento revelou 25 defei tuosas. Teste a afirmativa do fabriçante , aos níveis de

5% e 1%.

IS. Os produtores de um programa de televisão pretendem modificá-lo se for assist ido regularmente por menos de um quarto dos possuidores de televisão. Uma pesquisa enc:omendada a uma empresa especializada mostrou que. de 400 famílias entrevistadas. 80 assistem ao programa regulannente. Baseado nos dados, qual deve ser a decisão

dos produtores?

10.8. NlvEL DESCRITIVO

o método de construção de teste de hipóteses, descrito nas seções anteriores, é conhecido como o procedimento clássico de teste de hipóteses . Um outro procedimento que vem sendo adotado é aquele que consiste em apresentar o nível descritivo (ou P-valor). Os passos são muito parecidos com os do""" procedimento clássico ; a principal diferença está em não construir a região critica. Ao invés, indica-se qual a probabilidade de ocorrer valores da estatística mais extremos do que o observado, sob a hipótese de H o ser verdadeira.

Exemplo 10.5. Voltemos ao exemplo anterior, onde

Ho:p ~ 0,6O.

Admitindo esta hipótese como verdadeira, temos que

~. N (o 60· 0,24) p . " 200 .

255

Page 135: Probabilidade e estatística

Colhida a amostra , obtivemos

po ~ ~~ ~ 0,52

Assim, podemos determinar qual a probabilidade de ocorrer valores de 'fi mais desfavoráveis para Ho do que esse. Aqui devemos determinar

Prp < 0,521 p ~ 0,60) ~

~ P (z < 0,52 - 0,60 J200) ~ J O,24

~ P(Z < - 2,30) ~ 0,01 ~ 1%.

Este resultado mostra que, se a audiência do programa fosse de 6()01o realmente, a probabilidade de encontrarmos uma amostra de 200 família; com 52% ou menos de audiência é de 1 %. Isso sugere que ou estamos diante de uma amostra rara de ocorrer, I em 100, ou, então, a hipótese formulada nào é correta. Neste caso, somos levados. a esta segunda opçào ou seja , os dados da amostra sugerem que a hipótese Ho deve ser rejeitada~ O procedimento está ilustrado na Figura 10.10. Observe que este pro­cedimento equivale a determinar a que nível de significância o valor observado nào seria rejeitado.

F;g. 10.10

Poderíamos, de modo anã logo, construir níveis descriti vos bilaterais, determinando qual seria o nível de significância bicaudal para que Ho não fosse rejeitada com o va lor observado da amostra. Aqui iremos só nos referir a níveis descritivos unilaterais. ,

256

Exemplo 10.6. Uma companhia de serviçOS de ônibus intermuni­cipais planejou uma nova rota para servir vários locais situados entre duas cidades importantes. Um estudo preliminar afirma que a duração das viagens será aproximadamente nonnal , com média igual a 300 minutos e desv io padrão de 30 minutos. As 10 primeiras viagens realizadas nessa nova rota apresentaram média igual a 314 minutos. Este resúltado com­prova ou não o tempo médio determinado nos estudos preliminares?

Primeiro Passo: Indicando por X a duração de cada viagem e por J1 = E(X), queremos testar

Ho : J1 = 300. H, : ~ + 300.

SegwuJo Passo: Amostras de 10 viagens terão média X: N (J1. 0"1) pe-lo Teorema Limite Central. 10

Terceiro Passo : Sob a hipótese de que Ho é verdadeira, e pelo fato de (11

ser supostamente conhecido ((1 = 30). teremos:

XN (300,~)

Quarro Passo: Como o valor observado Xo = 314, podemos encontrar a probabilidade de ocorrer amostras com valores de x mais ext remos do que este:

P(X> 314) ~ p(z > 314 - 300) ~ 9,49

~ P(Z > I ,48) ~ 0,07.

Este resultado indica que a ocorrência de amostras com médias iguais ou superiores a 314 é 7%. Nosso problema é decidi r se corresponde ou não a um evento raro . Por ser uma probabilidade não muito pequena , po­demos concluir que não existe muita evidência para rejeitar Ho. Assim, os estudos preliminares parecem estar corretos.

Se indica rmos por fi o nível descritivo ou P-valor. rejeitaremos Ho para aqueles níveis de signi ficância rx maiores do que fi. No exemplo 10.6, rejeitaremos Ho, por exemplo, se (l = 0,10, mas não a rejeita remos se rx =0,05 ou rx = 0,01 .

257

Page 136: Probabilidade e estatística

I

PROBLEMAS

16. Suponha que queiramos testar Ho: p.","SO contra H] : p.> 50, onde jJ é a média de uma normal N(p., 9(0). Extraída uma amostra de n = 36 elementos da JXIpulação, obtemos i = 52. Calcule o nlvel descritivo IX do teste.

17. Os novos operários de uma empresa são treinados a operarem uma máquina, cujo tempo X (em horas) de aprendizado é anotado, Observou-se que X segue de perto a distribuição N(25. 100). Uma nova téçnica de ensino, que deve melhorar o tempo de aprendizado, foi testada em 16 novos empregados, os quais apresentaram 20,5 horas COmo tempo médio de aprendizado. Usando o nível descritivo, você diria que a nova técnica é melhor que a anterior?

PROBLEMAS E COMPLEMENTOS

18. A precipitação pluviométrica anual numa certa região tem desvio padrão t1 = 3,1 e média desconhecida. Para os ultimas 9 anos, Foram obtidos os seguintes resultados: 30,5: 34,1; 27,9; 35,0; 26,9; 30.2; 28,3; 31,7; 25,8.

(a) Construa um teste de hipóteses para saber se a média da precipitaçào pluviomé­trica anual é maior que 30,0 unidades. Utilize um nível de sígnificância de 5%.

(b) Discuta o mesmo problema. considerando fI desconhecido. (c) Supondo que, na realidade, p. = 33,0, qual a probabilidade de tirarmos uma con­

çlusào errada?

19. Supõe-se que detenninado tipo de indústria deva ter, em média, 30 empregados. Para testar tal hipótese, colhe-se uma amostra de 50 indústrias. cujo resultado está abaixo. Caso rejeite a hipótese. dê um intervalo de confiança para a verdadeira média : (Suponha que .1'2 = 0 2.)

N.G de Empregados Freqüência

25 !-- 35 8 35 I- 45 10 45 I- 55 13 55 r- 65 10 65 I- 75 9

20. Uma fábrica de automóveis anuncia que seus carros consomem, em média, I I litros por 100 km, com desvio padrão de 0,8 litros. Uma rev is ta resolve testar esta afirmação e analisa 35 automóveis dessa marca, obtendo 11 ,3 litros por 100 km çomo consumo mêdio (considerar distribuição normal). O que a revista pode concluir sobre o anúncio da fábrica , ao nível de IO%?

258

.-

1

l I. Um dos maiores problemas de uma grande rede de vendas a varejo é veriricar a ade­quação do estoque declarado com o real existente. Decidiu-se fazer a verificação atravês de procedimentos amostrais. Indicando por X o total em unidades monetárias de cada produto em estoque, verificou·se que X : N(p.. 400). Serào sorteados 4 produtos. O total X de cada um será verificado e calçular-se-á a média X, que será a estatística de decisão. Numa determinada miaI, o valor declarado de p. é 50. Havendo falta, este parâmetro deve ser 45; no caso de excesso, 58.

(a) Defina Ho e H L•

(b) Descreva os erros do tipo I e 11. (c) Fixando IX = 10"10, qual a regra de decisão para julgar se o estoque está correto ou não? (d) Calcule o erro {3. (e) Qual o signiricado de IX e fJ neste problema?

Duas máquinas, A e R, sào usadas para empaçotar pó de cate. A experiência passada garante que o desvio padrão para ambas é de 10 g. Porém. suspeita-se de que elas têm mêdias diferentes. Para verificar, sortearam-se duas amostras. uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina R. As medias foram, TeSpeçtivamente, ,'( .. = 502,74 g e XB= 496,60 g. Com estes números, e ao nível de 5%, qual seria a con­clusào do teste Ho : p. .. = P.B? (Sugestão: use os resultados do problema 28. Capitulo 8.)

23. Na região sul da cidade, 60 entre 4úO pessoas preferem a bebida Meca-MeIa entre as demais similares. Na região norte, a proporção é de 40 entre 225 entrevistados. Baseado no resultado dessa amostra, você diria que a proporção de todos os moradores nas duas regiões é a mesma? (Veja problema 31 , Capítulo 8.)

24. Uma pesquisa mercadológica sobre fidedignidade a um produto, foi realizada em dois anos conseçutivos, com duas amostras independentes de 400 donas-de-easa em cada uma delas. A preferência pela marca em questão foi de 33% e 29%, respectivamente. Os resultados trazem algwna evidência de mudança de prefercncia?

25. Seja X uma v.a. oom distribuição binomial, com n= 15. Considere testar Ho :p~ 0,5

contra Hl :p<0,5, com RC ={O, 1,2}.

(a) Calcule a probabilidade do erro I. (b) Calcule a probabilidade do erro 11 quando p=O,3. (c) Esboçe o grarico do poder do teste.

26. O custo X de manutenção de teares segue uma distribuição nonnal, X : N(p., 4úO). Durante muito tempo, o parâmetro !J tem sido adotado como igual a 200. Suspeita-se de que este parâmetro aumentou, e só nos interessa saber se o novo parâmetro for superior a 210. Assim, queremos planejar um teste em que IX = 5% (qua.ndo p. = 200) e p= 10% (quando p. = 210).

(u) Qual deve ser o tamanho da amostra? (b) Qual a RC neste caso?

259

Page 137: Probabilidade e estatística

CAPíTULO 11

Outros tópicos

-11.1. INTRODUÇÃO

Neste capítulo abordaremos alguns tópicos importantes, que não fo­ram tratados nos capítulos anteriores. Basicamente, já apresentamos os conceitos de estimação e de teste de hipóteses em situações muito par­ticulares e, portanto, muito irreais. Por exemplo, queremos estimar a média de uma população da qual conhecemos a variância. Ora, se a média de uma população é desconhecida, é bem provável que sua variância também o seja. Assim, trataremos de alguns testes e da construção de al­guns intervalos de confiança, que são bastante úteis em situações práticas.

Como já foi amplamente discutido, a construção de testes e inter­valos de confiança depende da distribuição amostrai do estimador. Por­tanto, discutiremos na próxima seção algumas distribui9ões amostrais importantes. Como as derivações dessas distribuições exigem um instru­mental teórico acima do exigido neste livro, apenas as apresentaremos, indicando em cada caso as suposições que as fazem aparecer.

11.2. ALGUMAS DISTRIBUiÇÕES IMPORTANTES

11 .2.1. A Distribuição de Qui-Quadrado IX2)

Já vimos que uma amostra casual simples corresponde a um con­junto de variáveis aleatórias X I ' X 2' .. . , Xn , independentes entre si , e cada uma delas com distribuição igual à distribuição da população da qual a amostra foi retirada. Assim, quando estivermos estudando dis­tribuições amostrais de estimadores, de certo modo estaremos envolvi­dos com combinações de variáveis aleatórias independen tes.

260

1

Uma distribuição amostraI muito útil nestas condições é a chamada distribuição de X2 (qui-quadrado). Suponha que tenhamos v variáveis aleatórias normais, padronizadas e independentes entre si, isto é,

Zj: N(O , l) , j = 1, 2, ... , v;

então, a variável aleatória definida como a soma dos quadrados dos Z ; lerá uma distribuição de / . Ou seja, teremos o seguinte teorema, que não demonstraremos.

Teorema 11.1. Seja (Z I , Z 2, . • . , Z ..) uma amostra aleatória simples, retirada de uma distribuição normal padronizada N(O, I). Então, a va­riável

'- z' Z' Z' ­X - 1+ 2+ "' + ,. ~ (11.1 )

tem distribuição de qui-quadrado, com v graus de liberdade (g.I.) . A função densidade de probabilidade dessa variável é dada por:

f( y) = 1 y./Z- l e - "/2, y > O.

2'''r(;) (112)

o parâmetro v recebe o nome de grau de liberdade e corresponde ao nú­mero de variáveis normais independentes , ao quadrado, que estão sen­do somadas. Usa remos a notação Y : /(v) para denotar uma v.a. que tem f.d .p. (1 1.2). Pode-se mostrar que

(11.3)

A Figura 11.1 mostra os gráficos da curva qui-quadrado para v = I, v=2 e v>2.

f(y) f(y) f(y)

y y y

a) li = 1 b) li = 2 , c) li .. 3

Fig. 11.1 Gráficos da distribuição qui-quadrado

261

Page 138: Probabilidade e estatística

A distribuição X2(v) tem muitas aplicações em Estatística e, como no caso da normal , existem tabelas sobre suas probabilidades. A Tábua IV, no Apêndice, fornece os valores de Yo , tais que P(Y> yo)=p para alguns valores de p e alguns valores de v (Figura 11.2).

f(yl

y

Fig. 11.2 Valores tabelados da disTribuição X2(v)

Exemplo 11./. Na Tábua IV, Apêndice, para v= 10, observe que P(Y> 2,558)=0,99, ao passo que P(Y> 18,307)=0,05.

Exemplo 11.2. Vamos supor que estamos colhendo uma amostra de n elementos de uma população normal N(p, (12). Então, cada variável Xi terá também a mesma distribuição normal. Assim, a soma

terá distribuição x2(n), pois cada Xi - J1 tem distribuição N(O, I). Assim, u

se definionos

, I~ (X ' (1. = - ~ i - J1) , n i = 1

(11.4)

podemos verificar que

u' n" " (X - ~)' r = n -'+ = - , L (X, - ~)' = L --,-'--,,-(1 n(1 i=1 i e l (1

(11.5)

tem distribuição x2(n).

Observe que o estimado..:. (1~ é muito parecido com o estimador 82,

com J1 tomando o lugar de X. E muito importante conhecer a distribui­ção de l:(Xi - X)2 para saber a distribuição amostrai de S2. Vemos inicial­mente que

262

r

" " I (X, - ~)' = I {(X, - X) + (X - I')}' = , = 1 i =1

" = I {(X,-X)'+2(X,- X)(X- ~)+ (X-~)'} = i "' l

" " = I (X, - X)' + 2(.1' - ~) I (X, - X) + n(X - ~)' ,

e do rato de l:(Xi - X) = 0, vem

" " I (X, - ~)' = I (X, - Xl' + n(X - ~)'. (J 1.6) i '" l

Dividindo ambos os membros por 0-2 , e reescrevendo convenientemen­

te, teremos:

± (X'- ~)' = ± (X,- X)' + (.1' - ~)'. ,=1 (1 1"" 1 (1 (1

jn ( 11.7)

o primeiro membro da expressào (1 1.7) tem distribuição x2(n), como vimos no exemplo (11 .2). A última expressão do segundo membro de (11.7)

tem distribuição X2 (1), pois (X - J1)/~ tem distribuição N(Q, I). Desse F

modo, seria razoável supor que ~ (Xi ~ ry tem distribuição x2 (n -I).

A demonstração desse resultado também exige recursos fora do alcance deste livro , mas podemos resumir o resultado no seguinte teorema.

Teorema 11.2. Seja (2 1 , 2 2 , ••• , Z~) uma amostra casual simples re­tirada de uma população riormal N(O, I), então:

(i) Z tem distribuição N(O, I/n); " (ii) as variáveis Z e L (Zi - 2)2 sào independentes;

" , (iii) L (Zi - 2)2 tem distribuição x2 (n - I).

Desse teorema, observamos imediatamente que a v.a.

(n - ,I)S' = n -; I _ I _ ± (X,-X)' = ±(X,- D' = (1 (1 fi-li 1 (1)

= i (X, - p - X + ~)' = ± (X, - I' _ X - ~)' = 1:(2, - Z)' 1 (1 1(1 (1

(11.8)

263

Page 139: Probabilidade e estatística

tem distribuição X2 (n - I). A expressão (11.7) e a 'própria definição de -; garantem uma pro­

priedade muito útil do X2: a soma de duas v.a. 1.2 independentes e Um , . . X , Isto e,

x'lp) + x'(q) ~ x'1p + q). (11.9)

PROBLEMAS

I. Chamando de xliv; li) o valor de y, tal que P(ll > y I v) == a, e usando os valores da Tábua IV, calcule:

(a) ll(IO; 50%) (b) ):1( 19 , 1%)

2. De urna população X: N(50, 100) retira-se uma amostra de 10 elementos e calculam-se os valores de rr! e Sl. Encontre os valores pedidos abaixo, com a maior precisão possíveL

(a) Se P(rr; > a) = 10%, encontre o valor de a. (b) Sabendo-se que p(Sl < a) = 5% e P(Sl > b) = 5%, encontre a e b. (c) P(Sl < 163,16) = IX, encontre IX .

(á) P(S2> 100) = IX, encontre a. (e) P(Sl < 80) = IX, encontre IX .

(f) Se o valor observado de S2 foi 180, qual a probabilidade de encontrar uma amos_ tra que produza um 51 maior do que o ob~rvado?

" .2.2. A Distribuição t de Student

Esta e uma das distribuições mais importantes para a inferência sobre médias populacionais. A derivação estatística da distribuição está contida no tcorema abaixo.

Teorema 11.3. Seja Z uma v.a. N(O, I) e Y uma X2 (v), com Z e Y independentes. Então, a variável

Z I ~--

.jY;, tem disrrihuição I de Sludelll, com v graus de liberdadc.

A f.d .p. de I é dada por

~)-("+1)12 + , - 00 < I < 00. , (lU O)

264

Como no caso anterior, o parâme~ro v chama-se número de graus de li­berdade e dcpende dos graus de liberdade da v.a. do denominador. In­dicaremos uma distribuição r de Student , com v g.l., por r(v). Pode-se provar quc

E(I) ~ O e ,

Var(t) ~ - -, , - 2

e verificar que o gráfico da [d.p. aproxima-se muito da distribuição N(O, 1), quando v é grande. Esta distribuição também foi tabelada e os resultados estão na Tábua V, do Apêndice. Esta fornece valores Ie> tais que

P( - /r < ( < lJ = 1 - P (11.11)

para alguns valore$ de p, e v= 1,2, ... , 30, 35, 40,50,60, 120. Para v muito grande, pode-sc usar a distribuição N(O, 1). (Ver Figura 11.3 e Tábua V.)

Nl0,1)

Fig. 11.3 A distribuição t de Sludent e a distribuição normal padrão

Exemplo J J.3. Uma aplicação imediata desta distribuição é na obtcn­ção da distribuição amostrai da estatística

X - JI

S/Fn' (11.12)

Inicialmente , dividamos numerador e denominador pelo desvio P!ldrão (J da população, e tcremos

265

Page 140: Probabilidade e estatística

o numerador Z = X - J.l fi tem distribuição N{O , I) , como já foi u

visto. O quadrado do denominador pode ser escrito como

(n - l)S' /(n - 1) ~ Y , tj n - 1

onde Y = (n _ I)Slj(J2. Mas, como foi visto em (11.8), se os Xf's forem normais, Y tem distribuição x2(n - 1) ; logo, a expressão (11.12) satisfaz às condições do Teorema 11.3 e, en tão,

J' - ~ r::: l(n - 1). Slv ll

(lI.! 3)

Este resultado será usado em seções futuras. Observe que Z e Y sào in~ dependentes, pois X e S2 são independentes, pelo Teorema 11.2, (ii).

PROBLEMAS

3. Chamando de I(v : IX) o valor y, lal que P{I > y I v) = a, e usando oS valores da Tábua V,

calcule:

(a) t(l; '5/9) (b) 1(6 ; IOYJ (c) /(10; 95%)

(á) 1(15; 2,5%) (e ) 1(20; 80%) (f) /(120 ; 0,1 %)

4. Da populaçãO X : N(50 , 1(0) retirou-se uma amostra casual simples de tamanho n = 10, calcuJando~se o valor de X,. S e o respectivo valor de I.

(a) Se P( I X - 50 I < (s/fi) = 10";', encontrc o valor dc t. (b) Sc X = 48 e S2 = 120, qual a probabilidade de encontrar um valor de I menor que

o produzido por essa amostra? (c) Se S l = 120, calcule a PC I X-50 I < 2).

11 .2.3. A Distribuição F (Snedecor'

A terceira distribuição, muito usada em inferência , envolve o quo­ciente de duas variáveis X2 e pode ser resumida no seguinte teorema.

Teorema 11 .4. Sejam U e V duas v.a. independentes, cada uma dis­tribuída segundo wn Xl, com VI e V2 g.l., respectivamente. Então , a v.a .

(11.14)

266

r

tem distribuição F, com parâmetros VI e 111 ,

A f.d .p. de F é

g(f) ~ (11.15)

Os parâmetros 1'\ e V 2 são chamados de graus de liberdade, e indicaremos que uma v.a. W tem distribuição F, por W: F(v l , 1I:J Pode-se mostrar que

E(F) ~ v, 11 2 - 2

U (F) 2v~(1I1 + 112 - 2) e ,..ar = 2 • v,(v, - 2) (v, - 4)

(11.16)

O gráfico típico da distribuição F está na Figura 11.4. Na Tábua VI (ver Apêndice) são dados os pontos 10 , tais que

P(F(v" v,) > fo) ~ a,

para a. = 5% e alguns valores de VI e 1'2' Para encontrar os valores infe­riores, usa-se a identidade

(11.17)

g(f)

Fig. 11.4 Gráfico de distribuição F

Exemplo /1.4. Por exemplo, na distribuição F(5 , 7) temos, como se pode ver na Tãbua VI , P(F > 3,97) ~ 0,05 ou, então, P(F <; 3,97) ~ 0,95. Digamos que desejamos encontrar o valor 10, tal que P(F < 10) = 0,05. Da igualdade (11 .17) temos

0,05 ~ P(F(5 , 7) <Jo) ~ P(F(;,5) <Jo) ~ P(F(7,5) > )J 267

Page 141: Probabilidade e estatística

Procurando na tabela correspondente à distribuição F(7, 5), encontramos

J..- = 4,88, portanto, Jo = 0,205, que é o valor procurado. /0

Exemplo 11.5. Uma da~ distribuições amostrais mais usadas, e qUe corresponde a uma distribuição F, resulta do seguinte problema. Supo. nhamos duas amostras v independentes, de tamanhos n j e n2 ' retiradas de duas populações nonnais com mesma variância (jl. Indiquemos as variâncias das amostras por Sr e S~ , respectivamente. Já vimos que U = (n j - I)STlu2 : x2(n] - 1) e V = (n 2 - I)SV(12 : x2(n2 - I), portanto, a variável

sl S~ =

u n, -

V n, -

= F(n l - I , fl2 - I ). (11.18)

Esta variável pode ser usada para inferências correspondentes à com· paração de duas variâncias.

Da definição de t de Student, I = j{-~

S/-fo ' podemos obter

" ~ _(_j{_---:n c-~_)'_ ~ :o-_(.o..:-,/-"-fo,,,:,,).,.' __ ~ F(I , n - I),

S' [(n - I ) ~:J!(n - I)

o que mostra uma relação entre I(n - I) e F(l, n - I).

PROBLEMAS

(11.1 9)

s. Indicando por F(v 1 ; V2 ; a) o número y, tal que P(F > y I VI ' v1 ) "" a, calcule, usan· do a Tábua VI :

(1.1) F(2, 3, 5%) Ib) F(l, 2, 95%) (c) F(I, 00, 5%)

(á) F(120, 120, 5%) (e) F(l5, 15, 95/.,) IJ) F(28 , l5, 5)'J

6. Da população X: N(50, 100) relirou-se uma amostra casual simples de n = 10 elemen­tos. Da população Y: N(60, 1(0) retirou-se uma amostra casual simples de m = 6 in­divíduos, independente da primeira. Obtemos as variâncias amostrais S~ e S~, res­pectivamente.

268

T

(a) Encontre o valor de Q lal que P (* < Q) = 95%.

(b) Encontre o valor de b tal que P (~! > b) '" 95%.

11 .3. TESTE PARA A MÉDIA DE UMA N(I1; a 2),

a2 DESCONHECIDA

Já vimos como fazer teste sobre a média quando a variância da po. putação é conhecida. Vejamos agora quais os passos a seguir quando a variância (12 é desconhecida.

A. Formulação da hipótese: X: N(p., (12), Il e (12 desconhecidos.

Ho:J-l = J-lo

H] : J-l 1- J-lo

A hipótese alternativa poderia ser 11 > 110 ou J-l < J-lo, o que mu.daria apenas a região crítica de bilateral para . unila~eral. Daq~i por diante, iremos apresentar somente testes bilaterais, pOIS a extensao para testes unilaterais é imediata.

B. Estatistica a ser usada. Como teremos que usar a média X e a va riância da amostra S2, o natural é usar a estatística

x - J-lo ,~ s/F' (11.20)

que já vimos em (11.3), tendo distribuição de Student com (n - 1) graus de liberdade.

C. Construção da região crítica RC. Fixado o valor de fl, podemos (con· sultando a Tábua V) encontrar o valor te' tal que P( I1 I < te) = I - fl

(Figura 11.5).

t

Fig. 11 ,5 Região crítica para o teste t

269

Page 142: Probabilidade e estatística

D. Resul/ados da amostra. Colhida a amostra de n indivíduos, calcula_ mos os valores ~as estatísticas io e sã e, conseqüentemente, o valor da

estatística lo = Xo - J.lo so/F'

E. Análise dos resu/!ados. Se o valor observado da estatística ,t" lor infe. rlor a -tr ou superior a lc, ou seja, se I.E RC, reJ'eita-se H . Caso c , . . o on-trana, aceIta-Se Ho.

Para construção do intervalo de confiança, basta lembrar que o

intervalo x ± Zy fi foi obtido a partir da equação

P ( - z, < X ~ P fi < z,) ~ y.

Assim, do fato de que

P ( _ I, < X ~ P fi < I,) ~ y,

podemos reescrever a desigualdade do seguinte modo:

- s - s X - Iy r: < J1 < X + Iy -,

"n fi o que pennite escrever o seguinte IC:

lC(p: y) ~ x ± I , .in. (11.21)

Exemplo 11 .6. Um fabricante afirma que seus cigarros contêm nào mais que 30 mg de nicotina. Uma amostra de 25 cigarros fornece mé­dia de 31 ,5 mg e desvio padrão de 3 mg. Ao nivel de 5%, os dados re­futam ou nào a alinnaÇ-ão do fabricante?

A. Formulação da hipólese. Aqui,

Ho:Jl = 30

H I: Jl > 30.

~. Escolha da estatística. Supondo que X, a quantidade de nicotina por cigarro, tenha distribuição normal N(Jl, (2), a estatística

,~ X - 30 "" S ,,25

terá distr ibuição 1(24).

270

C. Construção da região crítica. Por ser um teste unilateral, devemos pru­curar o valor te. tal que

P(I > () ~ 0,05.

Da Tábua V, obtemos fc= 1,7 11 , ou seja, RC=]1 ,711; 00[.

p. Resultado da amostra. O valor observado da estatística será

E. Conclusão. Como loE RC, rejeitamos Ho, ou seja, há evidência de que os cigarros contenham mais de 30 mg de nicotina.

Outra maneira de fazer a análise é avaliar o nível descritivo do re­

sultado, isto é,

P(I > 1.1 Ho) ~ P(I > 2,51 Ho) ~ 2%.

Ou seja, a obtenção de uma amostra com.esse valor de lo é um fato raro, o que levaria a rejeitar Ro·

Para construir um IC{j1: 95%), basta verificar, na Tábua V, que 1=,2,064, portanto ,

PROBLEMAS

3 lC(p: 95%) ~ 31,5 ± 2,064 ""

,,25

lC(p:95%)~ 31 ,5 ± 1,24

lC(p: 95%) ~ J30,26; 32,74[.

7. o tempo médio, por operário, para e)[ecutar uma tarefa, tem sido 100 minutos, com um desvio padrão de 15 minutos. Introduziu-se uma modificaç&o para d.iminuir esse tempo, e. após certo período, sorteou-se uma amostra de 16 operários, medindo-se o tempo de e)[ecução de cada um . O tempo médio da amostra foi 85 minutos, e o des­vio padrão foi 12 minutos. Estes resultados trazem evidências estatísticas da melhora desejada? Em caso afirmativo. estime o novo tempo médio de execução. (Apresente as suposições teóricas usadas para resolver o problema.)

8. Estamos desconfiados de que a média das receitas municipais per capita das cidades pequenas (O _ 20.000 habitantes) é maior do que a das receitas do estado, que é de 1.229 unidades. Para comprovar ou não esta hipótese, sorteamos dez· cidades peque­nas, e obtivemos os seguintes resultados: 1.230; 582; 576; 2.093; 2.621; 1.045 ; 1.439:

717; 1.838 ; 1.359.

271

Page 143: Probabilidade e estatística

Obs. : Para facilitar os cálculos, informamos que a soma das observações é 13.50() e a soma dos quadrados das observações é 22.335.650 (13.5002 = I 82.250.clOO). '

(a) Mostre que o teste de hipótese usado levarâ à aceitação de que a mêdia das cida_ des pequenas é igual à do estado.

(b) Você não acha estranha essa conclusão quando observa que a média da amos_ tra obtida é bem maior do que a média do estado ? Como você explicaria isso?

9. Deseja-se estimar qual a porcentagem média da receita familiar gasta com alimen_ tação pelos moradores de uma grande vila industrial. Para isso. selecionou-se uma amostra de 16 familias , que apresentou os seguintes resultados :

41 44 3S 42 38 62 29 63

34 22 42 38 4S 48

42 40

(a) Dê um IC de 95% para a porcentagem média de todas as famílias de moradores da vila.

(b) Que suposição você fez para responder a pergunta anterior?

11.4 TESTE PARA A VARIÂNCIA DE UMA N(~; ,,2)

Um teste sobre a variância de uma população irá usar os resultados da distribuição qui-quadrado, estudada na seção 11.2.1. Assim, resu­midamente, teríamos:

A. Hipóteses: Ho: 0-2 = uõ;

HI :0-2 =1= o-~

B. Suposições e estatística-teste. Xi: N(jt, (2), i = 1. 2, ... , n e os XI in­dependentes; então, a estatística·teste usada será

(n - I)S'. '( _ I) 2 . X n .

ao

C. Nível de significáncia o: e região crítica P(X2

E RC) = p(X2 < X~ ou X2 > xD = a.

D A S' I' (n - I)S; . mostra. o' que resu ta Xo = 2 • ao

(11.22)

RC = [;<f, X~], tal que

E. Conclusão. Se X; E RC, rejeitamos Ho; caso contrário, aceitamos Ho·

Exemplo JJ.7. Uma das maneiras de manter sob controle a qua· 'Iidade de um produto é controlar a sua variância. Uma máquina de en­cher pacotes de café está regulada para enchê-los com um desvio padrão de 10 g e média de 500 g. O peso de cada pacote X segue uma distribui-

272

+ {

ção N(P,O'2). Colheu-se uma amostra de 16 pa~te~ ~ observou-s~ ~a variância S2 = 169 g2. Com esse resultado, voce dma que a maqUina está desregulada em relação à variância? A. Ho: 0'2 = 100 e H I : 0'2 =1= 100.

B. A estatística será (11.22) com n = 16.

C. Fixando o nível de significância em 5%, teremos da Tábua rv, Apên­dice A, que a região crítica é a da Figura 11.6.

D. Amostra: O valor observado da estatística será

, _ (n - I)S; _ (15) (169) = 25 35 Xo ~ o-Õ - 100 ' .

E. Como X; ~ RC, somos levados a aceitar Ho . isto é, a máquina está sob controle quanto à variância.

li = 15

27,488

Fig. 11.6 Região crítica bilateral para a variância 0'2

A construção do IC(0-2 : y) é feita a partir da expressão

(, (n - I)S' ,)

P X.I ~ 0-2 ~ X2 = y,

que permite retirar a seguinte

(n - I)S'

xl que será o IC procurado.

desigualdade:

,,(nc..-=.;I ",)S,-' ~O'2~-,-

X~

(11.24)

(11.25)

273

Page 144: Probabilidade e estatística

Exemplo 1/.8. Os dados abaixo referem·se às vendas diárias (em unidades de dinheiro), durante uma semana, de carros de uma reven. dedora. Construir um IC((J2: 90%).

em

Vendas: 253, 187, 96, 450 , 320, 105.

Inic~a[mente , calculamos a variância da amostra , que é S2 = 18.460' segUIda, os valores X~ e X~ que satisfaçam (11.24): '

P(I ,145 "x'(5) " 11 ,070) ~ 90%.

Substituindo em (1 1.25), obtém-se

IC(a ' : 90%) ~ 18.338 ; 80.611[.

PROBLEMAS

10. Observou-se 11 ~rodução mensal de uma indústria durante vários anos, verificando_se que el~ o,bedecla a uma distribuiçào normal. com variância 300. Foi adotada uma nova le:mca de produção c, dU!:.lInte 24 meses. observou-se 11 produção mensal. Após esse penodo, constatou-se que X = 10.000 e $2 = 400. Há razões para se acreditar q '. . ~ 11 VllnanCl1I mudou, ao nível de 20%1

11. Numa linha de produção, ê muito importante que o tempo gasto numa determina_ d.a opera~o nào varie muito de empregado para empregado. Que parâmetro estatís_ tICO podena ser us~do para av~liar esse Fato? Por quê? Se 11 empregados apresen­t~m os tem.pos abaiXO para reahzar essa operação, qual seria a estimativa para o pa_ rametro aCIma?

125 135 115 120 150 130

125 145 125 140 130

12. Usando os dados do problema 7, verifique se tambem houve mudança de variância do processo antigo para o novo.

11 .5. COMPARAÇÃO DAS VARIÂNCIAS DE DUAS POPULAÇÕES NORMAIS

Temos uma amostra Xl ' X2, ... , Xn de uma população N(p.l' aD e uma amostra Yl ' ... , Y", de uma população N(Jl.2,an.

A. Hipóteses:

274

H ..... 2 I 2 O·vl=(12=a;

Ht:a~+a~.

-" ,

B. Suposições e estafÍstica do leste. As amostras Xl , ... , Xn e Yt , ••. , Y", são independentes ; se S~ e S~ sào as variâncias amostrais respectivas,

sabemos que

U _ (n - I)S;. '( _ I) - 2 .x. n ,

a,

V _ (m - I)Sl. '( _ I) - 2 • X m ,

a,

e, portanto, de (11.1 8) e sob a hipótese de Ho ser verdadeira, isto é,

111 = a~, temos que

s' T= --t= s,

u n - I

V m -)

: F(n - I , m - I). (11.26)

C. Construção do região crítico RC. Fixado IX, encontramos dois núme· ros, FI e Fz , da Tábua VI, tais que

P(TE RC) ~ P(T < F, ou T> F,) ~ •.

FI e F2 são determinados de modo que P(T < FI) = a.f2 = P(T> FI); na prática , consideramos o quociente (11.26), de tal sorte que sVS~ > 1.

D. Resultados da amostra. Colhidas as amostras de nem indivíduos, respectivamente, calculamos SI; e S2~' e b valor observado de T será

, T

_ SI<> <> - 2'

'" E. Análise do resultado. Se To E RC , rejeitamos Ho; caso contrário, acei­

tamos.

Exemplo 1/.9. Queremos verificar se duas máquinas produzem pe­ças com a mesma homogeneidade quanto à resistência à tensão. Para issÇ>-; sorteamos duàs amostras de 6 peças de cada máquina, e obtive­mos as seguintes resistências:

Máquina A: 145 127 136 142 141 137

Máquina B: 143 128 132 138 142 132.

A. H . 2 11 2 (12 O'O"A = Jj=

H 1 : a~ +- a~.

275

Page 145: Probabilidade e estatística

B. Vamos supor que X A : N(PA' (1"2) e X 8: N(J1B' (}"2); então, por (11.26),

T~S~ - F( S~ - 5,5).

C. Fixando a = 10%, e consultando a Tábua VI, teremos

RC ~ JO; (5,05) - ' [u]5,05; +ro[.

D. Da amostra, encontramos s~ = 40 e S2 = 37 . B , portanto,

40 T- - - I08 o - 37 - , .

E. De acordo com os resultados, vemos que T d. RC" portanto " H o' , . a 'f' , ,acela-se o, u seja, as maqUInas produzem com a mesma homogeneidad e.

Caso tivéssemos rejeitado a hipo' tese de igualdade das a" . . . v nanelas seria convemente obter um IC para o quociente das duas .~.' De (11 26) d vaflanClas

. po emas escrever, quando ai:f cd • . S' , -,

T= ~-, -S, 7 ,

u n-I

V

m- I

= F(n - l , m-I),

e para um dado r, podemos encon trar dois valores Ft e F2 , tais. que

P(F, < F(n - I , m - 1) < F,) ~ y.

Dessa desigualdade podemos encontrar

St (J2 F, < - . - ' < F , S2 2 2 , , a,

ou seja , o IC (;~ : r) será dado por

S' .' F 2 v2 , S2 < 2" < Fl , a,

Sl St ' (11.27)

Exemp/~ J 1.10. Suponha ~~e, no exemplo (11 .9), s~ = 85 e s~ = 8, e como T,, - 85/~ = 10,62 , rejeItaremos Ho: (J~ = a~. Então, a cons-

trução do IC ( :! : 90%) conduzirá a

276

I

f

isto é,

ou , invertendo ,

1 80"2 8 5,05 . 85 < C1~ < 5,05 • 85'

a' 0,019 < ---f < 0,475,

a,

a' 2,10 <; O"~ < 52,6,

" que indica a magnitude possível da diferença entre q! e C1~.

PROBLEMAS

13. Uma das maneiras de J.llcdir o grau de satisfação dos empregados de uma mesma ca­tegoria quanto à política salarial e atraves do desvio padrão de seus salários. A fá­brica A diz ser mais coerente na politica salarial do que a fábrica B. Para verificar essa afirma~ão, sorteou-se uma amostra de 10 funcionários não espeçializados de A, e 15 de D, obtendo-se os desvios padrões s ~ "" 1,0 SM e S8 = 1,6 SM. Qual seria a sua wn­

c1usão?

14. Deseja-se comparar a qualidade de um produto produzido por duas fábricas. Esta qualidade será definida pela uniformidade wm que ê produzido o produto por cada fábrica . Tomaram-se duas amostras, uma de cada fábrica , medindo-se o comprimen­to dos produtos (o resumo dos resultados está no quadro abaixo). A qualidade das duas fábricas e a mesma? Caso sua resposta seja negativa, dê um intervalo de I;:on­fiança para indicar a intensidade dessa desigualdade.

Fábrica Fábrica Estatísticas

A B

Amostra 21 17 Média 21,15 21,12

Variância 0,0412 0,1734

,1.6. COMPARAÇÃO DE DUAS MÉDIAS DE POPULAÇÕES

NORMAIS

Vamos supor que temos uma amostra X 1, XZ' " "Xn da popula­ção N(p'l' (JD e uma amostra Y I I Y 2, . •. , Y", da população N(J12' (JD, independentes. Para cada uma delas, teremos os respectivos estimadores

da média e variância:

277

Page 146: Probabilidade e estatística

I " X ~-IX;

n , e

e s~ =

Definindo a variável

fi - ,

pode-se veri lcar que D : N(Po, ao ), onde J.lo = Jil - J.l2 e

",,' ~ Va,(X - i') ~ Va,(X) + Va,(i') , (11 .28)

ou

(11.29)

Conseqüentemente, a estatística

z ~ 15 - ~a ~ (X - i') - (p, - ~,)

"a Jr:r2 (T l ---1.+...-1

n m

(11.30)

terá distribuição N(O, I). Assim, quando 0"1 e (12 são conhecidos , a es­tatística (1 1.30) pode ser usada para lestes de hipóteses e construção de intervalos de confiança . Quando as variâncias são desconhecidas, de­vem ser substituídas por estimativas convenientes, e a estatística resul­tante deverá corresponder à estatística t de Student. Veremos, nas sub-seções seguintes, os casos mais comuns.

11.6.1. Variâncias Iguais, Desconhecidas

Vamos supor que as duas populações tenham a mesma variância (12 desconhecida , isto é, 11~ = a~ = q2 . A estatística (11.30) ficará sendo

Z ~ (X - Y) - (~ , - ~,) ~ Jj - ~a

u-JI+I "_JI+I· fl m n m

Substituindo u por um estimador não-viesado, teremos uma ex pressão muito semelhante à I de Student. Como si e s~ são dois estimadores não-viesados do mesmo parâmetro u2

, então, a méd ia ponderada

278

" . I (X;-X)' + I(Y; - Y)' 2 (n - I)sj + (m - I)Si I ]

Sp = n + m _ 2 = n + m - 2 (11. 31)

também será um estimador não-viesado de (12. Mais ainda, cada parcela do numerador, quando dividida por (12, terá distribuição '/ com n - I e m - I graus de liberdade, respectivamente. Logo, segundo (11 .9), te­

remos

(n + m ; 2)8; : x2(n + m _ 2).

" Assim, pelos Teoremas 11 .2 e 11 .3 , a estatistica

jj - J.l.o

u -J.-l + .-l I ~ n m ~ D - ~a ~ (X - 1') - (p, - ~ ,)

~ S-J I+I S,JI+I (1 Pnm Pnm

(11.32)

tem distribuição 1 de Student, com n + m - 2 graus de liberdade.

Vejamos aplicações deste resultado.

Exemplo /1.// . Duas técnicas de vendas são aplicadas por dois gru­pos de vendedores: a técnica A, por 12 vendedores e a técnica S , por 15 vendedores. Espera-se que a técnica B produza melhores resultados. No final de um mês, obtiveram-se os seguintes resultados:

Média Variância Vendedores

Vendas

Técnica A

68 50 12

Técnica B

76 75 15

Vamos testar, ao nível de 5%, se há diferenças significativas entre as vendas resultantes das duas técnicas. Infotmações adicionais permitem supor que as vendas sejam normais, com uma variância comum u

2, des­

conhecida.

279

Page 147: Probabilidade e estatística

A. H o:}.J,A = }.J/J

H1 :}.JA < }.J/J

OU

ou }.JA ~ }.J/J = O; }.J/J ~ }.JA > O.

B. Pelas suposições acima, podemos usar a estatistica

, = XB ~ X,A

11S~ + 14S~ 25

s ~' "y12 + T5

C. Fixado a: = 5%, e sendo um teste unilateral , da Tábua V obtemos RC~ ]1 ,708; <>0[.

D. Da amost ra , encon tramos

" 11 (50) + 14(75) , 25 ~ 64;

f . 76 - 68

8.~ Y 12 + T5 = 2,56.

E: Como r" E RC, rejeitamos Ho. ou seja, existe evidência de que a tec­nlca ~ produz. melhores res ultados do que a técnica A.

Ja que eX iste diferença entre os métodos, a continuação natural é encontrar um IC para a diferença IlD ' Do resullado (11 32) , C' ' I . ficar que . ,e aCI ven-

IC(PD: y) = do ± [ySp J I + I = (.lo ~ y) + ' 0' J [ + I fim Q~P nm"

Para o nosso exemplo , este intervalo reduz-se a

IC(~D : 95%) ~ (76 - 68) ± (2 ,06) (8) J I + I ~ 12 15

~ 8 ± 6,38 ~ ]1 ,62 ; 14,38[ .

PROBLEMAS

IS. Num esludo comparativo do tempo médio de adaptação, uma amostra aleatória de 50 h,omens e 50 mulheres de um grande complexo industrial. produziu os segui~teS resu tados :

280

Estal;sticas

Médias Desvios padrões

H ornl'IIS

3.2 anos 0.8 anos

3.7 anos 0.9 anos

Que conclusões você poderia tirar para a populaçào de homens e mulheres desta in­dustria ? (Indique as suposições feitas para resolver o prob1em<l .)

16. Diversas politicas em relação às filiais de uma rede de supermercados estào associa­das ao gasto médio dos clientes em cada compra. Deseja-se comparar esse parâme­tro para duas novas filiais, alravês de duas amostras de 50 clientes cada. As médias obtidas foram 62 e 71_ respectivamente. Sabe-se que o desvio padrão. em ambos os casos. deve ser da ordem de 20 unidades. É possível afirmar que o gasto medio nas duas filiais é o mesmo '! Caso nào seja. dê um intervalo de confiança para a diferença.

17. Uma Fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas lat<ls especiais. Para verificar o efeito dos tratamen­tos. roram usadas amostras cujos resultados estão no quadro abaixo. Qual seria a con· clusão sobre os dois tratamentos ?

Mhodo Amos/ra Média DI'5\';0 Padrão

A " 48 10

B 12 52 " 11.6.2. Variâncias Desiguais, Desconhecidas

Quando as populações tiverem as variâncias desiguais e desconhe­cidas_ e ainda tivermos amostras independentes , devemos substituir os valores O'T e O'l. em (11.30), pelos estimadores não-viesados S1 e S~, ob­

tendo

Pode-se provar que esta variável tem uma distribuição de Student , com graus de liberdade dados por

(11.34)

aproximada I

(11.35)

28'

Page 148: Probabilidade e estatística

Exemplo 11.12. Queremos testar a resistência de dois tipos d . de aço~ A e 8. Tomando-se fi = 15 vigas do tipo A e m = 20 vigas ~ovl~as B, obÍlvemos: tipo

,

Tipo

A B

Média

70,5 84,3

Variância

81 ,6 120,5

~amos testar, ao nível de 5%, se a resistência de vigas é a mesma.

A. HO :}.1A = 11/J; HI :}.1A oF J..lB·

B. A estatística a ser usada é (11.34), com

15 20 131,45

média dos dois tipos

(81 ,6 + 120,5)'

v= -,;,.c-o-c~--;'-"-~ (~)' C;~,5)' ~ 2,11 + I ,9 1 ~ 32,7 '" JJ g.1.

+ --'----'-14 19

C. Com ::t: = 5%, da Tábua V temos que RC'=]-2 ,0345 ;2 ,0345[.

D. Com os dados, obtemos

I _ 70,5 - 84,3

"- J81,6 120,5 ~ 15+20""

- 13,8 3,386

- 4,075.

~. Como l.u ~ R~, rejei.ta~o~ Ho, o~ seja, há evidências de que os dois tipOS de vigas tem reslstenCIaS médias diferentes.

PROBLEMAS

18. dNO .problema 14. teste a hipótese de que as médias dos comprimentos do produto ,m ul.ldo pelas duas fábricas são iguais. .

19. P~r; inv.esliga.r a innuência da opção profissional sobre o salário inicial de recém.for­ma os. Investlgaram·se dOIS grupos de profissionais : um de liberais em geral e outro

282

-,

de rormados em Administraçào de Empresas. Com os resultados abaixo. expressos em salários mínimos. quais seriam suas conclusões'!

Liberais AdminiSlradores

6.6 8.1

10.3 9,8

10.8 8,7

12,9 9.2 10.0 10.2

11.6.3. Observações Emparelhadas

12.3 7.0 10,8 8,2 8.7 10,1

Quando se compara as médias de duas populações, pode ocorrer uma diferença significativa por causa de fatores externos não-contro­láveis. Por exemplo, no caso do exemplo 11 . 11 , poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o outro. Assim, a diferença seria devida a esses fatos, e nào ao mérito real da técnica de venda. Um modo de contornar este problema é co­letar as observações em pares, de modo que os dois elementos de cada par sejam homogêneos em todos os sentidos, exceto no que diz respeito ao fator que queremos comparar.

Por exemplo. para testar dois métodos de ensino, A c B, poderia­mos usar fi pares .de gêmeos, sendo que um elemento de um par recebe o método A e o outro, o método B. Este procedimento pretende con­trolar o maior numero possível de fatores externos que possam afetar o aprendizado. Se houver diferença no aprendizado, deve-se realmente

ao método. Este procedimento também é usado quando as observações das

duas amostras são fc itas no mesmo indivíduo, por exemplo, medindo uma' característica do indivíduo antes e depois dele ser submetido a um

tratamento. Como na formulação geral da comparação de duas médias, temos

duas amostras, Xl' X2 • . • • , Xw e YI , Y2 , . •• , Yn , só que agora as obser­vações estão emparelhadas, isto é, a amostra é formada pelos pares

(X" Y, l, (X" Y,) , ... , (X. , Y.l·

Vamos definir a variável

D ~ X - Y; (11.36)

conseqüentemente, teremos a amostra

283

Page 149: Probabilidade e estatística

Vamos supor D: N{jto , (J~). Segue gue

terá distribuição

-. ( "O') D.N Jlo,-,-, .

Definindo

s' = _1- f. (D . - D)' o I L ' , n - ,

teremos, pelo Teorema 11.3, que a estatística

D - J10

So/JI.

y

tem distribuição t de Student, com n - 1 graus de liberdade. Mas também podemos verificar que

Po = E(D) = E(X - Y) = E(X) - E(Y) = p, - p"

(11.37)

(11.38)

(11.39)

ou seja , qualquer afirmação sobre o parâmetro JII - ·/12 corresponde- a uma afirmação sobre o parâmetro Po .

Exemplo 11./3 . Cinco operadores de um certo tipo de máquina sào treinados em máquinas de duas marcas diferentes, A e B. Mediu-se o tempo que cada um deles gastou na realização de uma mesma tarefa, e os resultados estào no quadro abaixo .

Operador Marca A Marca B

A 80 75 B 72 70 C 65 60 D 78 72 E 85 78

Ao nível de 10%, poderiamos afirmar que a tarefa realizada na má­quina A demora mais do que na B?

284

,

1

A. Hipóteses . Ho: PA = IIE

H I : JiA > /1E ou 110 : JIA - Iln = IIIJ = O;

H I : Ji.4 - JI/J = 110 > o.

B. Te.~te estatistico. Como é o mesmo operador que realiza a tarefa nas duas máquinas, estamos diante do caso em que se pode usar variáveis emparelhadas. Vamos admitir que , sob Ho. a diferença de tempo segue uma distribuição normal N{O. O"~). Logo. a estatística a ser usada ê dada

por (1 1.39).

C. Regido cri/icll. Devido a Hl e ao nível de 10%. devemos encontrar Ir . tal que P(I > Ir) = 10% na distribuição 1(4). Isto nos dá

RC = J1.54; 00 [.

D. Amostra. Do quadro acima, vemos imediatamente que

d,: 5. 2. 5. 6, 7

e, portanto ,

d = 5 e s~ = 3,50;

logo ,

5 " = 1,87 (fi) = 5.98.

E. Conclusão. Rejeitamos Ho. ou seja, a máquina A demora maIs. Con­tinuando, podemos construir

IC(I', - p,: 90%) = lC(po: 90~.) = 5 ± (2.13) (1.87)/fi =

= ]3.22: 6.78[.

PROBLEMAS

20. Para verificar a importância de um determinado cartaz. nas compras de certo pro­duto. proçedeu-se do seguinte modo:

(a) formaram-se 1 pares de lojas ; (b) os pares foram formados de modo que tivessem as mesmas caracteristicas quan­

to à localiz.ação. ao tamanho e ao volume de vendas; (c) num dos elementos do par. colocou-se o cartaz.; no outro não; (d) as vendas semanais foram registradas, e os resultados estão abaixo.

Qual seria sua conclusão sobre a eliCiência do cartaz.?

285

I

Page 150: Probabilidade e estatística

Yendiu Pu,

Sem Cartaz Com Cartaz

I 13 i6 2 18 24 J 14 18 4 16 14 ,

I' 26 6 12 i1 7 22 29

11.7. TESTE DE INDEPENDÊNCIA

Vimos, no Capítulo 3, a necessidade e a importância de analisar o comportamento conjunto de duas variáveis. Também vimos, na seção 3.3. , que uma das maneiras de quantificar descritivamente o grau de dependência entre duas variaveis é através da medida ./, definida por

X' ~ L (o, - e,)' e,

(11 .40)

onde Oj é a freqüência observada e ei , a freqüência esperada, sob a hi­pótese de independência. Quanto maior é o X2

, mais o observado se afas­ta do esperado, e maior é a de~ndência. Vamos agora apresentar o mo­delo de analise que nos permite julgar O" que pode ser considerado um '1.2

grande. Não foi por acaso que decidimos chamar tal medida de '1. 2 ; é que

se pode provar, sob a hipótese de independência, que a distribuição amos­traI da estatística (I J AO) é, aproximadamente, uma v.a. X2, definida na seção 11.2.1., com número de graus de liberdade dado por v= (número de linhas - I) x (número de colunas - I). Este nÚmero de graus de li­berdade deve-se ao fato de que, para construir o quadro dos valores es­perados, não precisamos calcular todas as caselas. As últimas são encon­tradas por diferença, já que os totais das colunas e das linhas são fixos.

Exemplo 11./4. Voltemos ao exemplo 3.3, em que se queria veri­ficar se a criação de determinado tipo de cooperativa estava associada ao fator regional. Os dados da Tabela 3.7. são reproduzidos abaixo.

286

,-j I

TIPO DE COOPERA TlV A

ESTADO TOTAL

Consumidor Produtor Escola Outros

São Paulo 214 (33%) 237 (37%) 78 (12%) 119(18%) 648 (100%)

Paraná 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%)

Rio G. Sul 1II (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%)

TOTAL 376 (24%) 643 (42:1,,) 343 (22%) 189(12%) 1.551 (100%)

A. Hipóleses . Ho : Pu = p;. P . j

HI :Pij=l=Pi,P·j.

onde Pu é a probabilidade de um i~divíduo da .~pulação ~rte.ncer à casela (i,j); Pio e P'j são as respectivas probablhdades margmals.

8. Teste estatístico. De acordo com o exposto acima~ a estatí~tica a ser usada é a 'l, com v=(3-1)(4-1)=6 graus de \Jberrlade.

C. Região crítica. Fixando IX = 5%, observamos que o teste aqui é um­caudal à direita, pois iremos rejeitar Ho apenas para valores grandes de"/ isto é quando o valor observado for muito distinto do esperado. Assi~. deve~os procurar X~, tal que p('l > X~ I v = 6) = 5%. Da Tábua IV, obtemos RC ~ J 12,592; ro[.

D. Resultado da amostra. Já vimos na seção 3.3. como construjr a tabela dos valores esperados (veja Tabela 3.8), e de lá encontramos X. O = 173,24.

E. Conclusão. Como X~ E Re. rejeitamos Ho ao nível de 5%. ist~ é, os dados evidenciam uma forte dependência entre os ratores: tipo de cooperativa e região de localização.

Dado que a distribuição de X2, neste caso, é uma distribuição apro­

ximada, precisamos tomar certos cuidados na sua aplicação. U~ dos cuidados é garantir que todos os valores esperados das caselas nao se­jam inferiores ao número 5.

PROBLEMAS

21. Investigando a "fidelldade"' de consumidores de um produto, obteve-se uma amos­tra de 200 homens e 200 mulheres. Foram classificados como tendo alto gra.u ~e ~­dei idade 100 homens e 120 mulheres. Os dados fornecem evidência de posslvels di­ferenças de grau de fidelldadc entre os sexos?

287

Page 151: Probabilidade e estatística

22. Uma pesquisa sobre a qualidade de certo produto foi realizada enviando_se questiO­nãrios a donas-de-casa através do correio. Aventando-se a possibilidade de que os respondentes voluntários tenham um particular vicio de respostas, fizeram_se mais duas tentativas com os não-respondentes. Os resultados estão indicados abaixo. VOCê acha que existe relação entre a resposta e o numero de tentativas?

Opiniiio sobre N. o de Donas-de-fiQsa , Produto /." lentativa 2." tentativa 3." tentaliva

Excelente 62 36 12 Satisfatório 84 42 14 Insatisfatório 24 22 24

11.8. TESTE SOBRE COEFICIENTE DE CORRELAÇÃO

o teste apresentado na seção anterior é adequado para testar a in­dependência de duas variáveis qualitativas. Vimos, na seção 3.5., que para variáveis quantitativas o coeficiente de correlação é uma medida mais adequada. Usualmente, podemos determinar o coeficiente de cor­relação para uma amostra, pois desconhecemos este valor na população. Uma população que tenha duas variáveis não correlacionadas pode produzir uma amostra com coeficiente de correlação diferente de zero. Para testar se a amostra veio ou não de uma população de coeficiente de correlação nulo, precisamos da distribuição amostrai da estatística r. Esquematicamente, temos a situação na Figura 11.7.

População Amostra

{X, Y) ""'-"----...;"\ V(X(,,;:, Y~,))------" __ ~ (X Y) - Cov (X, Y) (X,. y,) ",;1:~(X~,,;;-,,,X)~(~Y~, -~Y,,) "'"

~ ' -DP(X).DP(Y)J r~ j1:(X'-X)"1:(Y, - l)'

- ../ ~~X:";~Y~J ___ -----

Fig. 11.7

Vamos apresentar a distribuição amostraI em duas situações distin­tas: para p = O e p + O. Em ambos os casos, a distribuição amostraI exi­ge que a distribuição de (X, Y) na população seja nonnal bidimensional,

288

.-

r

que é uma generalização da normal unidimensional, estudada no .Ca­pítulo 6. Apenas para visualizar, tal distribuição tem a forma de um SIOO.

Exemplo 11./5. Teste para p = Po. Durante muit~ tempo, o coefi­ciente de correlação entre a nota final num curso de tremamento de o~­rários e sua produtivjdade, após 6 meses do curso, foi 0,50. Foram 10-

troduzidas modificações no curso, com o intuito de aumentar a ,cc:r-relação. Se o coeficiente de correlação de uma amostra d~ ~8 operanos submetidos ao novo curso foi 0,65, você diria que os obJetiVOs da mo­dificação foram atingidos?

A. Hipóteses. X: resultado no teste; Y: produtividade ; H,: p(X, Y) ~ 0,50; H, : p(X. Y) > O,SO.

B. Teste estatistjco. Fisher, u~ famoso esta~ís~ico, buição amostraI de r, descobnu que a estatlstlca

estudando a distri-

Z=1-'nl+r 2 1 - r

(11.41)

tinha distribuição muito próxima da distribuição normal N(p.z, (T~), onde

1 Iiz=2 ln I + Po e

I - Po

1 O'~ = ~-,

n-3 (11.42)

e Po é o valor do parâmetro na população. A aprox.im~çã? ~ão vale para p = -I ou P = I ; e, ainda, para p = O, temos a dlstnbUlçao exata, que será vista no próximo exemplo .

No nosso exemplo, sob a hipótese Ho, Z terá distribuição normal com os seguintes parâmetros:

_ -'- / 1 + 0,5 ~ O 549 liz - 2 n I _ 0,5 '

1 e (Ti = = 0,04.

28 - 3

C. Região crítica. Como a hipótese alternativa sugere uma região unica~­dai à direita, e do fato de Z: N(0,549; 0,2) vem que a RC para Z, ao 01-

vel de 5%, corresponderá à direita de 0,549 + 1,654 JO ,04 = 0,878, en­lão, RC ~ ]0 ,878; 00[.

D. Resultado da amostra. Como r = 0,65, vem que

1 z = - In • 2

1 + 0,65 ~ O 774. I - 0,65 '

289

Page 152: Probabilidade e estatística

E. Conclusão. Como Zo ~ RC. aceitamos H o, ou seja , não existe evidên_ cia de que tenha aumentado o coeficiente de correlação.

Exemplo J J .16. Teste para p := O. Queremos testar se existe ou não correlação entre o número de clientes e 'os anos de experiência dos agen_ tes de seguros. Sorteamos 5 agentes, e observamos as duas variáveis (exemplo 3.6).

Agente A B C

Anos de Experiência 2 4 5 Número de Clientes 48 56 64 ,

Qual seria a conclusão, baseando-se nesses dados?

A. Hipóteses. H o : p := O; H,: p j O.

D E

6 8 60 72

B. Teste estatistico . Para amostras retiradas de população onde p = O, pode-se provar que a estatística

t = r ~ ~ 1 -7 (1 1.43)

tem distribuição de Student , com n - 2 graus de liberdade. No nosso exemplo, a estatística terá distribuição t(3).

C. Região crílica. Por ser um teste bilateral , consultando a Tábua V, teremos pa ra ex = 10%,

RC = ) -00; -2,353 [u )+ 2,353 ; + ro[.

D. Resu/iado da amostra. Calculando o coeficiente de correlação para os dados acima (exemplo 3.6), obtemos r = 0,95; logo,

I, = 0,95 J I to,95)' = 5,254.

E. Conclusão. Como to E RC, rejeitamos Ho, isto é, existe dependência entre anos de experiência e número de clientes. Neste caso , seria con­veniente dar um lC para p. Observe que, se p -=1= 0, devemos usar a esta­tística Z de (1 1.41 ) para construir o [C. Assim, com y= 0,9O, devemos procurar dois valores z! e Z2 para Z, tais que

290 ·

P(z! < Z < Z2) = 0,95.

( I ) . Z· N ( -'-) podemos tirar Epelofato.deZ:N llz ' n_3 ,ou seJa, . llz > 2 '

{']f < Z Jf < Z']f) = 0,95

ou

< 1,96) = 0,95 ,

o que pennite escrever

Mas

logo,

Como

IC(p, : 95%) = z, ± 1,96 fifi·

I z = -In , 2

I + 0,95 = 1,832; 1 - 0 ,95

IC(p, : 95%) = 1,832 ± 1,384 = )0,448; 3,2 16[,

1 1 + P IlZ="2 ln l _ P'

Ih I ra os extremos do intervalo, pode-e uma expressão seme a~te va e pa trar os extremos do inter-mos achar as operações Inversas para encoo valo para p. Assim, de

I I 1 + r m r eO .896

- 1 = 0,420, 0,448 ="2 n ~ ve = eO•896 + 1

e de

1 t + r 3216 =- ln -- vem

, 2 1 - r

Desse modo,

e6 .432 _ 1 r = e6.432 + 1

IC(p: 0,95) = )0,420; 0 ,997[ .

= 0,997,

291

Page 153: Probabilidade e estatística

PROBLEMAS

23. Estamos estudando se há ou nào correlação entre as nOlas de diversas disciplinas de um curso de mestrado. Analisando uma amostra de 12 alunos, encontrou-se uma I::OT­

relação de 0,60 entre as disciplinas de Estatistica e de Metodologia da Pesquisa. Teste a hipótese de não haver correlação entre as disciplinas. Caso a rejeite, dê um inter­valo de confiança para o coeficiente de correlação populacional.

24. Existe relaçãó entre o volume de uma carga e o tempo gasto para acondicioná-Ia ? Para investigar este fato, sortearam-se 9 pedidos de mercadorias, medindo-se as duas variáveis de interesse. Com os dados obtidos abaixo, quais seriam suas conclusões?

PROBLEMAS E COMPLEMENTOS

25.

26.

,. Tempo 84

Volume 48

108

72 110

6J

111 82

144

88

152

109

180

112

196

123

211 140

o número media diário de clientes de um posto de gasolina tem sido 250, com um des­vio padrão de 80 clientes. Durante uma campanha de 25 dias, em que os clientes re­cebiam um brinde, o número médio de clientes foi 280, com um desvio padrão de 50. Você diria que a campanha modificou a distribuição do número de clientes do posto? Descreva as suposições feitas para a resolução do problema.

A porcentagem média da receita municipal dos quase 600 municipios de um estado tem sido 7"10. O governo pretende melhorar este índice e, para isso, está estudando alguns incentivos. Para verificar os efeitos desses incentivos, sorteou la cidades e es­tudou quais seriam as porcentagens investidas neles. Os resultados foram : 8, 10,9, 11 , 8, 12, 16, 9, 12. Admitindo que estes números realmente venham a ocorrer, os dados trazem evidência de malharia? Caso altere a média do estado, dê um intervalo de confiança para a nova média.

27. Para o problema anterior, construa lC(u 2: 90"10) e descreva as suposições conside.

radas para obtenção da resposta.

28.

2'J.

292

A prefeitura de uma cidade quer estimar a proporção p dos moradores favorlveis à mudança do horário comercial, com o intuito de economizar combustivel. Essa pro-­porção deverá ser estimada com um erro máximo de 5%, a um nível de 90''10 de confiança.

(a) Que tamanho deverá ter a amostra se a proporção p esperada deve estar entr~ e 50";" ? (Justifique a resposta.)

(b) Numa amostra de 400 moradores, 16() foram favoráveis à mudança; qual se ria o intervalo de confiança para p, neste caso ?

Numa pesquisa realizada com 2.000 proprietários de carros na cidade de São Paulo, 800 responderam que pretendem mudar de carro no decorrer do próximo ano. Dê um IC de 90";" para a proporçào de todos os proprietários de carros de São Paulo que I?retendem mudar de carro no próximo ano.

30.

lI.

32.

, b · ,d ,prto tipo de aÇO especial afinna que seu produto tem um severo Um a Tlcane eum .... . . _ .•. · d I d qualidade tradUZIdo pelo deSVIO padrao da reS1SlenCla à ten-

re~,ço e contra e e, d d .' . d "·5 kg por cm1 Um compra ar, queren o venllcar 8 ve-'0 que não é maIor o q........ .

sa , • t uma amostra de II cabos e submeteu-a a um teste de racidade da afinnaçao, amou . . X - 263 e 52= 48. Estes resultados trazem tensão. Os resultados foram os segumtes . -. '1

alguma evidência contra a afirmação do rabncante .

d' t d dive~s ações movi· Um escritório de investimentos acredita que o ren Ime~ o as . arantir uma

I , . d 24°/ Mais ainda a nova estratégia defimda deve g . ~ mcntadas por e e ,OI e / o· , . N do o deSVIO padrao

· niformidade nos rendimentos das dIversas ações. o passa , 8 maIOr u 'fi d as hipóteses tomaram-se do rendimento era da ordem de 5%. P~ra ven I~r as u(dad ;/ \. 236 ' 228;

esas ao acaso obtendo-se os segumtes rendImentos os em 1<>/' " ,

'"'25 Pl~ 24 8 ' 264' 24 3' 23 9 e 25. Quais seriam as conclusões? " " " " ,

ova ensacadora de café. ApóS A 'rorrefaçào Guarany está querendo comprar uma n A a d marca B Quanto consultar o mercado, ficou indecisa entre co~pra; a del:a: e:u~val:ntes . O f~tor que

ao ~~to, facilidade ~ :s~~~n;~'m tae~~~ero~se ~~tes (medido pela variância;. Dese­deCIdIrá a compra se p . ~ _ (1"2 alravt5 da estatística F= S~/SB' Pode-

!:-~~n~:n:~al~;~ t~i~~: ::ra:::s~ ~~Ia:~rais à direita ou à e~querda, de~n~en-d b· , . Q"ol '''ria a re.não critica mais favorável às segumtes pessoas . us-do o o Jelvo . .... ~ ",'

tifique.)

(a) Proprietário da Torrefação. (b) Fabricante de A. (c) Fabricante de B.

. odutividade média dos operários do período 33. Numa i~~ustria deseJa-~ . testar s~~/~os operários do período noturno. Para isso,

diurno e 19ual à produtIVIdade m l..In 'od bservando-se a produção de cada

34.

coiheram-se duas amostras, uma de ca ...... pen .0, o operário. Os resultados obtidos foram os segumtes:

" Ix , Ixf

Diurno IS 180 2.660

Noturno IS ISO 2.980

De acordo com esses resultados, quais seriam suas conclusões?

t ~ com os operarias da industria mecânica, chegou-se aos ~­N~m lev~ntame~ o lário médio = 3,64 salários mínimos e desvio padrão = 0:85 sala­gumtes numeras . sa. I •. , "_ ,u'--Iasse fonnada pelos torneIros me-· . . S ......... lta-se que os sa no W1 V\.o '. nos mmlmos. "".... . éd'a como na vanan-cânicos são diferentes dos salários do conjunto todo, tanto na ~ I t salá-

· I ões ocê obteria se uma amostra de 25 lornelros apresen asse . Cla. Que conc us v . d ~. I I 25 salário mimmo? rio médio igual a 4,22 salários minimos e desv10 pa rao Igua a ,

293

Page 154: Probabilidade e estatística

35. Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 pequenos municípios de uma certa região.

69,' 71,6 73,0 68,9 68,9 70,0 72,6 66,2 68 ,1 72,4 67,6 13,2 67,6 69.7 71 ,O 69.4 71,5 73,8 69,' 69,6 68) 69~ 71,4 70,7 69,7 71 ,0 66,0 70,3 71 ,7 69,2 69,8 68 ,4 69,' 68,2 72,1 70,8 72,2 69,2 71 ,7 65,6 69,' 70,1 69,' 70,S 68,0 70,2 69,0 66,3 69,4 67,1

(,) Analise estatisticamente os dados. (6) Com base na sua análise, e sabendo que na região considerada existem, ao todo,

200 municípios, em quantos deles você acha que o gasto com pessoal é maior que 70% do orçamento?

(o) Em outra região, sabe-se que o gasto médio com pessoal é de 65% e o desvio pa-drão é de 20";';. Qual das duas regiões ê mais homogênea em relação a essa variá-vel? Por quê?

36. Uma amostra pe. IOO trabalhadores de uma fábrica grande demora, em média, 12 mi· nutos para completar uma tarefa, com um desvio padrão de 2 minutos. Uma amostra de 50 trabalhadores de uma outra fábrica demora, em média , I I minutos para com­pletar a mesma tarefa, com desvio padrão igual a 3 minutos.

37,

(a) Construa um IC de 95% para a diferença entre as duas medias populacionais. (b) Deixe bem claro quais as suposições feitas para a solução apresentada.

Deseja-se testar se dois tipos de ensino profissional são igualmente eficazes.{Para isso, sorteram-se duas amostras de operários; a cada uma, deu-se um dos tipos de treina­mento e, no final, submeteram-se os dois grupos a um mesmo teste. Que tipo de con­clusão você poderia tirar, baseando-se nos resultados abaixo?

Amostra N. 0 de Elementos Média Desvio Padrão

Tipo J 12 7S , Tipo 11 10 74 10

38. Numa discussão sobre reajuste salarial, entre empresários e o sindicato dos empregados, chegou-se a um impasse. Os empresários dizem que o salário médio da categoria e de 7,6 salários mínimos (SM) , e os empregados dizem que e 6,5 SM. Para eliminar dúvidas, cada um dos grupos resolveu colher uma amostra independente. Os empre­sários, com uma amostra de 90 operários, observaram um salário médio de 7,0 SM, com um desvio padrão igual li 2,9 SM. Já a amostra do sindicato, com 60 operários, apresentou media igual a 7,10 SM e desvio padrão de 2,4 SM.

29'

39,

40,

(a) As amostras colhidas servem para justificar as respectivas afinnaçõe5 dos dois

grupos? (b) De posse dos dois resultados, qual e o seu parecer?

Uma empresa deseja estudar o efeito de uma pausa ~e lO minutos para ~~ cafezinho sobre a produtividade de seus trabalhadores. Para ISSO , sort~ou 6 openlTlos, e con­tou o número de peças produzidas durante uma semana sem mtcrvalo e. ~ma semana com intervalo. Os resultados sugerem se há ou não melhora na produtividade. Caso haja melhora, qual deve ser o acréscimo médio de produção para todos os trabalha­

dores da fâbrica?

Operário 1 2 3 4 , 6

Sem Intervalo 13 JS 29 33 43 32

Com Intervalo 28 J8 29 31 42 30

Um médico deseja saber se uma certa droga reduz a pressão ~rteria.l méd~a . Para isso, mediu a pressão arterial em cinco voluntários, antes e depoiS da mgestao .da droga, obtendo os dados do quadro abaixo. Você acha que existe evidência estatística de que a droga realmente reduz a pressão arterial mooia? Que suposiçõell você fez para re­

solver o problema?

Voluntário Á B C D E

Antes " 80 9Q 72 S<l

Depois 60 71 88 74 76

41. Um partido afirma que a porcentagem de votOS masculinos a ~u ra.vor será de Hrlo a mais do que a porcentagem de votos femininos. Numa pesqUIsa fella entr~ 400 ho­mens 170 votariam no partido, enquanto que entre 625 mulheres, 194 lhe seriam ravo-

42,

, . . , rAveis. A afínnação do partido é verdadeira ou no .

'\ . A · d· ·d Uma amostra de 100 lâmpadas elétricas produridas pela fábrica 10 lca u_ma VI a media de 1.190 horas, com desvio padrão de 90 horas. Uma amostra de 75 .Iampad~s produzidas pela fâbrica B indica uma vida media d~ 1.~30 ~oras, .com desv10 ~drao de 120 horas. Admitindo que as variâncias populacIOnais sejam diferentes, voce ~cha

as vidas mooias populacionais das lâmpadas prodUZIdas que existe diferença entre pelas fábricas A e B 'I

43. Queremos comparar dois métodos de ensino A e B. Dispomos de 40 crianças. Pode­

mos proceder de duas maneiras:

I _ Sorteamos 20 crianças para compor uma classe, e as restantes for:mam OUlra clas­sc. Aplicamos um método a cJl~ classe e. depois, fazemos uma avaliação para todas

as crianças a respeito do assunto ensinado.

295

Page 155: Probabilidade e estatística

44.

45.

46.

2 - Aplicamos inicialmente um teste de inteligência às 40 crianças. Numeramos as crianças de 1 a 40, segundo o resultado do testc. Consideramos os 20 pares (I, 2), (3,4), ... , (39,40), e de cada par sorteamos uma criança para cada classe. Obtemos, assim, duas classes de 20 crianças, homogêneas quanto à inteligência. Aplicamos um método a cada classe e depois avaliamos todas as crianças.

(a) Qual a variável de observação em cada procedimento? (b) Quais as hipóteses estat ístieas adequadas? (c) Qual o teste estatistico de decisão em cada caso? (ti) Qual dos dois procedimentos você preferiria ? Por quê?

De 400 moradores sorteados de uma grande cidade industrial, 300 são favoráveis a um projeto governamental, e de uma amostra de 160 moradores de uma cidade cuja principal atividade é o turismo, 120 são contra.

(a) Você diria que a diferença de opiniões nas duas cidades é estatisticamente signi­ficante ?

(b) Qual seria um lC de 90";'; para a proporção de favoraveis ao projeto nas duas ci­dades? (Suponha que o número de pessoas nas duas cidades seja aproximada­mente igua1.)

Para verificar o grau de adesão de uma nova cola para vidros, preparam-se dois tipos de montagem: cruzado (A), onde a cola é posta em forma de X, e quadrado (D), onde a cola é posta apenas nas 4 bordas. Os resultados da resistência para duas amostras de 10 cada estão abaixo. Que tipo de conclusão poderia ser tirada?

Método A : 16, 14, 19, 18, 19, 20, 15, 18, 11, 18 Método B: 13, 19. 14, 11, 21, 24, 10, [4, 13, 15.

Usando os dados dos problemas assinalados abaixo, teste a independên'cia entre os seguintes fatores:

(a) Local de residência e opinião - problema 3. 16. (b) Tipo de atividade e tipo de propriedade de em oarçações - problema 3. 17. (e) Companhia c duração do efeito de dedetização - problema 3.1 0. (ti) Participação em atividades esportivas e cidades - problema 3. 18. (e) Classe social e intensão de continuar os estudos - prOblema 3. 19.

47. Teste, ao nível de 5%, se existe correlação ou não entre o setor primaria e o indice de analfabetismo, usando a amostra do problema 3.6.12. Caso a resposta seja afirmativa, construa um lC de 95% para p.

48. No problema 3.6.26, use as sugestões dadas para testar a hipótese P "" O.

49, Suspeita·se que o coeficiente de correfação enlre o salário do marido e da mulher seja de 0,60 ou mais. Para verificar ta l hipótese, colheu-se urna amostra de 10 casais, obser­vando~se o salário de ambos. Qual seria sua conclusão? (Veja os resultados no pro­blema 3.6.27.)

50. No problema 3.6.24, temos 3 variáveis X, Y e Z, e queremos verificar qual é maior, PXl ou Pxz· Veririque se algum dos coeficientes pode ser considerado como nulo . • •

296

51.

52.

Comparação de coeficientes de correlação de duas populações - Va~os s~por que P I e p são os coeficientes de correlação de duas populações, das quais rellramos duas am~stras independcntes, de tamanhos nem, respectivamente. Desse modo. as va­

riáveis

I 1+,[ 2 1 = - In - - - , 2 I - ,[

terão, respectivamente. as distribuições

2 1 : N(/lZ': n ~ 3) e Zz : N(/lZ' ; m ~ 3}

com

1 1+ PI /lz =- 'n - -- , , 2 1 ~ p,

1 I + Pl /l = - In __ o

z, 2 I - Pl

Logo . a variável D=ZI ~Z2 terá distribuição normal . com parâmetros

_ . _ . = J... In (I + PI • I - pz), (!"~ "" _,_ + _l_o /lD - /lz, /lz, 2 I _ PI 1 + Pl n - 3 m - 3

Quando Pl ""Pl' temos que /l1J=0. E este resultado permite testar se dois coeficientes

de correlação são iguais ou não.

Para validar a melhoria da percepção da empresa como um todo, .u~ pesquisador submeteu um grupo de funcionários, selecionados ao acaso, a uma S-Cfle de aulas so­bre a empresa. Logo apóS. submeteu-os a um teste ~ontend~ várias perg~ntas sobre atividades da empresa. Esses funcionários tinham SIdo prevI!lmente avalIados pelos seus superiores. que atribuíram nOla de O a 20 para o grau de rc:rcepç:ào qu~ achava": que seus funcionários possuíam. Ambos os resultados estão abaIXO. Como e que voce

anisaria esteS resultados'?

FuncionáriQ Noto - teste NO/(l chefe

A 38 18

B 95 6

C 86 5

D 91) 3

E 83 4

F 24 20

G 96 7

H 49 i6 , 82 14

J 84 9

Somas 727 102

Somas dos quadrados 58.827 l.J92

Soma dos produtos 6. 126 -

297

Page 156: Probabilidade e estatística

53. Deseja-se verificar se os homens e as mulheres reagem do mesmo modo a um pré-trei_ namento que visa prepara-los para desincumbirem certa tarefa. Um grupo dc 28 mu­lheres e 52 homens são submetidos ao pré-treinamento, e em seguida mede-se a cor­relação entre o resultado no teste do curso e o numero de erros cometidos ao se fazer a tarefa. Os coeficientes de correlação observados foram : para as mulheres, -0,82; para os homens, -0,52. Usando os resultados do problema 51, qual seria sua con_ clusão? Interprete o signiricado do coeficiente de correlação negativo.

54. Os seguintes dados foram obtidos por um sociólogo, numa pesquisa envolvendo 350

casais.

Número Real Número Desejado de Filhos

de Filhos O I 2 3 4 , Mais que , O O O 2 4 O O O

I O O 1 4 2 O O

2 O O 19 31 56 4 2

3 O O 9 13 14 4 , 4 O O 3 10 43 2 2 , O O O O 2 2 O

6 ou mais O O O O I I 2 ~

(a) Qual o numero mediano desejado de . filhos? E o número médio? (b) Qual o numero mediano real de filhos? (c) Você acha que existe alguma relação entre o numero desejado e o número real de

filhos? Quantifique sua resposta.

55. Uma pesquisa será feita para estimar a proporção de solteiros, de católicos e de pro­fissionais liberais na população. Para isso, será usado um único questionário. Que tamanho mínimo deverá ter a amostra paTa garantir as especificações abaixo?

Variável Nível de Erro Probabilidade

Confiança Múx;mo Esperada

Solteiros 95% 10% 40"/. Católicos 90% 10% 700/0 Prof. liberais 92% 8% desconhecida

56. Suponhamos que nosso objetivo seja comparar a variabilidade dos pesos de dois gru­pos de pessoas. Após todas as mensuraçõcs e cálculos, verificou-se que a balança apre­sentava um erro constante, porém de tamanho desconhecido. Esse fato nos leva a aban­donar os resultados finais e iniciar tudo novamente? Justifique a resposta.

57. Os dados abaixo dão os acenos obtidos por 8 soldados num experimento destinado a detenninar se a precisão do tiro é. afetada pela maneira de se dispor os olhos:

298

58.

(a) com o olho direito aberto ; (b) com o olho esquerdo aberto; (e) com os dois olhos abertos.

Que tipo de conclusão você poderia tirar?

SQ/datkJ Direito

I 44 2 J9 J 33 4 56 , 4J 6 56 1 41 8 58

Esquerilo Ambos

40 " 31 41

28 31 II 52 48 42

" 63

4l 48 60 62

Um conjunto de 12 cobaias roi alimentado com uma dieta especial durante 3 sema­nas, e produziram-se os seguintes aumentos de peso: 30, 22,32,26,24,40,34,36,32, 33,28 e 30. Encontre limites de confiança de 900/0 para!J e para u

l.

(a) O que está significando a letra !J ? (b) Qual a variável aleatória observada? . ' .

.J,c) Para o problema te.!:, sentido, ~o~o devem ter sido escolhidos os ammals? (á) Sob que condição X tem dlstnbulção nonnal? (e) l:X("", 367 c l:~ "", 11.509. Podemos, então, concluir que o número 367 é um pa.

râmetro?

(j) X == I:X( = 367 = 30,6. O número 30,6 é um parâmetro?

" i2 (g) S1, a variância amostrai, é um parâmetro? (h) Com a significação que p. tem no problema, qual o sentido de P(p> X)? E de

P(p > 10, onde K'é um numero fixo qualquer? (I) Calcule a variância amostraI, usando a r6rmula mais adequada.

V) (.\i: - p.) .;; tem distribuição conhecida? Qual , e sob que condições?

(k) O :ue significa UI? É terdade que p(Sl = UI) = J? (/) De uma estimativa e um estimador para UI.

(m) I:(X( - f)2 tem distribuição conheci"da? Qual, e sob que condições?

.' (n) É possível calcular p(Sl > 10, onde K é um numero qualquer? (o) Construa agora os intervalos pedidos, e dê seu significado preciso por extenso. (p) Qual é o comprimento do intervalo (nos dois casos)? (q) Qual a probabilldade de X diferir de p. por mais de metade do comprimento do

intervalo?

59, Supõe-se que uma moeda favoreça cara, na proporção de 2 caras para cada 3 coroas. Para testar tal hipótese, lança-se a moeda 4 vezes, contando·se o numero de caras.

299

Page 157: Probabilidade e estatística

Repete-se esse experimento 625 vezes. Os resultados estão no quadro abaixo. Estes dados conlinnam ou não a suposição ?

N." de caras o I 2 3 4 TOTAL

Freqüências 72 204 228 101 20 __ L-________ ~ __ _

60. Num laboratório, foi realizada uma pesquisa de mercado em que se estudou a pre­ferência com relação a dois adoçantes artificiais, A e R, obtendo-se os seguintes re­sultados:

Sexo

Feminino Masculino

Preferem A

50 ISO

Preferem R

110 42

Indecisos

'" 8

Se a porcentagem da população que prefere o adoçante B fOf menor que 30%, ele será retirado de produção. Com base no resultado da pesquisa, você acha que R deve ser retirado de produção? Utilize primeiramente a = I % e, em se~da, a = 10 %. Inter­prete suas respostas.

-

300

.

I

1

I ,

í 35. 0,0135. 37. 0,36; 0,41 ; 0,23. 38. (a) 0.0862; (b) 0,26. 39. (a) 0,3 1175; (b) 0,5814. 40. (a) 0,62; (b) 0,21; (c) 0,114; (d) 0,286. 41. ta) 0,276; (b) 0,0224; ~c) 0,677. 42. (a) 27,6% (b) 2,2% (c) 67,7%. 44. 0 ,072 45.1 - (m/(m+n - b» «m-l) f (m+n-b - I). 47. P(A u Bu C) -= P(A) + peR) + P(C) - P(A n R) - P(A nC) - P(B ne) + P(A nBnC) 48. p(1 + 2p _ 2pl _ pl + p4)

49. (b) P(A ) = 11/4 : (c) P(B) = I - b1;

51. P(A) = (área de A) ( área do quadrado). 56. A e R não podem sef disjuntos, pois P(A nB)~ 1/12. logo P(A n B)fO.

57. 0,846.

CAPíTULO 5

x O I 2 3

I. I " 30 10

p(.~) - - -56 56 56 56

7 x I 2 3 4

3. I I I I p(x) - - - ...

2 4 8 16

y O I 2 3 4

5. ' q = 1 - p.

p(y) q' 41'1' 6p2ql 4plq p'

3x O 3 6 9

7. \ I " 30 10 p(3x) - - -

) 56 56 56 56

O I 2 3 Y I 2 3 x ; E(x) = 1,5; E(y)=2.

8. . I 3 3 I p(y)

I 2 I - -p(x) - - - 4 4 4 8 8 8 8

9. E(i!) = I - q; Varei!) -= q(l - q).

12. E(Y) = 2; Var(Y = I). f' ~<O 13. F(~)= q , O~ q<l I, q~ I

313 . ...

Page 158: Probabilidade e estatística

15. (a) 4,6, (b) E(G) = 2.75; VarIG) = 0,41 25.

16. __ "_ !-_ _ ' __ '_ , F(x) = {1/~: ~ ~ ~ < 2 1 1 1(2, 2 ~ x < 3

p(x) - I' 3 6 2 ' x ;;:.

19, (a) 25, (b) 4/5; (c) E(Z) = O, Var(Z) = 1; (j) P(X~3). 20. 0,2833, (b) 0,5925; (e) 0 ,2792. 22. 0,375 (binomial); 0,4{)6() (Poisson). 24. Simétrica, com valores iguais em ° e 5, 1 e 4, 2 e 3. 25. Não é simétrica; o valor de p. 27. duas flores. 28. 10 29. (a) 0,656; (b) 0,292; (c) 0,049; 30. É razoável. 31. 0,941. 33. (a) 0,1 429; (b) 2; (e) 2. 37. 6,48. 40. (a) 0,538; 42. (a) 1/3, 46. 0 ,0000091

(b) 0,098; (c) 0.0321. (b) 7/8: (c) 2- '0.

47. 1,213 x 10- 19 ~o

48. p = 0,2

"­(cf) 0,997.

-49. (a) pIO; (b) 1 ~pIO; (c) 4p2(1 ~ p)8.

CAPíTULO 6

I. (b) e- 20

2. (a) C = 4 ; I I ,

(c) 2' 2' 4 ' I I

5. E(X) = -, Var(X) = -'4 6. E(X) = 1; Var(X) = 1l: - 1 8. (a) ~ 7bl/(8+bJ) ; (b) E(X) = ~ 3/4 , Var(X)=3/80.

9. C 1 + 50 Cl

10. (a) 0,625 11. E( Y) = ~ 2, 1 ; Var(Y) = 3/20.

12. J, (y) = [Jlfi) + fi - fi)I /'Jy. 13, (b) 0,33 (Cl - C,) + 0,67 (e) - c I)' 14. (a) 0,34 , (b) 0,53 , (c) 0,50; (cf) 0,46. 15. (a) 0,93319; (b) 0,97725; (e) 0,68268; (cf) a= 19,6. 16. (a) 0,977; (b) 0,68; (c) 2,58; (ti) a = Il-I,285. 17, (a) 9413, (b) (164,25; 175,75). 18. 0 ,023.

314

I 1

1

19. P(D l :> 45) = 0,31, P(D 1 :> 49) = 0,12507. P(D2 :> 45) = 0,50, P(D 2 :> 49) = 0,17866.

20. (a) P(boa) = 0,8904; P{reeuperável) = 0,0932: P(defeituosa) = 0,0164.

(b) Em = 0,0921. 2t. 5e- 0.9 - 2 = 0.0328. 22. (a) 0,60721 ; (b) 0,0537; (e) 0.62552.

23. 0.10427. 24. 0,0009 . 25. (a) '.46; (b) 0.3315 ; (c) '.35. 30. 3; 70; 7. 31. (a) 0,5125 ; (b) 0.18673. 32. 4,33; 5,54: 6,02. 34. 9,332. 35. Tipo A: lucro esperado = 735.96: Tipo B: lucro esperado = 1772 ,50.

36. (a) E(X)=2, Var(X) = 1/3: EP') = IO. Jlar{Y) = 3;

E(Z) = + (t'J ~ e), Jlar{Z) = + (e4

- (2

).

37. 402/3.

{

0,)'<0 40. (a) Fy(y) = 2,Ji, O < Y < 1 (b) Ir(}') = l /fi ° < y < I.

I , y:> 1

41. E(X) = 0, Var (X) = I. 46. E(Y) = I 47. E( Y) = 1/6 48. (a) j{x) = e-" x;;:' O; (b) E(X) = I.

CAPiTULO 7

I. (c) independentes, (d) 1f2 . 1, 1/2,0,2/3, 1/2 .

x , 3 y o ,

pÚ') 0,3 0,5 0 .2 2. (a)

p(x) 0 .3 0,2 0,5

• (b) E(X) = 2,2; E(Y) = O,9; (c) dependentes: (d) 1/3. 1/5; (e) 0,5; 0,1.

I (b) E(X) ~ O. E(r) ~ J

Va r(X) = 1, VarO,) = 519· ~ J. (a) -I O

- I 1/ 12 O 1/ 12

O 1/6 O 1/6 1/4 O 1/4

315

Page 159: Probabilidade e estatística

4. 2 3 4 5

p(x + y) 0,1 0,3 0,1 0,4 0,1

E(X + Y) = 3,1, E(XY) = 2,1. Vor(X.+ Y) := 1,49, Var(XY) = 3,69.

S. (a) E(X+ Y) = t. Var(X+ Y)=29J36;

(b)a=lO,b=30 ou a=-IO,b = 3O.

6. (b) 3,125; 1,825; 5; 0,86; 0,86; 2,5.

7. (a)

~ 1 3 5 X,

1 1/25 1/25 2/25 3 1/25 1/25 2/25 5 2/25 2/25 4/25 7 [/25 1/25 2/25

P(XI =x I ) 1/5 1/5 2/5

(b) IOdependentes; (c) E(X I ) = E(X1) = E(i) = 4,2,

7

1/25 1/25 2/25 1/25

1/5

Var(X 1) = Var(X1) = 4,16 ; Vare%) = 2,08; (ti) nào são independentes; 4,2; 4,16; 1,56.

'y

p{xy)

)

P(XI = Xl)

1/ 5 1/5 2/5 1/5

1

6 8. (b) E(X)==O, Var(X) = 10; (c) Var(X+ Y)= 144j lOO.

9. (a) 3,85 e 4,94; (b) 3,78 e 4,94.

10, (a) x+y 2 3

_ 5

o 3 4 6

0,3 0,2 0,3 0,1 0,1

E(X + Y)=4 (=E(X) + E(Y) = 2+ 2); p(x + y) 0,1 0,2 0,3 0,_

Ib) 'y 2 3 4 6 ; E(XY) = 4;

p(xy) 0,1 0,2 0,1 0,2 0,4

(c) P(X = I , Y = 1) = 0,1 =/< P(X = I) p(r= I) = 0,06.

11. CQv(X. Y) = 0,12; P(X, Y) = 0, 197.

. 5 n. (b) 3; 1/8 e 3,5; (j) Var(X+ Y)=4""

1 1 13. P(X= - 1, y = - 1) = O +- P(X = - 1)P(Y= - 1) =4" x 4 '

14. (c) E(X);3 ,5; Var(X);2,92; E(Y)=4A7 e Var(Y)= 1,97; (ti) [,46; (e)7,97; fj) 7,80.

316

15, (a) são independentes; covariãneia = O; (b) esperanças : I , 1/2, \'5 ,

.•. 1 1 3 vananClas: 2' 4' 4 '

16. 0,65.

2 2 17. (b) P(X=O, Y=O) = ° f- P(X=O) P(Y=O) = 8 x 8 '

19. (a) X 5 lO 15 P(Y=y)

5 0.1 0,2 0,1 0,_

lO 0,2 0,3 0,1 0.6

P(X= x) 0,3 0,5 0,2 1

(c) Não; P(X=5, Y =5) = 0,1 f- P(X=5) P(Y =5) = (0,3)(0,4). (ti) E(X) = 9,5; E(Y) = 8,0;

Var(X) = 12.25; Var(Y) = 6,0 ; Cov(X, Y) = - J. (e) E(Z) = 17,5; Var(Z) = 16,25; fj) 50%.

, 2 3 x':.t-y 2

_ 5 x-r

20. p(x) 1/5 2/5 2/5 1 2 1 p(x - y) p(x + y)

l 5 5 l

- O 2 x-y - I - 1 O Y

2 2 1 2 2 p(y)

5 5 5 p(x - y-I)

5 5 5

21. (b) E(X) = 3,1; Var(X) = 0,09; (e) Cov(X, Y) = 0,0[ ; (d) Var(X + Y) = 0,2.

23. (a) 0-2 + J.l2; (b) 0-

2 + J.I(J.I- I).

24. (a) 0,30; 0,[7 ; dependentes; (b) p = - 0,51.

27. g(x) = 2x, O~x~[; h(y)=2y,0~y~1.

28. (a) y y := X

, y "" - )(

O 2

1 2 2

5 5 5

317

Page 160: Probabilidade e estatística

x' (c)g(x)"""'4 , O.;;;xo>;2;

I h(y) = 48 (yl~ 11y+ 16), O o;;;yo;;;2

I = - (5y l _ 12y+ 16), -2 o;;;y < O.

48

29. (a) g(x) = e- ~ , x> O h(y)=e-', y > O

30. Notar que Cov(Z, U"J""AC · Cov(X, Y),

32. 6,17

Var(Z) = AI • Var(X) , Var(W)=C 1 • Var{Y).

35. (h) E(nX+ bY) = 0111 +b1l1

Var(aX + bY) = a~aJ +b1qf

37. fix, y) = g(x ) . h(y).

38. E(X) = V:J + o" + Ii.)/n Var(X) = «1~ + ... + a~)/nl •

39. E(X) = /l Var(X) = al /n.

PARTE 111

CAPiTULO 8

7. (a) 68%; 8. (a) 512,80; 9. (a) 5.82%;

10. (a) 35,20";' : 12. 23% 17. (a) 2,27% 18. 81

Ib) IllO"!. ; lá) ,. Ib) 0,52%. (h) 53,28%.

Ih) 0,05%.

(c) E(X1+ ... +XJ=PI+"'+P. Vor(X 1 + ... +X.) = u7 + .. . + 0';

19. (a) ° e 4OO/n; (h) 61,70%; (c) 31,74% ; (cf) 5,16% ; (e) 1537. 20. (a) 4,75% ; (h) 50";' 21. (a) 26,44% (h) 16,01 % 23. 0,06% . 29. (a) 31,25%; (h) 0,97; (c) 95.

CAPiTULO 9

I. --,-------------

318

p P(fl)

0,0 0,2

0,328 0,410

O,,

0,205

EIP) ~ O; Vor(jj) = 0,032

0,6 0,8

0,051 0,006 1,0

0,000

3. E@l ) =P; V~r(Jil)= p(l-P) ; E(jil)=P; Var@l)=p(1 -p).

" 6. (b)'j1 = Y.Y=7 ,75. 7. (h) íü) = 779,28 + 3551 (onde 1= 0, corresponde a 1973) ;

(e) 2202. 9. i = 65,53. P = 0.84

11. (h) n/f.x j; (c) 5/ 11. 12. â = 1f t 13. ~ = X. 14. 170 ± 2,94; 165 ± 3,18 ; 180 ± 2.08. iS. (a) ]787.1; 812,9[; (h) 16%: (c) 625. 16. (a) 384; (h) 666. 17. (a) 301; (h) J49; 51[. 18. ]0.677; 0,732[. 19. ]0,25; 0.35(, )0,255; 0.345[. 20. (a) 3932 ; (h) )0,5345: 0,56551· 21. (a) ]0,274; 0,386[; (b) 2401. 23. (a) ]148,37; 15 1 ,63[ 24. (a) 15,13; 7,31[; (h) 107.584. 25: 400 ± 20,46 26. 12,53; 13,25; 18,29; 19,01. 27. (a) )0,543; 0,657[; Cc) 3.841.600. 29, 0,520 ± 0,049. 36. 2000. 37. fi = x e 2 l = I(X 1 - Xjl/n. 40. 510,6 ± 0,784. 43. I/x.

CAPíTULO 10

2. (a) 9,1~%; (h) 6,68% ; (c) RC = [1171; aJ[.

4.12 = 1/8. 7. Não, pois Zo= - 1,5 e RC=)- oo ; - 1.645). 8. Sim, pois Zo= -2,8 e RC=I-oo; -1,645).

10. (a) 11% 13. Rejeita.se a hipótese p = 0,20, pois 20 = 1,36 e RC = ]1 ,28 ; Ç() [. 16. 27,43% . 22. Ho não é rejeitado, pois Zo = 1,94 e RC' = [- 1,96; 1.96). 35( 0) 0,3%; (b) 87,2%,

CAPITULO II

I. (a) 9,342; (b) 36,191 ; (c) 29,615; (e) 5,412 ; (fJ 9,524. 3. (a) 6,314; (h) 1,440; (c) -1,812; (ã) 2,131; (e) -0,860; (j) 3,160. 5. (a) 9,55; (b) 0,105: (c) 3,84 ; (cf) 1,35; (e) 0 ,42 ; '(f) 1.8275.

Page 161: Probabilidade e estatística

r 9. (a) 41 ,56 ± 5,51-

10. Não, pois Xã ... 30,667. 13. São iguais, pois Fo = 2,56. 27. l4.66: 23.17]. 28. (o) 211; (h) [0.35 : 0,45] com )' = 95%. 33. A produtividade c a mesma (to = 0,65 1). 36. (a) [0,19 : 1.8!J. admitindo variâncias iguais. 40. Ao ~ívcl de 5% não há evidência estatística de que a droga reduz a pressão. 44. (a ) sIm

320

BIBLIOGRAFIA

[I] CLARK C. T. & SCHKADE L. L. Storistica/ Melhodsfor Business Decisions. South-Western Publishing, Cincinatti, 1969.

[2] DACHS J. N. W. Análise de Dados e Regressão. IM E-USP, São Paulo,

1978. {3] FRASER D. A. S. Statislics: An Introdl4ct;on . John Wiley and Sons,

New York, 1958 . [4J HOAGLlN D. c., M05TELLER F. & TUKEY J. W. Undmtand;ng

Robusf and Exploratory Dala Ana/ysis. loho Wiley and sons , New

York, 1983. [5] HOEL p, G. Estatística Elementar. Editora Atlas, São Paulo , 1977. [6} LEVIN J. Estatística Aplicada às Ciências Humanas. Editora Harpcr

& Row do Brasil , São Paulo, 1978. F] MORETIrN P. A. Introdução à Estatistica para Ciências Exatas.

Atual 'Editora , São Paulo , 1981. [S] MORETIIN P. A. & BUSSA B W. O. Métodos Quantitativos para

Economistas e Administradores, v. I : Cálculo - Funções de uma Variável . Atual Editora , São Paulo, 1981.

[9J HAZZAN 5., MORETTIN ·P. A. & BUS5AB W. O. Métodos Quantitativos para Economistas e Administradores , v. 2: Cálculo -Funções de Vár ias Variáveis. Atual Editora , São Paulo, 1982.

[IOJ PFAFFENBERGER R. C. & PA TTERSON J. H . Staústkal M etllOds for Business and Economics. Homewood, Richard D. Irwin, minois,

1977. [lI} TUKEY J. W. Exploralory Dala Analysis. Reading, Addison Wesley ,

Massachusetts, 1977. [12] WONNACOlT T. H. & WONNACOTT R. J. Introductory Stalistics

for Business and Economics. lohn Wiley and Sons, New York , 1972.

32'