Notas de Aula da Disciplina de Estat stica

161
Notas de Aula da Disciplina de Estat´ ıstica Alexandre Souto Martinez Universidade de S˜ao Paulo - USP Faculdade de Filosofia, Ciˆ encias e Letras de Ribeir˜ ao Preto - FFCLRP Departamento de F´ ısica e Matem´atica - DFM tel.: 0xy16 36.02.37.20 e-mail: asmartinez@ffclrp.usp.br internet: http:// 27 de outubro de 2015

Transcript of Notas de Aula da Disciplina de Estat stica

Page 1: Notas de Aula da Disciplina de Estat stica

Notas de Aula da Disciplina de Estatıstica

Alexandre Souto MartinezUniversidade de Sao Paulo - USP

Faculdade de Filosofia, Ciencias e Letras de Ribeirao Preto - FFCLRPDepartamento de Fısica e Matematica - DFM

tel.: 0xy16 36.02.37.20e-mail: [email protected]

internet: http://

27 de outubro de 2015

Page 2: Notas de Aula da Disciplina de Estat stica
Page 3: Notas de Aula da Disciplina de Estat stica

Sumario

1 Introducao 91.1 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Estatıstica Descritiva 112.1 Tipos de Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2 Arredondamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.1 Notacao Cientıfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2.2 Algarismos ou Dıgitos Significativos . . . . . . . . . . . . . . . . . . . . . . 122.2.3 Exemplo de Coleta de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3 Distribuicao de Frequencias e Proporcoes . . . . . . . . . . . . . . . . . . . . . . . 132.3.1 Classes de Frequencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.3.2 Frequencias Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.4 Medidas Associadas a Variaveis Quantitativas . . . . . . . . . . . . . . . . . . . . . 162.4.1 Medidas de Posicao Central . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4.2 Medidas de Dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.4.3 Erro-Padrao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4.4 Fator Z . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4.5 Momentos de uma Distribuicao de Frequencias . . . . . . . . . . . . . . . . 222.4.6 Medidas de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.4.7 Medidas de Achatamento ou curtose . . . . . . . . . . . . . . . . . . . . . . 23

2.5 Medidas Associadas a Variaveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . 242.5.1 Entropia de Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5.2 Entropia de Brillouin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.5.3 Entropia de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.6 Exemplo de Uso da Media Geometrica: Juros Compostos . . . . . . . . . . . . . . 252.6.1 O problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.6.2 Um Ativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.7 Consideracoes sobre o Calculo Numerico de Algumas Grandezas . . . . . . . . . . 262.7.1 Media em Tempo Real . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.7.2 Calculos de Variancia, Assimetria e Curtose . . . . . . . . . . . . . . . . . . 262.7.3 Algoritmos para ordenacao em postos . . . . . . . . . . . . . . . . . . . . . 26

2.8 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Calculo de Probabilidades 293.1 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Espaco Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3 Probabilidade e suas Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4 Probabilidade Condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.6 Metodos de Contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3

Page 4: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

3.7 Teoria da Confiabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.8 Interpretacoes da Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.8.1 Intepretacao Classica da Probabilidade . . . . . . . . . . . . . . . . . . . . . 313.8.2 Intepretacao Classica da Probabilidade . . . . . . . . . . . . . . . . . . . . . 313.8.3 Intepretacao Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.9 Espaco Amostral - Populacao e Evento - Amostra . . . . . . . . . . . . . . . . . . . 323.10 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4 Variaveis Aleatorias 394.0.1 Variaveis Aleatorias Unidimensionais . . . . . . . . . . . . . . . . . . . . . . 394.0.2 Funcao de Reparticao ou Distribuicao Acumulada . . . . . . . . . . . . . . 40

4.1 Variaveis Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2 Funcao Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.3 Funcao Caracterıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.4 Parametros Associados a Distribuicao de Probabilidades . . . . . . . . . . . . . . . 41

4.4.1 Normalizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4.2 Parametros de Posicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4.3 Parametros de Dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4.4 Parametros de Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.4.5 Parametros de Curtose (Excesso) . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5 Variaveis Aleatorias Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . 434.5.1 Parametros Associados a Distribuicao de Probabilidades . . . . . . . . . . . 434.5.2 Funcao de Correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.5.3 Mudanca de Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.7 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5 Distribuicoes Discretas 495.1 Distribuicao Uniforme ou Equiprovavel . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.1.1 Espacamentos Iguais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.2 Distribuicao de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495.3 Distribuicao Simetrica de Bernoulli (Ising) . . . . . . . . . . . . . . . . . . . . . . . 495.4 Distribuicao de Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.5 Distribuicao de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515.6 Distribuicao Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.6.1 Populacao de Tamanho Finito . . . . . . . . . . . . . . . . . . . . . . . . . 525.7 Distribuicao Binomial Negativa ou Distribuicao de Pascal . . . . . . . . . . . . . . 525.8 Distribuicao Hipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.9 Distribuicao Multinomial ou Polinomial . . . . . . . . . . . . . . . . . . . . . . . . 545.10 Distribuicao Hipergeometrica Generalizada . . . . . . . . . . . . . . . . . . . . . . 555.11 O Problema da Ruına do Jogador . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.11.1 Jogo com Tres Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.11.2 Jogo com M Estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.12 Paradoxo de Parrondo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.13 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6 Distribuicoes Contınuas 616.1 Distribuicao Uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.2 Distribuicao Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.3 Distribuicao de Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.4 Distribuicao Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616.5 Distribuicao Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.6 Distribuicao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 626.7 Distribuicao do χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4

Page 5: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

6.8 Distribuicao t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636.9 Distribuicao r de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646.10 Distribuicao F (Fisher-Snedecor) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646.11 Distribuicao Log-Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646.12 Distribuicao de Cauchy-Lorentz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646.13 Distribuicao de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.14 Distribuicao Simetrica de Levy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

6.14.1 Variaveis Multidimensionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 656.15 Distribuicao Truncada de Levy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.16 Distribuicao de Tsallis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.16.1 −∞ < q < 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676.16.2 q = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 676.16.3 1 < q < 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

6.17 Distribuicao de Gibbs ou Distribuicao de Boltzmann . . . . . . . . . . . . . . . . . 686.18 Distribuicao de Exponencial Esticada . . . . . . . . . . . . . . . . . . . . . . . . . . 686.19 Distribuicao de Voigt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 686.20 A Regra de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

7 Distribuicoes Multivariadas 717.1 Variaveis Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717.2 Soma de Variaveis Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717.3 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

7.3.1 Teorema Central do Limite: Levy-Gnedenko . . . . . . . . . . . . . . . . . . 727.4 Distribuicoes Bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

7.4.1 Distribuicao Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737.4.2 Distribuicao de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

8 Experimentacao 75

9 Estatıstica Indutiva 779.1 Teoria da Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

9.1.1 Amostragem Casual Simples . . . . . . . . . . . . . . . . . . . . . . . . . . 779.1.2 Amostragem aleatoria Estratificada . . . . . . . . . . . . . . . . . . . . . . 789.1.3 Amostragem por Conglomerados . . . . . . . . . . . . . . . . . . . . . . . . 789.1.4 Eliminacao de Dados Suspeitos . . . . . . . . . . . . . . . . . . . . . . . . . 799.1.5 Ausencia de Resposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

9.2 Estatısticas e Parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809.3 Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

9.3.1 Erro Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809.3.2 Vies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809.3.3 Erro Quadratico Medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809.3.4 Precisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809.3.5 Acuracia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 809.3.6 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . 819.3.7 Estimadores de Mınimos Quadrados . . . . . . . . . . . . . . . . . . . . . . 819.3.8 Estimadores de Maxima Verossimilhanca . . . . . . . . . . . . . . . . . . . 82

10 Distribuicoes Amostrais 8310.1 Distribuicao Amostral do Numero de Sucessos para Populacoes Finitas . . . . . . . 8310.2 Distribuicao Amostral da Proporcao para Populacoes Finitas . . . . . . . . . . . . 8310.3 Distribuicao Amostral do Numero de Sucessos para Populacoes Infinitas . . . . . . 8310.4 Distribuicao Amostral da Proporcao para Populacoes Infinitas . . . . . . . . . . . . 83

10.4.1 Aproximacao pela distribuicao Normal . . . . . . . . . . . . . . . . . . . . . 8410.5 Distribuicao Amostral da Soma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

5

Page 6: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

10.6 Distribuicao Amostral da Media: Variancia da Populacao Conhecida . . . . . . . . 8410.6.1 Populacao de Tamanho Finito: . . . . . . . . . . . . . . . . . . . . . . . . . 84

10.7 Distribuicao Amostral da Media: Variancia da Populacao Desconhecida . . . . . . 8510.8 Distribuicao Amostral da Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . 8510.9 Distribuicao Amostral da Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

10.9.1 Distribuicao Amostral do Coeficiente de Correlacao . . . . . . . . . . . . . . 8510.9.2 Distribuicoes Amostrais Desconhecidas . . . . . . . . . . . . . . . . . . . . . 85

11 Intervalos de Confianca 8711.1 Uma Populacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

11.1.1 Media (Variancia da Populacao Conhecida) . . . . . . . . . . . . . . . . . . 8711.1.2 Mediana (Variancia da Populacao Conhecida) . . . . . . . . . . . . . . . . . 8711.1.3 Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8711.1.4 Media (Variancia da Populacao Desconhecida) . . . . . . . . . . . . . . . . 8811.1.5 Proporcao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8811.1.6 Coeficiente de Correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

11.2 Duas Populacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8911.2.1 Razao entre Variancias das Populacoes . . . . . . . . . . . . . . . . . . . . . 8911.2.2 Diferencas de Medias (Variancia da Populacao Conhecidas) . . . . . . . . . 9011.2.3 Diferencas de Medias (Variancias da Populacoes Desconhecidas e Iguais) . . 9011.2.4 Diferencas de Medias (Variancias da Populacoes Desconhecidas mas Dife-

rentes) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9011.2.5 Diferencas de Medias em Amostras Emparelhadas . . . . . . . . . . . . . . 9111.2.6 Diferencas de Proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

11.3 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

12 Teste de Hipoteses 9312.1 Passos para a Construcao de um Teste de Hipoteses . . . . . . . . . . . . . . . . . 9412.2 Nıvel Descritivo ou Valor P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

12.2.1 Respondendo a um Teste de Hipotese . . . . . . . . . . . . . . . . . . . . . 9512.3 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

13 Alguns Testes de Hipoteses Parametricos 9913.1 Uma Populacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

13.1.1 Media com variancia populacional conhecida . . . . . . . . . . . . . . . . . 9913.1.2 Media com variancia populacional desconhecida . . . . . . . . . . . . . . . . 9913.1.3 Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9913.1.4 Correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9913.1.5 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

13.2 Duas Populacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10013.2.1 Variancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10013.2.2 Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10013.2.3 Duas Correlacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10113.2.4 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

13.3 Varias Populacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10413.3.1 Teste de Homogeneidade das Variancias: Teste de Bartlett . . . . . . . . . . 10413.3.2 Analise de Variancia (ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . 105

14 Variaveis Bidimensionais 11314.1 Coeficiente de Contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11314.2 Tabelas 2× 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

14.2.1 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11514.2.2 Risco Relativo e Razao das Chances (Odds Ratio) . . . . . . . . . . . . . . 117

14.3 Coeficiente de Correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

6

Page 7: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

14.3.1 Covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12114.3.2 Correlacao Entre Momentos Superiores . . . . . . . . . . . . . . . . . . . . 12114.3.3 Funcao de Auto-Correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

15 Variaveis Multidimensionais 12315.1 Introducao a Analise das Componentes Principais . . . . . . . . . . . . . . . . . . . 123

16 Regressao 12516.1 Regressao Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

16.1.1 Metodo dos Mınimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . 12516.1.2 Erro Padrao da Regressao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12616.1.3 Estatıstica do Coeficiente de Regressao β′: Analise de Variancia . . . . . . 12616.1.4 Estatıstica do Intercepto α′ . . . . . . . . . . . . . . . . . . . . . . . . . . . 12716.1.5 Intervalo de Confianca para y′ . . . . . . . . . . . . . . . . . . . . . . . . . 12716.1.6 Coeficiente de Determinacao . . . . . . . . . . . . . . . . . . . . . . . . . . 12716.1.7 Analise de Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

16.2 Regressao Linear Multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12716.3 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

17 Processos Estocasticos 13117.0.1 Cadeias de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

17.1 Processos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13217.1.1 Teoria das Filas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

18 Statistical Methods for Rater Agreement 13718.1 Recommended Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

18.1.1 Dichotomous data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13918.1.2 Ordered-category (excluding Likert-type) data . . . . . . . . . . . . . . . . 13918.1.3 Nominal scale data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14018.1.4 Likert-type data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

18.2 Raw Agreement Indices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14018.2.1 Two Raters, Dichotomous Ratings . . . . . . . . . . . . . . . . . . . . . . . 14018.2.2 Two Raters, Polytomous Ratings . . . . . . . . . . . . . . . . . . . . . . . . 14218.2.3 Generalized Case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14318.2.4 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

18.3 Odds Ratio and Yule’s Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14518.3.1 Intuitive explanation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14518.3.2 Yule’s Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14518.3.3 Log-odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14618.3.4 Pros and Cons: the Odds Ratio . . . . . . . . . . . . . . . . . . . . . . . . . 14618.3.5 Extensions and alternatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 14618.3.6 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

18.4 Tests of Marginal Homogeneity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14718.4.1 Nonparametric tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14818.4.2 Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14818.4.3 Loglinear, association and quasi-symmetry modeling . . . . . . . . . . . . . 14918.4.4 Latent trait and related models . . . . . . . . . . . . . . . . . . . . . . . . . 14918.4.5 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

18.5 Kappa Coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15018.5.1 Pros and Cons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15018.5.2 Bibliography: Kappa Coefficient . . . . . . . . . . . . . . . . . . . . . . . . 151

18.6 McNemar Tests of Marginal Homogeneity . . . . . . . . . . . . . . . . . . . . . . . 15418.6.1 The McNemar test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15418.6.2 Test of marginal homogeneity for a single category . . . . . . . . . . . . . . 154

7

Page 8: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

18.6.3 Stuart-Maxwell test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15518.6.4 Test of equal category thresholds . . . . . . . . . . . . . . . . . . . . . . . . 15518.6.5 Test of overall bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15618.6.6 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15718.6.7 References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

8

Page 9: Notas de Aula da Disciplina de Estat stica

Lista de Tabelas

2.1 Dados brutos referententes as caracterısticas: Sexo, Avaliacao do Ano, Numero deIrmaos e Altura em metros. O ındice i se referem aos indivıduos. . . . . . . . . . 14

2.2 Esquema de tabelas de frequencias e proporcoes. O ındice i varre o domınio davariavel X, ou seja, pecorre todas as realizacoes dessa variavel. . . . . . . . . . . . 15

2.3 Frequencias e proporcoes para a variavel Sexo. . . . . . . . . . . . . . . . . . . . . 15

2.4 Frequencias e proporcoes para a variavel Avaliacao do Ano. . . . . . . . . . . . . . 16

2.5 Frequencias e proporcoes para a variavel Numero de Irmaos. . . . . . . . . . . . . . 16

2.6 Esquema de tabela de classes de frequencias e proporcoes. O ındice i varre todasas k classes. A notacao a → b indica o intervalo semi-aberto [a, b[, ou seja, a estaincluso e b excluso da classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.7 Classes de frequencias e proporcoes para a variavel Altura (m). xini = 1, 50 m,h = 0, 05 m, k = 8 e xfin = 1, 90 m. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.8 Classes de frequencias e proporcoes para a variavel Altura (m) onde o tamanho dasclasses e desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xfin = 1, 90 m. . . . . . . . 18

2.9 Esquema de tabelas de frequencias e proporcoes acumuladas. O ındice i varre odomınio da variavel X, ou seja, pecorre todas as realizacoes dessa variavel. . . . . 18

2.10 Primeiro, segundo e terceiro quartis para n par e ımpar. . . . . . . . . . . . . . . . 21

4.1 Distribuicao de probabilidades de uma variavel discreta com n estados (valores). Anormalizacao e garantida por:

∑ni=1 pi = 1. . . . . . . . . . . . . . . . . . . . . . . 39

5.1 Razao de probabilidade Pn(k)/P6(6) = Pn(k)/50063860 de fazer a sena k = 6,quina k = 5 ou quadra k = 4 apostando n dezenas. . . . . . . . . . . . . . . . . . . 55

13.1 Dados brutos e compilados de 4 tratamentos. . . . . . . . . . . . . . . . . . . . . . 105

13.2 Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, ostamanhos das amostras podem ser diferentes. . . . . . . . . . . . . . . . . . . . . . 106

13.3 Dados x(i)j para a tratamentos (amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , ni

para utilizacao do metodo ANOVA de um fator. . . . . . . . . . . . . . . . . . . . 107

13.4 Resumo dos dados da Tabela 13.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

13.5 Tabela ANOVA de um fator. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

14.1 Tabela de frequencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

14.2 Tabela de proporcoes com relacao ao total geral. . . . . . . . . . . . . . . . . . . . 114

14.3 Valores observados: oi,j = fi,j . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

14.4 Valores esperados: ei,j = p′.,j∑kyk=1 fi,k = (

∑kxk=1 p

′k,1)(

∑kyk=1 fi,k) . . . . . . . . . . 115

14.5 Tabela de frequencias 2× 2 para teste de contingencia. . . . . . . . . . . . . . . . . 115

14.6 Tabela de frequencias 2× 2 para teste de homogeneidade. . . . . . . . . . . . . . . 115

14.7 Exemplo de tabela de frequencias 2× 2 para teste de homogeneidade. . . . . . . . 117

9

Page 10: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

14.8 Tabela 2× 2 de proporcoes para calculo de risco relativo e razao das chances (oddsratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1. . . . . . . . . . . . . . . . . . . . . . . . . . 117

14.9 Tabela 2× 2 de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11814.10Tabela 2× 2 de proporcoes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11814.11Resumo dos tipos de Estudos e possibilidade de calculos. . . . . . . . . . . . . . . . 12014.12Valores de X e Y para as realizacoes indexadas por i. . . . . . . . . . . . . . . . . 120

16.1 Valores de X e Y a serem utilizados. . . . . . . . . . . . . . . . . . . . . . . . . . . 12516.2 Transformacoes mais usuais para a linearizacao dos dados. . . . . . . . . . . . . . . 12616.3 Tabela ANOVA para regressao linear. . . . . . . . . . . . . . . . . . . . . . . . . . 128

18.1 Summary of dichotomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 14018.2 Summary of polytomous ratings by two raters. . . . . . . . . . . . . . . . . . . . . 14418.3 Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2. . . 14618.4 Summarization of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . . . . . 14818.5 Example data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15418.6 Summarization of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . . . . . 15518.7 Table 18.6.2 collapsed to test row/column homogeneity for the “low” category. . . 15618.8 Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category. . 15618.9 Hypothetical summary of ratings by Rater 1 (rows) and Rater 2 (columns). . . . . 15618.10Table 18.6.2 collapsed to test row/column homogeneity for the “high” category. . . 157

10

Page 11: Notas de Aula da Disciplina de Estat stica

Lista de Figuras

1.1 Representacao esquematica de uma populacao e uma amostra e dos processos dededucao e Inducao. Nota-se que uma amostra pode ser um subconjunto desconexoda populacao. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Esquema que enfatiza a introducao do erro nos metodos estatısticos. . . . . . . . . 10

2.1 Esquema que descreve as variaveis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

11

Page 12: Notas de Aula da Disciplina de Estat stica
Page 13: Notas de Aula da Disciplina de Estat stica

Capıtulo 1

Introducao

Pode-se considerar a Estatıstica como aciencia que se preocupa com a organizacao, des-cricao, analise e interpretacao dos dados (expe-rimentais, por exemplo). Pode-se dizer tambemque a Estatıstica esta muito ligada a processosonde decisoes devem ser tomadas, a analise dedecisao.

Evidentemente, para poder-se fazer suaanalise e interpretacao dos dados observados, aorganizacao e descricao dos dados sao etapas im-portantes. e razoavel tambem supor que, paratomar decisoes, deva-se primeiramente organi-zar e descrever, analisar e interpretar os dados.

Dentro dessa ideia, podemos considerar aciencia Estatıstica como atuando sobre os da-dos e dividida basicamente em tres partes:

1. a Estatıstica Descritiva, que se preocupacom a organizacao e descricao dos dados,ou seja, ela faz um resumo dos dados,

2. a Estatıstica Indutiva ou Inferencial, quecuida da sua analise e interpretacao e

3. Analise da Decisao, que utiliza metodos es-tatısticos para auxilar na tomada de de-cisao.

Vale a pena enfatizar que tais metodos po-dem levar em consideracao a subjetividade dodecisor.

Dois conceitos fundamentais devem ser apre-sentados: o conceito de populacao e o conceitode amostra.

1. Uma populacao, ou universo, e um conjuntode todos elementos que possam ter pelo me-nos uma caracterıstica comum.

2. Uma amostra e um subconjunto da po-pulacao.

Esta caracterıstica comum deve delimitar ine-quivocamente quais os elementos que pertencema populacao e quais nao pertencem.

Amostra

Populacao

6?

Inducao Deducao

Figura 1.1: Representacao esquematica de umapopulacao e uma amostra e dos processos dededucao e Inducao. Nota-se que uma amos-tra pode ser um subconjunto desconexo da po-pulacao.

O objetivo da Estatıstica Descritiva e de re-sumir os dados.

O objetivo da Estatıstica Indutiva e o de tirarconclusoes sobre populacoes com base nos resul-tados observados em amostras extraıdas dessaspopulacoes. Ela pode se subdivida em dois pro-cessos que sao interligados:

1. estimacao e

2. teste de hipoteses.

O proprio termo “indutiva” decorre daexistencia de um processo de inducao, isto e,um processo de raciocınio em que, partindo-sedo conhecimento de uma parte, procura-se tirarconclusoes sobre o todo. O oposto ocorre nosprocessos de deducao, em que, partindo-se doconhecimento do todo, concluımos sobre o quedeve ocorrer em uma parte. Veja a ilustracaoda Fig. 1.1.

Um processo de inducao nao pode ser exato.Ao induzir, portanto, estamos sempre sujeitos

13

Page 14: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Inducao =⇒ Erro⇐⇒ Probabilidades

Populacao = Amostra + Erro

Dados = Modelo︸ ︷︷ ︸Parte Suave

+ Resıduos (Erro)︸ ︷︷ ︸Parte Grosseira

Figura 1.2: Esquema que enfatiza a introducaodo erro nos metodos estatısticos.

a erros. A Estatıstica Indutiva, entretanto, iranos dizer ate que ponto poderemos estar errandoem nossas inducoes (estimacoes), e com que pro-babilidade atraves do teste de hipoteses. Veja oesquema da Fig. 1.2

Observamos que no caso de um censo ou re-censeamento, onde se tem acesso a pelo menosuma caracterıstica de todos os elementos de umapopulacao os resultados, em princıpio, sao exa-tos, nao estao sujeitos a erros.

Um outro problema que surge paralelamentee o problema da amostragem, ou seja, processode obtencao de amostras, uma vez que as con-clusoes referentes a populacao vao ser baseadosem amostras.

Vale salientar que metodos estatısticos saomodelados por distribuicoes de probabilidades,de modo que, o estudo das probabilidades estaointimamente relacionados com a disciplina Es-tatıstica.

Aqui nos restringeremos a Estatıstica Des-critiva e Indutiva. Com a finalidade de es-tudar a Estatıstica Indutiva, devemos primei-ramente abordar conceitos da Estatıstica Des-critiva, Calculo de Probabilidades e Teoria daAmostragem.

Finalmente notamos que o termo estatısticatem um significado partıcular e esta relacionadocom as amostras, o que, a rigor, iremos estudarsao os metodos estatısticos. Como faz a maioria,chamaremos a disciplina Estatıstica a disciplinaque estuda os metodos estatısticos.

1.1 Bibliografia

Estas notas de aulas foram baseadas nas seguin-tes referencias:

1. Mario Triola, Introducao a Estatıstica, LTCsetima edicao, Rio de Janeiro (1999).

2. Wilton de O. Bussab e Pedro A. Morettin,Estatıstica Basica, Editora Saraiva quintaedicao, Sao Paulo (2002), ISBN: 85-02-03497-9.

3. Pedro Luiz de Oliveira Costa Neto, Es-tatıstica, Editora Edgard Blucher, SaoPaulo (1998).

4. Marcos Nacimento Magalhaes e AntonioCarlos Pedroso de Lima, Nocoes de Proba-bilidade e Estatıstica, Edusp quarta edicao,Sao Paulo (2002), ISBN: 85-314-0677-3.

5. Nilza Nunes da Silva, Amostragem Proba-bilıstica, Edusp, Sao Paulo (1998), ISBN:85-314-0423-1.

6. Wayne W. Daniel, Biostatistics: a Fon-dation for Analysis in the Health Science,John-Wiley & Sons fifth edition, Singapore(1992).

7. Jerrold H. Zar, Biostatistics Analysis,Prentice-Hall third edition, EnglewoodCliffs (1984).

8. Lloyd D. Fisher and Gerald van Belle, Bi-ostatistics: Methodology for Health Science,John-Wiley & Sons,?? (??) ISBN: 0-471-16609-X.

9. Bernard Rosner, Fundamentals of Biosta-tistics, PWS-Kent third edition, Boston(1990) ISBN: 0-534-91973-1.

14

Page 15: Notas de Aula da Disciplina de Estat stica

Capıtulo 2

Estatıstica Descritiva

2.1 Tipos de Variaveis

Quando considera-se dados, esta-se interessadoem alguma ou algumas caracterısticas de inte-resse que chamaremos de variavel ou variaveis. Uma variavel e representada por uma le-tra maiuscula, por exemplo X, e cada va-lor que a variavel assume nas diversas rea-lizacoes (observacao) e representado por umaletra minuscula (em geral indexado pela rea-lizacao), por exemplo: x1, x2, x3, . . ..

As variaveis podem ser divididas em:

1. variaveis qualitativas que apresentam comopossıveis realizacoes uma qualidade ou atri-buto do item considerado, e

2. variaveis quantitativas apresentam comopossıveis realizacoes numeros resultantes deuma contagem ou medida.

Dentre as variaveis qualitativas podemos dis-tingir dois tipos:

1. variavel qualitativa nominal se nao houvernenhuma possibilidade de ordenacao dospossıveis resultados, por exemplo, faces deuma moeda: cara ou coroa, cores: verme-lho, verde e azul, e

2. variavel qualitativa ordinal, para qualexiste uma certa ordem nos possıveis resul-tados, por exemplo: menos e mais, pessimo,ruim, razoavel, bom e excelente.

Analogamente, as variaveis quantitativas po-dem ser consideradas como:

1. discretas quando trabalha-se com men-suracao de coisas ou unidades mınimas in-divisıveis (unidade monetaria em centavos,pode ser negativo), ou na forma de con-tagem (numeros naturais), por exemplo0, 1, 2, 3, 4, 5, e

2. contınuas quando trabalha-se com numerosreais por exemplo [−3, 2], [−3, 2[, ]−3, 2] ou]− 3,−2[1.

As variaveis sao definidas em um domınio, ouseja, deve ser especificado quais os valores queelas podem assumir. Veja o esquema da Fig. 2.1.

Caracterıstica(s) daPopulacao ou Amostra

=⇒ Dados =⇒ Variaveis︸ ︷︷ ︸Domınio

Variaveis︸ ︷︷ ︸Domınio

−→

Qualitativa

{NominalOrdinal

Quantitativa

{DiscretaContınua

Figura 2.1: Esquema que descreve as variaveis.

A interpretacao de um valor de uma variavelcontınua e a de que se trata de um valor apro-ximado. Isso decorre do fato de nao existi-rem instrumentos de medida capazes de ofere-cer precisao absoluta, e, mesmo que existissem,nao haveria interesse nem sentido em se quererdeterminar uma grandeza contınua com todasas suas casas decimais. Logo, se, ao executar-mos a medicao de algum valor de uma variavelcontınua, estamos sempre fazendo uma apro-ximacao, resulta que qualquer valor apresen-tado devera ser interpretado como sendo umaaproximacao compatıvel com o nıvel de pre-cisao e com o criterio utilizado ao medir. Umaconvencao util adotada e: a precisao da me-dida e automaticamente indicada pelos numeros

1Nesta notacao o intervalo [−3, 2] e fechado, ou seja,o −3 e o 2 estao incluıdos, o intervalo ]−3,−2[ e aberto,isto e, o −3 e o 2 estao excluıdos e os intervalos [−3, 2[,] − 3, 2] sao semi-abertos pois no intervalo [−3, 2[ o −3esta incluıdo enquanto que o 2 nao esta, e vice-versa parao intervalo ]-3,2].

15

Page 16: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

de dıgitos com que se escrevem os valores davariavel. Notemos que, normalmente, a apro-ximacao implıcita ao se considerar cada valorde uma variavel contınua sera de, no maximo,metade da precisao com que os dados sao medi-dos.

As tecnicas da Estatıstica Descritiva saoidenticas para variaveis quantitativas discretase contınuas. Isso deve-se ao fato de, formal-mente, os valores da variavel contınua seremsempre apresentados dentro de um certo graude aproximacao.

2.2 Arredondamento dosDados

Quando fala-se na pratica de variaveis quanti-tativas contınuas, devemos falar em arrendon-damento de dados. O resultado do arredon-damento de um numero como 72, 8 para o in-teiro mais proximo e 73, posto que 72, 8 estamais proximo de 73 do que 72. Semelhante-mente, 72, 8146 arredondado para o centesimomais proximo, ou com duas casas decimais, e72, 81, porque 72, 8146 esta mais proximo de72, 81 do que de 72, 82. Ao arredondar 72, 465para o centesimo mais proximo deparamo-noscom um dilema pois 72, 465 dista igualmente de72, 46 e de 72, 47. Usa-se, na pratica, aproximarpara o numero par mais proximo que precedeo 5. Assim, 72, 465 e arredondado para 72, 46,o numero 183, 575 e arredondado para 183, 58.Esta pratica e especialmente valiosa para redu-zir ao mınimo os erros acumulados por arredon-damento, quanto trata-se de grande numero deoperacoes2.

2.2.1 Notacao Cientıfica

Ao escrever numeros, especialmente que com-portem muitos zeros, antes ou depois da vırgula,e conveniente empregar a notacao cientıfica.

Nesta notacao o numero e escrito com so-mente um dıgito a esquerda da vırgula e o res-tante como sendo casas decimais multiplicadopor potencias de 10.

Assim em notacao cientıfica 5 e escrito como:5 × 100, 10 e escrito como: 1 × 101, 72, 465 =7, 2465× 102, 0, 00018 = 1, 8× 10−4, etc.

2Utiliza-se, principalmente em calculos numericos aconvencao de aproximar o 5 para cima, ou seja, 72, 465 eaproximado para 72, 47. Este procedimento acarreta umerro maior devido as aproximacoes.

Multiplicando um numero por 10n, com n >0 tem-se o mesmo resultado que deslocar avırgula, para direita, n − 1 casas e com n <0 tem-se o mesmo resultado que deslocar avırgula, para a esquerda, |n| casas.

2.2.2 Algarismos ou Dıgitos Signi-ficativos

Os algarismos corretos, separados dos ze-ros necessarios para a localizacao da vırgula,chamam-se algarismos ou dıgitos significativosdo numero.

Por exemplo, 1, 66 tem 3 algarismos signifi-cativos, 4, 5300 tem 5 algarismos significativos,1, 8 × 10−3 tem 2 algarismos significativos en-quanto que 1, 800× 10−3 tem 4.

Se a altura, uma variavel quantitativacontınua, for determinada com precisao com tresdıgitos significativos, por exemplo, 1, 64 metros,o 1 e o dıgito mais significativo (metro), en-quanto que o 4 (centimetro) e o dıgito menossignificativo.

As variaveis quantitativas discretas tem umnumero infinito de algarismos significativos, saonaturalmente exatos.

Em alguns casos, pode ser difıcil decidir quaissao os algarismos significativos sem informacoesadicionais. Por exemplo, o numero 186000000pode ter 3, 4, . . . , 9 algarismos significativos.Se se souber que ele tem 5 algarismos significa-tivos sera melhor escrever em notacao cientıfica1, 8600× 108.

Se a altura for de 1, 64 metros, isto signi-fica que seu valor verdadeiro esta compreendidoentre 1, 635 e 1, 655 metros, seguindo a con-vencao de aproximacao para o numero par maisproximo.

Ao efetuar calculos que envolvem multi-plicacao, divisao (potenciacao e extracao deraızes) o resultado final nao pode ter mais al-garismos significativos do que o que tem me-nor quantidade deles. Ao efetuar adicoes esubtracoes de numeros, o resultado final naopode ter mais algarismos significativos depoisda vırgula do que o que tiver menor quantidadedeles nessa condicao.

2.2.3 Exemplo de Coleta de Dados

Considere as variaveis: Sexo, Avaliacao do Ano,Numero de Irmaos e Altura em metros (m).

A variavel Sexo tem como domınio os valo-res: masculino (M) e feminino (F). Ela e uma

16

Page 17: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

variavel qualitativa nominal.A variavel Avaliacao do Ano tem como

domınio, por exemplo, os valores: ruim (R), re-gular (REG) e bom (B). Ela e uma variavel qua-litativa ordinal.

A variavel Numero de Irmaos tem comodomınio os valores: 0, 1, 2, . . . . Ela e umavariavel quantitativa discreta.

A variavel Altura e medida em metros e temcomo domınio os valores reais positivo (com ozero incluso). Ela e uma variavel quantitativacontınua.

Os dados brutos obtidos estao na Tabela 2.1.Pode-se pensar que estes dados sao referentes auma amostra ou a uma populacao.

E interessante observar que o dıgito menossignificativo define a resolucao da medida, nocaso da variavel altura esta resolucao e decentımetros (cm).

2.3 Distribuicao deFrequencias e Pro-porcoes

Considera-se uma forma de resumir os dados.Define-se a frequencia com sendo o numero derealizacoes (observacoes) para cada valor davariavel considerada.

Consideramos primeiramente o caso devariaveis qualitativas e variaveis quantitativasdiscretas.

O primeiro passo para descrever um conjuntode dados e verificar o numero de vezes que umdado valor, dos possıveis k valores do domınio(realizacoes), da variavel considerada foi obser-vado, ou seja, a frequencia dos diversos valoresexistentes da variavel.

Denota-se a frequencia do i-esimo valor obser-vado por fi.

Sendo n o numero total de elementos obser-vados, verifica-se que:

k∑i=1

fi = n , (2.1)

onde k e o numero de diferentes valores existen-tes da variavel.

Com a finalidade de poder comparar dois con-juntos de dados com um numero diferente deobsevacoes e interessante considerar o quocienteda frequencia pelo numero total de elementos,ou seja, a frequencia relativa ou proporcao:

p′i =fin. (2.2)

De imediato temos que:

k∑i=1

p′i =1

n

k∑i=1

fi

=n

n= 1 . (2.3)

As frequencias e proporcoes podem ser dispos-tas em tabelas com e ilustrado na Tabela 2.3.

Observe que considerando as frequencias,consegue-se resumir os dados, mas que uma in-formacoes sao perdidas, como por exemplo, in-formacoes sobre os dados de um indivıduo (Ta-bela 2.1) se a coleta dos dados for de forma or-denada.

Exemplo

Considere os dados da Tabela 2.1. As tabe-las para a variavelSexo e apresentada na Ta-bela 2.3. Para a variavel Avaliacao do Anoas frequencias e proporcoes sao apresentadas naTabela 2.4. Para a variavel Numero de Irmaosas frequencias e proporcoes sao apresentadas naTabela 2.5.

2.3.1 Classes de Frequencia

Consideramos agora variaveis quantitativascontınuas. E obvio que para um numero fixo dealgarismos significativos (precisao) as variaveiscontınuas podem ser representadas por variaveisdiscretas, na unidade do dıgito menos significa-tivo. Neste caso, dependendo do numero de me-didas realizadas, pode-se ter um domınio muitogrande, com poucas realizacoes para certos va-lores.

Para contornar este problema, no caso devariaveis contınuas e algumas vezes no casode variaveis discretas, as frequencias serao, naverdade associadas a intervalos de variacao davariavel e nao a valores individuais. Com esteprocedimento, perde-se resolucao (precisao) masganha-se na representacao dos dados. Esses in-tervalos sao chamados de classes de frequencia.As classes de frequencia sao comumente repre-sentadas pelos seus pontos medios.

Com relacao as classes de frequencia, e co-mum encontrar o problema de determinar onumero k de classes que deve ser considerado,

17

Page 18: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

i Sexo Avaliacao Numero Alturado Ano de Irmaos (m)

1 M B 1 1,722 F B 1 1,703 F B 2 1,604 F B 1 1,625 F B 1 1,756 M B 1 1,707 M REG 2 1,808 F R 2 1,579 F REG 3 1,7510 F B 2 1,5411 M B 2 1,7612 M B 2 1,7013 F B 2 1,6814 F B 2 1,6815 M B 2 1,8416 F R 1 1,6717 M B 1 1,7518 F R 2 1,6119 F REG 4 1,7820 B B 2 1,7521 M B 4 1,6922 M B 0 1,7623 M B 3 1,7624 M B 2 1,6025 M B 2 1,7326 F B 2 1,6027 M B 2 1,7528 M REG 3 1,8529 M REG 2 1,8030 F REG 1 1,6531 F B 1 1,5832 F B 1 1,6333 M B 2 1,7234 F B 2 1,6735 M B 1 1,7336 F B 1 1,6537 M B 1 1,7538 M B 2 1,8539 F B 1 1,60

Tabela 2.1: Dados brutos referententes as caracterısticas: Sexo, Avaliacao do Ano, Numero deIrmaos e Altura em metros. O ındice i se referem aos indivıduos.

ou seja, de determinar o tamanho da classe ousua amplitude h, uma vez que nao se quer muitasclasses (comparado com o numero de dados dis-ponıveis k � n) e nem classes vazias. Por sim-plicacao, consideraremos a construcao de classesde mesma amplitude.

Formula de Sturges

A formula de Sturges nos diz que para n ob-servacoes (dados) o numero de classes e dadopor:

k = 1 +10

3log10 n . (2.4)

A diferenca:

R = x> − x< , (2.5)

entre o maior x> e o menor x< valor dos da-dos observados e denominado de amplitude doconjunto de dados.

Com esta variavel pode-se estimar a ampli-tude da classe:

h ' R/k , (2.6)

onde k e estimado pela formula de SturgesEq. 2.4.

Uma tabela tıpica de classes de frequencia eilustrado na Tabela 2.6:

Observa-se que dentro de uma classe nao sa-bemos como as realizacoes estao distribuidas,

18

Page 19: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Variavel Frequencia Proporcaoi X fi p′i = fi/n

D 1 x1 f1 p′1 = f1/nO 2 x2 f2 p′2 = f2/n

M...

......

...

I...

......

...

N...

......

...

I...

......

...O k xk fk p′k = fk/n

Total n =∑ki=1 fi

∑ki=1 p

′i = 1

Tabela 2.2: Esquema de tabelas de frequencias e proporcoes. O ındice i varre o domınio da variavelX, ou seja, pecorre todas as realizacoes dessa variavel.

Sexo Frequencia Proporcaoi fi p′i = fi/n1 M 19 19/392 F 20 20/39

Total n = 39 1

Tabela 2.3: Frequencias e proporcoes para a variavel Sexo.

assume-se entao que as realizacoes estejam uni-formemente distribuidas (mınimo de informacaointraclasse).

Exemplo. Considere os dados da variavel Xcomo sendo Altura da Tabela 2.1. O maior valorde e:

x> = 1, 85 m ,

e o menor valor:

x< = 1, 54 m .

A amplitude dos dados e dada pela Eq. 2.5:

R = 1, 85− 1, 54 = 0, 31 m .

O numero k de classes que deve ser conside-rado e dado pela Eq. 2.4 e e da ordem de:

k = 6 .

A amplitude da classe e dada pela Eq. 2.6:

h =0, 31

6∼ 0, 05 m .

Estas classes sao ilustradas na Tabela 2.7:E importante ressaltar que a amplitude das

classes nao deve ser fracionaria em relacao a pre-cisao com que os dados sao apresentados, poisisso impossibilitaria uma correta subdivisao emclasses. Por esta razao as vezes e convenientedefinir xin ≤ x< e xfi ≥ x>.

Tamanho de Classes Desiguais

Para classes com amplitudes desiguais e interes-sante trabalhar com a densidade de proporcao,ou seja, p′i/hi onde hi e a amplitude da i-esimaclasse.

Um exemplo de classes desiguais e ilustradasna Tabela 2.8:

2.3.2 Frequencias Acumuladas

Quando se trata de variaveis quantitativas e in-teressante tambem considerar a frequencia acu-mulada:

Fj =

j∑i=1

fi , (2.7)

onde 1 ≤ j ≤ k. Note que para j = k, Fk = n.

Dividindo Fj por n temos a frequencia relativaacumulada, ou proporcao acumulada:

P ′j =Fjn. (2.8)

Notamos que a frequencia acumulada e que aproporcao acumulada nao podem ser curvas de-crescentes, ou seja, Fj+1 ≥ Fj , e que

∑kj=1 P

′j =

1.

19

Page 20: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Avaliacao Frequencia Proporcaoi do Ano fi p′i = fi/n1 Ruim 3 3/392 Regular 6 6/393 Bom 30 30/39

Total n = 39 1

Tabela 2.4: Frequencias e proporcoes para a variavel Avaliacao do Ano.

Numero Frequencia Proporcaoi de Irmaos fi p′i = fi/n

1 0 1 1/392 1 14 14/393 2 19 19/394 3 3 3/395 4 2 2/39

Total n = 39 1

Tabela 2.5: Frequencias e proporcoes para a variavel Numero de Irmaos.

As frequencias e proporcoes acumuladas po-dem ser dispostas em tabelas com e ilustradona Tabela 2.3.2.

2.4 Medidas Associadas aVariaveis Quantitativas

Com a finalidade de caracterizar uma distri-buicao de frequencia e necessario utilizar cer-tas quantidades, que chamaremos de medidas dadistribuicao de frequencia. Elas quantificam al-guns aspectos da distribuicao de frequencia deinteresse.

2.4.1 Medidas de Posicao Central

As medidas de posicao servem para localizar adistribuicao de frequencias sobre o eixo de va-riacao da variavel em questao. A media e a me-diana indicam, por criterios diferentes, o cen-tro da distribuicao de frequencia. Constuma-se dizer tambem que sao medidas de tendenciacentral. A moda, por sua vez, indica a regiaode maior concentracao de frequencias na distri-buicao.

Media

Existem varios tipos de media de um conjuntode dados. De todas, a mais usada e a media

aritmetica:3

µ(X) =1

n

n∑i=1

xi (2.9)

=1

n

k∑i=1

fixi =

k∑i=1

p′ixi , (2.10)

sendo xi os valores da variavel X.4

A equacao Eq. 2.9 pode ser utilizada quandose dispoe dos dados brutos, por outro lado, aEq. 2.10 deve ser utilizada para o calculo damedia quando os dados foram compilados emtabelas de frequencia. Se esta tabela apresen-tar as em distribuicoes em forma de classes defrequencia, faz-se com a substituicao de xi pelospontos medios das classes.

A media caracteriza o centro de uma distri-buicao de frequencias, sendo, por isso, uma me-dida de posicao.

E importante salientar que, se os dados re-presentarem uma amostra e nao a populacao amedia e definida como:5

x =1

n

n∑i=1

xi . (2.11)

3Representa-se a media de uma populacao pela letragrega µ e a media de uma amostra por x.

4Por convecao, o nome das variaveis sao escritasem maiusculo enquanto que os valores assumidos emminusculo.

5Na lıngua inglesa existe uma distincao entre estasduas medias. A media populacional µ e chamada de“mean” enquanto que a media amostal e chamada de“average”.

20

Page 21: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Variavel Frequencia Proporcaoi X fi p′i = fi/n

D 1 xin → xin + h f1 p′1 = f1/nO 2 xin + h→ xin + 2h f2 p′2 = f2/nM 3 xin + 2h→ xin + 3h f3 p′3 = f3/n

I...

......

...

N...

......

...

I...

......

...O k xin + (k − 1)h→ xin + kh = xfi fk p′k = fk/n

Total n =∑ki=1 ni 1

Tabela 2.6: Esquema de tabela de classes de frequencias e proporcoes. O ındice i varre todas ask classes. A notacao a→ b indica o intervalo semi-aberto [a, b[, ou seja, a esta incluso e b exclusoda classe.

Altura Frequencia Proporcaoi (m) fi p′i = fi/n

1 1, 50 → 1, 55 1 1/392 1, 55 → 1, 60 2 2/393 1, 60 → 1, 65 7 7/394 1, 65 → 1, 70 7 7/395 1, 70 → 1, 75 7 7/396 1, 75 → 1, 80 10 10/397 1, 80 → 1, 85 3 3/398 1, 85 → 1, 90 2 2/39

Total n = 39 1

Tabela 2.7: Classes de frequencias e proporcoes para a variavel Altura (m). xini = 1, 50 m,h = 0, 05 m, k = 8 e xfin = 1, 90 m.

A media amostral e o estimador da media po-pulacional.6

Entre outras, a media tem as seguintes pro-priedades:

• multiplicando-se todos os valores de umavariavel por uma constante α, a media doconjunto fica multiplicada por essa cons-tante:

µ(αX) = αµ(X) . (2.12)

• somando-se ou subtraindo-se uma cons-tante α de todos os valores de uma variavel,a media do conjunto fica acrescida ou dimi-nuida dessa constante:

µ(X ± α) = µ(X)± α . (2.13)

6Este ponto se tornara mais claro quando trabalhar-mos com a estimacao de parametros.

Exemplo. Considerando a variavel Numerode Irmaos dos dados brutos da Tabela 2.1 obte-mos: as medias

µ(X) = x = 1, 8 = 2 irmaos.

Para a variavel Altura dos dados da Tabela 2.1obtem-se:

µ(X) = x = 1, 70 m .

Supondo que nao conhecessemos os dados daTabela 2.1 mas somento os dados ja classifica-dos.

Para a variavel Numero de Irmaos (Ta-bela 2.5) obtem-se:

µ(X) = x =1

39(1 ∗ 0 + 14 ∗ 1 + 19 ∗ 2 + 3 ∗ 3 + 2 ∗ 4)

=70

39= 1, 8 = 2 irmaos.

Para a variavel Altura, deve-se considerar os

21

Page 22: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Altura Amplitude Frequencia Proporcao Densidade de Prop.i (m) hi (m) fi p′i = fi/n p′i/hi1 1, 50 → 1, 60 0,10 3 3/39 ( 3/39)*(1/10)2 1, 60 → 1, 65 0,05 7 7/39 ( 7/39)*(1/5 )3 1, 65 → 1, 70 0,05 7 7/39 ( 7/39)*(1/5 )4 1, 70 → 1, 75 0,05 7 7/39 ( 7/39)*(1/5 )5 1, 75 → 1, 80 0,05 10 10/39 (10/39)*(1/5 )6 1, 80 → 1.90 0,10 5 5/39 ( 5/39)*(1/10)

Total n = 39 1

Tabela 2.8: Classes de frequencias e proporcoes para a variavel Altura (m) onde o tamanho dasclasses e desigual. xini = 1, 50 m, h = 0, 05 m, k = 8 e xfin = 1, 90 m.

Variavel Frequencia Proporcao Frequencia ProporcaoAcumulada Acumulada

i X fi p′i = fi/n Fi = Fi−1 + fi (F0 = 0) P ′i = P ′i−1 + p′i (P ′0 = 0)

D 1 x1 f1 p′1 = f1/n F1 = f1 P ′1 = p′1O 2 x2 f2 p′2 = f2/n F2 = F1 + f2 P ′2 = P ′1 + p′2

M...

......

......

...

I...

......

......

...

N...

..

....

..

....

..

.

I...

......

......

...O k xk fk p′k = fk/n Fk = Fk−1 + fk = n P ′k = P ′k−1 + p′k = 1

Total n =∑ki=1 fi

∑ki=1 p

′i = 1

Tabela 2.9: Esquema de tabelas de frequencias e proporcoes acumuladas. O ındice i varre odomınio da variavel X, ou seja, pecorre todas as realizacoes dessa variavel.

pontos medios das classes (Tabela 2.7) obtem-se:

µ(X) = x =

= m .

Outras Medias Pode-se definir outrasmedias tais como:

• A media ponderada e definida como:

µp(X) = xp =

∑ni=1 cixi∑ni=1 ci

, (2.14)

onde atribui-se pesos diferentes para cadavalor de X. Note que apos a segunda igual-dade da Eq. 2.9 ja utilizamos os conceito demedia ponderada, onde neste caso os pesossao as proporcoes.

Considerando a variavel Numero de Irmaosdos dados da Tabela 2.1 obtemos: asmedias

µp(X) = xp = .

Para a variavel Altura dos dados da Ta-bela 2.1 obtem-se:

µp(X) = xp = .

• A media geometrica e definida como:

µg(X) = xg =

(n∏i=1

xi

)1/n

. (2.15)

A media geometrica tem uma aplicacao in-teressante quando se considera o problemade rendimentos que e tratado na secao ??.

Considerando a variavel Numero de Irmaosdos dados da Tabela 2.1 nao e possıvel cal-cular a media geometrica pois existe um va-lor nulo (i = 22). Para a variavel Altura dosdados da Tabela 2.1 obtem-se:

µg(X) = xg = 1, 70 m .

• A media harmonica e definida como:

µh(X) = xh =n∑n

i=1 x−1i

. (2.16)

22

Page 23: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Considerando a variavel Numero de Irmaosdos dados da Tabela 2.1 nao e possıvel cal-cular a media geometrica pois existe um va-lor nulo (i = 22). Para a variavel Alturados dados da Tabela 2.1 obtem-se:

µh(X) = xh = 1, 70 m .

Tanto a media geometrica quanto a mediaharmonica privilegiam os menores valores de Xcom relacao a media aritmetica, sendo que esteefeito e mais acentuado na media harmonica doque na media geometrica.

Mediana

A mediana e uma quantidade que, como amedia, tambem procura caracterizar o centro dadistribuicao de frequencias, porem, de acordocom um criterio diferente. Ela e calculada combase na ordem dos valores que formam o con-junto de dados.

Os dados de uma observacao podem ser orde-nados de maneira crescente ou decrescente. Aposicao de um dado valor nesse conjunto orde-nado e chamada de posto ou ordem na sequencia.

A ideia ligada ao conceito de mediana e dividiro conjunto ordenados de valores em duas partescom igual numero de elementos.

Definimos a mediana de um conjunto de nvalores ordenados, para n ımpar, como igualao valor de ordem (n + 1)/2 desse conjunto.Se n for par, a mediana podera ser definidacomo qualquer valor siutado entre o de ordemn/2 e n/2 + 1. Por simplificacao, para n par,considera-se a mediana como o valor medio en-tre os valores de ordem n/2 e n/2+1 do conjuntode dados.

Exemplo. Considerando a variavel Numerode Irmaos dos dados brutos da Tabela 2.1 obte-mos: a mediana

Q2 = 2 irmaos.

Para a variavel Altura dos dados brutos da Ta-bela 2.1 obtem-se:

Q2 = 1, 70 m .

Considerando uma distribuicao em classes defrequencias (dados compilados), pode-se calcu-lar a mediana pela expressao:

md = Li +n/2− Fafmd

hmd ,

onde Li e o limite inferior da classe que contema mediana, n o numero de elementos do con-junto de dados, Fa a soma das frequencias dasclasses anteriores a que contem a mediana, fmda frequencia da classe que contem a mediana,e hmd a amplitude da classe que contem a me-diana. Nesta expressao admite-se que os valo-res observados da variavel tenham se distribuıdohomogeneamente dentro das diversas classes.

Exemplo. Considerando a variavel Numerode Irmaos dos dados compilados da Tabela 2.1obtem-se:

md = .

Para a variavel Altura dos dados compilados daTabela 2.1 obtem-se:

md = .

A mediana pode ser usada como alternativa,em relacao a media, para caracterizar o cen-tro do conjunto de dados. A mediana e menossensıvel aos valores extremos do que a media.

Nos casos de distribuicoes de frequencias queapresentam nos extremos classes abertas (dotipo menor que ou maior que), a mediana, arigor, deve ser usada, ao inves da media, paraa caracterizacao do centro da distribuicao, pois,em tais casos, o calculo da media nao pode, arigor, ser executado.

Moda

Definimos a moda (ou modas) de um con-junto de valores como o valor (ou valores) demaxima frequencia. No caso de distribuicoes defrequencia fala-se em classe modal, como sendo aclasse de maior numero de realizacoes. No casode classes de mesma amplitude, e comum defi-nir tambem a moda com um ponto pertencentea classe modal tal que:

mo = Li +d1

d1 + d2h , (2.17)

onde Li e o limite inferior da classe modal, d1

a diferenca entre a frequencia da classe modale a da classe imediatamente anterior, d2 a di-ferenca entre a frequencia da classe modal e ada classe imediatamente seguinte h a amplitudedas classes. Esse procedimento tem a limitacaode pressupor a existencia de uma unica classemodal nao situada num dos extremos da distri-buicao de frequencias.

23

Page 24: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Exemplo. Considerando a variavel Numerode Irmaos dos dados compilados da Tabela 2.1obtem-se:

md = 2 irmaos.

Para a variavel Altura dos dados da Tabela 2.1obtem-se:

md ∈ [1, 75; 1, 80[ m .

Relacao Empırica entre, Media, Medianae Moda

Para um conjunto de dados observados, a se-guinte relacao empırica em geral subsiste apro-ximadamente:

µ(X)−mo = 3[µ(X)−md] . (2.18)

Esta relacao indica que a mediana situa-se en-tre a media e a moda, sendo sua distancia amoda o dobro de sua distancia a media.

Note que para um distribuicao simetrica quea media e igual a mediana.

Exemplo. Considerando a variavel Numerode Irmaos dos dados brutos da Tabela 2.1obtem-se:

µ(X)−mo = 2−2 = 0 e µ(X)−md = 2−2 = 0 .

Para a variavel Altura dos dados brutos da Ta-bela 2.1 obtem-se:

µ(X)−mo = 1, 70− e µ(X)−md = 1, 70−1, 70 .

Outras Medidas de Posicao

Quartil. Os quartis dividem uma lista de da-dos ordenados em ordem crescente ou decres-cente em 4 partes: Os primeiros 25 % dos da-dos sao delimitados pelo primeiro quartil Q1, osprimeiros 50 % dos dados sao delomitados pelosegundo quartil Q2, que e a propria media e osprimeiros 75 % dos dados pela terceiro quartilQ3. Os valores sao mostrados na Tabela 2.10.

Decil. Os nove decis (D1, D2, . . ., D9)dividemos dados ordenados em dez grupos com cerca de10% dos dados em cada grupo.

Percentil. Os noventa e nove percentis (P1,P2, . . ., P99) dividem os dados ordenados emcem grupos com cerca de 1% dos dados em cadagrupo.

O processo para a determinacao do percentilcorrespondente a um determinado valor de x e:

percentil do valor x =# de valores ¡ x

#totaldevalores× 100 .

(2.19)

Fractil. Os quartis, decis, percentis sao exem-plos de fractis, que dividem os dados em partesiguais

2.4.2 Medidas de Dispersao

A informacao fornecida pelas medidas deposicao necessita em geral ser complementadapelas medidas de dispersao. Estas servem paraindicar o quanto os dados se apresentam disper-sos em torno da regiao central. Caracterizam,portanto, o grau de variacao existente no con-junto de valores.

Amplitude dos Dados

A amplitude dos dados R (do ingles “range”) edefinida como a diferenca entre o maior valorx> e o menor valor x< do conjunto de dados(Eq. 2.5) R = x> − x<.

Por depender apenas de dois valores do con-junto de dados, a amplitude contem relativa-mente pouca informacao quanto a dispersao. eem geral utilizada em aplicacoes de controle dequalidade.

Desvio-Medio

O desvio medio e definido como:

dM =1

n

n∑i=1

|xi − µ(X)| , (2.20)

ou seja, a media do modulo das diferencas(distancias) entre um dado valor e o valor mediode todos os valores.

Exemplo Considerando a variavel Numero deIrmaos dos dados da Tabela 2.1 obtemos:

dM = .

Para a variavel Altura dos dados da Tabela 2.1obtem-se:

dM = .

24

Page 25: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

n par ımparQuartil

Q1 n/4 e n/4 + 1 (n + 1)/4Q2 n/2 e n/2 + 1 (n + 1)/2Q3 3n/4 e 3n/4 + 1 3(n + 1)/4

Tabela 2.10: Primeiro, segundo e terceiro quartis para n par e ımpar.

Amplitude Interquartil

A ideia de mediana e dividir o conjunto orde-nado de dados em dois subconjuntos com igualnumero de elementos. A ideia de quartil e di-vidir o conjunto ordenado de valores em quatrosubconjuntos com igual numero de elementos.Sua determinacao e feita de modo semelhantea da mediana. Os quartis, tambem chamadosde juntas sao representados por Qi, onde Q1 eo primeiro quartil, Q2 e o segundo quartil, ouseja, a propia mediana Q2 = md, e Q3 o ter-ceiro quartil.

A amplitude interquartil e definida como

dQ = Q3 −Q1 . (2.21)

Exemplo Considerando a variavel Numero deIrmaos dos dados da Tabela 2.1 obtemos: asmedias

dQ = .

Para a variavel Altura dos dados da Tabela 2.1obtem-se:

dQ = .

Variancia e Desvio-Padrao

A variancia de um conjunto de dados e, por de-finicao, a media dos quadrados das diferencasdos valores em relacao a sua media:7

σ2(X) =1

n

n∑i=1

[xi − µ(X)]2 (2.22)

=1

n

n∑i=1

x2i − µ(X)2

= µ(X2)− µ(X)2 . (2.23)

Note que o valor medio de X2 pode ser repre-sentado por µ(X2). Em palavras, a variancia de

7Aqui tambem para populacao denota-se a varianciapela letra grega σ2 e para a amostra denota-se pela letras2.

X pode ser obtida calculando o valor medio deX2 e subtraindo a media de X ao quadrado.

Se os dados estiverem dispostos em uma ta-bela de frequencias, podemos obter a varianciapor:

σ2(X) =1

n

k∑i=1

fi[xi − µ(X)]2

=

k∑i=1

p′i[xi − µ(X)]2

=

k∑i=1

p′ix2i − µ(X)2

= µ(X2)− µ(X)2 . (2.24)

onde os xi representam os pontos medios dasclasses, fi (ou p′i) as respectivas frequencias (ouproporcoes). A variancia assim calculada deveraser aproximadamente igual a variancia exata dosn dados originais.

E importante salientar que, se os dados re-presentarem uma amostra e nao a populacao avariancia e definida como:

s2X =

1

n− 1

n∑i=1

(xi − x)2

=n

n− 1[x2 − x2] . (2.25)

A razao para esta distincao e que s2 e um esti-mador nao-viesado de σ2.8

Entre outras, a variancia tem as seguintes pro-priedades:

• multiplicando-se todos os valores de umavariavel por uma constante, a variancia doconjunto fica multiplicada pelo quadradodessa constante:

σ2(αX) = α2σ2(X) . (2.26)

8Este ponto sera melhor esclarecido quando falarmosde estimacao de parametros em Estatıstica Indutiva.

25

Page 26: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

• somando-se ou subtraindo-se uma cons-tante de todos os valores de uma variavel,a variancia nao se altera:

σ2(X ± α) = σ2(X) . (2.27)

A media e a variancia sao grandezas impor-tantes em Estatıstica, uma vez que sao os doisunicos parametros da distribuicao normal queaparece com muita frequencia9.

Do ponto de vista pratico, ela tem o inconve-niente de se expressar numa unidade quadraticaem relacao a variavel em questao. Este incon-veniente e sanado com a definicao de desviopadrao.

Defini-se o desvio-padrao como a raiz qua-drada positiva da variancia.

DP (X) = σ(X) . (2.28)

O desvio-padrao se expressa na mesma uni-dade da variavel, sendo, por isso, de maior inte-resse que a variancia nas aplicacoes praticas.

Na quase totalidade dos casos, o desvio-padrao supera um sexto da amplitude dos dadose e inferior a um terco da amplitude dos dados,isto e: R/6 < σ < R/3.

O coeficiente de variacao e definido para umapopulacao por:

CV (X) =DP (X)

µ(X)=σ(X)

µ(X), (2.29)

e para uma amostra:

cv(X) =sXX

. (2.30)

Sua vantagem e caracterizar a dispersao dosdados em termos relativos a seu valor medio.Alem disso, por ser adimensional, o coeficientede variacao fornece uma maneira de se compa-rarem as dispersoes de variaveis cujas unidadessao irredutıveis.

Exemplo Considerando a variavel Numero deIrmaos dos dados da Tabela 2.1 obtemos: asmedias

µ(X) = 1, 8 irmaos,

σ2(X) = 0, 64 irmaos2,

σ(X) = 0, 8 irmaos,

CV (X) =1, 8

0, 8= 2, 2 .

9Este topico sera estudo em distribuicoes contınuas.

Para a variavel Altura dos dados da Tabela 2.1obtem-se:

X = 1, 701 m ,

s2X = 0, 0064 m2 ,

sX = 0, 080 m ,

cv(X) =1, 701

0, 080= 21, 3 .

2.4.3 Erro-Padrao

Para amostras e conveniente trabalhar com oerro-padrao:10

SE =s√n. (2.31)

2.4.4 Fator Z

E conveniente em geral transformar os dadospara uma grandeza adimensional indicando aposicao de cada elemento com relacao a mediae ao desvio-padrao dos dados.

Esta grandeza e denominada de fator-z, ouescore z, e expressa em geral por:

zi =xi −media

desvio-padrao, (2.32)

esta e uma grandeza importante em estatısticapois indica o quao longe cada observacao distada media em unidades de desvio-padrao.

O fator-z e negativo, quando o valor da ob-servacao for menor do que a media e positivocaso contrario. O modulo de z indica quantosdesvios-padrao a observacao dista da media

Para uma populacao tem-se:

zi =xi − µ(X)

σ(X),

e para uma amostra:

zi =xi − XsX

.

2.4.5 Momentos de uma Distri-buicao de Frequencias

Defini-se o momento de ordem t de um conjuntode dados como o valor medio de Xt:

Mt(X) =1

n

n∑i=1

xti . (2.33)

10Em ingles esta grandeza e chamada de “StandardError of the Mean” (SEM), ou simplesmente “StandardError” (SE).

26

Page 27: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Observe que o momento de ordem 0 (t = 0)e unitario M0(X) = 1, pois este momento estasomente relacionado com a quantidade de dados(tamanho da amostra ou populacao). Observeque o valor de n deve ser conhecido. O momentode ordem 1 (t = 1) e a media de X: M1(X) =µ(X) = X. O momento de ordem 2 (t = 2) e amedia de X2: M2(X) = µ(X2) = X2. Defini-se o momento de ordem t centrado em relacao auma constante α de um conjunto de dados como:

M(α)t (X) =

1

n

n∑i=1

(xi − α)t . (2.34)

De interesse especial e o momento centradocom relacao a media, ou simplesmente momentocentrado dado por:

mt(X) =1

n

n∑i=1

[xi − µ(X)]t. (2.35)

E facil verificar que:

m1(X) = 0 (2.36)

m2(X) = σ2(X) . (2.37)

Interessa-nos em particular saber calcular osmomentos centrados de terceira e de quarta or-dem. Aplicando-se a definicao e fazendo algu-mas transformacoes chega-se as expressoes:

m3(X) = µ(X3)− 3µ(X)µ(X2) + 2µ(X)3

(2.38)e

m4(X) = µ(X4)− 4µ(X)µ(X3) +

6µ(X)2µ(X2)− 3µ(X)4 .(2.39)

Ate agora consideramos dados brutos. Paracalcular estas grandezas para dados ja tratatostem-se:

Mt(X) =

k∑i=1

p′ixti , (2.40)

M(α)t (X) =

k∑i=1

p′i(xi − α)t e (2.41)

mt(X) =

k∑i=1

p′i[xi − µ(X)]t . (2.42)

Estas expressoes tambem podem ser usadasno caso de dados agrupados em classes defrequencias, com xi sendo o valor medio daclasse.

2.4.6 Medidas de Assimetria

Essas medidas procuram caracterizar como equanto a distribuicao de frequencias se afastada condicao de simetria. As distribuicoes alon-gadas a direita sao ditas positivamente as-simetricas, e as alongadas a esquerda negativa-mente assimetricas.

O momento centrado de terceira ordem podeser usado como medida da assimetria de umadistribuicao. Entretanto e mais conveniente autilizacao de uma medida adimensional, o queleva a definicao de coeficiente de assimetria:

γ3 =m3

σ3=

m3

m3/22

. (2.43)

Na amostra,

g3 =n

(n− 1)(n− 2)s3

n∑i=1

(xi − x)3 , (2.44)

e o estimador de γ3.Esse coeficiente indica o sentido da assime-

tria e, sendo adimensional, pode ser usado paracomparar diversos casos.

Outra medida de assimetria e o ındice de as-simetria de Pearson, definido como segue:

A =µ−moσ

. (2.45)

Outra medida de assimetria pode ser:

A′ =Q3 −Q2

Q1 −Q2− 1 . (2.46)

2.4.7 Medidas de Achatamento oucurtose

Essas medidas procuram caracterizar a forma dadistribuicao quanto a seu achatamento. O termomedio de comparacao e dado pela distribuicaonormal. Assim quanto a seu achatamento, adistribuicao normal e dita mesocurtica. As dis-tribuicoes mais achatadas do que a distribuicaonormal platicurticas e as menos achatadas saoditas leptocurticas.

Em termos praticos a caracterizacao do acha-tamento so tem sentindo se a distribuicao forpelo menos aproximadamente simetrica |γ3| ' 0ou |g3| ' 0. O coeficiente de curtose e definidocomo:

a4 =m4

σ4=m4

m22

. (2.47)

27

Page 28: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

A fim de fixar o zero como referencia, utiliza-remos o coeficiente de excesso:

γ4 = a4 − 3 . (2.48)

Este coeficiente e adimensional, sendo ne-gativo para as distribuicoes platicurticas, nulopara as distribuicoes mesocurticas e positivopara as distribuicoes leptocurticas.

Na amostra

g4 =1

(n− 1)(n− 2)(n− 3)(n(n+ 1)

s4

n∑i=1

(xi − x)4 − 3(n− 1)3

),(2.49)

que e o estimador de γ4.

2.5 Medidas Associadas aVariaveis Qualitativas

Quando trabalha-se com variaveis nominais, naopode-se envocar os conceitos de media, medi-ana, desvio-padrao, quartil, etc. Neste casopode-se caracterizar a distribuicao de probabili-dades pela entropia, tambem chamada de ındicede diversidade. A entropia mede a falta de in-formacao que se tem sobre um sistema11:

A entropia pode ser medida de diversas ma-neiras como apresentamos abaixo:

2.5.1 Entropia de Shannon

Esta entropia e dada por12:

SS ≡ −n∑i=1

pi ln pi , (2.50)

onde pi e a probabilidade de realizacao do eventoi. Pela condicao de normalizacao temos que:∑ni=1 pi = 1.Vemos que se no sistema tivermos pk = 1

entao pi 6=k = 0 deste modo temos certeza queo evento k se realizara, neste caso, a entropiae nula S = 0. Por outro lado, o valor maximoda entropia e quando tivermos completa falta deinformacao, todas as realizacoes sao igualmente

11Algumas vezes refere-se a medida de falta de in-formacao sobre o sistema como sendo a medida de de-sordem

12C. E. Shannon, A mathematical theory of communi-cation, Bell System Tech. J. 27, 379-423, 1948.

provaveis (p1 = . . . = pn = 1/n). Neste caso aentropia e maxima: SS,max = lnn.

Como veremos adiante SS ≡ −∑ni=1 pi ln pi,

onde n e o tamanho de uma amostra e pi e aproporcao que o evento i aconteceu e um esti-mador viesado de SS , ou seja, ele subestima aentropia da populacao amostrada. No entantoo vies diminui a medida que n cresce, indicandoque SS e um estimador consistente.13

Se tivermos k classes:

SS =1

n

(n lnn−

k∑i=1

fi ln fi

), (2.51)

onde fi = pin e o numero de realizacoes naclasse i.

Indice de Diversidade

Define-se o ındice de diversidade a entropia deShannon, no entanto e interessante utilizar oındice de diversidade normalizado como sendoa razao entre a entropia de Shannon e a entro-pia maxima:

ID =SS

SS,max=−∑ni=1 pi ln pilnn

. (2.52)

Desta maneira pode-se comparar a diversidadeentre dois sistemas que tem tamanhos n1 e n2

diferentes.

Exemplo. Considere uma moeda e um dadoe o ındice de diversidade dos dois sistemas saoiguais a unidade.

2.5.2 Entropia de Brillouin

Para pequenas amostras ou quando um con-junto de dados nao podem ser considerados umaamostra aleatoria, a entropia de Shannon nao e

13J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-glewood Cliffs, New Jersey, 1984.K. O. Bowman, K. Hutcheson, E. P. Odum and L. R.Shenon, Comments on the distribution of indices of di-versity, pp. 315-366, in: G. P. Patil, E. C. Pielou andW. E. Waters (eds.), Vol. 3, Many Species Populations,Ecosystems, and Systems Analysis, Pennsylvania StateUniversity Press, University Park 1971.

28

Page 29: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

apropriada14

SB ≡ 1

nln

(n!∏ki=1 fi!

)

=1

n

(lnn!−

k∑i=1

ln fi!

). (2.53)

Observe que para n � 1, podemos utilizar aaproximacao de Stirling lnn! = n lnn e a entro-pia de Brillouin pode ser aproximada pela en-tropia de Shannon.

O maximo desta entropia e dada por:

SB,max =1

n[lnn!− (k − d) ln c!− d ln(c+ 1)!] ,

(2.54)onde c e a porcao inteira de n/k, e d e a parterestante.

2.5.3 Entropia de Tsallis

A entropia de Tsallis e definida como:

ST =1

q − 1(1−

k∑i=1

pqi ) (2.55)

e tem como caso limite a entropia de Shannonquando q → 1.

Propriedades

A entropia tem varias propriedades:

• Aditividade: S1,2 ≤ S1 + S2 onde a igual-dade somente ocorrem se os sistemas 1 e 2forem estatisticamente independentes.

• Convexidade:

2.6 Exemplo de Uso daMedia Geometrica: Ju-ros Compostos

2.6.1 O problema

Para quantificar a variacao do preco de um dadoativo (pense em uma conta de poupanca) aolongo do tempo vamos discretizar o tempo em

14E. C. Pilou, The measurement of diversity in diffe-rent types of biological collections, J. Theoret. Biol. 13131-144, 1966.

intervalos ∆t que podem ser, por exemplo: umdia, uma semana, um mes, um ano, etc. Para apoupanca este intervalo e de um mes. O tempoe contado como sendo multiplos desse intervaloi∆t. Considere preco inicial do ativo no instantet = 0 (i = 0∆t) como sendo M0. No exem-plo da poupanca e o valor depositado em umdado dia. Vamos considerar que rentabilidadepor perıodo, nesse primeiro perıodo tenha sidor1. A rentabilidade no perıodo pode ser positivar1 ≥ 0 tendo um ganho ou negativa r1 < 0 tendouma perda. Este ganho (ou perda) de M0 deveser adicionado a movimentacao do ativo com umvalor M1. Este valor e positivo (M1 > 0) se forum deposito e negativo (M1 < 0) se for umaretidada. Este valor M1 agregado ao valor ini-cial P0 nao sofre a rentabilidade deste primeiroperıodo, mas somente nos perıodos posterioresi > 2.

2.6.2 Um Ativo

P0 = M0 .

P1 = P0(1 + r1) +M1 .

P2 = P1(1 + r2) +M2

= M0(1 + r1)(1 + r2) +M1(1 + r2) +M2 .

P3 = P2(1 + r3) +M3

= M0(1 + r1)(1 + r2)(1 + r3) +

M1(1 + r2)(1 + r3) +M2(1 + r3) +M3

=

3∑i=0

Mi

4∏j=i+1

(1 + rj) (r4 = 0) .

......

Pn =

n∑i=0

Mi

n+1∏j=i+1

(1 + rj) (rn+1 = 0) . (2.56)

Rentabilidades Iguais e MovimentacoesIguais

Considere as seguinte situacao:

r1 = r2 = . . . = rn = r (2.57)

M1 = M2 = . . . = Mn = M (2.58)

29

Page 30: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Pn = P0(1 + r)n +M

n−1∑i=1

(1 + r)i

= P0(1 + r)n +M1− (1 + r)n

1− (1 + r)

= P0(1 + r)n +M

r[1− (1 + r)n]

=

(P0 −

M

r

)(1 + r)n +

M

r. (2.59)

Media Geometrica

Escrevendo a media geometrica:

r? =

[n∏i=1

(1 + ri)

]1/n

− 1 (2.60)

thus,

n+1∏i=1

(1 + ri) = (1 + r?)n (2.61)

pois rn+1 = 0.

E interessante definir a media geometrica paraos τ (τ ∈ [1, n]) intervalos de tempo precedentescomo:

r?τ =

n∏j=n+1−τ

(1 + rj)

1/τ

− 1 , (2.62)

de modo que:

n+1∏j=n+1−τ

(1 + rj) =

n∏j=n+1−τ

(1 + rj)

= (1 + r?τ )τ. (2.63)

Com esta grandeza pode-se escrever:

Pn =

n∑i=0

Mi(1 + r?n−i)n−i . (2.64)

2.7 Consideracoes sobre oCalculo Numerico deAlgumas Grandezas

2.7.1 Media em Tempo Real

2.7.2 Calculos de Variancia, Assi-metria e Curtose

2.7.3 Algoritmos para ordenacaoem postos

2.8 Exercıcios

1. Some os numeros: 4, 35; 8, 65; 2, 95; 12, 45;6, 65; 7, 55 e 9, 75

(a) diretamente, Resp: 52,35.

(b) arrendondando para um dıgito aposa vırgula segundo a convencao donumero par mais proximo, Resp:52,4.

(c) arrendondando para um dıgito apos avırgula segundo a convencao de queo 5 se arredonda para cima. Resp:52.7

e tire as conclusoes sobre as aproximacoes.Resp: Seguindo a convencao de arren-damento para o par mais proximo seerra menos.

2. Escreva cada numero abaixo empregando anotacao cientıfica.

(a) 24.380.000 (4 algarismos significati-vos) Resp: 2, 438× 108.

(b) 0,000009851 Resp: 9, 851× 10−6.

(c) 7.300.000.000 (5 algarismos significa-tivos) Resp: 7, 3000× 109.

(d) 0,00018400 Resp: 1, 8400× 10−4.

3. Considerando os algarismos significativos,calcule:

(a) O produto: 5, 74× 3, 8. Resp: 21, 8.

(b) A soma: 4, 19355 + 15, 28 + 5, 9561 +12, 3 + 8, 472. Resp: 46, 2.

4. Contou-se o numero de erros de impressaoda primeira pagina de um jornal durante 50dias, obtendo-se os resultados abaixo:

30

Page 31: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

8 11 8 12 14 13 11 14 14 56 10 14 19 6 12 7 5 8 810 16 10 12 12 8 11 6 7 127 10 14 5 12 7 9 12 11 914 8 14 8 12 10 12 22 7 15

(a) Faca uma tabela das classes,frequencia, proporcao, proporcaoacumulada.

(b) Represente graficamente a frequencia,proporcao e proporcao acumulada emfuncao das classes.

(c) Calcule a media de erros e indique ovalor nos graficos.

(d) Calcule o desvio padrao indicando osvalores nos graficos.

(e) Obtenha a mediana, primeiro e ter-ceiro quartil.

(f) Calcule o coeficiente de assimetria e deexcesso.

(g) Calcule a curtose.

5. Os dados da tabela abaixo referem-se aotempo de ida e volta ao trabalho em horaspor dia para um grupo de pedreiros:

Tempo de Ida Freq.e Volta (h/dia)

0→ 1 101→ 2 402→ 3 803→ 4 304→ 5 20

(a) Represente graficamente a frequencia,a proporcao, a frequencia acumulada ea proporcao acumulada em funcao dasclasses.

(b) Calcule as medias e indique o valor nosgraficos.

(c) Calcule os desvio-padrao indicando ovalor nos graficos.

(d) Calcule a mediana, primeiro e ter-ceiro quartil indicando os valores nosgraficos.

(e) Calcule o coeficiente de excesso e acurtose.

6. Dispomos de uma relacao de 200 alugueisde imoveis urbanos e de 100 alugueis rurais:

Classes de Zona Zonaalugueis Urbana Rural

2, 0→ 3, 0 10 303, 0→ 5, 0 40 505, 0→ 7, 0 80 157, 0→ 10, 0 50 510, 0→ 15, 0 20 0

(a) Faca uma tabela das classes, densi-dade de frequencia, densidade de pro-porcao.

(b) Represente graficamente a densidadede frequencia e densidade de pro-porcao em funcao das classes.

(c) Calcule as medias e indique os valoresnos graficos.

(d) Calcule os desvios-padroes indicandoos valores nos graficos.

(e) O preco do aluguel de imoveis na zonarural e independente do preco na zonaurbana?

7. Mostre que:

(a)n∑i=1

(xi − x) = 0 ,

(b)

1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i − x2 .

Qual a interpretacao do termo1n

∑ni=1 x

2i ?

(c)

1

n

n∑i=1

ni(xi − x)2 =

n∑i=1

nix2i − nx2 .

8. Em uma granja foi observada a distribuicaode peso (gramas) de frangos:

Peso (gramas) Frequencia960→ 980 60980→ 1000 1601000→ 1020 2801020→ 1040 2601040→ 1060 1601060→ 1080 80

(a) Construa o histograma.

31

Page 32: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(b) Qual o valor medio dos dados ? Resp:x = 1021 g.

(c) Qual a variancia dos dados? Resp:s2 = 692 g2.

(d) Qual a mediana? Resp: q2 = 1020 g.

(e) Qual o valor do primeiro e terceiroquartil? Resp: q1 = 1002g, q3 =1039 g.

9. Peso (em onca 1 onca = 31,10 g) de tumo-res malıgnos retirados do abdomen de 57pacientes:

68 63 42 27 30 36 28 32 79 2722 23 24 25 44 65 43 25 74 5136 42 28 31 28 25 45 12 57 5112 32 49 38 42 27 31 50 38 2116 24 69 47 23 22 43 27 49 2823 19 46 30 43 49 12

(a) Construa o histograma.

(b) Obtenha o valor medio e o desvio-padrao. Resp: x = 37 oncas, s =16 oncas.

(c) Encontre os valores de maximo,mınimo, mediana, o primeiro e o ter-ceiro quartil. Resp: x> = 79 oncas,x< = 12 oncas, q2 = 32 oncas,q1 = 25 oncas e q3 = 46 oncas

(d) Faca um desenho esquematico (box-and-whisker plot).

10. Os seguintes dados mostram o numero decasos de ocorrencia de uma certa doenca emfuncao da idade durante um ano em umaregiao:

Idade (anos) Numero de Casos5→ 15 515→ 25 1025→ 35 2035→ 45 2245→ 55 1355→ 65 5

(a) Faca o histograma.

(b) Calcule a media e desvio-padrao.Resp: x = 36 anos, s = 13 anos

(c) Obtenha o primeiro quartil, mediana eterceiro quartil. Resp: q1 = 27 anos,q2 = 36 anos e q3 = 45 anos

11. Considere a avaliacao das turmas A, B e Catraves da tabela de frequencias:

Avaliacao A B CPessima 3 2 1Ruim 8 2 4Regular 14 9 7Boa 26 32 40

Otimo 1 3 9

(a) Indique uma medida de posicao cen-tral dos dados e obtenha o valor paraos tres casos:

(b) Calcule o ındice de diversidade Smax(entropia) maximo para cada uma dastres turmas?

(c) Calcule o ındice de diversidade S (en-tropia) para cada uma das tres tur-mas?

(d) Obtenha a razao entre S e Smax paracada uma das tres turmas?

(e) Discuta o motivo para a consideracaoda grandeza S/Smax.

(f) Faca comparacoes entre as tres tur-mas: A×B, A× C e B × C.

32

Page 33: Notas de Aula da Disciplina de Estat stica

Capıtulo 3

Calculo de Probabilidades

O calculo de Probabilidades e um importanteramo da Matematica que trata situacoes sujei-tas as leis do acaso. Mesmo sem observar di-retamente o fenomeno, com suposicoes adequa-das e possıvel criar um modelo teorico que re-produza (muito bem) uma dada distribuicao defrequencias de quando o fenomeno e observadodiretamente. Tais modelos sao chamados de mo-delos de probabilidades.

3.1 Experimentos

Chama-se de

• experimento qualquer processo que permiteao pesquisador fazer observacoes.

Um experimento pode ser:

• determinıstico, se, ao repetir o experimentonas mesmas condicoes, obtem-se sempre omesmo resultado. Por exemplo, o tamanhodo metro padrao.

• aleatorio, se, ao repetir o experimento nasmesmas condicoes, nao obtem-se sempre omesmo resultado. Por exemplo, considereo lancamento de uma moeda. O resultadopode ser cara (K) ou coroa (C).

3.2 Espaco Amostral eEventos

Considere experimentos aleatorios. Chama-sede:

• espaco amostral, ou espaco das possi-bilidades, ao conjunto de S (em ge-ral o mais detalhado possıvel) de to-dos os resultados possıveis de ocorrerem um experimento aleatorio (sujeito asleis do acaso). Exemplo, no lancamento

de uma moeda S = {{K}, {C}} eno lancamento de duas moedas: S ={{K,K}, {K,C}, {C,K}, {C,C}}.

• evento qualquer subconjunto do espacoamostral (A,B,C, . . .), definindo um resul-tado bem determinado, ou seja, um resul-tado, ou resultados, de um experimentoaleatorio. Por exemplo, no lancamentode uma moeda: {K}, {C} ou de nolancamento de duas moedas: {K,K},{K,C}, {C,K} e {C,C}.

Os eventos podem ser:

• evento simples constitui um possıvel resul-tado de S. Por exemplo {K} ou {C} nolancamento de uma moeda, ou {K,K} ou{C,K}, etc. no lancamento de duas moe-das.

• evento composto constitui mais do queum possıvel resultado de S. Por exem-plo, considere o evento de sair pelo menosuma cara no lancamento de duas moedas:{{K,K}, {K,C}, {C,K}}.

• evento certo e proprio espaco amostralS, Por exemplo, sair cara ou coroa nolancamento de uma moeda.

• evento impossıvel que e o conjunto vazio∅. Por exemplo, sair cara e coroa nolancamento de uma moeda.

Sao validas para os eventos as operacoes comconjuntos.

Temos assim os conceitos de:

• Evento intersecao (A ∩ B), evento for-mado pelos resultados que pertencem aA e a B. Por exemplo sair cara ecoroa no lancamento de duas moedas{{K,C}, {C,K}}.

33

Page 34: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

• Eventos uniao (A∪B), evento formado pe-los resultados que pertencem a pelo menosum dos eventos considerados. Por exemplo,sair uma ou duas caras no lancamento deduas moedas {{K,K}, {K,C}, {C,K}, }.

• Eventos mutuamente exclusivos (A ∩ B =∅). Por exemplo, sair duas caras ouduas coroas no lancamento de duas moedas{{K,K}, {C,C}}.

• Eventos mutuamente exclusivos e exausti-vos formam uma particao de S se a uniaode n eventos mutuamente exclusivos e oproprio S. Por exemplo, uma cara ouuma coroa no lancamento de uma moeda{{K}, {C}}.

• Eventos complementares (A e AC tais queA ∩ AC = ∅ e A ∪ AC = S). Por exemplo,{K} e o evento complementar ao evento{C} no lancamento de uma moeda.

• Eventos independentes sao eventos que naose influenciam, ou seja, nao existe interacaoentre eles.

Evento =

SimplesCompostoCertoImpossıvelInterseccaoUniaoExcludentes(Mutuamente Exclusivos)Excludentes e ExaustivosComplementarIndependents

3.3 Probabilidade e suasPropriedades

A probabilidade e um numero associado a umevento, destinado a medir sua possibilidade deocorrencia.

Dentre outras seguem as seguintes proprieda-des:

1. 0 ≤ P (A) ≤ 1;

(a) P (S) = 1, evento certo;

(b) P (∅) = 0, evento impossıvel;

2.

P (A ∪B) = P (A) + P (B)− P (A ∩B)

= P (A) + P (AC ∩B) .

(a) se A,B, . . . ,K, sao eventos mutua-mente exclusivos, P (A∪B∪. . .∪K) =P (A) + P (B) + . . .+ P (K);

(b) P (AC) = 1 − P (A), evento comple-mentar ;

Uma regra pratica e objetiva para a atribuicaonumerica da probabilidade e:

P (A) =m

n,

onde m e o numero de resultados de S fa-voraveis ao evento A; e n o numero de resulta-dos possıveis em S, desde que todos os eventossimples sejam igualmente provaveis.

Esta maneira de atribuir probabilidades ja foihistoricamente considerada como a definicao deprobabilidade. A maneira teoricamente maisobjetiva de se atribuir probabilidade e no casoem que o experimento estatıstico pode ser repe-tido indefinidas vezes. O evento ocorre mais emais vezes a medida que aumenta o numero derepeticoes do experimento, sempre sob as mes-mas condicoes.

3.4 Probabilidade Condicio-nada

Muitas vezes, o fato de saber que um eventoocorreu faz com que se modifique a probabili-dade que atribuı-se a outro evento. Denota-sepor P (A|B) a probabilidade do evento A, sa-bendo que B ocorreu, ou a probabilidade de Acondicionada a B. Tem-se

P (A|B) =P (A ∩B)

P (B)com P (B) 6= 0 .

Sao importantes os teoremas que apresenta-sea seguir:

Teorema do produto.

P (A∩B) = P (B|A)P (A) = P (A|B)P (B) .

A generalizacao e imediata:

P (A∩B ∩C) = P (C|A∩B)P (A|B)P (A) .

34

Page 35: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Teorema da probabilidade total Sejam A1,A2, . . ., An, eventos mutuamente exlusivose exaustivos (ou seja, forma uma particao),e B um evento qualquer de S. Entao:

P (B) =

n∑i=1

P (B|Ai)P (Ai) .

Teorema de Bayes Nas mesmas condicoesque o teorema da probabilidade total:

P (Ai|B) =P (B|Ai)P (Ai)∑nj=1 P (B|Aj)P (Aj)

,

com i = 1, 2, . . . , n.

O teorema de Bayes e usado quando se co-nhece o resultado e deseja-se conhecer a proba-bilidade que o resultado observado tenha vindode uma das possıveis fontes. E o teorema utili-zado pelos detetives. O resultado e o crime, otrabalho do detetive e designar as probabilida-des que levam cada suspeito a ter cometido ocrime.

A regra pratica e a seguinte: em uma arvorede probabilidades, considere somente a sucessaode eventos possam levar ao resultado desejado(conhecido). Some entao todas estas proba-bilidades (sao eventos mutuamente exclusivos).Esta soma e a normalizacao dos possıveis cami-nhos na arvore que levam ao resultado desejado.A probabilidade de que o resultado tenha vindode uma dada fonte, e o produto das probabilida-des (que podem ser condicionadas) ao longo docaminho que sai da fonte e vai ate o resultadofinal, dividido pela soma de todos os possıveiscaminhos.

3.5 Eventos Independentes

Se P (A|B) = P (A|BC) = P (A), o evento A eestatisticamente independente do evento B. Issoimplica ser B tambem estatisticamente indepen-dente de A. Para eventos independentes, o teo-rema do produto fica

P (A ∩B ∩ . . . ∩K) = P (A)P (B) . . . P (K) .

Vale a pena ressaltar que eventos indepen-dentes sao diferentes de eventos mutuamenteexclusivos. Eventos independentes sao even-tos em que o resultado do evento B nao e afe-tado pelo resultado obtido no evento A, ou seja,P (B ∩ A) = P (B)P (A), uma vez que a pro-babilidade condicionada P (B|A) = P (A). Por

outro lado, eventos mutuamente exclusivos saoeventos em que o resultado de B e excluıdo peloresultado obtido em A, ou seja, P (B ∩ A) = 0,uma vez que P (B|A) = 0.

3.6 Metodos de Contagem

3.7 Teoria da Confiabilidade

3.8 Interpretacoes da Pro-babilidade

Existem diferentes interpretacoes para o con-ceito de probabilidade. Elas sao: a inter-pretacao classica, a interpretacao de frequenciase a interpretacao bayesiana.

3.8.1 Intepretacao Classica daProbabilidade

Seja N o numero total de possıveis resultadosde um experimento. Se em NA de todos estespossıveis resultados, o evento A ocorre, entao aprobabilidade do evento A acontecer e dada por:

P (A) = limN→∞

NAN

,

desde que a ocorrencia de todos os eventos te-nham a mesma chance de ocorrer. A principalcrıtica a esta definicao e que ter a mesma chancesignifica ser igualmente provavel.

3.8.2 Intepretacao Classica daProbabilidade

A probabilidade do evento A e o seguinte limiteda frequencia relativa:

P (A) = limN→∞

NAN

,

onde NA e o numero de ocorrencia de A emN tentativas. Nesta definicao o conceito deigualmente provavel e completamente evitado.A palavra tentativa aqui e usada descrever arepeticao de um experimento sob circustanciasidenticas. Os problemas desta definicao sao osseguintes: O limite acima pode ser assumido queexista, mas as tentativas sao sempre finitas eesta definicao nao fornece nenhum significadopara a probabilidade de uma hipotese.

35

Page 36: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

3.8.3 Intepretacao Bayesiana

Na interpretacao bayesiana a probabilidade edefinida como sendo um grau de crenca. As-sim a teoria da probabilidade pode ser vista comuma extensao da logica dedutiva e e chamadade logica indutiva. Na logica dedutiva, uma pro-posicao pode ser verdadeira ou falsa, mas nalogica indutiva, a probabilidade de uma pro-posicao constitui um grau de crenca, que provaou desaprova com extremos.

A interpretacao bayesiana pode ser classifi-cada em duas categorias, a interpretacao logicaou de interpretacao subjetiva. Na interpretacaologica a probabilidade e objetiva, um aspecto doestado dos negocios. Na interpretacao subjetivao grau de crenca e um grau pessoal de tal modoque aso axiomas da teoria da probabilidade naosao violados.

3.9 Espaco Amostral -Populacao e Evento -Amostra

Defini-se a populacao como sendo o espacoamostral e uma amostra de uma populacaocomo sendo um evento do espaco amostral.

Conhecido o espaco amostral, conhece-se apopulacao. Mais adiante faremos modelos paraespacos amostrais, ou populacoes. Dos mode-los de espacos amostrais (populacoes) podemoscalcular a probabilidade de se tirar uma dadaamostra (teoria da amostragem). No entanto,antes de prosseguir com esta ideia, e necessariotransformar eventos que sao “conjuntos” de re-sultados (na realidade subconjuntos do espacoamostral) em variaveis.

3.10 Exercıcios

1. Defina o espaco amostral para cada um dosseguintes experimentos:

(a) lancam-se dois dados e anota-se a con-figuracao obtida;

(b) conta-se o numero de pecas defeituo-sas, no intervalo de uma hora, de umalinha de producao;

(c) investigam-se famılias com quatrocriancas e anota-se a configuracao ob-tida, segundo o sexo;

(d) em entrevistas telefonicas com dez as-sinantes, pergunta-se se o proprietariotem ou nao maquina de secar roupa;

(e) de um fichario com seis nomes, sendotres de mulheres e tres de homens,seleciona-se ficha apos ficha ate queo ultimo nome de mulher seja seleci-onado.

2. Uma moeda e lancada tres vezes. Descrevao espaco amostral. Considere os eventos Ai:cara no i-esimo lancamento, para i = 1, 2, 3.Determine os seguintes eventos:

(a) A(C)1 ∩A2;

(b) A(C)1 ∪A2;

(c) (A(C)1 ∩A(C)

2 )(C);

(d) A1 ∩ (A2 ∪A3).

3. Suponha que o espaco amostral e o inter-valo [0, 1] dos numeros reais. Considereos eventos A = [x : 1/4 ≤ x ≤ 5/8] eB = [x : 1/2 ≤ x ≤ 7/8]. Determine oseventos:

(a) A(C);

(b) A ∩B(C);

(c) (A ∪B)(C);

(d) A(C) ∪B.

4. Quais das seguintes relacoes sao verdadei-ras:

(a) (A ∪B) ∩ (A ∪ C) = A ∪ (A ∩ C)

(b) A ∪B = (A ∩B(C)) ∪B(c) A(C) ∩B = A ∪B(d) (A∪B)(C) ∩C = A(C) ∩B(C) ∩C(C).

5. Sejam A, B e C tres eventos de um espacoamostral. Determine expressoes em funcaode A, B e C para os eventos:

(a) somente A ocorre;

(b) todos os tres eventos ocorrem;

(c) pelo menos dois eventos ocorrem;

(d) exatamente dois eventos ocorrem;

(e) nao mais do que dois eventos ocorrem;

(f) A e B ocorrem, mas C nao ocorre;

(g) pelo menos um dos eventos ocorre;

(h) exatamente um dos eventos ocorre;

36

Page 37: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(i) nenhum dos eventos ocorre.

6. Dois eventos mutuamente exclusivos po-dem ser independentes? Dois eventos in-dependentes podem ser mutuamente exclu-sivos? Por que?

7. Uma caixa contem 25 bolas numeradas de 1a 25. Extraindo-se uma bola ao acaso, quala probabilidade de que seu numero

(a) par;

(b) ımpar;

(c) par e maior do que 10;

(d) primo e maior do que 3;

(e) multiplo de 3 e 5.

8. Um sistema automatico de alarme contraincendio utiliza tres celulas sensıveis ao ca-lor que agem independentemente uma daoutra. Cada celula entra em funcionamentocom probabilidade 4/5 quando a tempera-tura atinge 60oC. Se pelo menos uma dascelulas entrar em funcionamento o alarmesoa. Calcular a probabilidade do alarmesoar quando a temperatura atingir 60oC.Qual a probabilidade do alarme nao soar?

9. Sejam A, B e C tres eventos de um mesmoespaco amostral, tais que: P (B) = 1/2,P (C) = 3/10, P (B|C) = 2/5 e P [A|(B ∩C)] = 1/2. Calcule P (A ∩B ∩ C).

10. Prove que se A e B sao dois eventos de umespaco amostral S entao P [(A∩B(C))∪(B∩A(C))] = P (A) + P (B)− 2P (A ∩B).

11. Sejam A e B dois eventos de um mesmoespaco amostral. Sabendo-se que P (A) =7/10 e P (B) = 3/5, determine o valormaximo e mınimo de P (A ∩B).

12. Sejam A, B e C tres eventos independentesdois a dois tal que: A ∩ B ∩ C = ∅. Dadoque P (A) = P (B) = P (C) = p, determineo maior valor possıvel de p.

13. Sejam A e B dois eventos de um mesmoespaco amostral. Se A e B sao independe-tes, prove que os seguintes eventos tambemsao independentes.

(a) A e B(C);

(b) A(C) e B;

(c) A(C) e B(C).

14. Sejam A e B dois eventos de um mesmoespaco amostral. Se P (A) = 2/5, P (A ∪B) = 7/10 e P (B) = p. Para que valor dep os eventos

(a) A e B sao mutuamente exclusivos?

(b) A e B sao independentes?

15. Prove que:

(a) P (A(C)) = α e P (B(C)) = β entaoP (A ∩B) ≥ 1− α− β;

(b) Se P (A|B) ≥ P (A), entao P (B|A) ≥P (B);

(c) P (e(C))∩F (C)) = 1−P (E)−P (F ) +P (E ∩ F ).

16. Uma urna contem duas bolas brancas eduas pretas. As bolas sao retiradas aoacaso, sucessivamente e sem reposicao.

(a) Qual e a probabilidade de que a pri-meira bola seja preta?

(b) Qual a probabilidade de que a pri-meira bola preta apareca somente naterceira tirada?

(c) Qual a probabilidade de que a segundabola preta apareca na segunda tirada?

(d) Qual a probabilidade de que a segundabola preta apareca na quarta tirada?

(e) Dado que na quarta tirada a bola epreta, qual a probabilidade de que nasegunda tirada a bola seja preta?

17. Um dado e viciado de modo que um numeropar e duas vezes mais provavel que umnumero ımpar. Encontre a probabilidadede que em um lancamento:

(a) um numero par ocorra;

(b) um numero primo ocorra;

(c) um numero par e primo ocorra.

18. Um numero e escolhido, ao acaso, entre osnumeros inteiros de 1 a 20. Considere oseventos A como sendo numeros multiplosde tres e B um numero par. Descreva osseguintes eventos e calcule suas probabili-dades:

(a) A ∩B;

(b) A ∪B;

(c) A ∩B(C).

37

Page 38: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

19. Em media, 5% dos produtos vendidos poruma loja sao devolvidos. Qual a probabili-dade de que, nas quatro proximas unidadesvendidas deste produto, duas sejam devol-vidas?

20. Um comite e formado por quatro homense duas mulheres. Dois membros do comitesao selecionados sucessivamente, ao acaso esem reposicao. Calcule a probabilidade decada um dos possıveis resultados.

21. Uma cidade tem 30000 habitantes e tres jor-nais: A, B e C. Uma pesquisa de opiniaorevela que 12000 leem A, 8000 leem B, 7000leem A e B, 6000 leem C, 4500 leem A e C,1000 leem B e C e 500 leem A, B e C. Umhabitante da cidade e selecionado ao acaso.

(a) pelo menos um jornal;

(b) somente um jornal;

(c) nao leia nenhum jornal.

22. Considere a tabela

Biologia Exatas HumanasMasculino 52 40 58Feminino 38 32 80

Um estudante e sorteado ao acaso:

(a) Qual e a probabilidade de que ele sejado sexo feminino e da area de huma-nas?

(b) Qual e a probabilidade de que ele sejado sexo masculino e nao seja da areade biologicas?

(c) Dado que foi sorteado um estudanteda area de humanas, qual e a probabi-lidade que ele seja do sexo feminino?

(d) Dade que foi sorteado uma estudante(sexo feminino), qual e a probabili-dade que ela seja da area de exatas?

23. Um restaurante popular apresenta dois ti-pos de refeicoes: salada completa e umprato a base de carne. Considere os seguin-tes dados: 20 % dos fregueses do sexo mas-culino preferem salada e 30% das mulherespreferem carne, 75% dos frequeses sao ho-mens. Os eventos sao; H fregues homem,M fregues mulher, A o fregues prefere sa-lada e B o fregues prefere carne. Calcule:

(a) P (H);

(b) P (A|H);

(c) P (B|H);

(d) P (A ∪H);

(e) P (A ∩H) e

(f) P (M |A).

24. Suponhamos que exitam dez livros que de-vem ser colocados em uma estante. Qua-tro desses livros sao de matematica, tresde quımica, dois de fısica e um dicionario.Se quisermos que os livros de mesmo as-sunto fiquem juntos, de quantas maneirasisto sera possıvel.

25. Em um jornal existem dez jornalistas. Sequisermos colocar tres jornalistas traba-lhando na sede do jornal, cinco em reporta-gem e dois de reserva, de quantas maneirasisso podera ser feito?

26. Um indivıduo tem n chaves, das quais so-mente uma abre uma porta. Ele seleciona,a cada tentativa, uma chave ao acaso semreposicao e tenta abrir a porta. Qual a pro-babilidade de que ele abra a porta na k-esima tentativa (k = 1, 2, . . . , n)?

27. A probabilidade da porta de uma casa estartrancada a chave e 3/5. Um chaveiro pos-sui 25 chaves das quais 3 abrem abrem essaporta. Qual a probabilidade de que um in-divıduo entre na casa se ele puder escolher,ao acaso:

(a) somente uma das chaves;

(b) duas das chaves;

(c) tres chaves.

28. O jogo da loto consiste em selecionar-secinco dezenas do conjunto de cem dezenasde 00 a 99. Qual a probabilidade de se acer-tar a quina (5 dezenas) se marcar-se 10 de-zenas no volante?

29. Duas cartas sao retiradas simultaneamentede um baralho. Qual a probabilidade deque:

(a) ambas sejam de espadas;

(b) uma seja de espadas e a outra de co-pas.

30. Ache a probabilidade de que uma mao depoquer (cinco cartas) seja um:

38

Page 39: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(a) royal flush (dez, valete, dama, rei e asdo mesmo naipe);

(b) uma sequencia do mesmo naipe (naosendo o royal flush);

(c) uma sequencia de naipes diferentes;

(d) quatro cartas tenham o mesmo valor(de um mesmo tipo);

(e) uma trinca e um par (3 cartas domesmo valor e 2 cartas com mesmo va-lor);

(f) uma trinca;

(g) dois pares;

(h) um par.

31. Uma moeda e lancada ate que se obtenha aprimeira cara. Determine a probabilidadede que isso ocorra em um lancamento denumero

(a) par;

(b) ımpar.

32. Um dispositivo eletronico e formado portres partes. Cada parte tem probabilidadede 9/10 de funcionar adequadamente. Ofuncionamento de cada parte nao dependedas demais. O dispositivo falha se duas oumais partes falham. Calcule a probabili-dade de falha do dispositivo.

33. Tres maquinas A, B e C produzem 50%,30% e 20%, respectivamente, do total depecas de uma fabrica. As porcentagens deproducoes defeituosas destas maquinas sao:3%, 4% e 5%.

(a) Se uma peca e selecionada aleatoria-mente, ache a probabilidade de ela serdefeituosa.

(b) Se a peca selecionada e defeituosa, en-contre a probabilidade de ter sido pro-duzida na maquina C.

34. Numa urna onde existiam 8 bolas brancase 6 azuis, foi perdida uma bola de cor des-conhecida. Uma bola foi retirada ao acaso.Qual a probabilidade de a bola perdida serbranca, dado que a bola retirada e branca?Resp.: 7/13.

35. A probabilidade de que um estudante saibaa resposta de uma questao de um examede multipla escolha e p. Ha m respostas

possıveis para cada questao, das quais ape-nas uma e correta. Se o estudante nao sabea resposta para uma dada questao, ele esco-lhe ao acaso uma das m respostas possıveis.

(a) Qual a probabilidade do aluno respon-der corretamente a questao? Resp.:[1− p(m− 1)]/m.

(b) Se o estudante respondeu correta-mente a questao, qual e a probabi-lidade de ele tenha “chutado” a res-posta? Resp.: (1− p)/[1 + p(m− 1)].

36. De quantas maneiras diferentes as r bolasdistintas podem ser distribuıdas, ao acaso,em n urnas numeradas de 1 a n? Qual e aprobabilidade de que:

(a) pelo menos uma urna tenha duas bo-las?

(b) cada urna conter no maximo umabola?

37. Uma urna contem 1 bola branca e 1 bolapreta. Retira-se uma bola ao acaso erecoloca-se essa bola na urna. Repete-se emseguida este procedimento mais 2 vezes.

(a) Qual a probabilidade de que a 3a bolaretirada seja preta? Resp.: 4/8 =1/2.

(b) Se a 2a bola retirada e preta, qual aprobabilidade de que a primeira bolatenha sido preta? Resp.: 2/4 = 1/2.

(c) Foram retiradas 2 bolas pretas e umabranca, qual a probabilidade de quea 2a bola retirada tenha sido preta?Resp.: 2/3.

38. Mostre que:

(a) (nk

)=

(n

n− k

)(b) (

n+ 1k

)=

(nk

)+

(n

k − 1

)(c)

(a+ b)n =

n∑k=0

(nk

)akbn−k

39

Page 40: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(d)n∑k=0

(nk

)= 2n =

(2nn

)(e)

n∑k=0

k

(nk

)= 2n−1n

(f)

n∑k=0

k(k − 1)

(nk

)= 2n−2n(n− 1)

(g)n∑k=0

(−1)k(nk

)= 0

(h)n∑k=r

(kr

)=

(n+ 1r + 1

)(i) Para n ≤ r ≤ m

n∑k=0

(m

r − k

)(nk

)=

(m+ nr

)

(j) Para n par:(n1

)+

(n3

)+ . . .+

(n

n− 1

)=(

n0

)+

(n2

)+ . . .+

(nn

)39. Em uma turma de 50 estudantes, nenhum

dos quais nascido em 29 de fevereiro, quala probabilidade de que pelo menos dois te-nham o mesmo dia de aniversario?

40. Considere 5 cartas e cada carta tem o seuenvelope correspondente. Qual a probabili-dade de que se as cartas e envelopes foremembaralhadas pelo menos uma carta estejano envelope correto? E se tivermos 10 car-tas? e se tivermos 100 cartas? e 1000?

41. A probabilidade de se chegar a um estaci-onamento antes das 8 horas e 0,40. Nestascondicoes a probabilidade de se encontrarlugar e 0,60 e chegando depois das 8 horase de 0,30.

(a) Qual a probabilidade de estacionar?

(b) Sabendo-se que uma pessoa,em tresdias, chegou duas vezes antes das 8 ho-ras, qual a probabilidade de ter esta-cionado pelo menos um dia?

(c) Qual a porcentagem, entre os carrosque estao estacionados, dos que che-garam antes das 8 horas?

42. Estima-se que a probabilidade de Mario serculpado e 0,20. Sao chamadas duas teste-munhas. Se Mario realmente for culpado,Alberto dira que e culpado, e Carlos com0,60 de probabilidade dira que e culpado.Se Mario for inocente, Alberto dira comprobabilidade 0,30 que e inocente e Carlosdira certamente que e inocente.

(a) Qual a probabilidade de Alberto dizerque Mario e inocente? Resp.: 6/25.

(b) Qual a probabilidade de Mario ser ino-cente se Carlos disse que ele e ino-cente? Resp.: 10/11

(c) Qual a probabilidade das duas tes-temunhas afirmarem a mesma coisa?Resp.: 0, 3024.

(d) Qual a probabilidade de Alberto men-tir? Resp.: 14/25.

43. Um paciente tem que escolher entre 3medicos e sabe que a probabilidade de se re-cuperar e de 9/10, 8/10 e 7/10 dependendodo medico, mas nao sabe associar estas pro-babilidades ao medico correspondente.

(a) Qual a probabilidade de se recuperar?Resp.: (1/3)(9/10 + 8/10 + 7/10) =4/5.

(b) Sabendo que dois pacientes do medicoA, nas mesmas condicoes, se re-cuperaram, qual a probabilidadede que A seja o melhor medico?Resp.: (9/10)2/[(9/10)2 + (8/10)2 +(7/10)2] = 81/194.

44. No jogo de crap, um dos jogadores lancaum par de dados. Se a soma dos pontosfor 7 ou 11, ele ganha; se for 2, 3 ou 12,ele perde. Caso contrario, ele continuaralancando sucessivamente os dois dados aterepetir a soma de pontos da primeira jo-gada, caso em que ganha ou ate sair 7 caso

40

Page 41: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

em que perde. Qual a probabilidade devitoria do jogador?1 Resp.: 598/1485.

45. Um torneio de tenis sera disputado entreoito tenistas pelo sistema de eliminatoriasimples. As probabilidades de vitoria emconfrontos individuais sao proporcionais a:2, 3, 4, 2, 3, 6, 1 e 4 para os tenistas A,B, C, D, E, F , G e H, respectivamente. Atabela foi elaborada como segue:

jogo 1: A×Bjogo 2: C ×Djogo 3: E × Fjogo 4: G×Hjogo 5: vencedor do jogo 1 × vencendor do

jogo 2

jogo 6: vencedor do jogo 3 × vencendor dojogo 4

jogo 7: vencedor do jogo 5 × vencendor dojogo 6

Sera campeao o vencedor do jogo 7. Quala probabilidade de que o tenista A sejacampeao?

46. Considere as seguintes situacoes:

(a) Um cırculo esta incrito em um qua-drado. Se um mosquito pousar to-talmente ao acaso dentro do qua-drado, qual a probabilidade de queele tambem pouse dentro do cırculo?Resp.: π/4.

(b) Uma esfera esta incrita dentro de umcubo. Se um mosquito estiver voandototalmente ao acaso dentro do cubo,qual a probabilidade de que, em umdado instante, ele tambem esteja den-tro da esfera? Resp.: π/6.

(c) Se o quadrado e o cubo tiverem omesmo tamanho de aresta, compareas probabilidade de estar dentro docırculo e dentro da esfera. Resp.:(π/6)/(π/4) = 2/3. Como voce ex-plica este resultado? Resp.: Efeitode borda. Existe mais cantos nocubo do que no quadrado.

1Utilize:∞∑i=0

ai =1

1− a

para a < 1.

(d) Generalize este resultado para uma di-mensao d sabendo que o volume da es-fera de raio R e Γ(d/2 + 1)rd/Γ[(d +1)/2]

47. Calcular:

(a) a probabilidade de que um mes de ja-neiro tenha 5 domingos. Resp.: 3/31.

(b) a probabilidade de que um mes de ju-nho tenha 5 domingos. Resp.: 2/30.

(c) a probabilidade de que o mes de ja-neiro tenha 5 domingos para:

i. ano nao bisexto Resp.: 3/31.

ii. ano bisexto Resp.: 3/31.

iii. ano em geral (bisexto ounao) Resp.: (3/4)(3/31) +(1/4)(3/31) = 3/31.

(d) a probabilidade de que o mes de feve-reiro tenha 5 domingos para:

i. ano nao bisexto Resp.: 0.

ii. ano bisexto Resp.: 1/7.

iii. ano em geral (bisexto ou nao)Resp.: (3/4)0 + (1/4)(1/7) =1/28.

(e) a probabilidade de que o primeiro diado mes seja uma segunda feira:

i. ano nao bisexto Resp.: 1/7.

ii. ano bisexto Resp.: 1/7.

iii. ano em geral (bisexto ou nao)Resp.: 1/7.

48. O farol A fica aberto 20 segundos em umminuto; o farol B 30 s/min. e o farolC 40 s/min. Estando os farois bastanteespacados, qual a probabilidade de um mo-torista encontrar:

(a) todos os farois abertos?

(b) pelo menos um farol fechado?

(c) apenas um farol aberto?

49. Um ponto x e escolhido ao acaso no in-tervalo [0, 1]. A seguir, um outro pontoy e escolhido ao acaso no intervalo [0, x],Dado k ∈ [0, 1], calcule a probabilidade dey ∈ [0, k].

50. Uma agulha de comprimento d e jogada aoacaso sobre um chao onde existem linhasparalelas distanciadas de ` onde d < `.

41

Page 42: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(a) Mostre que a probabilidade da agulhainterceptar alguma linha e 2d/(π`).

(b) Mostre que, se no lugar da agulha,um triangulo de lados a ≤ b ≤ c edeixado cair ao acaso sobre o mesmochao onde c < `, a probabilidade dotriangulo interceptar alguma linha e(a+ b+ c)/(π`).

51. Considere uma urna contendo 3 bolas pre-tas e 5 bolas vermelhas. Retire duas bolasda urna sucessivamente.

(a) Obtenha os resultados possıveis eas respectivas probabilidades paraextracoes sem reposicao. Resp.:P (pp) = 6/56, P (pv) = 15/56,P (vp) = 15/56 e P (vv) = 20/56.

(b) Obtenha os resultados possıveis eas respectivas probabilidades paraextracoes com reposicao. Resp.:P (pp) = 9/64, P (pv) = 15/64,P (vp) = 15/64 e P (vv) = 25/64.

(c) Calcule a probabilidade de tirar umabola preta na primeira e na segundaextracoes,

i. sem reposicao. Resp: P (pp) =3/28

ii. com reposicao. Resp: P (pp) =9/64

(d) Calcule a probabilidade de tirar umabola preta na segunda extracao,

i. sem reposicao. Resp:P (ppouvp) = 6/56 + 15/56 =21/56

ii. com reposicao. Resp:P (ppouvp) = 9/64 + 15/64 = 3/8

(e) Calcule a probabilidade de tirar umabola vermelha na primeira extracao.Resp: P (v) = 5/8

52. Um sistema e composto de tres componen-tes 1, 2 e 3, com confiabilidades 0,9; 0,8e 0,7, respectivamente. O componente 1 eindispensavel ao funcionamento do sistema;se 2 ou 3 nao funcionam, o sistema funci-ona mas com rendimento inferior. A falhasimultanea de 2 e 3 implica o nao funciona-mento do sistema. Supondo que os compo-nentes funcionem independentemente, cal-cular a confiabilidade do sistema.

53. Suponhamos que se realizou um teste paradetectar determinada doenca rara e queeste teste seja capaz de descobrir a doencaem 97% das pessoas afetadas. Suponha-mos que, alem disso, quando ele e experi-mentado em pessoas sadias, 5% delas saoincorretamente diagnosticadas como tendoa doenca. Finalmente, suponhamos que,quando e tentado o teste em indivıduosque tenham outras doencas mais brandas,10% deles sao incorretamente diagnostica-dos. Sabe-se que as porcentagens, na po-pulacao total, dos indivıduos dos tres tiposconsiderados aqui, sao de 1%, 96% e 3%,respectivamente. O problema e calcular aprobabilidade de que um indivıduo, esco-lhido ao acaso, da populacao, e testado comrelacao a doenca rara, tenha realmente adoenca, se o teste indicar que ele esta afe-tado.

54. Joga-se uma moeda nao viciada 5 vezes.

(a) Construa o espaco amostral;

(b) Qual a probabilidade de aparecer ne-nhuma cara, uma cara, duas caras,tres cara, quatro caras e cinco caras?

(c) Chamando o numero de lancamentosde n e o numero de caras que apare-cem de k, escreva uma formula que ex-presse a probabilidade de aparecer kcaras em n lancamentos.

(d) Esta formula poderia ser usada setivessemos n moedas lancadas simul-taneamente e estivessemos interessadoem k caras?

42

Page 43: Notas de Aula da Disciplina de Estat stica

Capıtulo 4

Variaveis Aleatorias

Uma variavel aleatoria e uma funcao queassocia numeros reais aos eventos de umespaco amostral. Utiliza-se letras maiusculas(X,Y, . . .) para designar as variaveis aleatorias,e minusculas (x, y, . . .) para indicar valores par-ticulares destas variaveis.

Para variaveis qualitativas, o modelo proba-bilıstico baseado em eventos, apresentado noCapıtulo precedente (Sec 3), se adapta muitobem.

No entanto os eventos podem ser relaciona-dos com variaveis quantitativas que podem serdiscretas ou contınuas.

4.0.1 Variaveis Aleatorias Unidi-mensionais

Consideram-se variaveis aleatorias para asvariaveis quantitativas que podem ser discre-tas ou contınuas. Observe que mesmo asvariaveis qualitativas podem ser transformadasem variaveis quantitativas.

O comportamento de uma variavel aleatoriadiscreta e descrito por sua distribuicao de pro-babilidade. A distribuicao de probabilidades for-nece a probabilidade de que a variavel aleatoriaX tenha um determinado valor x. Observe que adistribuicao de probabilidades descreve o espacoamostral (na linguagem de eventos) e a variavelaleatoria X descreve os eventos do espaco amos-tral.

As variaveis aleatorias podem ser discretas,contınuas ou mistas.

No caso discreto a distribuicao de probabi-lidade pode ser caracterizada por uma funcaoprobabilidade que indica diretamente as proba-bilidades associadas a cada valor como mostradona Tabela 4.0.1.

No caso contınuo, as distribuicao de probabi-lidade e caracterizada pela funcao densidade deprobabilidade, que e uma funcao contınua comas seguintes propriedades:

X Probabilidadex1 p1

x2 p2

......

xn pn

Tabela 4.1: Distribuicao de probabilidades deuma variavel discreta com n estados (valores).A normalizacao e garantida por:

∑ni=1 pi = 1.

1. f(x) ≥ 0;

2.∫ ba

dx f(x) = P (a < X ≤ b), com b > a;

3.∫∞−∞ dx f(x) = 1.

A primeira propriedade garante que a proba-bilidade do valor de X estar entre ]x, x + dx]e nula ou positiva. A segunda propriedade for-nece a probabilidade do valor de X estar entrea < X ≤ b, com b > a. Note que esta probabili-dade e nula ou positiva. A terceira propriedadediz que a probabilidade do valor de X estar nodomınio de X e unitaria. Neste caso diz-se que afuncao densidade de probabilidade esta norma-lizada. A terceira propriedade garante tambemque a funcao densidade de probabilidade e limi-tada (normalizavel).

Um resultado e impossıvel se f(x) = 0, oub = a.

Observe que∫ aa

dx f(x) = P (a < x ≤ a) = 0,ou seja, pode-se considerar intervalos fechados∫ ba

dx f(x) = P (a ≤ x ≤ b), com b ≥ a, uma vezque a probabilidade de se obter um dado valorde uma variavel aleatoria contınua e nula.

43

Page 44: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

4.0.2 Funcao de Reparticao ouDistribuicao Acumulada

A funcao de reparticao, ou distribuicao acumu-lada, e a funcao e definida por:

F (x) = P (X ≤ x) .

No caso discreto:

F (x) =∑xi≤x

P (xi) ,

e no caso contınuo,

F (x) =

∫ x

−∞dx′ f(x′) .

A funcao densidade de probabilidade pode serobtida da funcao acumulada atraves de sua de-rivada com relacao ao argumento:

f(x) =dF (x′)

dx′

∣∣∣∣x′=x

.

Sao propriedades da distribuicao acumulada:

1. 0 ≤ F (x) ≤ 1;

2. F (−∞) = 0;

3. F (∞) = 1;

4. F (x) e sempre nao-decrescente;

5. F (b)− F (a) = P (a < X ≤ b), com b > a;

6. F (x) e contınua a direita em qualquerponto;

7. F (x) e descontınua a esquerda nos ponto deprobabilidade positiva

4.1 Variaveis Discretas

Se estivermos interessados em eventos que acon-tecem continuamente, definimos entao uma den-sidade de probabilidade, de modo que a proba-bilidade com que um evento x se realize no in-tervalo [x, x+ dx] e dada por:

dp = f(x)dx ,

onde f(x) ≥ 0 e a funcao densidade de probabi-lidade. Observamos que f(x) tem como unidadeo inverso da unidade de x. Neste caso a condicaode normalizacao e escrita como:∫ ∞

−∞dx f(x) = 1 ,

exigindo que f(x) seja uma funcao limitada.Observamos que uma distribuicao de proba-

bilidades discreta pi (∑Ni=1 pi = 1) pode ser es-

crita no caso contınuo como:

f(x) =

N∑i=1

piδ(x− xi) .

onde δ(x−xi) e o funcional delta de Dirac assimdefinido:∫ ∞

−∞dx g(x)δ(x− xi) = g(xi) .

4.2 Funcao Geradora deMomentos

A funcao geradora de momentos e definidacomo:

M(y) =

∫ ∞−∞

dx exyf(x) .

Da expansao em serie de Taylor da funcao expo-nential (ez = 1 + z+ z2/2! + z3/3! + . . . ) vemosque:

µ(Xn) =dnM

dyn

∣∣∣∣y=0

.

4.3 Funcao Caracterıstica

Considere a funcao densidade de probabilidadef(x), a funcao caracterıstica e definida comosendo a transformada de Fourier de f(x):

f(k) =

∫ ∞−∞

dx e−ıkxf(x) = 〈e−ıkx〉 , (4.1)

assim a transformada inversa (transformada deFourier da funcao caracterıstica) nos fornece afuncao densidade de probabilidade:

f(x) =

∫ ∞−∞

dx eıkxf(k) . (4.2)

O m-esimo momento de f(x) e obtido atravesda m-esima derivada da funcao caracterısticacom relacao a sua variavel:

〈xm〉 = ım∂mf(k)

∂k

∣∣∣∣∣k=0

. (4.3)

A normalizacao de f(x) requer que f(0) =

1. Para f(x) simetrica entao f(k) e real esimetrica.

44

Page 45: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

4.4 Parametros Associadosa Distribuicao de Proba-bilidades

Com a finalidade de caracterizar uma distri-buicao de probabilidade, assim como fizemoscom as distribuicoes de frequencia, utilizaremosparametros, que sao os equivalentes as medidasde distribuicoes de frequencia.

4.4.1 Normalizacao

O momento de ordem 0 e obtido como:

E(X0) = µ(X0) =

∫ ∞∞

dx f(x)x0 ,

esta e justamente a condicao de normalizacao.

4.4.2 Parametros de Posicao

A media, ou esperanca matematica, ou valor es-perado, e um operador que e definido como omomento de ordem 1:

E(X) = µ(X) =

N∑i=1

P (xi)xi ,

no caso discreto e

E(X) = µ(X) =

∫ ∞−∞

dxf(x)x ,

no caso contınuo.Se Y for uma variavel aleatoria definida em

funcao de X, Y (X) tem-se:

E(Y ) = µ(Y ) =

N∑i=1

P (xi)y(xi) ,

ou

E(Y ) = µ(Y ) =

∫ ∞−∞

dx f(x)y(x) .

Para a media tem-se as seguintes proprieda-des:

1. E(k) = k onde k e uma constante;

2. E(kX) = kE(X);

3. E(X ± Y ) = E(X)± E(Y )

4. E(X ± k) = E(X)± k;

Outros Parametros de Posicao

A mediana divide a distribuicao de probabi-lidade em duas partes equiprovaveis, ou seja,F (xmed) = 1/2, onde F (x) e a funcao acumu-lada.

A moda e o ponto de maior probabilidade nocaso discreto, ou de maior densidade de proba-bilidade no caso contınuo. Em uma distribuicaopode existir varias modas. Ela e obtida fazendodf(x)/dx|x=xmoda = 0.

Se a distribuicao for simetrica em torno doponto x0 f [−(x−x0)] = f [x−x0] o valor medioe igual a mediana µ(X) = Xmd = x0.

Se a distribuicao for unimodal, o valor maisprovavel e a moda. O valor mais provavel xmpe dado pelo maximo da distribuicao f(x):

df

dx

∣∣∣∣x=xmp

= 0 .

Se a distribuicao for unimodal e simetrica, amedia, mediana e moda tem o mesmo valor.

4.4.3 Parametros de Dispersao

O momento de ordem 2:

E(X2) = µ(X2)

=

∫ ∞∞

dx f(x)x2 .

O segundo momento pode ser associado avariancia, atraves do segundo momento comrelacao ao valor medio:

Var(X) = σ2(X)

= µ(|X − µ(X)|2)

= µ(X2)− µ(X)2 ,

onde σ e a dispersao, ou desvio-padrao. O inter-valo [µ(X) − σ, µ(X) + σ] caracteriza a largurada distribuicao em torno da media.

Estes parametros caracterizam a variabili-dade das variaveis aleatorias. Consideramos avariancia.

Var(X) = E{[X − E2(X)]}= E(X2)− E2(X) . (4.4)

No caso discreto tem-se:

Var(X) = σ2(X) =1

N

N∑i=1

[xi − µ(X)2] . (4.5)

45

Page 46: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Nao e incomum encontrar situacoes onde omomento de ordem 2 nao existe (i.e., e infi-nito), nestes casos e conveniente utilizar o des-vio medio absoluto, que e uma grandeza maisrobusta do que σ.

σ(X) =

∫ ∞−∞

dx |x− µ(X)| (4.6)

As propriedades da variancia sao, no que se-gue abaixo k e uma constante:

1. Var(k) = 0;

2. Var(kXi) = k2Var(kXi);

3. Var(Xi ± k) = Var(Xi).

O desvio-padrao de X e a raiz quadrada po-sitiva da variancia DP(X) =

√Var(x), tendo a

vantagem de ser expresso na mesma unidade demedida da variavel.

O coeficiente de variacao de X e definidocomo o quociente entre o desvio-padrao e amedia CV(X) = DP(X)/E(X) e e uma gran-deza adimensional.

Desigualdades

Para qualquer distribuicao que possua media edesvio-padrao, tem-se a desigualdade de Tcheby-cheff:

P (|X − µ| ≥ kσ) ≤ 1

k2, (4.7)

significando que a probabilidade de encontrarum valor de X em torno da media a k desvios-padrao decresce com k−2. Como exemplo, a pro-babilidade de encontrar o valor de X no inter-valo [µ− 2σ ≤ X ≤ µ+ 2σ] e menor ou igual a1/4.

Para qualquer distribuicao unimodal esimetrica que possua media e desvio-padrao,tem-se a desigualdade de Camp-Meidell:

P (|X − µ| ≥ kσ) ≤ 4

9k2. (4.8)

Observe que e possıvel considerar somentevariaveis contınuas no formalismo. As variaveisdiscretas podem ser obtidas atraves do uso dafuncao δ(x) de Dirac:

f(x) = p(x)

n∑i=1

δ(x− xi) . (4.9)

4.4.4 Parametros de Assimetria

O momento de ordem 3:

E(X3) = µ(X3) =

∫ ∞∞

dx f(x)x3 .

O terceiro momento pode ser associado ao as-simetria a3, ou terceiro momento com relacaoao valor medio.

S =1

N

N∑i=1

[xi − µ(X)

σ(X)

]3

.

O coeficiente de assimetria (skewness) e umagrandeza adimensional e caracteriza o grau deassimetria de uma distribuicao em torno do va-lor medio. Para S = 0 a distribuicao e simetricaem torno do valor medio. Para S > 0 a distri-buicao cai lentamente para x > µ(X). Para S <0 a distribuicao cai lentamente para x < µ(X).

Observamos que:

• Exitem distribuicoes assimetricas que temS = 0, de modo que S deve ser usado comcuidado.

• Para uma distribuicao normal S ∼√

6/N .

4.4.5 Parametros de Curtose (Ex-cesso)

O momento de ordem 4:

µ(X4) =

∫ ∞∞

dx f(x)x4 .

O quarto momento pode ser associado a cur-tose K ou quarto momento com relacao ao valormedio.

K =1

N

N∑i=1

[xi − µ(X)

σ(X)

]4

− 3 .

A curtose e uma grandeza adimensional e ca-racteriza se uma distribuicao tem um pico maisacentuado do que uma distribuicao gaussiana(K > 0, leptocurtica) ou se e mais achatadado que uma distribuicao normal (K < 0, pla-ticurtica). O termo −3 faz K = 0 para umadistribuicao normal (|K| ∼ 0, mesocurtica).

Observamos que:

• Existem muitos casos em que diverge(|K| → ∞).

• Para uma distribuicao normal K ∼√24/N .

46

Page 47: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

4.5 Variaveis AleatoriasMultidimensionais

Na maioria das vezes, ao descrever os resul-tados de um experimento, atribuımos a ummesmo ponto amostral os valores de duas oumais variaveis aleatorias.

Considere as variaveis aleatorias discretas

~X = (X1, X2, . . . , Xd) ,

onde a variavel Xi pode assumir ni valores dis-cretos. A distribuicao de probabilidade discretae caracterizada por uma funcao de probabili-dade P ( ~X) tal que:

n1∑i1=1

. . .

nd∑id=1

P (xi1 , . . . , xid) = 1 ,

onde P ( ~X) e conhecida como distribuicao con-junta de probabilidades.

No caso contınuo a distribuicao conjunta deprobabilidades e caracterizada por uma funcaodensidade de probabilidade tal que:

∫ ∞−∞

dx1 . . .

∫ ∞−∞

dxd f(x1, . . . , xd) = 1 .

De maneira resumida, pode-se escrever aequacao acima como:

(

d∏i=1

∫ ∞−∞

dxi)f(x1, . . . , xd) =

∫ ∞−∞

d~x f(~x) = 1 ,

onde considera-se a notacao:

d~x =

d∏i=1

d~xi ,

ou seja, d~x e o elemento de volume diferencialdo espaco a d dimensoes.

No caso discreto define-se a distribuicao mar-ginal de Xi como sendo a probabilidade de quevariavel Xi tenha o valor de xi. Formalmente,no caso discreto, tem-se:

P (Xi = xi) =

d∏i=1

nd∑ji( 6=i)=1

P (xi1 , . . . , xid) ,

ou seja, excluı-se a soma ou integral da variavelde interesse. No caso contınuo:

fi(Xi = x) =

d∏i=1

∫ ∞−∞

dxi f(~x)δ(xi − x) .

As variaveis aleatorias Xi sao independentesse a distribuicao conjunta for o produto das dis-tribuicoes marginais,

P (x1, . . . , xd) =

d∏i=1

Pi(Xi = xi) ,

ou

f(x1, . . . , xd) =

d∏i=1

fi(xi) ,

onde Pi(x) e fi(x) sao funcoes de uma unicavariavel.

4.5.1 Parametros Associados aDistribuicao de Probabilida-des

Com a finalidade de caracterizar uma distri-buicao de probabilidade, assim como fizemoscom as distribuicoes de frequencia, utilizaremosparametros, que sao os equivalentes as medidasde distribuicoes de frequencia.

Parametros de Posicao

A media, ou esperanca matematica, ou valor es-perado, e um operador que e definido como:

E( ~X) = µ( ~X) =∑i

Pi(~xi)~xi ,

no caso discreto e

E( ~X) = µ( ~X) =

∫ ∞−∞

d~xf(~x)~x ,

no caso contınuo.Se ~Y e uma variavel aleatoria definida em

funcao de ~X, temos,

E(~Y ) = µ(~Y ) =∑i

Pi(~xi)~y(~xi) ,

ou

E(~Y ) = µ(~Y ) =

∫ ∞−∞

d~xf(~x)~y(~x) .

Para a media temos as seguintes propriedades:

1. E(k) = k onde k e uma constante;

47

Page 48: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

2. E(k ~X) = kE( ~X);

3. E( ~X ± ~Y ) = E( ~X)± E(~Y )

4. E( ~X ± k) = E( ~X)± k;

Se as variaveis ~X e ~Y sao independentes,entao:

E( ~X · ~Y ) = E( ~X) · E(~Y ) .

Parametros de Dispersao

Estes parametros caracterizam a variabilidadedas variaveis aleatorias.

A covariancia e definida por:

Cov(Xi, Xj) = E{[Xi − E(Xi)][Xj − E(Xj)]}= E(XiXj)− E(Xi)E(Xj).(4.10)

Note que a covariancia e uma dıade que podeser representada por uma matriz. As varianciasdos componentes de ~X sao obtidas pelo elemen-tos da diagonal principal. de modo que para acomponente i de ~x, temos que a variancia e dadapor:

Var(Xi) = σ2(Xi) = E{[Xi − E(Xi)]2}

= E(X2i )− E2(Xi) . (4.11)

As propriedades da variancia sao, no que se-gue abaix k e uma constante:

1. Var(k) = 0;

2. Var(kXi) = k2Var(kXi);

3. Var(Xi ± Xj) = Var(Xi) + Var(Xj) ±2Cov(XiXj),

4. Var(Xi ± k) = Var(Xi).

Se as variaveis ~X e ~Y sao independentes,entao:

Cov(Xi, Xj) = 0 ,

e

Var(Xi ±Xj) = Var(Xi) + Var(Xj)

O desvio-padrao de Xi e a raiz quadrada po-sitiva da variancia DP(Xi) =

√Var(xi), tendo

a vantagem de ser expresso na mesma unidadede medida da variavel.

O coeficiente de variacao de Xi e definidocomo o quociente entre o desvio-padrao e amedia CV(Xi) = DP(Xi)/E(Xi).

4.5.2 Funcao de Correlacao

Para distribuicoes multidimensionais, e interes-sante definir a funcao de correlacao:

A covariancia e dada por:

Cov(Xi, Xj) ≡ E(XiXj)− E(Xi)E(Xj)

=

∫ ∞−∞

d~xf(~x)xixj −∫ ∞−∞

d~xf(~x)xi

∫ ∞−∞

d~xf(~x)xj .(4.12)

Se Xi e Xj sao variaveis independentes temosque: E(XiXj) = E(Xi)E(Xj), de modo que acovariancia e nula.

O coeficiente de correlacao e definido como:

ρi,j =Cov(Xi, Xj)

σ(Xi)σ(Xj),

onde notamos que ρ ∈ [−1, 1]. Tendo xj entrexi e xi + dxi, podemos interpretar |ri,j | comosendo a probabilidade de obter o xj entre xi exi + dxj .

Notamos que podemos definir a covarianciapara momentos superiores:

Cov(Xpi , X

qj ) ≡ E(Xp

i Xqj )− (E)(Xp

i )E(Xqj ) .

e a funcao de correlacao:

ρ(p,q)i,j =

Cov(Xpi , X

qj )

σ(Xpi )σ(Xq

j ).

4.5.3 Mudanca de Variaveis

As variaveis aleatorias: ~x sao geradas pela dis-tribuicao ρ(~x), de modo que a probabilidade dese tirar ~x entre [~x, ~x+ d~x] e dp = d~xρ(~x). Con-siderando novas variaveis ~y = F (~x) temos que:

ρ′(~y)d~y = ρ(~x)d~x→ ρ(~y) = ρ(~x)

∣∣∣∣d~xd~y∣∣∣∣ ,

onde |d~x/d~y| e o Jacobiano.

4.6 Resumo

Um espaco amostral e caracterizado por umadistribuicao de probabilidade (no caso discreto)ou por uma funcao densidade de probabilidade(no caso contınuo). Como vimos, uma po-pulacao pode ser caracterizada da mesma forma

48

Page 49: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

que um espaco amostral, ou seja, uma populacaoe caracterizada por um funcao de probabilidade(caso discreto) ou por uma funcao densidadede probabilidade (caso contınuo). Tem-se assimtoda a informacao sobre espaco amostral (po-pulacao) se a distribuicao de probabilidade oua funcao densidade de probabilidade for conhe-cida. Modelos teoricos de distribuicao de proba-bilidade ou densidade de probabilidade sao pa-rametrizado por poucos valores, como a mediaµ, devio-padrao σ, assimetria, curtose, etc.

4.7 Exercıcios

1. Considere uma variavel aleatoria discreta Tcuja distribuicao de probabilidade e:

T 2 3 4 5 6 7

P (T ) 1/10 1/10 4/10 2/10 1/10 1/10

Determine:

(a) P (T ≥ 6);

(b) P (|T − 4| > 2);

(c) P (T ser um numero primo);

(d) E(X);

(e) Var(X).

2. Seja X uma variavel aleatoria discreta comdistribuicao de probabilidade P [X = x] =c2−x para x = 0, 1, 2, . . . e nula no comple-mentar.

Determine:

(a) o valor da constante c;

(b) P (X > 5);

(c) P (Xser um numero ımpar);

(d) E(X);

(e) Var(X).

3. Considere uma variavel aleatoria discretatendo a seguinte distribuicao de proba-bilidades: P [X = x] = cx para x =0, 1, 2, . . . , N e zero fora deste conjunto.

Determine:

(a) o valor da constante c para N = 4;

(b) o valor da constante c para um valorqualquer de N (inteiro positivo);

(c) P (X ≤ a) com a ≤ N ;

(d) P (Xser um numero par);

(e) E(X);

(f) Var(X).

Neste exercıcio, utilize:

N∑k=1

k =N(N + 1)

2,

N∑k=1

k2 =N(N + 1)(2N + 1)

6,

N∑k=1

k3 =

[N(N + 1)

2

]2

,

4. Considere o lancamento de dois dados si-multaneamente e admita que os dados naosao viciados. Para cada um dos items aseguir, determine o domınio da variavelaleatoria X e sua distribuicao de probabili-dades:

(a) X e o maior valor observado;

(b) X e a soma dos valores observados;

(c) X e o produto dos valores observados;

(d) P (Xser um numero par);

(e) X e a diferenca entre o maior e o me-nor valor observado;

5. Mostre que para αi constante:

E(

n∑i=1

αiXi) =

n∑i=1

αiE(Xi) .

6. Seja X uma variavel aleatoria com E(X2)finito e sejam α e β constantes reais.

(a) Mostre que: Var(αX + β) =α2Var(X);

(b) Calcule E[(βX + 4)2] se E(X) = 4 eVar(X) = 3.

7. Considere dois lancamentos consecultivosde um dado que nao e viciado. Sejam: X :numero de vezes em que e obtida a face 1,x = 0, 1, 2; Y : numero de vezes que e ob-tida a face 6, y = 0, 1, 2; e Z = X + Y :numero de vezes que aparece ou uma face1 ou uma face 6, z = 0, 1, 2. Determine:

(a) Var(X);

(b) Var(Y );

49

Page 50: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(c) Var(Z);

(d) se e verdade que Var(X + Y ) =Var(X) + Var(Y ).

8. Cinco bolas sao selecionadas aleatoria-mente sem reposicao de uma urna con-tendo N bolas numeradas de 1 ate N , comN > 5. Seja X a variavel aleatoria que de-nota o maior valor selecionado. Determinea funcao de distribuicao de X.

9. De um comjunto de N elementos, um sub-conjunto nao-vazio e escolhido aleatoria-mente (considere que todos os subconjuntosnao-vazios tem a mesma probabilidade deserem escolhidos). Seja X o numero de ele-mentos contidos no subconjunto escolhido,determine

(a) a funcao de X;

(b) E(X);

(c) Var(X);

e verifique que:

(a)

limN→∞

E(X)

N=

1

2e

(b)

limN→∞

Var(X)

N=

1

4.

10. Para qualquer valor de p > 1, seja

c(p) =

∞∑i=1

1

xp.

Suponha que X e uma variavel aleatoriadiscreta com a seguinte distribuicao de pro-babilidade:

f(x) =1

c(p)xp,

com x = 1, 2, . . .. Para qualquer inteiro po-sitivo n, determine a probabilidade de:

(a) X se divisıvel por n;

(b) X ser ımpar.

11. Um livro de apostadores recomenda a se-guinte estrategia que afirma ser vencedorano jogo de roleta. Aposte 1 R$ nas verme-lhas. Se o resultado do giro da roleta forvermelha (cuja probabilidade vale 18/38),

entao retire seu benefıcio de 1 R$ e saia dojogo. Se perder a aposta (cuja probabili-dade vale 20/38), faca uma aposta adicio-nal de 1 R$ em vermelha a cada um dosproximos dois giros da roleta, e entao saia.Seja X o seu ganho ao deixar a roleta.

(a) Determine P (X > 0).

(b) Voce acha, que de fato, esta e uma es-trategia vencedora? Justifique.

(c) Calcule E(X).

12. Uma urna contem bolas numeradas de 1 aN . Uma pessoa retira uma bola e a devolve,retira uma segunda bola e a devolve, e pro-cede desta forma ate obter uma bola pelasegunda vez, i.e., ate obter uma bola ja reti-rada anteriormente. Seja X o numero totalde extracoes necessarias para obter esta re-peticao.

(a) Obtenha a distribuicao de X (dica:calcule P (X > k)).

(b) Mostre que

E(X) = 2 + (1− 1/n) + (1− 1/n)(1− 2/n) . . .

(1− 1/n)(1− 2/n) . . . (1− (n− 1)/n) .

13. Para um grupo de n pessoas, determine onumero esperado de dias do ano que saoaniversarios de exatamente k pessoas, k ≤n. Suponha que o ano tem 365 dias e quetodos os arranjos sao equiprovaveis.

14. Um homem possui em seu chaveiro n cha-ves e deseja abrir a porta de sua casa expe-rimentando as chaves ao acaso e indepen-dentemente. Admitindo que somente umachave abra a porta, determine a media e avariancia do numero de tentativas se:

(a) as chaves incorretas sao descartadase, consequentemente, nao mais seleci-onadas.

(b) as chaves incorretas nao sao sepa-radas, podendo ser escolhidas nova-mente.

15. Um produto de venda sazonal traz lucro Breais por unidade vendida e um prejuızo Lreais por cada unidade estocada e nao ven-dida. O numero X de unidades vendidasdeste produto em um certo supermecardo e

50

Page 51: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

uma variavel aleatoria com distribuicao deprobabilidade p(i) = P (X = i), com i > 0.Supondo que o estoque e feito no inıcio daestacao, que nao pode haver reposicao du-rante a mesma e que nao ha devolucao dasunidades estocadas, determine o nıvel de es-toque que maximiza o lucro esperado do su-permercado.

16. Um florista faz estoque de uma flor de curtaduracao que lhe custa R$ 0,50 e que elevende a R$ 1,50 no primeiro dia em quea flor esta na loja. Toda flor que nao forvendida no primeiro dia e jogada fora. SejaX a variavel aleatoria que denota o numerode flores vendidas por este florista em umdia. Sabendo que a funcao de probabilidadede X e dada por:

X 0 1 2 3P (X) 1/10 4/10 3/10 2/10

determine quantas flores o florista deveriater em estoque a fim de maximizar o lucroesperado.

17. A cada noite, diferentes meteorologistas nosfornecem a “probabilidade” de que ira cho-ver no dia seguinte. Para avaliar o quaoboa sao estas previsoes, e possıvel atribuirescores a cada um desses meteorologistas,como segue: se o metereologista diz queira chover no dia seguinte com probabili-dade p, entao ele recebera um escore de1 − (1 − p)2 se chover no dia seguinte e de1−p2 se nao chover. Acompanhando os es-cores obtidos pelos meteorologistas duranteum certo intervalo de tempo, podemos con-cluir que o meteorologista com maior es-core medio e aquele que melhor prediz otempo.Suponha agora que um meteorolo-gista esta ciente deste procedimento de es-cores e deseja maximizar o seu escore es-perado em um dia. Se este meteorologistaacredita que de fato ira chover no dia se-guinte com probabilidade p∗, qual o valorque ele deve dizer para maximizar o seu es-core esperado? Interprete o resultado.

18. Considere uma urna contendo 3 bolas pre-tas e 5 bolas vermelhas. Retire duas bolasda urna sucessivamente, sem reposicao.

(a) Obtenha os resultados possıveis e asrespectivas probabilidades.

(b) Obtenha os resultados possıveis e asrespectivas probabilidades para ex-tracoes com reposicao.

(c) Calcule a probabilidade de tirar umabola preta na primeira e na segundaextracoes,

(d) sem reposicao.

(e) com reposicao.

(f) Calcule a probabilidade de tirar umabola preta na segunda extracao,

i. sem reposicao.

ii. com reposicao.

(g) Calcule a probabilidade de tirar umabola vermelha na primeira extracao.

19. Um sistema e composto de tres componen-tes 1, 2 e 3, com confiabilidades 0,9; 0,8e 0,7, respectivamente. O componente 1 eindispensavel ao funcionamento do sistema;se 2 ou 3 nao funcionam, o sistema funci-ona mas com rendimento inferior. A falhasimultanea de 2 e 3 implica o nao funciona-mento do sistema. Supondo que os compo-nentes funcionem independentemente, cal-cular a confiabilidade do sistema.

20. Suponhamos que se realizou um teste paradetectar determinada doenca rara e queeste teste seja capaz de descobrir a doencaem 97% das pessoas afetadas. Suponha-mos que, alem disso, quando ele e experi-mentado em pessoas sadias, 5% delas saoincorretamente diagnosticadas como tendoa doenca. Finalmente, suponhamos que,quando e tentado o teste em indivıduosque tenham outras doencas mais brandas,10% deles sao incorretamente diagnostica-dos. Sabe-se que as porcentagens, na po-pulacao total, dos indivıduos dos tres tiposconsiderados aqui, sao de 1%, 96% e 3%,respectivamente. O problema e calcular aprobabilidade de que um indivıduo, esco-lhido ao acaso, da populacao, e testado comrelacao a doenca rara, tenha realmente adoenca, se o teste indicar que ele esta afe-tado.

21. Joga-se uma moeda nao viciada 5 vezes.

(a) Construa o espaco amostral;

(b) Qual a probabilidade de aparecer ne-nhuma cara, uma cara, duas caras,tres cara, quatro caras e cinco caras?

51

Page 52: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(c) Chamando o numero de lancamentosde n e o numero de caras que apare-cem de k, escreva uma formula que ex-presse a probabilidade de aparecer kcaras em n lancamentos.

(d) Esta formula poderia ser usada setivessemos n moedas lancadas simul-taneamente e estivessemos interessadoem k caras?

52

Page 53: Notas de Aula da Disciplina de Estat stica

Capıtulo 5

Distribuicoes Discretas

Apresentamos algumas das principais distri-buicoes de probabilidade que, pela sua im-portancia merecem um estudo especial. Con-forme veremos, tais distribuicoes partem dapressuposicao de certas hipoteses bem defini-das. Como diversas situacoes reais muitas vezesse aproximam dessas hipoteses, os modelos aquidescritos sao uteis no estudo de tais situacoes,daı sua importancia.

5.1 Distribuicao Uniformeou Equiprovavel

Considere uma variavel aleatoria X discretaque pode assumir n valores x1, x2, . . . , xn. Seeste valores tiverem a mesma probabilidade deocorrencia p = 1/n tem-se a distribuicao uni-forme ou distribuicao equiprovavel.

P (X) =

{1/n para X = x1, x2, . . . , xn0 caso contrario

(5.1)O valor esperado e variancia sao:

E (X) =1

n

n∑i=1

xi (5.2)

Var(X) =1

n

n∑i=1

[xi − E (X)]2 . (5.3)

5.1.1 Espacamentos Iguais

Podemos escrever os valores de xi = xi−1+hi−1,onde hi−1 = x1 − xi−1. Merece destaque o casoem que estes valores sao equiespacados, ou seja,a diferenca entre eles e constante h1 = . . . =hn−1− = h. Neste caso a distribuic e perfei-tamente caracterizada por tres parametros deonde temos:

E (X) =x1 + xn

2=n

2h (5.4)

Var(X) =h2(n2 − 1)

12. (5.5)

Observe que a media somente dos valores extre-mos.

O momento de assimetria e nulo, pois a dis-tribuicao e simetrica e a curtose vale??.

5.2 Distribuicao de Ber-noulli

Seja um experimento onde podem ocorrer so-mente dois resultados: um que interessa, quechamamos de sucesso, ou o que nao interessa,que chamamos de fracasso. Associamos umavariavel aleatoria X aos possıveis resultados, deforma que X = 1, se o resultado for um sucesso,isto acontece com probabilidade p e X = 0, se oresultado for um fracasso que acontece com pro-babilidade q = 1− p. A variavel aleatoria assimdefinida tem distribuicao de Bernoulli.

P (X) =

q = 1− p para x = 0p para x = 10 caso contrario

(5.6)

Pode-se mostrar que:

E(X) = p (5.7)

Var(X) = p(1− p) = pq (5.8)

γ3 = (5.9)

γ4 = . (5.10)

5.3 Distribuicao Simetricade Bernoulli (Ising)

Associamos uma variavel aleatoria X aospossıveis resultados, de forma que X = 1, seo resultado for um sucesso, isto acontece comprobabilidade p e X = −1, se o resultado forum fracasso que acontece com probabilidadeq = 1 − p. A variavel aleatoria assim definida

53

Page 54: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

tem distribuicao simetrica de Bernoulli ou dis-tribuicao de Ising.

P (X) =

q = 1− p para x = −1p para x = 10 caso contrario

(5.11)

Pode-se mostrar que:

E(X) = 0 (5.12)

Var(X) = E(X2) = 1 (5.13)

γ3 = (5.14)

γ4 = . (5.15)

5.4 Distribuicao de Bino-mial

Seja um experimento dentro das seguintescondicoes:

1. sao realizadas n provas independentes;

2. cada prova e uma prova de Bernoulli, ouseja, so pode levar a sucesso ou fracasso;

3. a probabilidade p de sucesso em cada provae constante (em consequencia, a probabili-dade de fracasso q = 1− p tambem o sera).

Associando uma variavel aleatoria X igual aonumero de sucessos dessas n provas, X poderaassumir os valores 0, 1, 2, . . . , n . Vamos deter-minar a distribuicao de probabilidade de umnumero generico k de sucessos.

A probabilidade de obter k sucessos consecu-tivos do evento seguidos por N − k fracassos e:

p · p . . . p︸ ︷︷ ︸k

· q · q . . . q︸ ︷︷ ︸n−k

= pn qn−k .

A probabilidade de obter k sucessos e n − kfracassos em alguma outra ordem de ocorrenciatambem vale: pn qn−k, pois os p’s e q’s fo-ram somente rearranjados para corresponder auma dada ordem de ocorrencia. Para resolver oproblema e entao necessario contar as possıveisordens de ocorrencia de k sucessos em n rea-lizacoes. O numero de vezes que k sucessos ocor-rem em n realizacoes e:(

nk

)=

n!

k! (n− k)!,

onde o sımbolo de fatorial significa: n! = n ·(n − 1) · (n − 2) . . . 2 · 1(0! ≡ 1). O termo n! e

o numero de ordenamento possıveis para n ele-mentos distintos. Como exitem somente duasrealizacoes possıveis, divide-se pelo numero deordenamentos possıveis dessas realizacoes.

O numero de combinacoes de n elementos k ak vale:(

nk

)=

(n

n− k

)=

n!

k! (n− k)!

=Γ(n+ 1)

Γ(k + 1) Γ(n− k + 1), (5.16)

onde

Γ(z) =

∫ ∞0

dt tz−1e−t , (5.17)

com Re(z) > 0, e a funcao gama. O termo decombinacao pode ainda ser escrito como:(

nk

)=

1

(n+ 1)B(k + 1, n− k + 1), (5.18)

com

B(a, b) =Γ(a)Γ(b)

Γ(a+ b)

=

∫ 1

0

dt ta−1(1− t)b−1

=

∫ ∞0

dtta−1

(1− t)a+b

= 2

∫ π/2

0

dt sin2a−1 t cos2b−1 t ,(5.19)

com Re(a) > 0 e Re(b) > 0, e a funcao beta.A probabilidade procurada e dada pela distri-

buicao binomial:

Pn(X = k) =

(nk

)pk (1− p)n−k . (5.20)

A conservacao das probabilidades Pn(X = k)pode ser observada pela expansao do binomioque:

1 = (p+q)n =

n∑k=0

(nk

)pk qn−k =

n∑k=0

Pn(k) .

Observe que:

n∑k=a

Pn(k) =

n∑k=a

(nk

)pk (1− p)n−k

= Ip(a, n− a+ 1) , (5.21)

onde Ip(a, b) e a funcao beta incompleta norma-lizada

Ip(a, b) =Bp(a, b)

B(a, b)= 1− I1−p(b, a) ,

54

Page 55: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

com

Bp(a, b) =

∫ p

0

dt ta−1(1− t)b−1 ,

sendo a funcao beta incompleta.As expressoes para a media e variancia de uma

distribuicao binomial podem ser facilmente ob-tidas encarando a variavel binomial S como umasoma de n variaveis independentes de BernoulliX, isto e: S =

∑ni=1Xi entao:

µ = E(S) = E(

n∑i=1

Xi) =

n∑i=1

E(Xi) =

n∑i=1

p

= np . (5.22)

Para a variancia tem-se:

σ2 = Var(S) = Var(

n∑i=1

Xi)

=

n∑i=1

Var(Xi) =

n∑i=1

pq

= npq , (5.23)

onde lembramos que a variancia da soma ea soma das variancias somente para variaveisaleatorias independentes.

Pelo coeficiente de variacao vemos que:

σ

µ=

√1− pp

1√n. (5.24)

Observe que quando n cresce, o valor mediode sucessos µ cresce com n, enquanto que a lar-gura relativa da distribuicao σ cresce mais len-tamente com n1/2. A largura relativa σ/µ entaodiminui com n−1/2, quando n cresce. A distri-buicao tende a ficar mais concentrada em tornode µ.

A assimetria γ3()/ e a curtose γ4 da distri-buicao binomial valem:

γ3 =q − p√npq

(5.25)

γ4 =1− 6pq

npq. (5.26)

A funcao caracterıstica e:

φ = (q + peıt)n (5.27)

A funcao acumulada da distribuicao binomiale dada por:

Cn(X < k) =

k−1∑i=0

(ni

)pi (1− p)n−i

= 1− Ip(k, n− k + 1) . (5.28)

5.5 Distribuicao de Poisson

Fazendo n � 1 e p � 1 tal que np tenha umvalor finito, obtem-se da distribuicao binomial adistribuicao de Poisson 1:

P (X = k) =µke−µ

k!, (5.29)

onde e = 2.718281828459045235360287 . . . e onumero de Euler, a base dos logaritmos neperi-anos.

Observa-se que a distribuicao de Poisson ecompletamente caracterizada somente por umparametro, o valor medio do numero de suces-sos. Os parametros adicionais sao:

E(k) = µ = np (5.30)

Var(X) = E(X) = µ = np (5.31)

γ3 =√np (5.32)

γ4 =1

np. (5.33)

A funcao caracterıstica e:

φ(t) =enp

eıt−1. (5.34)

A funcao acumulada da distribuicao de Pois-son e:

C(X < k) = Q(k, µ) ,

onde Q(k, µ) e a funcao gama incompleta.

5.6 DistribuicaoGeometrica

Seja o experimento que consiste em repetir umaprova de Bernoulli tantas vezes quantas foremnecessarias, ate se obter o primeiro sucesso. Seas provas forem independentes e de mesma pro-babilidade de sucesso p, entao o numero de ten-tativas necessarias X para se ter o primeiro su-cesso apos X − 1 fracassos que ocorrem com

1A distribuicao binomial pode ser escrita como:

Pn(X = k) =

(nk

)(µ/n)k (1− µ/n)n−k

=n(n− 1) . . . (n− k + 1)

k!nkµk(1− µ/n)n−k

=(1− 1/n)(1− 2/n) . . . [1− (k − 1)/n]

k!

µk(1− µ/n)n−k .

Para n � 1, temos que: (1 − 1/n)(1 − 2/n) . . . [1 −(k − 1)/n] → 1 enquanto que: (1 − µ/n)n−k = (1 −µ/n)n(1 − µ/n)−k = e−µ/n onde usamos o limite fun-damental limz→0(1 + z)1/z = e.

55

Page 56: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

probabilidade q = 1 − p tera uma distribuicaogeometrica:

P (X = n) = pqn−1 n = 1, 2, . . .

Os parametros sao:

E(k) = µ =1− pp

=q

p(5.35)

Var(X) = σ2 =q

p2(5.36)

γ3 =2− p√q

(5.37)

γ4 = 6 +p2

q. (5.38)

A distribuicao geometrica tem a propriedadede nao ter memoria, isto e, a probabilidade deque o numero de provas ate o primeiro sucessoseja s + t, sabendo-se que as primeiras s foramfracassos, e igual a probabilidade de o numerode provas ate o primeiro sucesso ser igual as tprovas restantes, ou seja: P (X = s+t|X > s) =P (X = t).

A funcao caracterıstica e:

φ(t) =p

1− qeıt. (5.39)

5.6.1 Populacao de Tamanho Fi-nito

Considere agora uma populacao de com Ns su-cessos e Nf fracassos de modo que o tamanhoda populacao e N = Ns + Nf . A pergunta quese faz e: qual e a probabilidade PN (n) de ex-trair n − 1 fracassos antes do primeiro sucessona n-esima extracao. A probabilidade de tirarum fracasso na primeira extracao e: Nf/N e aprobabilidade de tirar um fracasso na segundaextracao e: (Nf −1)/(N −1) e assim por dianteate a extracao n−1 com probabilidade de extrairum fracasso de [Nf−(n−2)]/[N−(n−2)] e pro-

babilidade de extrair um sucessoNs/[N−(n−1)]

PN (n) =NfN

Nf − 1

N − 1. . .

Nf − (n− 2)

N − (n− 2)

NsN − (n− 1)

=NfN

Nf (1− 1/Nf )

N(1− 1/N). . .

Nf [1− (n− 2)/Nf ]

N [1− (n− 2)/N ]

NsN [1− (n− 1)/N ]

=

(NfN

)n−1NsN

1

1− (n− 1)/Nn−2∏i=1

1− i/Nf1− i/N

.

Mas Nf = N −Ns = N(1−Ns/N) chamando aprobabilidade de sucesso p:

p =NsN

(5.40)

Nf = N(1− p) . (5.41)

Podemos escrever:

PN (n) =p(1− p)n−1

1− (n− 1)/N

n−2∏i=1

1− iN(1−p)

1− iN

f =n

N(5.42)

=p(1− p)n−1

1− f(1− 1/n)n−2∏i=1

1− (i/N)/(1− p)1− i/N

. (5.43)

5.7 Distribuicao BinomialNegativa ou Distri-buicao de Pascal

Nas condicoes em que foi definida a distribuicaogeometrica, se considerarmos X o numero detentativas ate se obter o k-esimo sucesso teremosa distribuicao binomial negativa ou distribuicaode Pascal. A probabilidade de que o k-esimosucesso ocorra na n-esima tentativa e:

Pn(X = k) =

(n− 1k − 1

)pkqn−k n ≥ k .

(5.44)

56

Page 57: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

A media vale E(X) = k/p, a variancia kq/p2,a assimetria?? e a curtose??. Os parametrossao:

E(k) = µ =k

p(5.45)

Var(X) = σ2 =kq

p2(5.46)

γ3 = (5.47)

γ4 = 6 + . (5.48)

Para k = 1 obtem-se a distribuicaogeometrica.

5.8 Distribuicao Hiper-geometrica

Consideremos um conjunto de N elementos, rdos quais tem uma determinada caracterıstica(por exemplo sucesso) onde r ≤ N . Sao ex-traıdos n elementos sem reposicao, onde n ≤ N .

A distribuicao de probabilidade da variavelaleatoriaX, igual ao numero de elementos com areferida caracterıstica que estarao entre os n re-tirados e dita uma distribuicao hipergeometrica

P (X = k) =

(rk

)(N − rn− k

)(Nn

) ,

com k = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N .Chamando p = r/N e q = (N − r)/N , os

parametros sao:

E(k) = µ = np (5.49)

Var(X) = σ2 = npqN − nN − 1

(5.50)

γ3 =q − p√npq

√N − 1

N − nN − 2n

N − 2(5.51)

γ4 = muito complicado . (5.52)

A funcao caracterıstica e:

φ(t) =

(N − rn

)(Nn

) F (−n,−r,N−r−n+1, eıt) ,

(5.53)onde F (a, b, c, d) e a funcao hipergeometrica.

Note que se as extracoes fossem feitas comreposicao, terıamos uma distribuicao binomial.

Na pratica quando o numero de elementos re-tirados n for muito menor que o numero totalde elementos N (n � N), usa-se a distribuicaobinomial como aproximacao da distribuicao hi-pergeometrica.2

Jogo da Megasena

Um aplicacao interessante da distribuicao hiper-geometrica e no jogo da megasena. Neste jogoN = 60 bolas sao numeradas e dipostas em umaurna. Na extracao, R = 6 bolas sao retiradas daurna sem reposicao. O jogador pode escolhern ≥ 6 dezenas em uma cartela e ganha premiose tiver os k = 6 numeros do R = 6 numerosextraıdos fazendo a sena, se tiver k = 5 dosR = 6 numeros fazendo a quina ou k = 4 dosR = 6 numeros fazendo uma quadra. Entao adistribuicao hipergemetrica nos fornece a proba-bilidade de fazer a sena k = 6, a quina k = 5 ea quadra k = 4 jogando n ≥ 6 dezenas.

Pn(k) =

(6k

)(54

n− k

)(

60n

) , (5.54)

A nossa referencia e fazer a sena jogando n =

2Seja:

P (X = k) =

(rk

)(N − rn− k

)(

Nn

)=

n!

k!(n− k)!

r!(N − r)!(N − n)!

(r − k)!(N − r − n+ k)!N !.

Se N � n, r � k e N − r � 1

P (X = k) =

(nk

)1

N(N − 1) . . . [N − (n+ 1)]

(N − r)(N − r − 1) . . . [N − r − (n− k + 1)]

r(r − 1)(r − 2) . . . [r − (k + 1)]

=

(nk

)Nn−k

Nnrk(1−

r

N)(n−k) .

Chamando p = r/N tem-se a distribuicao binomial:

P (X = k) =

(nk

)pk(1− p)n−k .

57

Page 58: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

6 dezenas. Entao:

P6(6) =

(66

)(540

)(

606

)=

1(606

)=

6

60× 5

59× 4

58× 3

57× 2

66× 1

55

=1

50063860

∼ 1, 99744885832× 10−8

∼ 2× 10−8 . (5.55)

E interessante observar as diversas inter-pretacoes que podem ser feitas com relacao a

este calculo. A combinacao

(606

)= 50063860

e o numero de maneiras distinta que podemosescolher 6 bolas de 60 bolas sem se importarcom a ordenacao destas bolas. Todas estasconfiguracoes tem a mesma probabilidade deocorrer de modo que os 6 dezenas escolhidasno cartao tem a probabilidade de 1/50063860de acontecer. Este numero e proximo de 2 ×10−8. Como existe duas extracoes da mega-sena em uma semana, para fazer a sena jo-gando com seis dezenas e necessario em media50063860/2 = 25031930 semanas, mas em umano existem 365, 25/7 semanas, em media enecessario 479736 anos, ou seja, praticamente500 mil anos. Uma outra maneira de enten-der esta probabilidade e considerar o produto:660 ×

559 ×

458 ×

357 ×

266 ×

155 que expressa o

seguinte fato. A primeira bola retirada tem aprobabilidade de ser uma das 6 dezenas na car-tela com chance 6/60, mas a segunda dezenaextraıda tambem deve estar presente na cartela,a probabilidade desta dezena estar na cartela e5/59, a dezena seguinte tem 4/58 de chance deestar na cartela e assim por diante ate comple-tar os seis dezenas. Como as seis dezenas devemocorrer devemos considerar o produto das pro-babilidades.

E interessante considerar a probabilidade de

fazer a sena jogando 7 dezenas:

P7(6) =

(66

)(541

)(

607

)=

5460×59×...×55×54

7×6×5×...×1

= 7× 6

60× 5

59× 4

58× 3

57× 2

66× 1

55= 7× P6(6) , (5.56)

ou seja, jogando 7 dezenas se tem 7 vezes maischances de fazer a sena do que jogando 6 deze-nas. De modo que se o preco de jogar 6 dezenase R$ 1,00, o preco para jogar 7 dezenas deve serde R$ 7,00, e efetivamente e nas casas lotericas.Dispondo de R$ 7,00 para jogar na mega sena eindiferente fazer um jogo de 7 dezenas que custaR$ 7,00 ou fazer 7 jogos de 6 dezenas que custaR$ 1,00, pois a chance de acertar a sena e amesma. Possivelmente e mais simples jogar econferir jogando 7 dezenas.

No entanto o fato de ganhar premio acertandoa quina e tambem interessante e podemos calcu-lar estas probabilidades apostando em 6 dezenase 7 dezenas. Usando a distribuicao hipergeome-trica pode-se obter a probabilidade de fazer asena, quina e quadra jogando n dezenas apre-sentado na tabela 5.1. Da tabela 5.1 vemos quea chance de fazer a quina apostando 6 dezenas e324 vezes maior do que a chance de fazer a senaapostando 6 dezenas. Ja apostando em 7 deze-nas a chance de fazer a quina e 1113 vezes maiordo que fazer a sena apostando em 6 dezenas.Assim dispondo de R$ 7,00 a chance de fazera quina e 1113/50063860, mas fazendo 7 jogosde 6 dezenas (R$ 1,00 cada) a chance de fazera quina e 7 × 324/50063860 = 2268/50063860que e maior do que 1113/50063860. Assim, dis-pondo de R$ 7,00 para apostar e preferıvel fa-zer 7 jogos de 6 dezenas ja que a chance de fa-zer a sena e a mesma do que fazendo um jogode 7 dezenas, mas a chance de fazer a quina e2 vezes maior e para a quadra 3 vezes maior(7× 21465 = 150255 > 48230).

5.9 Distribuicao Multino-mial ou Polinomial

A distribuicao binomial e capaz de resolver so-mente problemas onde um evento possa ser ca-racterizado por sucesso ou fracasso. No entanto,

58

Page 59: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

k 6 5 4n sena quina quadra6 1 324 214657 7 1113 482308 28 2912 928209 84 6426 16065010 210 12600 25725011 462 22638 38808012 924 38016 55836013 1716 60489 77291514 3003 92092 103603515 5005 135135 1351350...

......

...

Tabela 5.1: Razao de probabilidadePn(k)/P6(6) = Pn(k)/50063860 de fazer asena k = 6, quina k = 5 ou quadra k = 4apostando n dezenas.

frequentemente aparecem problemas onde umaclassificacao com mais do que duas categoriase desejada. Por exemplo, no estudo de tipossanguıneos e necessario considerar 4 categorias(A, B, AB, O) distintas para formular o pro-blema adequadamente.

Seja um experimento obedecendo as seguinteshipoteses:

1. Sao realizadas provas independentes;

2. Cada prova admite um unico dentre rpossıveis resultados;

3. As probabilidades pi de ocorrer um deter-minado resultado i sao constantes para to-das as provas

Associamos a esse experimento r variaveisaleatorias X1, . . . , Xr, cada uma indicando onumero de vezes que ocorreu o correspondenteresultado nas n provas. Esta distribuicao multi-dimensional e dita distribuicao multinominal oudistribuicao polinomial.

Temos que∑ri=1 pi = 1 e que

∑ri=1 ki = n,

onde ki e o numero de vezes que o resultado isaiu nas n realizacoes. Como no caso da distri-buicao binomial, contamos o numero de possibi-lidades que seja possıvel agrupar os pi, obtemosassim a distribuicao multinomial

p(X1 = k1;X2 = k2; . . . ;Xr = kr) =

n!

k1!k2! . . . kr!pk11 p

k22 . . . . pkrr . (5.57)

5.10 Distribuicao Hiper-geometrica Generali-zada

A distribuicao hipergeometrica e capaz de resol-ver somente problemas onde um evento possaser caracterizado por sucesso ou fracasso. Noentanto, frequentemente aparecem problemasonde uma classificacao com mais do que duascategorias e desejada.

Consideremos um conjunto de N elemen-tos, r1 dos quais tem uma determinada carac-terıstica, r2 uma outra caracterıstica e assim pordiante ate a s-esima caracterıstica. Tem-se que:

s∑i=1

ri = N

. Sao extraıdos n elementos sem reposicao, onden ≤ N .

A distribuicao de probabilidade das variavelaleatorias X1, X2, . . ., Xs e igual ao numerode elementos com a referida caracterıstica queestarao entre os n retirados de modo que:

s∑i=1

ki = n

e dita uma distribuicao hipergeometrica genera-lizada

P (X1 = k1, . . . , Xs = ks) =

∏si=1

(riki

)(Nn

) ,

com ki = 0, 1, 2, . . . , n e r = 0, 1, 2, . . . , N .3

Esta distribuicao generaliza tanto a distri-buicao hipergeometrica (considerando mais ca-tegorias alem do sucesso e fracasso) assim comoela generaliza a distribuicao multinomial, ondeimagina-se retiradas de elementos sem reposicaode uma urna.

Como exemplo de aplicacao desta distribuicaoconsidere um baralho formado por 52 cartas com4 classes [espadas (♠), paus (♣), ouros (♦) ecopas (♥)], cada uma destas classes com 13 ele-mentos [A, 2, 3, . . . , 10, J , Q e K]. A proba-lilidade de uma mao com 12 cartas contenha 4

3Ver: William Feller, Introducao a Teoria das Pro-babilidades e suas Aplicacoes: Parte I, Editora EdgardBlucher, Sao Paulo (1976).

59

Page 60: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

cartas de espadas, 4 de copas, 3 de ouros e umade paus e dada por:(

134

)(134

)(133

)(131

)(

5212

) ,

5.11 O Problema da Ruınado Jogador

Considere um jogo entre um jogador e a banca.Neste jogo a probabilidade de ganhar 1 dolarvale p (sucesso) e a probabilidade de perder 1dolar vale 1 − p (fracasso). O jogador comecacom 10 dolares e pretende jogar repetidamenteate que ele fique sem dinheiro (falencia) ou queaumente seus ganhos ate 20 dolares. Qual e aprobabilidade do jogador falir antes de aumen-tar os seus ganhos ate a meta estipulada?

Este problema e conhecido como o problemada ruına do jogador.4 Para qualquer quantiamomentanea h, a probabilidade condicional defalencia antes de alcancar os 20 dolares e inde-pendente de como estes h dolares foram adqui-ridos. Assim ha uma probabilidade ph de falircom a condicao de que se tenha h dolares em umdado momento. Claro que, pode-se fixar imedi-atamente p0 = 1 e p20 = 0 como condicao decontorno. O problema e determinar os valoresde ph para h entre 0 e 20.

O ponto chave e perceber que para chegar ateh dolares em uma rodada, o jogador deve teracumulado h+1 ou h−1 dolares na rodada pre-cedente. Tendo tais valores, (por definicao) comprobabilidades de falencia ph+1 ou ph−1, respec-tivamente. Tambem, a probabilidade condicio-nal do jogador ter h−1 dolares na rodada prece-dente e p (que e a probabilidade de ter ganhado),e a probabilidade que h + 1 e 1 − p. Agora, aprobabililidade de falencia tendo h dolares e acombinacao linear de estes dois casos:

ph = pph−1 + (1− p)ph+1 . (5.58)

Esta relacao de recorrencia de segunda ordemdeve ser satisfeita pelos valores de ph. Se p e1 − p sao distintos (significando aquele p nao eigual a exatamente 1/2), a forma geral de tal re-correncia e uma combinacao linear de potenciassucessivas de qualquer das dois solucoes parti-culares independentes. Uma solucao particular

4http://www.mathpages.com/home/kmath084.htm.

e obviamente ph = 1 para todo o h. Tambem,nao e difıcil de verificar que: ph = rh, onder = (1 − p)/p, tambem e uma solucao particu-lar. Entao, a solucao geral da recorrencia e daforma:

ph = A1h +Brh (5.59)

r =1− pp

, (5.60)

com r sendo a razao entre a probabilidade defracasso e a probabilidade de sucesso no jogo eonde A e B sao constantes que determinadaspela condicoes de contorno: p0 = 1 e p20 = 0,ou seja,

1 = A+B

0 = A+Br20 ,

implicando em:

A =−r20

1− r20(5.61)

B =1

1− r20. (5.62)

Entao, se um jogador tem h dolares, a proba-bilidade dele falir antes de alcancar 20 dolarese:

ph =rh − r20

1− r20. (5.63)

Este resultado esta baseado na suposicao quep 6= 1/2, ou seja: r 6= 1. Por outro lado, sep = 1/2, as duas solucoes particulares 1h e rh

nao sao independentes. Neste caso o polinomiocaracterıstico tem raızes duplicadas, mas outrasolucao independente da recorrencia Eq. 5.58 e:ph = h. Entao, a forma geral da solucao e: A+Bh, e as condicoes de fronteira requerem: A = 1e B = −1/20, assim a solucao total neste casoespecial (simetrico) e:

ph = 1− h

20. (5.64)

Consequentemente, se o jogador comecar com10 dolares, ele tem uma 50% chance de falir an-tes de alcancar os 20 dolares.

Obviamente podemos substituir 20 com qual-quer outro valor. Para qualquer valor inicial, seaumentamos nosso alvo superior de 20 a algumnumero maior n, vemos que a probabilidade defalencia antes de tambem alcancar n aumenta.Assim, para:

ph =rh − rn

1− rn(r 6= 1) (5.65)

ph = 1− h

n(r = 1) . (5.66)

60

Page 61: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Quando n→∞, para r > 1, rn > rh

ph = 1 (r > 1) (5.67)

ph = 1 (r = 1) . (5.68)

e presumivelmente por esta razao que este pro-blema e chamado de a Ruına do Jogador.

Em um jogo em que r < 1 (jogo pouco fa-voravel a banca), para n→∞ e r < 1,

ph = rh (r < 1) . (5.69)

probabilidade de ganho, a probabilidade defalencia e menor do que 1.

Este problema e essencialmente um exem-plo de uma caminhada aleatoria unidimensional.Claro que, pode-se tambem representar isto porum modelo de Markov, e recursivamente geraras probabilidades de se ter um valor particu-lar apos a n-esima rodada, especificando algunsvalores iniciais. Este e um exemplo de um pro-cesso de difusao, com estados absorventes em 0e n onde toda a probabilidade eventualmente seacumula.

Ate o momento consideramos somente o casoem que a cada rodada a quantia varia de umaunidade, para cima ou para baixo. Pode-se con-siderar o problema mais geral, o de permitirmais de dois resultados possıveis a cada rodada,e permitir que os ganhos (perdas) sejam tama-nhos arbitrarios.

5.11.1 Jogo com Tres Estados

Pode-se considerar um jogo que produza tres re-sultados possıveis, com probabilidades pa, pb epc e que muda as quantias de −1, +1 e +2, res-pectivamente. Neste caso, o mesmo raciocınio,que conduziu a Eq. 5.58, conduz a recorrenciade terceira ordem:

ph = pcph−2 + pbph−1 + paph+1 . (5.70)

Se substituirmos o valor 20 com algum limiarfixo arbitrario n, entao temos tres condicoes li-mites:

p0 = 1 (5.71)

pn = 0 (5.72)

pn+1 = 0 , (5.73)

notando que e possıvel terminar em n ou n +1. Neste caso mais geral normalmente te-mos que resolver simplesmente a recorrenciaEq. 5.70 no modo tradicional, achando as raızes

do polinomio caracterıstico, e expressando ph eentao como uma combinacao linear do h-esimapotencia dessas raızes, sujeito as condicoes decontorno.

A solucao desta equacao e dada por:

ph = (rarbrc)h

(5.74)

ra =1− papa

(5.75)

rb =1− pbpb

(5.76)

rc =1− pcpc

(5.77)

(5.78)

5.11.2 Jogo com M Estados

Considere um jogo que produza M resultadospossıveis de modo que o resultado k1 saia comprobabilidade p1, o resultado k2 com probabili-dade p2 e assim por diante ate o resultado kMcom probabilidade pM , onde ki e um numero in-teiro positivo, nulo ou negativo e p1 + p2 + . . .+pM = 1.

A evolucao do sistema e dado pela equacao:

Ph =

M∑i=1

piPh−ki (5.79)

e a solucao e:

Ph =

(M∏i=1

ri

)h(5.80)

ri =1− pipi

. (5.81)

5.12 Paradoxo de Parrondo

Considere dois jogos perdedores, ou seja, dois jo-gos que tem valor esperado do ganho negativo.Dependendo dos parametros, dois jogos perde-dores, quando combinados, ou periodicamenteou aleatoriamente, pode fornecer um resultadoganhador. Este e o paradoxo de Parrondo.5

5Peter V. E. McClintock, Unsolved problems of noise,Nature 401, 23-24 (1999). // Gregory P. Harmer andDerek Abbott, Losing strategies can win by Parrondo’sparadox, Nature 402, 864 (1999).Gregory P. Harmer, Derek Abbott and Peter G. Taylor,The paradox of Parrondo’s games, Proc. R. Soc. A 456,247–259 (2000).

61

Page 62: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

5.13 Exercıcios

1. Considere uma variavela aleatoria discretaT cuja distribuicao de probabilidade e:

T 2 3 4 5 6 7P (T ) 1/10 1/10 4/10 2/10 1/10 1/10

Determine:

(a) P (T ≥ 6);

(b) P (|T − 4| > 2);

(c) P (T ser um numero primo);

(d) E(X);

(e) Var(X).

2. Seja X uma variavel aleatoria discreta comdistribuicao de probabilidade P [X = x] =c2−x para x = 0, 1, 2, . . . e nula no comple-mentar.

Determine:

(a) o valor da constante c;

(b) P (X > 5);

(c) P (Xser um numero ımpar);

(d) E(X);

(e) Var(X).

3. Considere uma variavel aleatoria discretatendo a seguinte distribuicao de proba-bilidades: P [X = x] = cx para x =0, 1, 2, . . . , N e zero fora deste conjunto.

Determine:

(a) o valor da constante c para N = 4;

(b) o valor da constante c para um valorqualquer de N (inteiro positivo);

(c) P (X ≤ a) com a ≤ N ;

(d) P (Xser um numero par);

(e) E(X);

(f) Var(X).

Neste exercıcio, utilize:

N∑k=1

k =N(N + 1)

2,

N∑k=1

k2 =N(N + 1)(2N + 1)

6,

N∑k=1

k3 =

[N(N + 1)

2

]2

,

4. Considere o lancamento de dois dados si-multaneamente e admita que os dados naosao viciados. Para cada um dos items aseguir, determine o domınio da variavelaleatoria X e sua distribuicao de probabili-dades:

(a) X e o maior valor observado;

(b) X e a soma dos valores observados;

(c) X e o produto dos valores observados;

(d) P (Xser um numero par);

(e) X e a diferenca entre o maior e o me-nor valor observado;

5. Mostre que para αi constante:

E(

n∑i=1

αiXi) =

n∑i=1

αiE(Xi) .

6. Seja X uma variavel aleatoria com E(X2)finito e sejam α e β constantes reais.

(a) Mostre que: Var(αX + β) =α2Var(X);

(b) Calcule E[(βX + 4)2] se E(X) = 4 eVar(X) = 3.

7. Considere dois lancamentos consecultivosde um dado que nao e viciado. Sejam: X :numero de vezes em que e obtida a face 1,x = 0, 1, 2; Y : numero de vezes que e ob-tida a face 6, y = 0, 1, 2; e Z = X + Y :numero de vezes que aparece ou uma face1 ou uma face 6, z = 0, 1, 2. Determine:

(a) Var(X);

(b) Var(Y );

(c) Var(Z);

(d) se e verdade que Var(X + Y ) =Var(X) + Var(Y ).

8. Cinco bolas sao selecionadas aleatoria-mente sem reposicao de uma urna con-tendo N bolas numeradas de 1 ate N , comN > 5. Seja X a variavel aleatoria que de-nota o maior valor selecionado. Determinea funcao de distribuicao de X.

9. De um comjunto de N elementos, um sub-conjunto nao-vazio e escolhido aleatoria-mente (considere que todos os subconjuntosnao-vazios tem a mesma probabilidade deserem escolhidos). Seja X o numero de ele-mentos contidos no subconjunto escolhido,determine

62

Page 63: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(a) a funcao de X;

(b) E(X);

(c) Var(X);

e verifique que:

(a)

limN→∞

E(X)

N=

1

2e

(b)

limN→∞

Var(X)

N=

1

4.

10. Para qualquer valor de p > 1, seja

c(p) =

∞∑i=1

1

xp.

Suponha que X e uma variavel aleatoriadiscreta com a seguinte distribuicao de pro-babilidade:

f(x) =1

c(p)xp,

com x = 1, 2, . . .. Para qualquer inteiro po-sitivo n, determine a probabilidade de:

(a) X se divisıvel por n;

(b) X ser ımpar.

11. Um livro de apostadores recomenda a se-guinte estrategia que afirma ser vencedorano jogo de roleta. Aposte 1 R$ nas verme-lhas. Se o resultado do giro da roleta forvermelha (cuja probabilidade vale 18/38),entao retire seu benefıcio de 1 R$ e saia dojogo. Se perder a aposta (cuja probabili-dade vale 20/38), faca uma aposta adicio-nal de 1 R$ em vermelha a cada um dosproximos dois giros da roleta, e entao saia.Seja X o seu ganho ao deixar a roleta.

(a) Determine P (X > 0).

(b) Voce acha, que de fato, esta e uma es-trategia vencedora? Justifique.

(c) Calcule E(X).

12. Uma urna contem bolas numeradas de 1 aN . Uma pessoa retira uma bola e a devolve,retira uma segunda bola e a devolve, e pro-cede desta forma ate obter uma bola pelasegunda vez, i.e., ate obter uma bola ja reti-rada anteriormente. Seja X o numero totalde extracoes necessarias para obter esta re-peticao.

(a) Obtenha a distribuicao de X [ica: cal-cule P (X > k)].

(b) Mostre que:

E(X) = 2 +

(1−

1

n

)+(

1−1

n

)(1−

2

n

). . .(

1−1

n

)(1−

2

n

). . .

(1−

n− 1

n

).

13. Para um grupo de n pessoas, determine onumero esperado de dias do ano que saoaniversarios de exatamente k pessoas, k ≤n. Suponha que o ano tem 365 dias e quetodos os arranjos sao equiprovaveis.

14. Um homem possui em seu chaveiro n cha-ves e deseja abrir a porta de sua casa expe-rimentando as chaves ao acaso e indepen-dentemente. Admitindo que somente umachave abra a porta, determine a media e avariancia do numero de tentativas se:

(a) as chaves incorretas sao descartadase, consequentemente, nao mais seleci-onadas.

(b) as chaves incorretas nao sao sepa-radas, podendo ser escolhidas nova-mente.

15. Um produto de venda sazonal traz lucro Breais por unidade vendida e um prejuızo Lreais por cada unidade estocada e nao ven-dida. O numero X de unidades vendidasdeste produto em um certo supermecardo euma variavel aleatoria com distribuicao deprobabilidade p(i) = P (X = i), com i > 0.Supondo que o estoque e feito no inıcio daestacao, que nao pode haver reposicao du-rante a mesma e que nao ha devolucao dasunidades estocadas, determine o nıvel de es-toque que maximiza o lucro esperado do su-permercado.

16. Um florista faz estoque de uma flor de curtaduracao que lhe custa R$ 0,50 e que elevende a R$ 1,50 no primeiro dia em quea flor esta na loja. Toda flor que nao forvendida no primeiro dia e jogada fora. SejaX a variavel aleatoria que denota o numerode flores vendidas por este florista em umdia. Sabendo que a funcao de probabilidadede X e dada por:

X 0 1 2 3P (X) 1/10 4/10 3/10 2/10

63

Page 64: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

determine quantas flores o florista deveriater em estoque a fim de maximizar o lucroesperado.

17. A cada noite, diferentes meteorologistas nosfornecem a “probabilidade” de que ira cho-ver no dia seguinte. Para avaliar o quaoboa sao estas previsoes, e possıvel atribuirescores a cada um desses meteorologistas,como segue: se o metereologista diz queira chover no dia seguinte com probabili-dade p, entao ele recebera um escore de1 − (1 − p)2 se chover no dia seguinte e de1−p2 se nao chover. Acompanhando os es-cores obtidos pelos meteorologistas duranteum certo intervalo de tempo, podemos con-cluir que o meteorologista com maior es-core medio e aquele que melhor prediz otempo.Suponha agora que um meteorolo-gista esta ciente deste procedimento de es-cores e deseja maximizar o seu escore es-perado em um dia. Se este meteorologistaacredita que de fato ira chover no dia se-guinte com probabilidade p∗, qual o valorque ele deve dizer para maximizar o seu es-core esperado? Interprete o resultado.

18. Na manufatura de certo artigo, e sabido que1 entre 10 artigos e defeituoso. Qual a pro-babilidade de que em uma amostra casualsimples de tamanho 4 contenha:

(a) nenhum defeituoso?

(b) exatamente um defeituoso?

(c) exatamente dois defeituosos?

(d) nao mais do que dois defeituosos?

19. Certo curso de treinamento aumenta a pro-dutividade de uma certa populacao de fun-cionarios em 80% dos casos. Se 10 fun-cionarios quaisquer participam deste curso,encontre a probabilidade de:

(a) exatamente 7 funcionarios aumenta-rem a produtividade;

(b) nao mais do que 8 funcionarios aumen-tarem a produtividade;

(c) pelo menos 3 funcionarios nao aumen-tarem a produtividade.

20. O numero de petroleiros que chegam a umarefinaria em cada dia ocorre segundo umadistribuicao de Poisson, com media λ = 2.As atuais instalacoes podem atender, no

maximo, a 3 petroleiros por dia. Se maisdo que 3 petroleiros aportarem em um dia,o excesso e enviado a outro porto.

(a) Em um dia, qual a probabilidade de seenviar petroleiros para outro porto?

(b) De quanto deverao ser aumentadas asinstalacoes para permitir atender a to-dos os navios que chegarem pelo me-nos em 95 % dos dias?

(c) Qual o numero medio de petroleirosque chegam por dia?

21. A duracao do “tonner” de uma maquina defotocopias pode ser modelado como normalcom media 15 e desvio-padrao 2 (em mi-lhares de copias). Para uma amostra de 12fotocopiadoras a duracao do “tonner” seraobservada e pergunta-se a probabilidade de,em media, durar:

(a) menos do que 16 mil copias?

(b) mais do que 13 mil copias?

(c) entre 12 e 14 mil copias?

64

Page 65: Notas de Aula da Disciplina de Estat stica

Capıtulo 6

Distribuicoes Contınuas

6.1 Distribuicao Uniforme

Seja uma variavel aleatoria contınua que podetomar valores em um intervalo [a, b]. Se a pro-babilidade da variavel cair num subintervalo fora mesma para qualquer outro subintervalo demesmo comprimento, temos uma distribuicaouniforme. A funcao densidade de probabilidadesera

f(x) =

{1/(b− a) para a ≤ x ≤ b ;0 caso contrario.

(6.1)

Os parametros sao:

E(k) = µ =a+ b

2(6.2)

Var(X) = σ2 =b− a

12(6.3)

γ3 = (6.4)

γ4 = . (6.5)

6.2 Distribuicao Exponen-cial

Em um fenomeno de Poisson de parametro λ,isto e, tal que o numero de sucessos em um in-tervalo de observacao t segue uma distribuicaode Poisson de media µ = λt, seja T o intervalodecorrido entre dois sucessos consecutivos. Adistribuicao da variavel aleatoria T e conhecidacomo distribuicao exponencial. A funcao densi-dade de probabilidade e:

f(t) =

{λ exp(−λt) para t ≥ 0 ;0 caso contrario.

(6.6)

Os parametros sao:

E(k) = µ =1

λ(6.7)

Var(X) = σ2 = µ2 =1

λ2(6.8)

γ3 = (6.9)

γ4 = . (6.10)

O valor medio desta distribuicao e E(X) = 1/λ eVar(X) = 1/λ2, a assimetria e?? e a curtose??.

A distribuicao exponencial tem a mesma pro-priedade vista para a distribuicao geometrica,isto e, nao tem memoria, logo P (X > s+ t|X >s) = P (X > T ). Por esta razao, a distribuicaoexponencial e usada em modelos de duracao devida de componentes que nao se desgastam como tempo.

6.3 Distribuicao de Weibull

Uma distribuicao que tem muitas aplicacoesem Teoria da Confiabilidade e a distribuicao deWeibull. Sua funcao densidade de probabilidadee:

f(t) =

{λtλ−1 exp(−λt) para t ≥ 0 ;0 caso contrario;

(6.11)onde λ e uma constante positiva. A variavelaleatoria T pode representar, por exemplo, avida de um componente.

6.4 Distribuicao Gama

Uma extensao para a distribuicao exponenciale dada pela distribuicao gama com parametrosα > 0 e β > 0. A funcao densidade de probabi-lidade e:

f(x) =

{xα−1

Γ(α)βα exp(−x/β) x ≥ 0

0 x < 0

65

Page 66: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

que tem como media αβ e como variancia β2.A distribuicao gama e usada para representar

fenomenos limitados de um lado,(0 ≤ X < ∞),tais como a distribuicao de tempos entre: reca-libracoes de instrumentos, compras de um itemestocado, etc.

A distribuicao gama com α inteiro pode serconsiderada como uma genelarizacao da dis-tribuicao exponencial, representando a distri-buicao do intervalo decorrido entre α + 1 su-cessos consecultivos. Analogamente a distri-buicao exponencial, a distribuicao gama naotem memoria.

6.5 Distribuicao Beta

A funcao densidade de probabilidade de umadistribuicao beta e dada por:

f(p) =Γ(κ+ η)

Γ(κ)Γ(η)pκ−1(1− p)η−1 , (6.12)

com 0 ≤ x ≤ 1. Os parametros sao:

E(k) = µ =κ

κ+ η(6.13)

Var(X) = σ2 =κη

(κ+ η)2(κ+ η + 1)(6.14)

γ3 = (6.15)

γ4 = 6 + . (6.16)

Usando uma transformacao convenientepode-se mudar os limites do campo de definicaoda variavel P para dois valores quaisquer a e b.

Observe que a funcao densidade de probabi-lidade beta, que tem como variavel a probabili-dade p e similar a distribuicap binomial que temcom variavel o numero de sucessos k. A distri-buicao beta e usada para representar fenomenoslimitados de dois lados a ≤ P ≤ b, tais como adistribuicao da proporcao da populacao entre omenor e o maior valor, distribuicao de tempo aser gasto na execucao de uma certa tarefa, etc.

6.6 Distribuicao Normal

Quando n � 1, a distribuicao binomial Pn(k)tende a se concentrar em torno de µ(K), de-caindo rapidamente quando k se afasta de µ(K).Se µ(K)� 1, nas proximidades de µ(K) temosque: |Pn(k + 1)− Pn(k)| � Pn(k), de onde po-demos considerar Pn(k) como sendo aproxima-damente uma funcao contınua. Como lnPn(k)

varia muito mais lentamente do que Pn(k), umaexpansao em serie de Taylor de lnPn(k) con-verge mais rapidamente do que a expansao emPn(k).

Expandindo lnPn(k) em serie de Taylor emtorno de µ(K) tem-se:

lnPn(k) = lnPn(µ(K)) +

∂ lnPn(k)

∂k

∣∣∣∣k=µ(K)

[k − µ(K)] +

1

2

∂2 lnPn(k)

∂n2

∣∣∣∣k=µ(K)

[k − µ(K)]2 + . . . .

Vemos que:

lnPn(k) = lnn!− ln k!− ln(n− k)! +

k ln p+ (n− k) ln(1− p) .∂ lnPn(k)

∂k= −∂ ln k!

∂k− ∂ ln(n− k)!

∂k+

ln p− ln(1− p) .

Como n� 1, usamos a aproximacao de Stir-ling ?:

k! '√

2πk(k

e)k → ln k! ' k ln k − k (k � 1) ,

entao temos que:

∂ ln k!

∂k= ln k .

Para k = np

∂ lnPn(k)

∂k

∣∣∣∣k=µ(K)

= 0 ,

ou seja, a distribuicao tem um maximo em k =µ(K).

A segunda derivada pode ser calculada

∂2 lnPn(k)

∂k2= −1

k− 1

n− k.

Para k = µ(K), temos:

∂2 lnPn(k)

∂k2

∣∣∣∣k=µ(K)

= − 1

np(1− p)= − 1

σ2.

Deste modo podemos escrever:

lnPn(k) = lnPn(µ(K))− 1

2

(k − µ(K))2

σ2,

o que leva a:

Pn(k) = Pn[µ(K)] exp(−1

2

(k − µ(K))2

σ2) .

66

Page 67: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Como aproximamos Pn(k) em uma serie deTaylor, devemos normalizar a distribuicao apro-ximada. Desta maneira obtemos Pn(µ(K)):

N∑k=0

Pn(k) '∫ ∞−∞

dkPn(k)

' Pn(µ(K))

∫ ∞−∞

dke−12

[k−µ(K)]2

σ2

= 1 ,

como∫ ∞−∞

dk exp(−1

2

(k − µ(K))2

σ2) =√

2πσ ,

temos:

Pn[µ(K)] =1√2πσ

.

Deste modo obtemos a distribuicao normal,tambem chamada de Gaussiana:

Pn(k) =1√2πσ

exp

{−1

2

(k − µ(K))2

σ2

}.

Notamos que a distribuicao normal dependede somente dois parametros, o valor medioµ(K) = µ e o desvio-padrao σ. Esta distribuicaoe simetrica em torno de µ(K) e unimodal e ge-ralmente representada por:

NX(µ, σ) =1√2πσ

exp[−1

2(x− µσ

)2] .

e conveniente definir uma distribuicao normalcom media nula µ = 0 e desvio-padrao unitaarioσ = 1, esta distribuicao e chamada de distri-buicao normal padrao e pode ser obtida de qual-quer outra distribuicao normal atraves da mu-dance. variaveis.

z =x− µσ

.

Esta grandeza adimensional z chamada depadrao z quantifica quanto a variavel de in-teresse se afasta (ou se aproxima) da mediaem unidades de desvio-padrao. A area entrez ∈ [−σ, σ] e aproximadamente de 0.6826, aarea entre z ∈ [−2σ, 2σ] e aproximadamente de0.9544 e a area entre z ∈ [−3σ, 3σ] e aproxi-madamente de .9972. Este fato demonstra orapido caimento da distribuicao a medida que|z| se afasta da origem.

A funcao acumulada da distribuicao normal edada por:

C(z) =1

2

{erfc(z) se z < 0

1 + erf(z) se z ≥ 0,

onde

erf(z) =2√π

∫ z

0

dxe−x2

(6.17)

e a funcao erro e erfc(z) = 1− erf(z) e a funcaoerro complementar.

6.7 Distribuicao do χ2

Considere ν variaveis aleatorias normais, pa-dronizadas e independentes entre si, isto e,Xi : N(0, 1), i = 1, 2, . . . , ν, entao a variavelaleatoria χ2 definida como a soma dos quadra-dos dos Xi tem uma distribuicao do χ2

χ2 =

ν∑i=1

X2i .

A funcao densidade de probabilidade e:

f(χ2) =(χ2)ν/2−1 exp(−χ2/2)

2ν/2Γ(ν/2),

com χ2 > 0.O parametro ν recebe o nome de graus de li-

berdade e corresponde ao numero de variaveisnormais independentes. O valor medio da dis-tribuicao de χ2 e: E(χ2) = ν e a varianciaVar(χ2) = 2ν.

Como propriedades te-se :

χ2p + χ2

q = χ2p+q ,

onde p e q sao os graus de liberdade.A funcao acumulada de f(χ2), que e a distri-

buicao do χ2 e dada pela funcao gama incom-pleta

C(χ2, ν) = P (ν/2, χ2/2) .

6.8 Distribuicao t de Stu-dent

Seja uma variavel aleatoria normal padronizadaX e uma variavel aleatoria Y seguindo uma dis-tribuicao do χ2 com ν graus de liberdade comX e Y independentes, entao a variavel

t =νX√Y,

tem a distribuicao de Student com ν graus deliberdade.

67

Page 68: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

A funcao densidade de probabilidade de t e

f(t) =Γ[(ν + 1)/2]

Γ(ν/2)√πν

(1 +

t2

ν

)−(ν+1)/2

,

com −∞ < t <∞.Tem-se que E(t) = 0 e Var(t) = ν/(ν − 2).

Para ν � 1 a f(t)→ N(0, 1).A funcao acumulada de f(t) para ν graus de

liberdade e dada por:

Cν(t) = 1− Iν/(ν+t2)(ν/2, 1/2) ,

onde Ix(a, b) e a funcao beta incompleta.

6.9 Distribuicao r de Stu-dent

1

A funcao densidade de probabilidade de r e

f(r) =Γ[(ν + 1)/2]

Γ(ν/2)√π

(1− r2

)(ν−2)/2,

com |r| ≤ 1.

6.10 Distribuicao F (Fisher-Snedecor)

Sejam U e V duas variaveis aleatorias indepen-dentes, cada uma distribuida segundo um χ2,com ν1 e ν2 graus de liberdade, respectivamente.Entao a variavel aleatoria F

F =U/ν1

V/ν2

tem distribuicao F com parametros ν1 e ν2.A funcao densidade de probabilidade de F e

f(F ) =Γ[(ν1 + ν2)/2]

Γ(ν1/2)Γ(ν2/2)(ν1

ν2)ν1/2

F (ν1−2)/2

(1 + ν1F/ν2)(ν1+nν2)/2,

com F > 0.Como propriedade tem-se que F (ν1, ν2) =

1/F (ν2, ν1).E(F ) = ν2/(ν2− 2) e Var(F ) = 2ν2

2(ν1 + ν2−2)/[ν1(ν2 − 2)2(ν2 − 4)]

A funcao acumulada para ν1 e ν2 graus deliberdade e dada por:

Cν1,ν2(F ) = 1− Iν2/(ν2+ν1F )(ν2/2, ν1/2) .1Veja: A. M. C. de Souza and C.Tsallis, Student’s t−

and r− distributions: Unified derivation from an entro-pic variational princile, Physica A, 236, 52-57 (1997).

6.11 Distribuicao Log-Normal

Considere a variavel aleatoria X seguindo umadistribuicao Normal N(µ, σ2), a variavel Y =eαX , com α constante segue a distribuicao Log-Normal.

A distribuicao do produto de varia variaveisaleatorias independentes e positivas, sob cer-tas condicoes gerais segue uma distribuicao log-normal. A funcao densidade de probabilidadeda distribuicao log-normal e dada por:

f(x) =1√

2πvxexp[− 1

2v2(log x− µ)] .

A media e a variancia sao: E(X) = exp(µ +v2/2) e Var(X) = E2(X)[exp(v2)− 1], respecti-vamente.

A distribuicao de uma variavel X tem distri-buicao log-normal quando seu logaritmo segueuma distribuicao normal.

6.12 Distribuicao deCauchy-Lorentz

Se considerarmos a razao Q = X1/X2 entreduas variaveis aleatorias X1 e X2 com distri-buicao normal X1 : N(µ1, σ1) e X2 : N(µ2, σ2),a distribuicao de Q e a distribuicao de Cachy-Lorentz

f(x) =|q2 − q1|

π[|q2 − q1|2 + (x− q2)2].

Esta distribuicao e simetrica em torno damedia (e mais conveniente falar em mediana)q2 e nao tem o segundo momento definido, oparametro |q2 − q1| e a distancia entre a medi-ana e o primeiro ou terceiro quartil. Vemos quea distribuicao e parametrizada pela mediana q2

que tem um papel equivalente a media µ na dis-tribuicao normal e pela distancia entre medianae primeiro quartil tem um papel equivalente a2σ na distribuicao normal.

A funcao acumulada da distribuicao deCauchy-Lorentz e:

F (x) =1

2+ arctan(x) .

Mediante a transformacao de variaveis:

z =x− q2

|q2 − q1|,

68

Page 69: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

obtem-se a distribuicao de Cauchy-Lorentzpadrao que tem mediana nula q2 = 0 ea distancia da mediana ao primeiro quartilunitaria |q2−q1| = 1. A distribuicao da Cauchy-Lorentz cai mais lentamente do que a distri-buicao normal.

6.13 Distribuicao de Pareto

Esta distribuicao e frequentemente usada emEconomia, em conexao com problemas de dis-tribuicao de renda.

Dizemos que uma variavel aleatoria temdistribuiao de Pareto se sua funcao densidadefor:

f(x) =

{αb

(bx

)α+1x ≥ b > 0

0 x < b > 0α > 0 .

Pare α > 1 a media e αb/(α−1) e para α > 2,a variancia : αb2/[(α− 1)2(α− 2)]

6.14 Distribuicao Simetricade Levy

A distribuicao simetrica de Levy e definida emtodo o espaco x ∈ (−∞,∞).2 Uma vez que naoe possıvel encontrar uma forma analitıca fechadapara Lγ(x), Lγ(x) descrito como uma trans-formada de Fourier da funcao caracterıstica(Eq. 4.2)

Lγ(x) =1

∫ ∞−∞

dk eıkxLγ(k) , (6.18)

com

Lγ(k) = e−β|k|γ

, (6.19)

onde β e uma constante positiva (fator de es-cala) e γ e o ındice de Levy que satisfaz

0 < γ < 2 . (6.20)

Para γ ≥ 2, a distruicao acima apresenta o se-gundo momento definido. Observe que Lγ(k) ea funcao caracterıstica de Lγ(x) (Eq. 4.1). quesomente e conhecida analiticamente para o caso

2B. V. Gnedenko and A. N. Kolmogorov, Limit Dis-tributions for Sums of Independent Random Variables(Reading, Massachusetts: Addison-Wesley, 1968).W. Feller, An Introduction to Probability Theory and ItsApplications Vol.II (New York, Wiley 1971.)

γ = 1, que e a funcao densidade de probabili-dade de Cauchy e γ = 2 que e a funcao densi-dade de probabilidade normal. No entanto sabe-se que:3

Lγ(0) =Γ(1/γ)

πγβ1/γ,

que funcao densidade de probabilidade de Levyque apresenta o seguinte limite assintotico |x| �1

Lγ(x) =βΓ(1 + γ) sin(πγ/2)

π|x|1+γ, (6.21)

de modo que os momentos 〈|x|α sao finitos so-mente se α < γ.

Limite Central

Considere a soma4

X =

n∑i=1

Xi , (6.22)

onde a variavel aleatoria Xi assume valores xi ∈(−∞,∞) e sao variaveis independentes e igual-mente distribuidas.

A distribuicao de X e essencialmente dada

nesima convolucao L(n)γ (x) = (Lγ ? · · · ? Lγ)(x).

Em todo o espaco a convolucao e definidacomo:(f ? g)(x) =

∫∞−∞ dx′f(x − x′)g(x′). A

funcao caracterıstica de L(n)γ (x) e simplesmente

o pruduto das funcoes caracterısticas p(k)

pn(k) = e−(an|k|γ) . (6.23)

6.14.1 Variaveis Multidimensio-nais

Para variaveis multidimensionais 5

Lγ(~k) = e−β|~k|γ . (6.24)

3Usando:∫ ∞0

dxxm exp(−axn) =Γ[(m+ 1)/n]

na(m+1)/n.

4S. Abe e A. K. Rajagopal, Rates of convergence ofnonextensive statistical distributions to Levy distributi-ons in full and half spaces, cond-mat/0009399, Set/2000.

5D. H. Zanette and P. A. Alemany, Thermodynamicsof Anomalous Diffusion, Phys. Rev. Lett. 75, 366(1995).M. O. Caceres and C. E. Bude, Comment on “Ther-modynamics of Anomalous Diffusion”, Phys. Rev. Lett.77, 2589 (1996).D. H. Zanette and P. A. Alemany, Reply, Phys. Rev.Lett. 77, 2590 (1996).

69

Page 70: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

6.15 Distribuicao Truncadade Levy

A distribuicao truncada de Levy e definida tendofuncao densidade de probabilidade:6

Lγ(z) =1

π

∫ ∞0

dq cos(qz) exp(−βqγ) ,

com ındice 0 < γ ≤ 2 e fator de escala β > 0.Esta distribuicao contem as distribuicoes nor-

mal e de Cauchy-Lorentz como casos particula-res.

Fazendo α = 1,7 temos que:

L1(z, β) =β

π(β2 + z2),

que e a distribuicao de Cauchy-Lorentz.Fazendo α = 2,8 tem-se:

L2(z, β) =1

2

(1

πβ

)1/2

exp(− z2

4β) ,

que e a distribuicao normal, note que: β = σ2/2.

6Veja: R. N. Mantegna and H. E. Stanley, Stochas-tic process with ultraslow convergence to Gaussian: thetruncated Levy flight, Phys. Rev. Lett. 73, 2946-2949(1994).

7 ∫ ∞0

dx cos(bx) exp(−ax) =a

a2 + b2

8∫ ∞0

dx cos(bx) exp(−ax2) =1

2

(πa

)1/2exp

(−b2

4a

)

70

Page 71: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

6.16 Distribuicao de Tsallis

A funcao densidade de probabilidade de Tsallis e definida como:9

Pq(x) =[1− β(1− q)x2]1/(1−q)∫∞

−∞ dx[1− β(1− q)x2]1/(1−q).

6.16.1 −∞ < q < 1

Pq(x) =

Γ{(5−3q)/[2(1−q)]}x0√π

[1−

(xx0

)2]1/(1−q)

se |x| < x0

0 caso contrario

.

6.16.2 q = 1

Neste caso obtem-se a distribuicao normal:

P1(x) =e−βx

2√π/β

.

6.16.3 1 < q < 3

Pq(x) =

(q − 1

π

)1/2Γ[1/(q − 1)]

Γ[(3− q)/(2(q − 1))]

1

[1 + (q − 1)x2]1/(q−1). (6.25)

Lembrando que Γ(1/2) =√π, para q = 2 esta distribuicao e a distribuicao de Cauchy-Lorentz

P2(x) =1

π(1 + x2).

9Veja: C. Tsallis, S. V. F. Levy, A. M. C. Souza and R. Maynard, Statistical-mechanics foundation of theubiquity of Levy distributions in nature, Phys. Rev. Lett. 75, 3589-3593 (1995).

71

Page 72: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

6.17 Distribuicao de Gibbsou Distribuicao deBoltzmann

A funcao densidade de probabilidade de Gibbsou Boltzmann e:

p(x) =eE(x)/T∫∞

−∞ dx′eE(x′)/T

onde E(x) e uma funcao da variavel aleatoriax e T e um parametro de controle. A formada distribuicao e controlada pela mudanca doparametro T , que e chamado de temperaturaem termodinamica. Esta funcao densidade deprobabilidade nao e em geral analiticamente in-tegravel a nao ser em alguns muito simples E,constante por exemplo.

6.18 Distribuicao de Expo-nencial Esticada

A funcao densidade de probabilidade da ex-ponencial esticada (“stretched exponencial”) edada por:

P (x) =c

x0

(x

x0

)c−1

e−(xx0

)c, (6.26)

e a funcao acumulada para c > 1 e:

Pac(x) = e−(xx0

)c. (6.27)

Tem-se que:

E(x) = x0

(1

c

(1

c

)(6.28)

E(x2) = x20

(2

c

(2

c

)(6.29)

onde Γ(z) e a funcao gama.O rabo de uma funcao densidade de proba-

bilidade do produtos de um numero finito n devariaveis aleatorias em geral tem a forma de umaexponencial esticada.10 O parametro c = 1/n eo inverso do numero de produtos (ou geracoes)em um processo multiplicativo.

A exponenciais esticadas sao caracterizadaspor c ≤ 1. O caso de c = 1 corresponde a umafuncao densidade de probabilidade exponencial.

10U. Frish and D. Sornette, J. Phys. I France 7, 1155(1997).

Para c < 1, a funcao acumulada Pac(x) apre-senta uma nıtida curvatura em um grafico log-log exibindo ainda um comportamento linearrelativamente grande a medida que c diminui.Esta distribuicao pode entao ser utilizada paralevar em consideracao um regime de escala limi-tado e a transicao para o regime de nao-escala.11

Quando se utiliza a exponencial esticada, o des-vio de uma lei de potencia deve ser de apresentaruma caracterıstica fundamental e simplesmenteum efeito de tamanho finito.

6.19 Distribuicao de Voigt

A funcao densidade de probabilidade de Voigt edefinida como: 12

V (x) =a

βπ3/2

∫ ∞−∞

dye−y

2

(u− y)2 + a2. (6.30)

Em geral esta integral e calculada numerica-mente, mas para u � 1, V (x) se aproxima deuma funcao densidade de probabilidade normal(gaussiana) e para u� 1, V (x) se aproxima deuma funcao densidade de probabilidade de Cau-chy (lorentziana). Observe que a funcao densi-dade de probabilidade de Voigt e a convolucaode uma gaussiana (distribuicao de Maxwell develocidades) com uma lorentziana (termo de co-lisoes).

6.20 A Regra de Bayes

Considere dois vetores das variaveis aleatorias~x e ~y tal que a p(~x, ~y) densidade de probabili-dade conjunta e contınua, a funcao densidade deprobabilidade marginal de ~x e:

p(~x) =

∫d~xp(~x, ~y) ,

que pode ser compreendida como a funcao den-sidade de probabilidade de ~x ignorando, ou fa-zendo a media sobre a variavel ~y.

A funcao de densidade de probabilidade con-dicional p(~x|~y) que e a funcao densidade de pro-babilidade de ~x dado o valor de ~y e definidocomo:

p(~x|~y) =p(~x, ~y)

p(~y).

11J. Laherrere and D. Sornette, Stretched exponentialdistributions in nature and economy: “fat tail” with cha-racteristic scales, Eur. Phys. J. B 2, 525–539 (1998).

12Veja: R. Measures, Laser remote sensing: funda-mentals and applications, John Wiley & Sons, New York(1984) ISBN: 0-471-08193-0.

72

Page 73: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Entao:p(~x, ~y) = p(~x|~y)p(~y)

Tambem vale:

p(~y|~x) =p(~x, ~y)

p(~x),

ep(~x, ~y) = p(~y|~x)p(~x) .

Combinando estes resultados:

p(~x|~y)p(~y) = p(~y|~x)p(~x) ,

o que leva a regra de Bayes:

a posteriori︷ ︸︸ ︷p( ~x︸︷︷︸

modelo

| ~y︸︷︷︸dados

) =

verosimilhanca︷ ︸︸ ︷p(~y|~x)

p(~y)

a priori︷︸︸︷p(~x) .

A relacao acima e amplamente utilizada emproblemas de estimacao de parametros do mo-delo por ajuste de curvas. Se ~x for identifi-cado como sendo o modelo e ~y como sendo ovetor de dados, p(~x|~y) a probabilidade de ~xdado as medidas de ~y expressa como uma funcaode p(~x), a funcao densidade de probabilidademarginal do modelo independente dos dados ep(~y|~x) a probabilidade condicional de ~y dado ~x.Chama-se p(~x|~y) a funcao densidade de probabi-lidade a posteriori enquanto que p(~x) e a funcaodensidade de probabilidade a priori e contem ainformacao sobre o modelo independentementedas medidas. A funcao densidade de probabi-lidade marginal p(~y) e geralmente consideradaconstante e p(~x, ~y) e chamado do funcao de ve-rosimilhanca.

A interprecao e a seguinte. O estado de in-formacao de ~x e ~y e descrito pela funcao den-sidade de probabilidade conjunta p(~x, ~y). A in-formacao torna-se disponıvel a medida que osvalores ~y sao obtidos. A questao e, como deveser calculada a funcao densidade de probabi-lidade de ~x nesta situacao? De acordo comas definicoes de probabilidade condicional, estafuncao densidade de probabilidade deve ser pro-porcional a p(~y|~x) com os valores obtidos de ~y.A formula final para funcao densidade de pro-babilidade condicional p(~x|~y) e entao dada pelaregra de Bayes.

A regra de Bayes e particularmente atraentepois e uma formulacao matematica de como oconhecimento em um dado instante pode seratualizado a medida que novas informacoes setornam disponıveis.

73

Page 74: Notas de Aula da Disciplina de Estat stica
Page 75: Notas de Aula da Disciplina de Estat stica

Capıtulo 7

Distribuicoes Multivariadas

Em um espaco de dimensao N , temos que:

dp = d~rf(~x) = dx1 . . . dxNf(x1, . . . , xN ) ,

a condicao de normalizacao garante que:∫ ∞−∞

d~xf(~x) = 1 .

7.1 Variaveis Independentes

Se as componentes de ~x forem independentesentao:

f(~x) =

N∏i=1

fi(xi) ,

e o valor medio e escrito como:

µ(~x) =

∫ ∞−∞

d~xf(~x)~x =

N∏i=1

∫ ∞−∞

dxfi(x)x ,

se todas as distribuicoes forem similares f1(x) =. . . = fN (x) = f(x):

µ(~x) = [

∫ ∞−∞

dxf(x)x]N .

7.2 Soma de VariaveisAleatorias

Considere o problema onde:

s =

n∑i=1

xi ,

onde xi e distribuido de acordo com fi(x). Dese-jamos obter a distribuicao de s. As componentesde ~x sao independentes.

Vejamos o comportamento do valor medio eda variancia de S. O valor medio e calculadosimplesmente:

E(S) =

n∑i=1

E(Xi) .

Como as variaveis sao independentesvariancia de S e dada por:

Var(S) =

n∑i=1

Var(Xi) . .

Se f1 = f2 = . . . fn = f , temos que: E(S) =E(X) e que: Var(S) = nVar(X). Deste modo odesvio relativo ao valor medio: Var(S)/E(S) =Var(X)/E(X)1/

√n. Este comportamento do

desvio relativo e devido a independencia entreas variaveis.

Tendo calculado o valor medio e a varianciade s, passamos ao calculo da distribuicao p(s)cujo o valor medio e variancia foram calculadosacima.

Consideramos primeiramente a situacao deduas variaveis aleatorias (N = 2). A distri-buicao de s pode entao ser escrita como:

p(s)ds =

∫ ∞−∞

dx1f1(x1)

∫ ∞−∞

dx2f2(x2) ,

onde x1 e x2 sao tais que s ≤ x1 + x2 ≤ s+ ds.Usando a funcao delta de Dirac temos que:

p(s)ds =

∫ ∞−∞

dx1f1(x1)

∫ ∞−∞

dx2f2(x2)

δ(s− x1 − x2)ds (7.1)

= ds

∫ ∞∞

dx1f1(x1)f2(s− x1) .(7.2)

Temos entao a convolucao de duas funcoes, im-plicando que uma tranformada de Fourier e aoperacao adequada:

p(k) ≡∫ ∞−∞

dsejksp(s) = f1(k)f2(k) .

Para N variaveis, podemos mostrar que:

p(k) =

n∏i=1

fi(k) .

75

Page 76: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Se f1 = . . . = fn = f , temos que: p(k) = fn(k).A distribuicao de s pode entao ser calculada

utilizando a transformada inversa:

p(s) =1

∫ ∞−∞

dke−jksp(k)

=1

∫ ∞−∞

dke−jksN∏i=1

fi(k) . (7.3)

7.3 Teorema Central do Li-mite

Consideramos agora o caso em que n� 1 e porsimplificacao a situacao em que: f1 = . . . =fn = f . Temos entao que:

p(s) =1

∫ ∞−∞

dke−jksfn(k) .

O integrando contem uma funcao oscilatoria dex que oscila mais rapidamente quanto maior fork. Para valores grandes de k a integral e pra-ticamente nula, sendo que a maior parte dascontribuicoes provem de k pequeno. O termofn(k) tende tambem a diminuir muito rapida-mente aumentando o valor de k. Os valores sig-nificativos deste termo (uma vez que n � 1)provem de k pequeno. Matematicamente exigi-mos que: |df/dx|/k � f . Consideraremos so-mente valores de k suficientemente pequenos nocalculo da integral fn(k).

Considere o termo:

f(k) =

∫ ∞−∞

dxejkxf(x) ' 1+jk〈x〉−k2

2〈x2〉+. . . ,

onde 〈xn〉 =∫∞−∞ dxf(x)xn.

Supondo que |f(x)| → 0 rapidamente o sufi-ciente para preservar o primeiro e segundo mo-mento finitos quando |x| → ∞, temos:

ln fn(k) ' n ln(1 + jk〈x〉 − k2

2〈x2〉+ . . .)

' ln(jk〈s〉 − k2

2σ2s) ,

o que leva a:

fn(x) ' exp

(jk〈s〉 − k2

2σ2s

).

A distribuicao de s e entao escrita como:

p(s) =1

∫ ∞−∞

dk exp

{−σ

22

2[k2 − 2k

j(s− 〈s〉)σ2s

]

},

completando o quadrado, temos:

p(s) =1

2πe− (s−〈s〉)2

2σ2s

∫ ∞−∞

dke−−σ

2s

2 (k− j(s−〈s〉)σ2s

)2

=1

2πe− (s−〈s〉)2

2σ2s

√2π

σs(7.4)

De modo que:

p(s) =1√

2πσse− (s−〈s〉)2

2σ2s .

Desta maneira vemos que se n� 1, s e distri-buido de acordo com uma distribuicao normal.Esta distribuicao e centrada em 〈s〉 e tem comodispersao σs que foram obtidos na Eqs. ?? e??. Notamos que embora nossa deducao consi-dera que as distribuicoes f1(x), . . . , fn(x) sejamidenticas, o resultado da Eq. 7.3 pode ser ob-tido para distribuicoes arbitrarias, desde que oprimeiro e segundo momentos sejam finitos.

Vemos que somente o primeiro e segundo mo-mentos (valores medios e dispersao, respectiva-mente) das distribuicoes fi(x) sao preservados,os detalhes das distribuicoes fi(x) (momentos deordem superior) sao completamente negligenci-ados a medida que n cresce.

Notamos tambem que mesmo que havendocorrelacao entre as variaveis xi, e que estas cor-relacoes tem um alcance finito, o teorema do li-mite central pode ser demonstrado, neste caso asvariaveis sao agrupadas dentro da distancia decorrelacao e a novas variaveis sao tratadas comovariaveis independentes (renormalizacao).?

7.3.1 Teorema Central do Limite:Levy-Gnedenko

A ideia por tras do teorema central generalizadode Levy-Gnedenko diz que a N convolucoes deuma distribuicao com os momentos mais baixosdivergentes tende a uma distribuicao de Levy nolimite N →∞ se tal limite for divergente.

76

Page 77: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

7.4 Distribuicoes Bivariadas

7.4.1 Distribuicao Normal

NX,Y (µX , σ2X , µY , σ

2Y , ρ) =

1

2πσXσY√

1− ρ2

exp

{−1

2(1− ρ2)

[z2X + z2

Y − 2ρzXzY]}

zX =x− µXσX

zY =y − µYσY

,

onde µX e µY sao os valores medios, σX e σYsao os desvios-padrao e ρ e a correlacao entre Xe Y .

Em termos das variaveis reduzidas tem-se adistribuicao normal bivariada padrao:

NzX ,zY (0, 1, 0, 1, ρ) =1

2π√

1− ρ2

exp

[−1

2(1− ρ2)

(z2x + z2

y − 2ρzxzy)]

,

7.4.2 Distribuicao de Cauchy

C(zx, zy) =1

1

(1 + z2x + z2

y)3/2.

77

Page 78: Notas de Aula da Disciplina de Estat stica
Page 79: Notas de Aula da Disciplina de Estat stica

Capıtulo 8

Experimentacao

Muito do conhecimento que a humanidadeacumulou ao longo dos seculos foi adquiridoatraves da experimentacao. No entanto, a ex-perimentacao somente se difundiu como tecnicasistematica de pesquisa no seculo XX, quandofoi formalizada atraves da estatıstica. Astecnicas experimentais sao universais e se apli-cam a diferentes areas do conhecimento, e osmetodos de analise sao sempre os mesmos.

A realizacao de pesquisa empırica levantaquestoes relativas ao plano de observacao da re-alidade, bem como a escolha do metodo paraprocessamento e analise dos dados. O planoestrategico de observacao da realidade que ori-entara o detalhamento posterior dos metodos etecnicas necessarios a execucao da pesquisa echamado de delineamento.

Muitos delineamentos sao realizados com afinalidade de comparacao do que esta sendomedido ou observado, ou seja a variavel emanalise, que chamaremos de variavel dependenteem funcao do tratamento que e a variavel inde-pendente.

De acordo com a natureza logica e estru-tural desse plano, as pesquisas podem serreconhecidas como: experimentos, quase-experimentos ou estudos observacionais.

O tipo de pesquisa em que o investigadorcontrola a ocorrencia das variaveis indepen-dentes (causa, fator) para observar seus efei-tos sobre variaveis consideradas dependentes(efeito,resposta) e chamado de experimento.

Nas pesquisas em que os investigadores naopodem controlar a ocorrencia de variaveis inde-pendentes sao considerados quase-experimentos.

Em realidades nas quais a introducao de ma-nipulacao artificial e considerada inviavel ouinadequada, as pesquisas baseiam-se no regis-tro de ocorrencia natural da caracterısticas doselementos e denominam-se estudos observacio-nais.

O levantamento por amostragem permite a

obtencao de informacoes a respeito de valorespopulacionais desconhecidos, por meio da ob-servacao de apenas uma parte (amostra) do seuuniverso de estudo (populacao).

Os levantamentos podem ter finalidades des-critiva, limitando-se a estimar frequencias deelementos com determinada caracterıstica, ouestimar medias, desvios, probabilidades, cor-relacoes, etc.

Os elementos de uma populacao sao unida-des de observacao e a analise determinadas pe-los objetivos do levantamento. A menor partedistinta da populacao, identificavel para fins deenumeracao e sorteio e a unidade amostral. As-sim se a unidade de sorteio e a mesma para ob-servacao e analise, a unidade amostral sera oelemento. Por outro lado, se a populacao foridentificada por conjuntos de elementos, a uni-dade amostral sera o conglomerado, ainda que aunidade de observacao seja o elemento.

Para designar cada unidade (elemento da po-pulacao) utilizada no experimento, utiliza-se ostermo unidade experimental ou parcela. Umconjunto de unidades experimentais e denomi-nado de grupo, ou amostra.

Nem sempre o interesse, em experimentacao,e o de comparar tratamentos. Frequentemente,pode-se perguntar se um tratamento tem efeitoem conjunto de unidades experimentais, grupotratado, quando comparado com um conjuntode unidades experimentais que nao recebeu tra-tamento: grupo controle1.

A ideia, em experimentacao e comparar valo-res populacionais estimados pelos grupos e naoapenas unidades. As unidades experimentais deum mesmo grupo (elemento da amostra) rece-bem o nome de repeticoes, replicas, amostra. Ouso de repeticoes visa tornar o experimento maisconfiavel, ou seja, quanto maior o numero de re-

1Nas ciencias medicas e paramedicas, que envolvemexperimentacao com seres humanos, e preciso discutir aetica de constituir um grupo controle.

79

Page 80: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

peticoes mais confiavel. Do ponto de vista es-tatıstico, e sempre desejavel que os experimen-tos tenham grande numero de repeticoes. Napratica, o numero de repeticoes e limitado pelosrecursos disponıveis. Na determinacao do tama-nho das amostras estes dois aspectos conflitantesdevem ser levados em consideracao.

Alem da repeticao, e necessario que os variosgrupos sejam tao homogeneos quanto o possıvel.Uma maneira de faze-lo e sortear as unidades ex-perimetais que farao parte de cada grupo. Esteprocedimento e denominado de causualizacao(amostragem). A causualizacao garante garanteque unidades com caracterısticas diferentes te-nham a mesma probabilidade de serem designa-das para grupos diferentes. O objetivo da causu-alizacao e o de minimizar os erros sistematicos2.

Para evitar a tendencionalidade, e desejavelque o experimentador nao conheca de qualgrupo uma unidade faca parte ao medir avariavel dependente. Estas experiencias sao cha-madas de experiencias cegas.

Alem disso, em experiencias com seres hu-manos, nao se deve informar a pessoa a qualgrupo ela pertence. Deve-se tambem ser manti-dos alheios aos resultado do sorteio todos os pro-fissionais envolvidos no tratamento destas pes-soas. Estas experiencias sao chamadas de ex-periencias duplamente cega.

Em alguns casos, por razoes de etica, e impe-rativo explicar as pessoas que elas estao fazendoparte de um experimento.

Em suma, para planejar um experimento eessencial:

1. definir a unidade experimental,

2. designar o que sera medido ou observado(variavel dependente) e a forma como estavariavel como sera medida ou observada,

3. definir os tratamentos (variaveis indepen-dentes) que serao colocados em com-paracao,

4. estabelecer a maneira de fazer a casua-lizacao (amostragem).

A casualizacao designa os tratamentos as uni-dades experimentais por processo aleatorio. Asvezes, e preciso impor restricoes a casualizacao.

2Em medicina a ideia de sortear quais os pacien-tes que receberam um dado tratamento pode levantarquestoes de etica.

80

Page 81: Notas de Aula da Disciplina de Estat stica

Capıtulo 9

Estatıstica Indutiva

A inferencia estatıstica tem por objetivo fa-zer generalizacoes sobre uma populacao combase em dados de uma amostra, i.e., como fa-zer afirmacoes sobre caracterısticas de uma po-pulacao, baseados em resultados de uma amos-tra.

Salienta-se que tres problemas basicos nesteprocesso sao:

1. Teoria da Amostragem,

2. Estimacao de parametros,

3. Teste de hipotese sobre parametros.

9.1 Teoria da Amostragem

A amostragem probabilıstica e um processo paraa obtencao de amostras onde se garante que todoelemento pertencente a populacao possua pro-babilidade, conhecida e nao-nula, de pertencera amostra sorteada.

A populacao pode ser: i) finita quando conhe-cemos o numero de elementos N que a compoesou ii) infinita, caso contrario.

9.1.1 Amostragem Casual Simples

A amostragem casual simples e o processode amostragem probabilıstica em que as com-binacoes de n diferentes elementos, dos N quecompoem a populacao, que assumimos finita,possuem igual probabilidade de vir a ser a amos-tra efetivamente sorteada. Cada elemento podeser sorteado com ou sem reposicao.

No caso de sorteio com reposicao, a populacaoque e finita pode ser considerada infinita.

No caso sem reposicao, em cada etapa dosorteio, todos os elementos remanescentes temigual probabilidade de selecao. O numero de

possıveis amostras e dado por:

(Nn

)e a pro-

babilidade de cada amostra ser sorteada e defi-

nida por 1/

(Nn

).

Valem as seguintes propriedades:

1. Nao ha repeticao de nenhum elemento naamostra sorteada.

2. A ordem dos elementos na amostra nao eimportante.

3. Antes de efetuado o sorteio, a probabilidadede qualquer elemento ser selecionado numafixada etapa do sorteio e igual a 1/N .

4. Antes de efetuado o sorteio, a probabilidadede qualquer elemento pertencer a amostrasorteada e igual a n/N .

Na amostragem casual simples, os elementostem igual probabilidade de pertencer a amos-tra sorteada, diz-se que a amostra e equiproba-bilıstica, e essa condicao caracterizara o proce-dimento de estimacao proprio desse processo deamostragem.

O numero f = n/N e chamado de fracao glo-bal de amostragem e significa a proporcao de ele-mentos da populacao que serao observados.

Na pratica, uma amostra casual simples e ob-tida sorteando-se, sem reposicao, elemento porelemento ate completar o tamanho n da amos-tra.

Formacao de Grupos

Considere uma amostra casual simples de n ele-mentos. Para comparar o efeito de k tratamen-tos sobre a variavel em analise V , designa-se ostratamentos as unidades (elementos da amos-tra) por processo aleatorio, sem nenhuma res-tricao (distribuicao uniforme). Este e um expe-rimento e inteiramente ao acaso, onde o grupoi tem ni elementos (repeticoes) de modo que:∑ki=1 ni = n.

81

Page 82: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Pode-se interpretar este experimento de ou-tra maneira. Considere k populacoes, sendo quecada populacao esta associada a cada um tra-tamento e tira-se, por uma amostragem casualsimples, k amostras, cada uma com ni elemen-tos, de cada populacao.

Se n1 = n2 = · · · = nk tem-se um experimentointeiramente ao acaso com numero igual de re-peticoes. Caso contrario, tem-se experimento in-teiramente ao acaso com numero diferente derepeticoes. Recomenda-se fazer mais repeticoesno grupo controle do que nos grupos tratados,pois todos os grupos tratados sao comparadoscom o mesmo grupo controle.

Formacao de Blocos

Se a condicao experimental (tanto espacialquanto temporal) nao for homogenea no decor-rer do experimento e conveniente fazer experi-mentos em blocos ao acaso.

Um bloco e definido com sendo uma regiaoespacial ou intervalo temporal que tenham amesma caracterıstica e que contenham unidadessimilares, que se distinguam apenas pelo trata-mento que recebem. Se a alocacao dos k tra-tamentos em um dado bloco for um processoaleatorio sem nenhuma restricao (distribuicaouniforme) chama-se este experimento de expe-rimento em blocos ao acaso.

Se o numero de elementos de um bloco que re-ceba um tratamento for maior do que a unidade,chamamos este experimento de experimento emblocos com repeticoes.

Emparelhamento

Para estudar o efeito de um tratamento mui-tas vezes pode-se utilizar a mesma unidade.Mede-se a variavel em analise. Aplica-se umtratamento e mede-se a variavel em analise.Neste caso de experiencia antes-depois, tem-seamostras empalheradas. Outra situacao onde asamostras podem ser consideradas emparelhadase quando trabalha-se com clones, ou seja, os ele-mentos das amostras sao identicos e estao sub-metidos a condicoes experimentais identicas, di-ferindo somente o tratamento. No segundo casopode-se imaginar que varios tratamentos foramaplicados a mesma unidade.

Exitem varios outros delineamentos que uti-lizam a ideia de agrupar as unidades similares,constituindo blocos. Por exemplo, experimentosem quadrados latinos, experimentos rotacionais,

experimentos hierarquicos, experimeto em par-celas subdividas, etc.

9.1.2 Amostragem aleatoria Es-tratificada

A tecnica de obtencao de amostras em que apopulacao de N elementos (ou unidades amos-trais) e previamente dividida em grupos mutua-mente exclusivos, os chamados estratos, e dentrodos quais sao sorteadas amostras casuais simplesde tamanho nh, chama-se amostragem estratifi-cada.

A probabilidade de um elemento pertencer aamostra sorteada e igual a fh = nh/Nh, e aestimativa global e calculada pela combinacaodas estimativas parciais obtidas em cada estratoh.

Segue abaixo as razoes para estratificar:

• Deseja-se aumentar a precisao da estima-tiva global, partindo-se do conhecimento deque a variabilidade da caracterıstica estu-dada e grande.

• Necessidade de obter estimativas para di-versos segmentos da populacao. Neste caso,a precisao e fixada para cada estrato quepassa a ser chamado de domınio.

• Deseja-se que a amostra matenha a com-posicao da populacao segundo algumas ca-racterısticas basicas.

• Conveniencia administrativa ou operacio-nal.

• Deseja-se controlar o efeito de algumacaracterıstica na distribuicao da carac-terıstica que esta sendo avaliada.

A amostragem otima e dada quando:

n1

N1=n2

N2= . . . =

nhNh

=n

N.

9.1.3 Amostragem por Conglome-rados

Quando os elementos da populacao sao reunidosem grupos e, por sua vez, alguns destes sao sor-teados para compor a amostra, o procedimentodenomina-se amostragem por conglomerados. Aamostragem por conglomerados introduz umaeconomia na contrucao de sistema de referenciaou cadastro, dispensando a necessidade de listaro total de elementos que compoe a populacao.

82

Page 83: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

O processo de amostragem por conglomeradospode ser desenvolvido segundo algumas alterna-tivas:

1. Sorteio, em estagio unico, de uma amos-tra casual simples de alguns conglomerados.Todos os elementos de cada conglomeradosorteado serao considerados. Este procedi-mento pode alterar o tamanho da amostrae/ou a fracao de amostragem previamentedefinidas.

2. Sorteio em dois estagios. No primeiro umaamostra casual simples de conglomerados esorteado e, no segundo, serao sorteados ele-mentos de cada conglomerado selecionado,adotando a fracao de amostragem f2 calcu-lada em funcao da fracao f1 determinadano estagio precedente. Fixa-se que todos oselementos tem a mesma probabilidade f depertencer a amostra sorteada. Isto equivalea dizer que a amostra e equiprobabilıstica,assim f2 = f/f1. Este procedimento pre-serva a fracao de amostragem previamentedefinida mas nao o tamanho da amostra.

3. Sorteio em dois estagios com probabilidadeproporcional ao tamanho dos conglomera-dos. Este procedimento preserva tanto otamanho da amostra quanto a fracao deamostragem pre-definidos. O numero deelementos sorteadosde cada conglomeradoe constante.

9.1.4 Eliminacao de Dados Sus-peitos

Ocorre as vezes na pratica que, ao levantarmosdados amostrais verificamos que, certos elemen-tos nao deveriam pertencer a amostra. Ha al-guns criterios para a eliminacao de dados.

Criterio de Chauvenet

O criterio de Chauvenet deve ser utilizado se odesvio padrao da populacao σ for conhecido econsiste de:

1. calcular x,

2. determinar d = max(|xi − x|), com i =1, 2, · · · , n,

3. determinar C = d/σ,

4. comparar com Cc conforme tabela abaixo.

(a) se C > Cc, eliminar o elemento daamostra que causou e repetir o pro-cesso quantas vezes for necessario,

(b) se C ≤ Cc, nao a ha dados a eliminar.

Tamanho da amostra n Cc5 1,656 1,737 1,808 1,869 1,9210 1,9612 2,0314 2,1016 2,1618 2,2020 2,2422 2,2824 2,3126 2,3530 2,3940 2,5050 2,58100 2,80200 3,02500 3,295000 3,8950000 4,42500000 4,895000000 5,3350000000 5,73

Estes valores sao validos para distribuicoesaproximadamente normais.

Criterio de Arley

O criterio de Arley deve ser utilizado se o des-vio padrao da populacao σ nao for conhecido econsiste de:

1. Calcular x e s,

2. determinar r = max(|xi − x|)/s, com i =1, 2, · · · , n,

3. determinar C = d/σ, se nao conhecermosσ, devemos substituir por s,

4. Comparar com rc, onde rc e dado pela dis-tribuicao r− de Student com ν = n − 2graus de liberdade.

(a) Se r > rc, eliminar o elemento daamostra que causou e repetir o pro-cesso quantas vezes for necessario,

83

Page 84: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(b) Se r ≤ rc, nao a ha dados a eliminar.

O nıvel de significancia α do teste pode serdeterminado em funcao do tamanho da amostraconforme a tabela abaixo:

Tamanho da amostra n αde 1 ate 5 0,100de 5 ate 10 0,050de 10 ate 50 0,010

mais do que 50 0,001

Havendo mais do que 10% de dados a elimi-nar, deve-se suspeitar da normalidade da po-pulacao.

9.1.5 Ausencia de Resposta

9.2 Estatısticas eParametros

Obtida uma amostra de tamanho n com ele-mentos ~X = (X1, X2, . . . , Xn), desejamos usa-la para produzir alguma caracterıstica T daamostra. Uma estatıstica e uma caracterısticada amostra, ou seja, uma estatıstica T e umafuncao de X1, X2, . . . , Xn, T = f( ~X).

Com os Xi e uma variavel aleatoria, a es-tatıstica T tambem e uma variavel aleatoria. Adistribuicao dos valores de T e denominada dedistribuicao amostral de T .

As estatısticas mais comuns sao:

• estatıstica da media X =∑ni=1Xin ,

• da variancia da amostra S2 =∑ni=1(XiX)2

n−1 ,

• o menor valor da amostra X< =min(X1, . . . , Xn),

• do maior valor da amostra X> =max(X1, . . . , Xn),

• da amplitude total da amostra W = X> −X<,

• proporcao p, etc.

Um parametro e uma medida usada para des-crever uma caracterıstica na populacao.

Os parametros mais comuns sao: media µ,variancia σ2, probabilidade p, etc.

9.3 Estimadores

Os parametros sao funcoes de valores populacio-nais, enquanto que as estatısticas sao funcoes de

valores amostrais. Considere o parametro θ esteparametro pode ser estimado pela estatıstica T ,ou seja, T e o estimador de θ. Cada estatısticae referente a um estimador.

O estimador T do parametro θ e qualquerfuncao das observacoes ~Xn = (X1, . . . , Xn), i.e.,um estimador e que chamamos de estatıstica.

O problema da estimacao e, entao, determinaruma funcao T = g( ~Xn) que seja “proxima” deθ, segundo algum criterio.

Antes de prosseguirmos com as propriedadesdos estimadores, devemos definir certas grande-zas.

9.3.1 Erro Amostral

O erro amostral Erro(T ) e o erro que comete-se ao estimar o parametro θ da distribuicao davariavel aleatoria X atraves do estimador T ba-seado na amostra ~Xn.

Erro(T ) = T − θ .

9.3.2 Vies

Define-se o vies do estimador T como sendo ovalor esperado de seu erro amostral:

Vies(T ) = E[Erro(T )] = E(T )− θ ,

ou seja, o vies e distancia entre o valor medioE(T ) e o valor-alvo θ que se procura atingir.

9.3.3 Erro Quadratico Medio

O erro quadratico medio do estimador T e:

EQM(T ) = E[Erro2(T )] = E[(T − θ)2]

= Var(T ) + Vies2(T ) . (9.1)

9.3.4 Precisao

A precisao como sendo a “proximidade” de cadaobservacao com relacao a media X, ou seja, aprecisao e inversamente proporcional ao desviopadrao s, quanto maior o desvio padrao, menora precisao e vice-versa:

Precisao(T ) =1√

Var(T ).

9.3.5 Acuracia

A acuracia mede a “proximidade” de cada ob-servacao ao valor alvo que se procura atingir, ou

84

Page 85: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

seja, a acuracia e inversamente proporcional aoerro quadratico medio:

Acuracia(T ) =1√

EQM(T )

=1√

Var(T ) + Vies2(T )

=1√

1

Precisao2(T )

+ Vies2(T ).(9.2)

Um estimador preciso tem variancia pequena,mas pode ter um erro quadratico medio grande.Por outro lado, um estimador acurado e nao-viesado e tem variancia pequena, o que implicaem um erro quadratico medio pequeno.

9.3.6 Propriedades dos Estimado-res

Deseja-se de um estimador que ele seja acuradoe eficaz. Para atingir estes objetivos os estima-dores devem ter varias propriedades:

1. Um estimador dever ser nao enviesado:Vies(T ) = 0.

2. Um estimador deve ser consistente se:limn→∞ P [|Vies(Tn)− θ| > ε]→ 0.

3. Se T e T ′ sao dois estimadores nao-viesadosde um mesmo parametro θ, e Var(T ) <Var(T ′), entao, T e dito mais eficiente doque T ′.

A primeira propriedade garante que o estima-dor T na media atinge o valor-alvo.

A segunda propriedade pode ser re-escrita emduas condicoes:

1.

limn→∞

Vies(Tn) = 0

2.

limn→∞

Var(Tn) = 0

.

Se um estimador for nao-viesado entao ele au-tomaticamente satisfaz a condicao 1.

Exemplos

1. O estimador X ele e nao-viesado poisVies(X) = E(X) − µ = µ − µ = 0. Ele

e consistente pois, como ele e nao-viesadolimn→∞Vies(Xn) = 0 e

limn→∞

Var(Xn) = limn→∞

σ2

n= 0 .

2. O estimador md ele e nao-viesado poisVies(md) = E(md) − µ = µ − µ = 0. Elee consistente pois, como ele e nao-viesadolimn→∞Vies(mdn) = 0 e

limn→∞

Var(mdn) = limn→∞

π

2

σ2

n= 0 .

3. Os dois estimadores X e md sao nao-viesados e consistentes, mas X e mais efici-ente do que md pois Var(X) < Var(mdn) =π/2Var(X).

4. Considere o estimador

σ2 =1

n

∑i = 1n(xi − X)2 .

Tem-se

E(σ2) =n− 1

nσ2

Var(σ2) =

(n− 1

n

)22σ4

n− 1.

Este estimador e viesado pois Vies(σ2) =σ2/n, mas consistente pois

limn→∞

Vies(σ2) = 0 (9.3)

limn→∞

Var(σ2) = 0 . (9.4)

Por causa do vies de σ2 e que se considera oestimador variancia amostral para estimara variancia da populacao.

5. A varianica amostral e definida como; s2 =nσ2/(n−1), assim: E(s2) = σ2 e Var(s2) =2σ4/(n− 1). Este estimador e nao-viesado,consistente e menos eficiente do que σ2.

9.3.7 Estimadores de MınimosQuadrados

Ate o momento temos utilizado estimado-res de parametros populacionais, como media,variancia, probabilidade, mediana, simples-mente tentando imitar na amostra o que acon-tece na populacao.

E interessante utilizar outros metodos paraobter os estimadores

85

Page 86: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

9.3.8 Estimadores de Maxima Ve-rossimilhanca

O princıpio de maxima verossimilhanca afirmaque devemos escolher aquele valor do parametroθ que maximiza a probabilidade de obter aamostra observada, na ordem particular em queos elementos da mesma aparecem.

86

Page 87: Notas de Aula da Disciplina de Estat stica

Capıtulo 10

Distribuicoes Amostrais

Nosso objetivo e fazer uma afirmacao sobreparametros da populacao atraves da estatısticada amostra. Por exemplo, a nossa afirmacaodeve ser feita sobre o parametro θ da populacao.Decide-se utilizar uma amostra casual simplesde n elementos sorteados dessa populacao. Naamostra utilizamos a estatıstica T , que e umafuncao dos elementos da amostra, ou seja, e umavariavel aleatoria. Colhida uma amostra, obser-vamos um dado valor de T , por exemplo, t1, ebaseado nesse valor e que faremos a afirmacaosobre o parametro da populacao θ.

Considere agora que tiramos todas aspossıveis amostras de tamanho n da populacao.Para cada amostra k, o valor da estatıstica Te tk. A distribuicao dos valores tk formam adistribuicao amostral.

Para cada estatıstica temos uma distribuicaoamostral. Veremos em seguida as distribuicoesamostrais mais comuns.

10.1 Distribuicao Amostraldo Numero de Suces-sos para Populacoes Fi-nitas

Considere uma populacao com N elementosonde r elementos sao sucesso e os restantesN − r fracasso. Faz-se uma amostragem ca-sual simples (sem reposicao) onde retira-se nelementos da populacao, a probabilidade de seter k elementos que sao sucesso na amostra edada pela distribuicao hipergeometrica. Cha-mando p = r/N e q = (N − r)/N = 1 − p,esta distribuicao esta centrada em E(k) = np eVar(k) = npq(N − n)/(N − 1)

10.2 Distribuicao Amostralda Proporcao para Po-pulacoes Finitas

A distribuicao amostral da proporcao pode serobtida da Distribuicao Amostral do numero desucessos observando que:

p =k

n

10.3 Distribuicao Amostraldo Numero de Sucessospara Populacoes Infini-tas

Considerando uma populacao infinita, consisteem tomar N � n e r � k, assim a distribuicaohipergemetrica pode ser aproximada pela distri-buicao binomial

bn(k) =

(nk

)pk(1− p)n−k ,

sendo p a probabilidade de sucesso.

10.4 Distribuicao Amostralda Proporcao para Po-pulacoes Infinitas

Considere uma amostra de tamanho n, sendop a probabilidade de sucesso, a probabilidadede se obter k sucessos e dada pela distribuicaobinomial:

Pp(k, n) =

(nk

)pk(1− p)n−k .

A proporcao de sucesso e p = k/n. Entao adistribuicao amostral da proporcao e uma dis-tribuicao binomial Pp(k/n, 1).

87

Page 88: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Sabemos que:(nk

)pk(1−p)n−k = Ip(k, n−k+1)−Ip(k+1, n−k)

onde Ix(a, b) e a funcao beta incompleta

n∑k′=k

Pp(k, n) = Ip(k, n− k + 1)

A probabilidade de F ′ > F e dado por paraν1 e ν2 graus de liberdade e Iν2/(ν2+ν1F )(

ν22 ,

ν12 ).

Observe que a distribuicao binomial pode seraproximada pela funcao de densidade F de Sne-decor fazendo:

k =ν2

2, (10.1)

n =ν1 + ν2

2− 1 , (10.2)

p =ν2

ν2 + ν1F. (10.3)

e(nk

)pk(1−p)k = Ip(k, n−k+1)−Ip(k+1, n−k) .

10.4.1 Aproximacao pela distri-buicao Normal

[FAZER]

10.5 Distribuicao Amostralda Soma

Consideremos um populacao identificada pelavariavel X, cujos parametros media populaci-onal µ = E(X) e variancia populacional σ2 =Var(X) sao conhecidos. Retiramos todas aspossıveis amostras casuais simples de tamanhon dessa populacao e calculamos a soma dosvalores de todos os elementos de cada amos-tra. Na amostra k, temos S(k) =

∑ni=1X

(k)i .

A distribuicao amostral de S tem como valor

esperado (media) E(S) =∑ni=1 E(X

(k)i ), mas

como todos os elementos provem da mesma po-

pulacao E(X(k)i ) = µ, levando a S = nµ. A

variancia da distribuicao amostral e Var(S) =∑ni=1 Var(X

(k)i ), uma vez que a tiragem de

cada elemento da amostra e independente, destemodo: Var(S) = nσ2.

Devemos considerar duas situacoes:

• Se a distribuicao dos valores dos elementosna populacao seguir uma distribuicao nor-mal com media µ e variancia σ2, N(µ, σ2),para qualquer valor de n ,

• Se distribuicao tiver variancia definida, σ2

finito, para n� 1,

pelo teorema do limite central, a distribuicaoamostral da soma e uma distribuicao normalcom media E(S) no caso E(S) = nµ e varianciaVar(S), no caso Var(S) = nσ2, assim a distri-buicao amostral da soma e N(nµ, nσ2).

10.6 Distribuicao Amostralda Media: Variancia daPopulacao Conhecida

Pode-se obter a distribuicao amostral da mediaa partir da distribuicao amostral da soma. Paraisto basta fazer uma mudanca de variavel, ouseja, multiplicar 1/n o valor de cada elementoda amostra.

X(k) =S(k)

n=

n∑i=1

X(k)i

n=

1

n

n∑i=1

X(k)i

Assim:

• E(X) = E(S)/n = µ e,

• Var(X) = σ2/n.

Observe que a distruicao amostral da media euma distribuicao normal N(µ, σ2/n) e dependede dois parametros, a media da populacao µ eda variancia das medias das amostras σ2/n.

10.6.1 Populacao de Tamanho Fi-nito:

No caso da populacao ser finita de tamanho ndevemos considerar a variancia da media dasamostras como sendo

Var(X) =σ2

n

N − nN − 1

.

e usual trabalhar com o fator z

z =x− E(X)√

Var(X)=

x− µσ√n

√N−nN−1

.

88

Page 89: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Amostragem Estratificada:

No caso de amostragem estratificada:

x =

k∑i=1

fixi ,

onde fi e a proporcao de estrato i em k estratosda populacao e a variancia e:

Var(X) =

k∑i=1

f2i s

2i

(1− 1

Ni

),

onde Ni e o numero de elementos no i-esimoestrato da populacao.

10.7 Distribuicao Amostralda Media: Varianciada Populacao Desco-nhecida

Se a variancia da populacao nao for conhecida,devemos considerar a variavel:

t =x− µ

s√n

√N−nN−1

,

onde s2 e variancia na amostra.A variavel t e distribuida de acordo com a

distribuicao t− de Student com ν = n− 1 grausde liberdade.

Observe que se o tamanho da populacao formuito maior do que o tamanho da amostra(N � n), pode-se escrever:

t =x− µs/√n.

10.8 Distribuicao Amostralda Mediana

10.9 Distribuicao Amostralda Variancia

Para a determinacao da distribuicao amotral davariancia, para uma amostra de tamanho n evariancia s2, deve-se considerar a variavel

χ2 =νs2

σ2,

com σ2 sendo a variancia da populacao. Avariavel χ2 segue a distribuicao do χ2 com ν =n− 1 graus de liberdade.

10.9.1 Distribuicao Amostral doCoeficiente de Correlacao

Transformacao de Fisher

z = tanh−1(r)

e a tranformacao inversa:

r = tanh(z) ,

onde tanh−1(x) e a funcao arco tangente hi-perbolico e tanh(x) e a funcao tangente hi-perbolica definida por:

tanh(x) =ex − e−x

ex + e−x=

e2x − 1

e2x + 1.

e

tanh−1(x) =1

2ln

(1 + x

1− x

)

10.9.2 Distribuicoes AmostraisDesconhecidas

Pode-se obter a distribuicao amostral de umagrandeza numericamente utilizando o metodo dobootstrap.

89

Page 90: Notas de Aula da Disciplina de Estat stica
Page 91: Notas de Aula da Disciplina de Estat stica

Capıtulo 11

Intervalos de Confianca

Vimos que a media populacional µ e estimadapelo estimador x, ou seja, x e um estimadorpontual de µ pois nao fornece a magnitude doerro cometido na inferencia. Surge entao a ideiade construir os intervalos de confianca, que saobaseados na distribuicao amostral do estimadorpontual.

Se T e um estimador de θ, e conhecida a dis-tribuicao amostral de T , sempre sera possıvelachar dois valores t< e t>, tal que:

P (t< ≤ θ ≤ t>) = γ ,

definem um intervalo onde exite a probabilidadeγ que o valor do parametro de modo que:

P (θ < t<) = P (θ > t>) =1− γ

2.

11.1 Uma Populacao

11.1.1 Media (Variancia da Po-pulacao Conhecida)

Neste caso considera-se a distribuicao amostralda variavel pivotal:

z =x− µsE

(11.1)

sE =σ√n, (11.2)

onde sE e o erro padrao.Para um dado coeficiente de confianca γ

obtem-se os valores ±zγ (a distribuicao de ze simetrica em torno da origem) atraves dasolucao de:

P (z > zγ) =1− γ

2=α

2.

Usando P (z > zγ) = [1−erf(zγ)]/2 = α/2, ondeerf(z) e a funcao erro. Entao:

zγ = erf−1(1− α) = erf−1(γ) .

Resolvendo em µ obtem-se:

µ><

= x± zγsE , (11.3)

de modo que existe a chance γ de:

µ< ≤ µ ≤ µ> . (11.4)

Determinacao do tamanho da amostra

O erro amostral e definido como:

ε = x− µ ,

de modo que o erro amostral maximo:

ε = x− µ< = µ> − x = z .

Considere |Erro(X)| = |X − µ| = |ε|. Paraque com um dado coeficiente de confianca γ setenha um erro amostral absoluto |ε| na estima-tiva de µ usa-se a Eq. 11.3 para a determinacaodo numero de elementos n na amostra:

n =(zγσ

ε

)2

.

11.1.2 Mediana (Variancia da Po-pulacao Conhecida)

Md = md±√π

2zγ

σ√n

11.1.3 Variancia

Neste caso considera-se a distribuicao amostralda variavel pivotal:

χ2 =νs2

σν = n− 1 ,

onde ν e o numero de graus de liberdade dosistema. Observe que para calcularmos s2 =∑ni=1(xi−x)2/(n−1) devemos conhecer x, como

91

Page 92: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

tem-se n variaveis independentes e o valor mediox, o problema tem n− 1 graus de liberdade, ouseja, n− 1 variaveis independentes.

Para um dado coeficiente de confianca γobtem-se os valores χ2

>(γ, ν) e χ2<(γ, ν) (a dis-

tribuicao de χ2 somente admite valores nulo epositivos e em geral nao e simetrica em torno deE(χ2) = µ. Resolvendo em σ obtem-se:

νs2

χ2>(γ, ν)︸ ︷︷ ︸σ2<

≤ σ2 ≤ νs2

χ2<(γ, ν)︸ ︷︷ ︸σ2>

.

O intervalo de confianca para o desvio-padrao:√νs

χ>(γ, ν)≤ σ ≤

√νs

χ<(γ, ν).

Aproximacao para grandes amostras

Se ν � 1, a distribuicao do χ2 converge parauma distribuicao normal com valor esperarado:

E(χ2) = n (11.5)

Var(χ2) = 2n , (11.6)

uma distribuicao: N(n, 2n). Assim os valoreslimites de intervalo de confianca sao:1

χ2><

(γ, ν) = n± zγ√

2n , (11.7)

e este intervalo pass a ser escrito como:

σ2 = s2 ± zγs2E,σ2 (11.8)

s2E,σ2 = s2

√2

n. (11.9)

Para o desvio-padrao tem-se:2

σ = s± zγsE,σ (11.10)

sE,σ =s√2n

. (11.11)

11.1.4 Media (Variancia da Po-pulacao Desconhecida)

Neste caso considera-se a distribuicao amostralda variavel:

t =x− µsE

sE =s√n

ν = n− 1 ,

1Mais rapido ainda converge a distribuicao de√

2χ2

com E(√

2χ2) =√

2n− 1 e Var(√

2χ2) = 1. Ver B. L.van der Waerden, Mathematical Statistics, pp. 102-103,Springer-Verlag, Berlin, 1969.

2M. R. Spiegel, Estatıstica, pp. 239, Makron Books,Sao Paulo, 1993.

onde sE e o erro padrao e ν e o numero de grausde liberdade do sistema. Observe que para cal-cularmos s2 =

∑ni=1(xi − x)2/(n − 1) devemos

conhecer x, como temos n variaveis e x o pro-blema tem n−1 graus de liberdade pois somenten− 1 variaveis sao independentes.

Para um dado coeficiente de confianca γobtem-se os valores ±tγ,ν (a distribuicao de te simetrica em torno da origem). Resolvendoem µ obtem-se:

µ = x± tγ,νsE .

Aproximacao para grandes amostras

Se ν � 1 a funcao de densidade de probabili-dade t de Student converge para a N(0, 1), destemodo o valor tγ,ν e praticamente independentedo tamanho da amostra n e de isto correspondea trocar o tγ,ν por zγ .

µ = x± zγsE .

Determinacao do tamanho da amostra

Considere |Erro(X)| = |X − µ| = |ε|. Para quecom um dado coeficiente de confianca γ se tenhaum erro ε (ε > 0) na estimativa de µ usa-sea Eq. 11.3 para a determinacao do numero deelementos n na amostra:

n =(zγsε

)2

.

11.1.5 Proporcao

O intervalo de confianca para a probabilidade edada por:3

L1 ≤ p ≤ L2 ,

com

k = pn (11.12)

L1 =k

k + (n− k + 1)Fα(2),ν1,ν2

(11.13)

ν1 = 2(n− k + 1) (11.14)

ν2 = 2k (11.15)

L2 =(k + 1)Fα(2),ν′1,ν

′2

n− k + (k + 1)Fα(2),ν′1,ν′2

(11.16)

ν′1 = ν2 + 2 (11.17)

ν′2 = ν1 − 2 (11.18)

3J. H. Zar, Biostatistical Analysis, Prentice-Hall, En-glewood Cliffs, New Jersey, 1984.

92

Page 93: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

k e o estimador do numero de sucessos (queocorrem com probabilidade p).

Se a populacao for finita de tamanho N :

L′1 ≤ p ≤ L′2 ,

L′1 =k − 1/2

n−(

k − 1/2

n− L1

)√1− n

N

L′2 = k1 + 1/n

n−(

L2 − k1 + 1/n

n

)√1− n

N

Aproximacao para grandes amostras:aproximacao da binomial pela normal

Se n � 1 e p ≈ 1/2 a distribuicao binomialpode ser aproximada pela distribuicao normal.O fato de se aproximar a disribuicao binomial,que e discreta, por uma normal, que e contınua,sugere que para maior precisao seja feita umacorrecao de continuidade (termo ±1/(2n)):

p = p±

(zγ

√p(1− p)

n+

1

2n

).

A equacao acima pode ser resolvida em p:

p =1

1 + z2γ/n

{p+

z2γ

2n±[

zγ√n

√p(1− p) +

z2γ ± 2(1− 2p)

4n− 1

4n2+

1

2n

]}.

Mas como p ≈ 1/2 pode-se desprezar o termo2(1 − 2p) em comparacao com z2

γ , desprezandotambem o termo 1/(4n2) em comparacao com otermo z2

γ/(4n) obtem-se: 4

p =1

1 + z2γ/n

{p+

z2γ

2n±[

zγ√n

√p(1− p) +

z2γ

4n+

1

2n

]}.

4A expressao inclui a correcao de continuidade na for-mula das paginas 244 e 245 M. R. Spiegel, Estatıstica,Makron Books, Sao Paulo, 1993.

se desprezarmos termos da ordem z2γ/n em com-

paracao a unidade entao:

p = p±

(zγ

√p(1− p)

n+

1

2n

).

Desprezando a correcao de continuidade1/(2n)� zγ/

√n tem-se:

p = p± zγ

√p(1− p)

n.

Populacao de Tamanho Finito:

Considere um populacao de tamanho N .

p = p±

(zγ

√p(1− p)

n

√N − nN − 1

+1

2n

),

escrevendo:

zγ = zγ

√N − nN − 1

,

p =1

1 + z2γ/n

{p+

z2

2n±[

z√n

√p(1− p) +

z2γ ± 2(1− 2p)

4n− 1

4n2+

1

2n

]}.

Determinacao do Tamanho da Amostra

11.1.6 Coeficiente de Correlacao

tanh(R−) ≤ ρ ≤ tanh(R+)

ondeR± = tanh−1(r)± zγ√

n− 3

11.2 Duas Populacoes

No caso de duas populacoes considera-se o in-tervalo de confianca para relacoes entre as gran-dezas. Para a media e proporcao considera-sea diferenca, ja para a proporcao considera-se adivisao.

11.2.1 Razao entre Variancias dasPopulacoes

Para duas amostras de tamanho na e nbcom as observacoes: x

(1)a , x

(2)a , . . . , x

(na)a e

93

Page 94: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

x(1)b , x

(2)b , . . . , x

(nb)b , de onde pode-se conhecer

para cada amostra a media e a variancia amos-tral: xa, s2

a, xb e s2b .

A variavel:

F (νa, νb) =s2a/σ

2a

s2b/σ

2b

(11.19)

νa = na − 1 (11.20)

νb = nb − 1 . (11.21)

A variavel F (νa, νb) segue a distribuicao deFisher-Snedecor com νa graus de liberdade nonumerador e νb graus de liberdade no denomi-nador.

O intervalo de confianca vale:

(sa/sb)2

Fγ,>(νa, νb)≤

(σaσb

)2

≤ (sa/sb)2

Fγ,<(νa, νb)(11.22)

Fγ,<(νa, νb) =1

Fγ,>(νb, νa)(11.23)

11.2.2 Diferencas de Medias(Variancia da PopulacaoConhecidas)

Para duas amostras de tamanho na e nbcom as observacoes: x

(1)a , x

(2)a , . . . , x

(na)a e

x(1)b , x

(2)b , . . . , x

(nb)b , de onde pode-se conhecer

para cada amostra a media e a variancia amos-tral: xa, s2

a, xb e s2b . Tem-se

µd = E(Xd) = E(Xa)− E(Xb) = µa − µb .

A media da diferenca das observacoes e:

xd = xa − xb .

Como as variancias populacionais sao conhe-cidas,

s2E =

σ2a

na+σ2b

nb. (11.24)

A variavel pivotal e escrita como:

z =xd − µdsE

. (11.25)

Desta maneira obtem-se:

µd = xd ± zγsE .

11.2.3 Diferencas de Medias(Variancias da PopulacoesDesconhecidas e Iguais)

Para duas amostras de tamanho na e nbcom as observacoes: x

(1)a , x

(2)a , . . . , x

(na)a e

x(1)b , x

(2)b , . . . , x

(nb)b , de onde pode-se conhecer

para cada amostra a media e a variancia amos-tral: xa, s2

a, xb e s2b . Tem-se

µd = E(Xd) = E(Xa)− E(Xb) = µa − µb .

A media da diferenca das observacoes e:

xd = xa − xb .

Uma vez que as variancias populacionais saoiguais mas desconhecidas, a melhor maneira deestimar esta variancia e utilizando a media dasvariancias amostrais ponderada pelo numero degraus de liberdade (tamanho da amostra):

s2D =

νas2a + νbs

2b

νa + νb(11.26)

νa = na − 1 (11.27)

νb = nb − 1 . (11.28)

A variavel pivotal e escrita como:

t =xd − µdsE

(11.29)

sE = sD

√1

na+

1

nb(11.30)

ν = νa + νb = na + nb − 2 , (11.31)

onde a variavel t segue uma distribuicao t-deStudent com ν graus de liberdade.

Desta maneira obtem-se:

µd = xd ± tγ,νsE .

11.2.4 Diferencas de Medias(Variancias da PopulacoesDesconhecidas mas Dife-rentes)

Para duas amostras de tamanho na e nbcom as observacoes: x

(1)a , x

(2)a , . . . , x

(na)a e

x(1)b , x

(2)b , . . . , x

(nb)b , tem-se

µd = E(Xd) = E(Xa)− E(Xb) = µa − µb .

A media da diferenca das observacoes e:

xd = xa − xb .

94

Page 95: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Como as variancias populacionais sao diferen-tes e desconhecidas,

s2E = wa + wb (11.32)

wa =s2a

na(11.33)

wb =s2b

nb. (11.34)

A variavel pivotal e escrita como:

t =xd − µdsE

(11.35)

ν =(w1 + w2)2

w21/ν1 + w2

2/ν2− 2 (11.36)

νa = na − 1 (11.37)

νb = nb − 1 . (11.38)

onde a variavel t segue uma distribuicao t-deStudent com ν graus de liberdade.

Desta maneira obtem-se:

µd = xd ± tγ,νsE .

11.2.5 Diferencas de Medias emAmostras Emparelhadas

Se duas amostras de tamanho n comas observacoes: x

(1)a , x

(2)a , . . . , x

(n)a e

x(1)b , x

(2)b , . . . , x

(n)b , estiverem emparelhadas,

devemos utilizar a grandeza:

x(i)d = x(i)

a − x(i)b ,

onde a populacao das diferencas das observacoestem valor medio:

µd = E(Xd) = E(Xa)− E(Xb) = µa − µb .

A media da diferenca das observacoes e:

xd = xa − xb .

A variancia da diferenca das observacoes e:

s2d =

1

n− 1

√√√√ n∑i=1

[x(i)d − µd]2 .

A variavel pivotal e escrita como:

t =xd − µdsE

(11.39)

sE =sd√n

(11.40)

ν = n− 1 , (11.41)

onde a variavel t segue uma distribuicao t-deStudent com ν graus de liberdade.

Desta maneira obtem-se:

µd = xd ± tγ,n−1sE .

11.2.6 Diferencas de Proporcoes

Para duas amostras de tamanho na e nbcom as observacoes: x

(1)a , x

(2)a , . . . , x

(na)a e

x(1)b , x

(2)b , . . . , x

(nb)b , de onde pode-se conhecer,

para cada amostra, o numero de sucessos ka ekb e consequentemente a proporcao de sucessos:

pa =kana

(11.42)

pb =kbnb

(11.43)

(11.44)

Tem-se a diferenca da proporcao de sucessosesperados populacionais e:

pd = E(Pd) = E(Xa)− E(Xb) = pa − pb .

A diferenca das proporcoes e:

pd = pa − pb .

A variancia da distribuicao amostral vale:

s2E =

pa(1− pa)

νa+pb(1− pb)

νb. (11.45)

A variavel pivotal e escrita como:

z =pd − pdsE

, (11.46)

Desta maneira obtem-se:

pd = pd ± zγsE .

Proporcoes Populacionais Iguais

Neste caso s2E pode ser melhor estimado por:

s2E = .

11.3 Exercıcios

1. Faz-se uma analise quımica de umasubstancia para determinar a concentracaode ferro. Efetuam-se 10 medidas porcoesdiferentes da substancia de onde se tira quex = 0, 300 e s = 0, 005. Para um coefici-ente de confianca γ = 0, 95 determinar ointervalo de confianca para:

(a) media e

(b) desvio-padrao.

95

Page 96: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

2. Deseja-se conhecer o nıvel de desempregoem uma certa comunidade. Com este in-tuito retira-se uma amostra aleatoria de900 pessoas que indicou um nıvel de desem-prego de 8%. Determine o intervalo de con-fianca de 93% para o nıvel de desemprego.

3. Deseja-se planejar uma amostra aleatoria,de uma populacao de 42000 residentes, paradeterminar a porcentagem de pessoas queestariam dispostas a contribuir para a cons-trucao de uma praca esportiva.

(a) Determinar o tamanho da amostrapara poder efetuar essa estimacao comuma confianca de 95, 44% com umaprecisao de ±0, 025 e sabendo que deuma sondagem piloto permitiram esti-mar esta porcentagem em 40%

(b) Qual seria o resultado se o experi-mento piloto nao tivisse sido reali-zado?

(c) Como seria levado em conta o fato dapopulacao ser de tamanho finito?

96

Page 97: Notas de Aula da Disciplina de Estat stica

Capıtulo 12

Teste de Hipoteses

Uma hipotese, em estatıstica, e uma alegacao,ou afirmacao, sobre uma propriedade de umapopulacao (parametro) atraves dos resultadosobtidos em amostras. O objetivo do teste es-tatıstico e fornecer ferramentas que nos permi-tam validar ou refutar hipoteses. A construcaode um teste de hipotese pode ser colocada doseguinte modo.

Considere uma variavel X em uma dada po-pulacao. Considere tambem uma hipotese so-bre determinado parametro θ dessa populacao,com relacao a um valor θ0 que pode ser vistocomo um parametro de uma populacao de con-trole. Por exemplo este parametro pode ser amedia populacional µ, a variancia σ2, a pro-porcao de sucesso p etc. Colhe-se uma amos-tra aleatoria de n (finito) elementos dessa po-pulacao, obtem-se o estimador T (X1, . . . , Xn)de θ. Este estimador pode ser a media amostralx = (x1 + . . .+xn)/n, a variancia amostral s2, aproporcao de sucesso na amostra p etc. Atravesdos valor deste estimador T deseja-se comprovarou refutar a hipotese considerada.

A hipotese de trabalho e a hipotese que es-tamos colocando a prova. Escreve-se entao ahipotese complementar , ou seja, a hipotese quee verdadeira se a hipotese de trabalho for falsa.Chama-se hipotese nula H0 aquela que possuium sinal de igualdade (=). A hipotese nula podeser tanto a hipotese de trabalho ou quanto ahipotese complementar.

Considere todas as possibilidades de com-paracao para a hipotese nula: H0 : θ = θ0,ou H0 : θ ≥ θ0 ou ainda H0 : θ ≤ θ0. Ahipotese nula e entao colocada a prova pela con-sideracao dela ser verdadeira no pior dos casos.Chama-se a atencao para a expressao: no piordos casos, pois e somente neste valor que se podeconhecer a distribuicao amostral e o valor deseus parametros. Seguindo esta consideracao, ahipotese nula pode ser aceita ou nao pelo testede hipotese.

Qualquer que seja a decisao tomada, estamossujeitos a cometer erros. Estes erros podem serde dois tipos:

1. Erro do tipo I: nao aceitar a hipotesenula H0 quando ela e verdadeira. Designa-se a probabilidade de cometer este erro porα, que tambem e chamado de nıvel de sig-nificancia do teste de hipotese.

2. Erro do tipo II: aceitar a hipotese nulaH0 quando ela e falsa. Designa-se por β aprobabilidade de cometer este erro.

O teste de hipotese e fundamentado no nıvelde significancia α. Observa-se que da tresvariaveis α, β e n, somente duas sao indepen-dentes. Isto quer dizer que dados os erros tipo I(α) e II (β), pode-se determinar o tamanho daamostra (n). Ou dado α e n, pode-se determinarβ.

Caso a hipotese nula H0 nao seja aceita,aceita-se a hipotese alternativa H1, que e ahipotese complementar a hipotese nula. Comrelacao as hipoteses nulas consideradas acima,tem-se como hipoteses alternativas: H1 : θ 6= θ0,H1 : θ < θ0 e H1 : θ > θ0, respectivamente.

O objetivo do teste de hipotese e dizer,atraves de uma estatıstica T obtida de umaamostra, se H0 e ou nao aceitavel para um dadonıvel de significancia α. A ideia e sempre assu-mir que a hipotese nula H0 (θ = θ0, θ ≥ θ0, θ ≤θ0) e verdadeira e colocar a prova esta ideia nopior dos casos. Da distribuicao amostral da es-tatıstica T considerada, obtem-se valores de re-ferencia da variavel pivotal para um dado nıvelde significancia α.

No conjunto de hipoteses: H0 : θ = θ0 eH1 : θ 6= θ0 faz-se um teste bilateral (teste bi-caudal) (pois aparece o sinal de diferente ( 6=) nahipotese alternativa), deste modo nao aceita-seH0 para valores muito pequenos (T < T<) oumuito grandes (T > T>) de T com relacao aos

97

Page 98: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

valores de referencia T<,> que sao obtidos paraum dado nıvel de signifancia do teste.

Ja no conjunto de hipoteses: H0 : θ ≥ θ0 eH1 : θ < θ0, faz-se um teste unilateral a es-querda (teste unicaudal a esquerda), deste modonao aceita-se H0 para valores muito pequenos(T < T<) de T (pois aparece o sinal de menor(<) em H1).

Finalmente se H0 : θ ≤ θ0 e H1 : θ > θ0 faz-se um teste unilateral a direita (teste unicaudala direita) nao aceitando H0 para valores muitograndes (T > T>) (pois aparece o sinal de maior(>) em H1).

Os valores de T< e/ou T> determinam aregiao de rejeicao, tambem chamada de regiaocrıtica do teste de hipotese. Convem salientarque a construcao da regiao de rejeicao e semprefeita assumindo que H0 e verdadeira no pior doscasos. A regiao de rejeicao (ou crıtica) e cons-truıda de modo que quando H0 for verdadeira,a probabilidade de nao aceitar H0 e α. Casoo valor observado da estatıstica T (variavel pi-vota) pertenca a esta regiao, nao aceita-se H0,consequentemente, aceita-se H1; caso contrario,aceita-se H0.

No entanto utiliza-se os verbos apoiar ou re-jeitar na resposta de um teste de hipotese per-mitindo assim saber se H0 e a hipotese de tra-balho ou sua complementar. Se hipotese nulafora a hipotese de trabalho ela pode ser rejei-tada ou nao pelo teste estatıstico. Se H0 naofor a hipotese de trabalho ela pode ser apoiadaou nao pelo teste.

E interessante estabelecer uma relacao en-tre o nıvel de signficancia α e o coeficiente deconfianca γ de um problema de estimacao deparametros. Para testes bilaterais (bicaudais),esta relacao e dada por:

α = 1− γ ,

e para testes unilaterais (monocaudais):

2α = 1− γ .

O poder do teste esta relacionado com o errotipo II e e dado por:

P = 1− β ,

e representa a probabilidade de aceitar H0 semcometer o erro tipo II.

A determinacao do valor de β ja e bem maisdifıcil, pois usualmente nao se especificam va-lores fixos para o parametro em H1. Pode-se

atribuir alguns valores, escolhido dentro do casoalternativo, e encontrar os valores corresponden-tes de β. Este procedimento sera tratado emdetalhes nos testes de hipoteses considerados.

12.1 Passos para a Cons-trucao de um Teste deHipoteses

Vimos acima o procedimento para realizar umteste de hipotese. A seguir mostra-se umasequencias de passos que pode ser utilizada sis-tematicamente para qualquer teste de hipoteses.

1. Determine a hipotese de trabalho e suacomplementar a partir de dados do pro-blema considerado.

2. Fixe a hipotese nula H0 como sendo aquelaque contenha um dos sinais: =, ≥ ou ≤. Ahipotese alternativa e o caso complementare imperativamente tera um dos sinais: 6=,<, >, dependendo de H0.

3. Use a teoria estatıstica e as informacoes dis-ponıveis para decidir qual estatıstica (esti-mador, consequentemente variavel pivotal)sera usada para julgar H0.

4. O tipo de teste e determinado pela hipotesealternativa H1

(a) Se emH1 aparecer o sımbolo 6=, o testesera lateral, ou seja, a regiao de re-jeicao e desconexa. Cada lado tem aprobabilidade α/2 de nao aceitar H0

caso ela seja verdadeira (erro tipo I).

(b) Se emH1 aparecer o sımbolo<, o testesera unilateral a esquerda, ou seja, aregiao de rejeicao e determinada de talmodo que se tenha a probabilidade αde nao aceitar H0 caso ela seja verda-deira (erro tipo I).

(c) Se emH1 aparecer o sımbolo>, o testesera lateral a direita, ou seja, a regiaode rejeicao e determindad de tal modique se tenha a probabilidade α de naoH0 caso ela seja verdadeira (erro tipoI).

98

Page 99: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

12.2 Nıvel Descritivo ou Va-lor P

O metodo de construcao do teste de hipotesedescrito acima e conhecido como procedimentoclassico do teste de hipotese.

Um procedimento alternativo consiste em naoespecificar a priori o valor do nıvel de signi-ficancia α e sim a posteriori. Para esta finali-dade designa-se por nıvel descritivo P , ou valor-P , o maior nıvel de significancia que deveriaser considerado para aceitar a hipotese nula H0.Para testes unilaterais o valor-P e a area abaixoda distribuicao amostral a partir do valor da es-tatıstica pivotal t. Para testes unilaterais a di-reita tem-se:

P = Prob(T > t) = 1− Pac(t) ,

e a esquerda:

P = Prob(T < t) = Pac(t) .

Para os testes bilaterais,

P

2= min (Prob(T < t),Prob(T > t))

= min (Pac(t), 1− Pac(t)) . (12.1)

12.2.1 Respondendo a um Testede Hipotese

A pergunta original com relacao ao parametroconsiderado e a hipotese de trabalho e pode sera hipotese nula H0 ou a hipotese alternativa H1.Considere primeiramente que a hipotese de tra-balho seja em H0: (θ = θ0, θ ≥ θ0 ou θ ≤ θ0) aresposta deve ser do tipo:

Ha evidencia ao nıvel de significancia α pararejeitar H0, se H0 for falso, ou para nao rejei-tar H0, se H0 for verdadeiro. Apesar do termonao rejeitar seja mais apropriado, constuma-seutilizar o termo aceitar nesta situacao.

Se a pergunta original for em H1 (θ 6= θ0,θ < θ0 ou θ > θ0) a resposta deve ser utilizandoo verbo apoiar. Assim, ha evidencia ao nıvelde significancia α para apoiar H0, se H0 forverdadeiro, ou para nao apoiar H0, se H0 forfalso.

12.3 Exercıcios

1. Uma variavel aleatoria tem uma funcaodensidade de probabilidade normal e

desvio-padrao igual a 12. Estamos testandose sua media e igual a 20. Para isso cole-tamos uma amostra de 100 valores dessavariavel onde obtivemos uma media amos-tral de 17,4.

(a) Formule as hipoteses

(b) Obtenha a regiao crıtica e de a con-clusao do teste para os seguintes valo-res de nıvel de significancia:

i. 1%

ii. 2%

iii. 4%

iv. 6%

v. 8%

2. Para uma variavel aleatoria com funcaodensidade de probabilidade normal comdesvio-padrao igual a 5, o teste da mediaigual a 5 contra a media igual a 14, teve aregiao crıtica dada por {x ∈ R : x > 12}para uma amostra de tamanho 25. Deter-mine as probabilidades dos erros tipo I eII.

3. Uma amostra com 50 observacoes de umavariavel aleatoria normal forneceu media de5,5 e variancia amostral de 4. Deseja-setestar ao nıvel de significancia de 5%, sea media na populacao e igual ou menor doque 6. Discuta o teste a ser utilizado umavez que nao se conhece a variancia da po-pulacao. Qual e a conclusao?

4. Um estudo foi desenvolvidos para avaliaro salario de empregadas domesticas na ci-dade de Sao Paulo. Foram sorteadas e en-trevistadas 200 trabalhadoras. Admita queo desvio-padrao dessa variavel na cidade ede 0,8 salarios mınimos.

(a) Voce conhece a distribuicao do estima-dor X? Se nao, e possıvel fazer algumasuposicao?

(b) Deseja-se testar se a media e igual a 3salarios mınimos ou e menor. Formuleas hipoteses adequadas.

(c) Construa a regiao crıtica para umnıvel de significancia de 3%.

(d) Se a amostra forneceu media de 2,5salarios mınimos, qual e a conclusao?

5. Segundo informacoes da montadora, o con-sumo medio de gasolina num certo tipo de

99

Page 100: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

automovel e de 15,0 km/litro. Uma revistaespecializada verificou o consumo de 25 des-ses veıculos, escolhidos ao acaso, e consta-tou consumo medio de 14,3 km/litro. Ad-mita que o consumo siga o modelo normalcom variancia igual a 9 (km/litro)2.

(a) Teste, ao nıvel de significancia de6%, a afirmacao da montadorade quea media de consumo e igual a 15,0km/litro, contra a hipotese alternativade ser igual a 14,0 km/litro.

(b) Determine a probabilidade de errotipo II.

(c) Determine o poder do teste.

6. A vida media de uma amostra de 100lampadas de certa marca e de 1615 horas.Por similaridade a outros processos de fa-bricacao, supomos o desvio-padrao igual a120 horas. Utilizando α = 5%, deseja-mos testar se a duracao media de todas aslampadas dessa marca e igual a 1600 horas.

(a) Qual e a conclusao?

(b) Determine a probabilidade de errotipo II se a media fosse 1620 horas.

(c) Qual o poder do teste acima?

7. Um criador tem constatado uma proporcaode 10% do rebanho com verminose. O ve-terinario alterou a dieta dos animais e acre-dita que a doenca diminuiu de intensidade.Um exame em 100 cabecas do rebanho, es-colhidas ao acaso, indicou 8 delas com ver-minose. Ao nıvel de 8%, ha indıcios de quea proporcao diminuiu?

8. Uma amostra com 10 observacoes de umavariavel aleatoria normal forneceu media de5,5 e variancia amostral d4. Deseja-se tes-tar ao nıvel de significancia de 5%, se amedia na populacao e igual ou menor doque 6.

(a) Qual e a conclusao?

(b) Qual o valor-P?

(c) Calcule o intervalo de confianca para

i. γ = 95%

ii. γ = 90%

9. Admitindo que a pressao sanguınea arterialem homens siga o modelo normal, pacien-tes foram sorteados e tiveram sua pressao

medida com os seguintes resultados: 84, 81,77, 85, 69, 80 e 79.

(a) Teste que a media e 82 contra a alter-nativa de ser 80. Use α = 2%.

(b) Determine o poder do teste para onıvel de significancia dado.

(c) Determine o intervalo de confiancapara media com nıvel de confianca de98%.

10. O tempo de permanencia de engenheirosrecem formados no primeiro emprego, emanos, foi estudado considerando um modelonormal com media e variancia desconheci-das. Por analogia com outras categoriasprofissionais, deseja-se testar se a media e2 anos contra a alternativa de ser 3 anos.Para uma amostra de 15 engenheiros, amedia obtida foi de 2,7 anos e o desvio-padrao amostral 1,4 anos.

(a) Para o nıvel de significancia de 1%,qual a conclusao do teste?

(b) Determine o poder do teste para onıvel de significancia dado.

(c) Determine o intervalo de confiancapara media com nıvel de confianca de99%.

11. Uma amostra de 20 observacoes de umavariavel com distribuicao normal foi colhidaobtendo-se desvio-padrao 1,2. No teste damedia ser maior do que 5, foi estabelecidaa regiao crıtica {t ∈ R|t > 2, 033}. Deter-mine a probabilidade de erro tipo I.

12. O numero de pontos em um exame de inglestem sido historicamente ao redor de 80.Sorteamos alguns estudantes que fizeramrecentemente esse exame e observamos se-guinte frequencia de notas:

Notas Frequencia50→ 60 160→ 70 170→ 80 480→ 90 4

Pode-se afirmar de que a media diminuiuao nıvel de significancia de 5 %?

100

Page 101: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

13. Um pesquisador esta realizando um testepara a media e obteve o valor-P igual a0,035. Ele aceitara a hipotese nula paranıveis de significancia superiores ou inferio-res a 0,035?

14. Sorteamos ao acaso, 12 observacoes de umavariavel aleatoria que segue o modelo nor-mal. Da amostra obtivemos media 21,7 edesvio-padrao 5,5. Determine o nıvel des-critivo do teste µ ≤ 18.

15. Uma urna contem bolas vermelhas e azuis.Para verificar a hipotese de igualdade dasproporcoes de cores, extraem-se com re-posicao 64 dessas bolas e decide-se aceitara hipotese acima, se o numero de bolas ver-melhas retiradas estiver 28 e 36.

(a) Determine a probabilidade de rejeitara hipotese, quando ela e realmente cor-reta.

(b) Qual a probabilidade do erro tipo II,se a verdadeira proporcao de bolas ver-melhas e 0,60?

(c) Quanto vale o poder do teste, se a pro-porcao de bolas vermelhas e 0,4?

16. A experiencia mostra que a taxa de com-plicacoes, associada a um determinado pro-cedimento cirurgico, e de 0,20. Como o ob-jetivo de reduzir esta taxa, um pesquisadordesenvolveu um novo procedimento e o apli-cou a uma amostra de pacientes.

(a) Se ele usar a tecnica em 100 pacientes,qual deveria ser a taxa limite para queconclua que a nova tecnica e melhor doque a anterior? Fixe o nıvel de signi-ficancia em 0,05.

(b) Se a verdadeira taxa de complicacaoassociada a nova tecnica for 0,08, quala probabilidade de que, em uma amos-tra de tamanho 100, ele nao consigarejeitar a hipotese nula?

(c) Suponha que o pesquisador mantenhaα = 0, 05 e deseje β0,1 = 0, 05. Qualdeve ser o tamanho da amostra paraque isto aconteca?

101

Page 102: Notas de Aula da Disciplina de Estat stica
Page 103: Notas de Aula da Disciplina de Estat stica

Capıtulo 13

Alguns Testes de Hipoteses Parametricos

Nos testes de hipoteses parametricos todas aspopulacoes consideradas tem caracterısticas queseguem uma funcao de densidade normal. Istoquer dizer que as grandezas: media e variancia(ou desvio-padrao) tem significado no problema.Estas grandezas sao de fato as grandezas rele-vantes pois parametrizam a funcao densidade deprobabilidade que representa a populacao.

13.1 Uma Populacao

A seguir apresenta-se os testes de hipotese ondese compara o valor de um parametro θ com ovalor θ0. Nao discutiremos aqui como θ0 (po-pulacao de controle) foi obtido.

13.1.1 Media com variancia popu-lacional conhecida

Considera-se uma populacao controle cuja ca-racterıstica X segue N(µ0, σ

20). Uma amos-

tra de tamanho n e retirada de uma populacaoN(µ, σ2). Admite-se que a variancia σ2 seja co-nhecida e vale σ2

0 (σ2 = σ20).

Considera-se a hipotese de trabalho µ = µ0,a hipotese complementar e µ 6= µ0. Como ahipotese de trabalho tem o sinal de igualdade(=) ela e a hipotese nula H0 e a hipotese comple-mentar e a hipotese alternativa H1. Este testede hipotese e bilateral pois na hipotese alterna-tiva tem o sinal de diferente (6=):

H0 : µ = µ0

H1 : µ 6= µ0 .

A variavel pivotal do teste de hipotese e:

z =x− µ0

sE(13.1)

sE =σ0√n, (13.2)

onde sE e o erro padrao.

13.1.2 Media com variancia popu-lacional desconhecida

t =x− µ0

sE(13.3)

sE =s√n

(13.4)

ν = n− 1 . (13.5)

13.1.3 Variancia

χ2 = ν

(s

σ0

)2

(13.6)

ν = n− 1 . (13.7)

13.1.4 Correlacao

Para testar a correlacao populacional considera-se dois casos:

• Se ρ0 = 0

t =r

sE

sE =

√1− r2

n− 2ν = n− 2 .

• Se ρ0 6= 0

z =tanh−1(r)− tanh−1(ρ0)

sE

sE =1√n− 3

.

13.1.5 Exercıcios

1. Uma amostra com 10 observacoes de umavariavel aleatoria normal forneceu media de5,5 e variancia amostral de 14. Deseja-setestar ao nıvel de significancia de 5%, se amedia na populacao e igual ou menor doque 6. Qual e a conclusao?

103

Page 104: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

2. Admitindo que a pressao sanguınea arterialem homens siga o modelo normal, 7 pacien-tes foram sorteados e tiveram sua pressaomedida com os seguintes resultados: 84, 81,77, 85, 69, 80 e 79.

(a) Teste que a media e 82 contra a alter-nativa de ser 80. Use α = 2%.

(b) Determine o poder do teste para onıvel de significancia dado.

(c) Determine o intervalo de confiancapara media com nıvel de confianca de98%.

3. O tempo de permanencia de engenheirosrecem formados no primeiro emprego, emanos, foi estudado considerando um modelonormal com media e variancia desconheci-das. Por analogia com outras categoriasprofissionais, deseja-se testar se a media e2 anos contra a alternativa de ser 3 anos.Para uma amostra de 15 engenheiros, amedia obtida foi de 2,7 anos e o desvio-padrao amostral 1,4 anos.

(a) Para o nıvel de significancia de 1%,qual a conclusao do teste?

(b) Determine o poder do teste para onıvel de significancia dado.

(c) Determine o intervalo de confiancapara media com nıvel de confianca de99%.

4. Uma amostra de 20 observacoes de umavariavel com distribuicao normal foi colhidaobtendo-se desvio-padrao 1,2. No teste damedia ser maior do que 5, foi estabelecidaa regiao crıtica {t ∈ R|t > 2, 033}. Deter-mine a probabilidade de erro tipo I.

5. O numero de pontos em um exame de inglestem sido historicamente ao redor de 80.Sorteamos alguns estudantes que fizeramrecentemente esse exame e observamos se-guinte frequencia de notas:

Notas Frequencia50 → 60 160 → 70 170 → 80 480 → 90 4

Pode-se afirmar de que a media diminuiuao nıvel de significancia de 5%?

13.2 Duas Populacoes

13.2.1 Variancias

F =

(s1

s2

)2

ν1 = n1 − 1

ν2 = n2 − 1 .

13.2.2 Medias

Variancias Populacionais Conhecidas

z =x1 − x2 − (µ1 − µ2)

sE

sE =

√σ2

1

n1+σ2

2

n2.

Variancias Populacionais Desconhecidas eIguais

t =x1 − x2 − (µ1 − µ2)

sEν = ν1 + ν2 = n1 + n2 − 2

sE = sD

√1

n1+

1

n2

s2p =

ν1s21 + ν2s

22

νν1 = n1 − 1

ν2 = n2 − 1 .

Variancias Populacionais Desconhecidas eDiferentes

t =x1 − x2 − (µ1 − µ2)√

s21/n1 + s2

2/n2

ν =(w1 + w2)2

w21/ν1 + w2

2/ν2

w1 =s2

1

n1

w2 =s2

2

n2

ν1 = n1 − 1

ν2 = n2 − 1 .

104

Page 105: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Dados Emparelhados

13.2.3 Duas Correlacoes

Exercıcio 51 pag. 51 Morettin

z =∆r −∆ρ√

1/(n1 − 3) + 1/(n2 − 3)

∆r = tanh−1(r1)− tanh−1(r2)

∆ρ = tanh−1(ρ1)− tanh−1(ρ2)] .

13.2.4 Exercıcios

1. Para comparar as caracterısticas de duaspopulacoes primitivas, uma medida antro-pometrica foi obtida em fosseis coletadosem sıtios arqueologicos, fornecendo os se-guintes valores para a caracterıstica I

Caracterıstica I Sıtio A Sıtio Btamanho da amosta 17 23

Media (cm) 15,12 12,21Variancia (cm2) 0,124 0,184

(a) Para um nıvel de significancia de 10%o que pode ser concluıdo a respeito daigualdade das variancias?

(b) Obtenha o intervalo de confianca paraa razao das variancias populacionais.

(c) Obtenha o intervalo de confianca paraas variancias da populacoes para umcoeficiente de confianca de 90% (Ob-serve que se as variancias forem iguaisos dados devem ser agrupados paraeste calculo).

(d) Esta conclusao permanece valida paraum nıvel de significancia menor do que10%?

(e) Para um nıvel de significancia de 5%o que pode ser concluıdo a respeito daigualdade das medias?

(f) Obtenha o intervalo de confianca paraa diferenca das medias populacionais.

(g) Obtenha o intervalo de confianca paraas medias da populacoes para um co-eficiente de confianca de 95%.

um coeficiente de confianca de 95%(Observe que se as medias forem iguaisos dados devem ser agrupados paraeste calculo).

(h) Pode-se dizer que a media do sıtio A e3 cm maior do que a media do sıtio B,para um nıvel de significancia de 5%?

(i) Que conclusao que pode ser tiradacom relacao aos sıtios A e B?

2. Um fabricante de esferas para rolamentosdesenvolveu um novo metodo de producao,mais barato. Entretanto, ele desconfia queos novos lotes apresentavam variabilidadediferente daqueles produzidos pelo metodoantigo (com relacao ao diametro das esfe-ras). Para cada metodo, ele selecionou ale-atoriamente 15 esferas que forneceram osseguintes diametros (em mm):

Metodo Antigo Metodo Novo29,9 29,829,8 29,829,8 30,429,7 29,829,9 30,529,8 29,629,9 29,329,9 29,430,1 30,329,9 29,930,0 29,730,0 30,329,6 30,430,8 29,129,9 30,0

(a) Estas dados podem ser consideradosemparelhados? (Justifique a resposta)

(b) Para um nıvel de significancia de 10%o que pode ser concluıdo a respeito daigualdade das variancias?

(c) Obtenha o intervalo de confianca paraas variancias da populacoes para umcoeficiente de confianca de 90% (Ob-serve que se as variancias forem iguaisos dados devem ser agrupados paraeste calculo).

(d) Esta conclusao permanece valida paraum nıvel de significancia menor do que10%?

(e) Para um nıvel de significancia de 10%o que pode ser concluıdo a respeito daigualdade das medias?

(f) Obtenha o intervalo de confianca paraa diferenca das medias populacionais.

105

Page 106: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

(g) Obtenha o intervalo de confianca paraas medias da populacoes para um co-eficiente de confianca de 95%.

um coeficiente de confianca de 95%(Observe que se as medias forem iguaisos dados devem ser agrupados paraeste calculo).

(h) Que conclusao que pode ser tiradacom relacao aos sıtios A e B?

3. Para avaliar se o nıvel de tensao ocasionadapor exames escolares, 12 estudantes foramescolhidos e sua pulsacao foi medida antese depois do exame

Antes Depois87 8378 8485 7993 8876 7580 8182 7477 7191 7874 7376 7679 71

(a) Estas dados podem ser consideradosemparelhados? (Justifique a resposta)

(b) Para um nıvel de significancia de 10%o que pode ser concluıdo a respeito daigualdade das variancias?

(c) Obtenha o intervalo de confianca paraas variancias da populacoes para umcoeficiente de confianca de 90% (Ob-serve que se as variancias forem iguaisos dados devem ser agrupados paraeste calculo).

(d) Estime o valor-P do teste.

(e) Esta conclusao permanece valida paraum nıvel de significancia menor do que10%?

(f) Para um nıvel de significancia de 1%o que pode ser concluıdo a respeito daigualdade das medias?

(g) Obtenha o intervalo de confianca paraa diferenca das medias populacionais.

(h) Obtenha o intervalo de confianca paraas medias da populacoes para um co-eficiente de confianca de 95%.

um coeficiente de confianca de 95%(Observe que se as medias forem iguaisos dados devem ser agrupados paraeste calculo).

(i) Que conclusao que pode ser tiradacom relacao as pulsacoes antes e de-pois do exame?

(j) Refaca o teste de diferencas dasmedias usando α = 0, 05.

i. Em que conclusao se chega?

ii. Qual a razao desta diferenca?

4. Em um estudo sobre doencas infantis,deseja-se investigar se a incidencia de ca-sos de contaminacao por vermes e afetadapela idade. Dois grupos de criancas , umcom idades de 2 a 4 anos (Grupo I) e ooutro, com idades de 7 a 9 anos (GrupoII) foram escolhidos para serem examina-dos quanto a ocorrencia de vermes. Os da-dos sao apresentados a seguir: No Grupo Ide 120 criancas 10 tinham verminose e noGrupo II de 260 criancas 27 apresentaramverminose.

(a) Para um nıvel de significancia de 6%o que pode ser concluıdo a respeito daigualdade das proporcoes?

(b) Qual o valor-P do teste?

(c) Obtenha o intervalo de confianca paraa diferenca das proporcoes populacio-nais.

(d) Obtenha o intervalo de confianca paraas proporcoes das populacoes com coe-ficiente de confianca de 95% (Observeque se as proporcoes forem iguais osdados devem ser agrupados para estecalculo).

(e) Que conclusao que pode ser tiradacom relacao as contaminacao comrelacao a contaminacao por vermes?

(f) Pode-se dizer ao nıvel de significanciade 5% que no Grupo II difere de 6%com realacao ao Grupo I?

(g) Refaca o teste de diferencas das pro-porcoes usando α = 0, 10.

i. Em que conclusao se chega?

ii. Qual a razao desta diferenca se elaexistir?

106

Page 107: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

5. Com o nıvel de 5% de significancia, combase nos dados da Tabela abaixo, teste aafirmacao de que a percentagem de mulhe-res multadas por excesso de velocidade e in-ferior a dos homens. Pode-se concluir queos homens, de modo geral, correm mais doque as mulheres?

Multas por excesso develocidade em um ano

Sim NaoHomens 26 224Mulheres 27 473

6. (2,5 pt) Pergunta-se aos eleitores de duascidades se eles sao contra ou a favor de de-terminada lei em curso de legislatura do es-tado. Para determinar se os eleitores dasduas cidades diferem em termos da porcen-tagem, dos que sao a favor da lei, toma-seuma amostra de 100 eleitores em cada ci-dade. Na cidade A, 30 eleitores sao a favorda lei enquanto que na cidade B 20 eleitoressao favoaveis a ela.

(a) (1,0 pt) Ao nıvel de 1% de sign-ficancia, as proporcoes de voto a favorda lei sao distintas em cada cidade?Resp. −2, 58 ≤ z = 1, 47 ≤ 2, 58 ⇒apoia H0.

(b) (0,5 pt) Qual o valor-P do teste.Resp. P = 14, 2%.

(c) (1,0 pt) Obtenha a proporcao popu-lacional (ou proporcoes populacionais)com um nıvel de confianca de 99%.Resp. 0, 18 ≤ p ≤ 0, 34.

7. (2,5 pt) Em uma comparacao entre doismetodos de ensino, 11 criancas utilizandoo metodo A montaram um quebra-cabecasem um tempo medio de 3,2 minutos e comdesvio-padrao de 0,5 minuto. Um outrogrupo com 10 criancas, utilizando o metodoB, montou o mesmo quebra-cabecas em 2,8minutos com desvio-padrao de 0,6 minuto.

(a) (2,0 pt) Ao nıvel de significancia de5%, pode-se afirmar que o metodo Be mais eficiente para montar quebra-cabecas? Justifique os passos parachegar a conclusao. Resp. 0, 331 ≤F = 0.694 ≤ 3, 137 ⇒ nao rejeita aigualdade de variancias H0, isto conti-nua valido para α = 5% e t = 1, 66 <tc = 1, 73⇒ nao rejeita H0.

(b) (0,5 pt) Obtenha o desvio-padraoda populacao (desvios-padroes das po-pulacoes) com γ = 95% Resp. 0, 4 ≤σ ≤ 0, 8 minuto.

8. (2,5 pt) Considere os dados referentesa coleita de trigo em Kg/ha em diversasregioes, com o uso de um fertilizante tradi-cional e um novo fertilizante.

Novo Fertilizante Fertilizante Tradicional2250 19202410 20202260 20602200 19602360 1960

(a) (0,5 pt) Estas amostras podem seremparelhadas? Justifique a resposta.Resp. Sim, pois pode-se pensar queos terrenos sao equivalentes em tudomenos o tratamento.

(b) (1,0 pt) Pode-se dizer que o novofertilizante acarretou um aumento nacolheita ao nıvel de significancia 0,05?Resp. t = 7, 815 > tc = 2, 132 ⇒rejeita H0.

(c) (0,5 pt) Obtenha o intervalo de con-fianca para a diferencas das mediascom γ = 95%? Resp. 201 ≤ µ1 −µ2 ≤ 423 Kg/ha.

9. (2,5 pt) Se x1 = 4, 6 Kg, s1 = 1, 7 Kg,n1 = 10, x2 = 6, 0 Kg, s2 = 3, 1 Kg, en2 = 11.

(a) (0,5 pt) Pode-se dizer que os desvios-padroes sao iguais ao nıvel de signi-ficancia de 0,10? Resp. F =0, 301 ∈ [0, 331, 3, 14]⇒ rejeita H0

(b) (0,5 pt) Qual a variancia (ouvariancias) das populacoes com coefi-ciente de confianca de 0,95? Resp.1, 2 ≤ σ1 ≤ 3, 1 e 2, 2 ≤ σ2 ≤ 5, 4 Kg.

(c) (1,0 pt) Pode-se dizer que x2 e maiordo que x1 de 2,0 Kg para α = 10%?Resp. −1, 75 < t = 0, 542 < 1, 75⇒nao rejeita H0

(d) (1,0 pt) Obtenha o(s) intervalo(s) deconfianca para a media populacional(as medias populacionais) ao nıvel deconfianca 0,95. Resp. 3, 4 ≤ µ1 ≤5, 8 Kg e 3, 9 ≤ µ2 ≤ 8, 1 Kg.

107

Page 108: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

13.3 Varias Populacoes

13.3.1 Teste de Homogeneidadedas Variancias: Teste deBartlett

O teste de Bartlett e uma generalizacao do testeF de Fisher-Snedecor de igualdade de varianciaspara mais do que duas populacoes. Ele indica,por intermedio de um valor de χ2, com numerode graus de liberdade νE = a− 1, se existem ounao diferencas significativas entre as varianciasdas a > 2 populacoes analisadas. Estas po-pulacoes sao normais, caracterizadas por trata-mentos (fatores), de onde sao tiradas amostraspor amostragem casual simples. A hipotese nulae a hipotese alternativa sao dadas por:

• H0 : σ21 = σ2

2 = . . . = σ2a = σ2

• H1 : caso contrario, ou seja, de que existepelo menos uma populacao com varianciadiferente das demais.

A igualdade de variancias populacionais etambem chamada homocedasticidade.

O teste de Bartlett pode ser utilizado se osistema satisfizer as seguintes condicoes:

1. as distribuicoes dos elementos nas a po-pulacoes consideradas sao dadas por distri-buicoes normais: N(µ1, σ

21), N(µ2, σ

22), . . . ,

N(µa, σ2a).

2. As amostras sao aleatorias e mutuamenteindependentes.

O teste de Bartlett e muito sensıvel a condicaode normalidade. A rejeicao da hipotese nulapode ser um resultado de um desvio da condicaode normalidade ou da heterogeneidade dasvariancias.

A variancia media das amostras e obtida damedia das variancias amostrais ponderadas pelonumero de graus de liberdade de cada amos-tra. Em outras palavras, a variancia media ea soma do produto da variancia amostral s2

i

pelo numero de graus de liberdade νi = ni − 1da i-esima amostra de tamanho ni, divido pelonumero total de graus de liberdade

νD =

a∑i=1

νi = n− a , (13.8)

onde

n =

a∑i=1

ni (13.9)

e o numero total de observacoes. AssumindoH0 que seja verdadeiro, entao a variancia da po-pulacao σ2 e estimada pela variancia media dasamostras dada por:1

s2D =

∑ai=1 νis

2i∑a

i=1 νi. (13.10)

A variavel pivotal do teste e :

χ2 =νD ln s2

D −∑ai=1 νi ln s2

i

1 + 13(a−1)

(∑ai=1

1νi− 1

n−a

) , (13.11)

com graus de liberdade

νE = a− 1 . (13.12)

Como exemplo de utilizacao do teste consi-dere os dados da Tabela 13.1. Neste caso exis-tem 4 populacoes, das quais foram retiradas 4amostras. Assim, a = 4 e a variancia media dasamostras e obtida da seguinte maneira:

n = 10 + 11 + 12 + 13 = 46

νD = 46− 4 = 42

s2D =

1

42(9× 107, 6 + 10× 200, 2 +

11× 188, 2 + 12× 122, 7)

=6513

42= 155, 1 .

Deste modo pode-se obter a variavel pivotal doteste:

χ2 = {42 ln 155, 1− [9 ln 107, 6 +

10 ln 200, 2 + 11 ln 188, 2 +

12 ln 122, 7]}/(1 + 0, 04)

=1, 29

1 + 0, 04= 1, 24

com νE = 4− 1 = 3 graus de liberdade implicaem um valor de P = 0, 083. Para um nıvel designificancia α = 0, 05, P > α e portanto aceita-se que as variancias sao iguais nas 4 populacoes.

1Consideramos abaixo a notacao utilizada em varioslivros textos:

s2D = QMD =SQD

νD

SQD =

a∑i=1

SQD,i

SQD,i = νis2i

108

Page 109: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

T1 T2 T3 T474 89 86 8860 90 86 8674 60 62 8542 65 104 8974 82 62 8352 84 95 8565 54 79 9168 85 62 6862 58 94 9166 79 79 56

57 86 8985 94

97n1 = 10 n2 = 11 n3 = 12 n4 = 13x1 = 63, 7 x2 = 73, 0 x3 = 81, 7 x4 = 84, 8s21 = 107, 6 s22 = 200, 2 s23 = 188, 2 s24 = 122, 7

Tabela 13.1: Dados brutos e compilados de 4tratamentos.

Intervalo de Confianca

Se o valor-P for maior do que o nıvel de signi-ficancia do teste α (P > α), a hipotese de igual-dade das variancias nao e rejeitada. Pode-seentao estimar o valor da variancia da populacao.Para isso o intervalo de confianca, com nıvel deconfianca γ, e construido do seguinte modo:

νDs2D

χ2>,γ,νD

≤ σ2 ≤ νDs2D

χ2<,γ,νD

. (13.13)

Duas Populacoes

Neste caso reobtemos os resultados conhecidos:

n = n1 + n2

νD = n− 2

s2D =

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2

Amostras de Mesmo Tamanho: Teste deCochran

Se todas as amostras tiverem o mesmo tamanhoentao: n = n1 = n2 = . . . = na

χ2 =(n− 1)[a ln(1/s2

D)−∑ai=1 ln s2

i ]

1 + a−13a(n−1)

onde

s2D =

1

a

a∑i=1

s2i .

O teste de Cochran fornece um procedimentocomputacional muito simples, porem e restritoa situacoes nas quais os tamanhos das amostrassao iguais.

A variavel pivotal deste teste e:

G =max s2

i∑ai=1 s

2i

. (13.14)

Exercıcio

Considere os seguintes os dados da Tabela 13.2

13.3.2 Analise de Variancia(ANOVA)

A analise de variancia (ANOVA = ANalysis OfVAriance) utiliza testes de variancias para com-parar medias de duas ou mais populacoes. Ahipotese nula e a hipotese alternativa sao dadaspor:

• H0 : µ1 = µ2 = . . . = µa = µ

• H1, caso contrario, ou seja, a de que pelomenos uma das medias seja diferente dasdemais.

Para utilizar o metodo da analise de variancia osistema deve satisfazer as seguintes condicoes:

1. Assume-se que as distribuicoes dos ele-mentos nas populacoes consideradassao dadas por distribuicoes normais:N(µ1, σ

21), N(µ2, σ

22), . . . , N(µa, σ

2a) (teste

de Kolmogorov-Smirnov).

2. Assume-se que as variancias populacionaissao iguais: σ2

1 = σ22 = . . . = σ2

a = σ2 (testede Bartlett).

3. As amostras sao aleatorias e mutuamenteindependentes.

As exigencias de normalidade e igualdade devariancias (homocedasticidade) podem ser rela-xadas. Se as amostras tiverem mais ou menoso mesmo tamanho (mesma ordem de grandeza),a maior variancia pode ser uma ordem de gran-deza maior do que a menor variancia e aindaassim os resultados do teste ANOVA continuama ser confiaveis.

Este metodo e uma generalizacao do teste tde Student com variancias iguais para a > 2populacoes.

Observe que se:

• as variancias forem iguais ( σ21 = σ2

2 = . . . =σ2a = σ2),

• as distribuicoes forem normais (N(µ1, σ2),

N(µ2, σ2), . . ., N(µa, σ

2)), e

109

Page 110: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

T1 T2 T3 T4 T5 T6

47 42 3 66 13 3038 36 27 27 12 3329 33 48 9 30 1292 0 3 6 30 2441 18 27 42 18 5744 57 42 12 48 4447 48 69 21 18 3062 15 63 33 9 2459 18 30 24 30 3144 45 42 39 27 1847 30 60 18 39 3341 27 39 63 27 23

27 66 24 3966 15 3324 7 24

27 303724152742

n 12 15 21 12 13 16x 49, 250 35, 400 34, 952 30, 000 25, 000 30, 312s2 257, 114 295, 971 393, 648 384, 545 114, 923 115, 829

Tabela 13.2: Dados brutos e compilados de 6 tratamentos. Para realizar o teste de ANOVA, ostamanhos das amostras podem ser diferentes.

• a hipotese nula for aceita (µ1 = µ2 = . . . =µa = µ)

entao todas as amostras consideradas provem deuma mesma populacao: N(µ, σ2). Em termospraticos isto significa que os dados podem seragrupados.

Considerando as populacoes duas a duas, acomparacao de medias com o teste t de Stu-dent nao e aconselhavel, pois este procedimentoe pouco eficiente. O numero de testes que deveser realizado e

nT =

(a2

)=a(a− 1)

2,

onde a e o numero de amostras e o nıvel de sig-nifancia para os nT testes e αT = 1− (1−α)nT ,onde α e o nıvel de significancia de cada teste deStudent. Por exemplo, para estimar os interva-los de confianca para cada media individual e,entao testar a igualdade das medias ao nıvel designificancia αT = α, deve-se corrir o seguinte

nıvel de significancia em cada estimacao para:

α∗ = 1− (1− α)1/nT ≈ α

nT=

a(a− 1),

(13.15)o qual chamamos de nıvel de significancia deBonferroni.

Um fator

Um fator, ou um tratamento, e uma carac-terıstica que nos permite diferenciar as po-pulacoes umas das outras. Na pratica pode-seconsiderar como populacoes de interesse. O ob-jetivo e testar se as diferentes amostras podemser provenientes de populacoes classificadas porapenas uma categoria (fator ou tratamento).

Considere a tratamentos (amostras). Naamostra 1 tem-se n1 dados; na amostra 2, n2 ena a-esima amostra tem-se na dados. Estes da-dos estao representados na Tabela 13.3.2. Con-sidere como exemplo numerico a Tabela 13.1:2

2Neste caso: a = 4, n1 = 10, n2 = 11, n3 = 12 en4 = 13.

110

Page 111: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

T1 T2 . . . Ta

x(1)1 x

(2)1 . . . x

(a)1

x(1)2 x

(2)2 . . . x

(a)2

......

...

x(1)n1 x

(2)n2 . . . x

(a)na

Tabela 13.3: Dados x(i)j para a tratamentos

(amostras) , com i = 1, 2, . . . , a e j = 1, 2, . . . , nipara utilizacao do metodo ANOVA de um fator.

Considerando a hipotese nula (H0) verda-

deira, todos os n dados x(i)j (numero de ob-

servacoes), onde:

n =

a∑i=1

ni , (13.16)

provem de uma mesma populacao com mediaµ = µ1 = µ2 = . . . = µa. Observe que ja as-sumimos que as populacoes sao normais e asvariancias sao iguais σ2 = σ2

1 = σ22 = . . . =

σ2a, assim esta populacao e representada por:N(µ, σ2). A media µ da populacao e estimadapor:

x =1

n

a∑i=1

ni∑j=1

x(i)j , (13.17)

onde n e dado pela Eq. 13.16.A variancia da populacao e estimada por:

s2T = QMT =

SQTνT

(13.18)

SQT =

a∑i=1

ni∑j=1

[x(i)j − x]2 (13.19)

νT = n− 1 , (13.20)

onde x e n sao dados pelas Eqs. 13.17 e 13.16,respectivamente. O numero de graus de liber-dade total νT e o numero total de elementos me-nos uma unidade. Aqui SQT se refere a somados quadrados total e QMT ao quadrado mediototal (que e proporcional a variancia total).

O uso de SQ soma dos quadrados e QMquadrado medio e usual na nomenclatura dosmetodos ANOVA.

Imagine agora que tenhamos somente os resu-mos dos dados da Tabela 13.3.2 que e mostradona Tabela 13.3.2.

Se conhecemos somente o resumo dos dados(Tabela 13.3.2) e assumindo que a hipotese nula(H0) seja verdadeira, a media populacional µ e

estimada por x, que pode ser obtido dos dadosresumidos por:

x =1

n

a∑i=1

nixi , (13.21)

onde n e dado pela Eq. 13.16. Este valor e omesmo que o valor obtido pela Eq. 13.17.3 Japara estimar a variancia pode-se proceder deduas maneiras distintas.

Uma maneira e estimar a variancia populacio-nal σ2 utilizando as variancias amostrais obtidasdentro do tratamento (ou grupo). Pode-se entaoestimar σ2 atraves da media das varianciasamostrais ponderadas pelo numero de graus deliberdade da amostra:

s2D = QMD =

SQD∑ai=1 νi

=SQDνD

(13.22)

SQD =

a∑i=1

νis2i (13.23)

νi = ni − 1 (13.24)

νD =

a∑i=1

νi

=

a∑i=1

ni − a = n− a , (13.25)

onde n e dado pela Eq. 13.16. A grandeza SQDse refere a soma dos quadrados dentro dos trata-mentos (ou grupos). Observe que o numero to-tal de medidas n deve ser maior do que o numerode tratamentos a para que o numero de graus deliberdade νD seja positivo.

A outra maneira de estimar a variancia popu-lacional σ2 e utilizando o valor das medias amos-trais. Sabemos que se H0 for verdadeiro, xi estadistribuıdo seguindo a distribuicao N(µ, σ2/a).Assim a estimacao entre os tratamentos ou gru-

3Considere:

x =1

n

a∑i=1

nixi

=1

n

a∑i=1

ni

ni

ni∑j=1

x(i)j .

111

Page 112: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Resumo T1 T2 . . . Ta Grandezas de InteresseContagem n1 n2 . . . na n =

∑ai=1 ni

Media x1 x2 . . . xa x = (∑ai=1 nixi)/n s2

E = [∑ai=1 ni(xi − x)2]/(a− 1)

Variancia s21 s2

2 . . . s2a s2

D =∑ai=1 νis

2i /(n− a)

Tabela 13.4: Resumo dos dados da Tabela 13.1.

pos pode ser feita atraves de:

s2E = QME =

SQEνE

(13.26)

SQE =

a∑i=1

ni(xi − x)2 (13.27)

νE = a− 1 , (13.28)

onde x e n sao dados pela Eqs. 13.21 e 13.16respectivamente. A grandeza SQE se refere asoma dos quadrados entre os tratamentos (ougrupos).

Destas grandezas somente duas sao indepen-dentes, pois elas estao relacionadas:

SQT = SQE + SQD . (13.29)

Estas duas variancias formam a variancia total.

s2T =

νEs2E + νDs

2D

νT,

de modo que as tres variancias nao sao inde-pendentes mas seguem a regra acima. Pode-seentao considerar somente duas variancias.

Considere o seguinte modelo. Cada ob-servacao pode ser escrita como:

x(i)j = µi + εi,j ,

onde i = 1,2,. . . , a e j = 1, 2, . . . , ni e εi,j e oresıduo, erro com relacao a j-esima observacaodo i-esimo tratamento, E feita entao a suposicaode que os resıduos sao:

1. variaveis aleatorias independentes commedia nula e variancia σ2

ε desconhecida.

2. normais N(0, σ2e).

Escrevendo as medias de todos os tratamentos:

µ =1

a

a∑i=1

µi (13.30)

e

µi = µ+ ∆µi (13.31)a∑i=1

∆µi = 0 , (13.32)

onde ∆µi e o efeito do i-esimo tratamento.Desta maneira cada observacao pode ser escritacomo:

x(i)j = µ+ ∆µi + εi,j . (13.33)

A hipotese nula H0 : µ1 = . . . = µa e alter-nativa H1, de que pelo menos uma das medias ediferente das demais pode ser reformulada pelaseguintes hipoteses:

H0 : ∆µ1 = ∆µ2 = . . . = ∆µa = 0

H1 : pelo menos um efeito ∆µi 6= 0.

Nao e difıcil mostrar que:

a∑i=1

ni∑j=1

[x(i)j − x]2︸ ︷︷ ︸

SQT

=

a∑i=1

ni(xi − x)2

︸ ︷︷ ︸SQE

+

a∑i=1

ni∑j=1

[x(i)j − xi]

2

︸ ︷︷ ︸SQD

.

E necessario comparar uma medida apropri-ada da variacao entre os tratamentos com a va-riacao dentro destes (tratamentos), assim bus-cando detectar diferencas significativas nas ob-servacoes devido aos seus efeitos.

O valor esperado de s2E vale:

E(s2E) = σ2 +

1

a− 1

a∑i=1

(∆µi)2 , (13.34)

de modo que se H0 for verdadeiro entao a esti-mativa pontual da variancia populacional vale:

σ2 = E(s2E) . (13.35)

Observe que a segunda estimativa da varianciapopulacional

σ2 = E(s2D) (13.36)

e indiferente a veracidade ou falsidade dahipotese nula.

112

Page 113: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Uma vez que s2E superestima σ2 quando H0 e

falsa, tem-se que:

F =s2E

s2D

, (13.37)

com νE graus de liberdade no numerador eνD graus de liberdade no denominador. ComoE(s2

E) ≥ E(s2D) este teste e sempre unilateral a

direita.A variancia entre as amostras sera pequena

se as medias amostrais forem semelhantes e seragrande se as medias amostrais diferirem muitoentre si. A variancia dentro nao e afetada pelasmedias amostrais, ou seja, e independente dovalor dessas medias.

Deste modo e facil de ver que e possıvelutilizar os dados compilados em tabelas decontagem, media e variancia dos fatores (Ta-bela 13.3.2).

Em geral os dados das analise de variancia saodispostos na tabela de analise de variancia comoilustrado na Tabela 13.5.

A razao:

r2 =SQESQT

(13.38)

e chamada de coeficiente de explicacao do mo-delo, ou seja, a proporcao da variacao explicadapelo modelo considerado,

Intervalos de Confianca. Se o valor-P formaior ou igual do que o nıvel de significanciado teste α (P ≥ α), a hipotese de igualdadedas medias nao e rejeitada, como as varianciasja eram iguais (por hipotese) devemos estimaro valor medio da populacao. Para isso fazemosconstruimos um intervalo de confianca com nıvelde confianca γ do seguinte modo:

µ = x± tγ,νTsD√n

(13.39)

γ = 1− 2α , (13.40)

que corresponde a um teste unilateral.

Comparacoes Multiplas. Teste de Bon-ferroni. Se por outro lado o valor-P for menordo que o nıvel de significancia do teste (P < α),rejeita-se a hipotese nula e deve-se encontraronde as medias sao diferentes.

No caso mais conservador, e possıvel fazernT = a(a − 1)/2 comparacoes multiplas. Destemodo, para evitar que o erro tipo I cresca, ovalor do nıvel de significancia corrigido α∗ =

2α/[a(a−1)] (Eq. 13.15), deve ser utilizado. As-sim, a diferenca entre duas medias vale:

µi − µj = xi − xj ± tγ∗,νi+νjsD,i,j ×√1

ni+

1

nj(13.41)

s2D,i,j =

νis2i + νjs

2j

νi + νj(13.42)

γ∗ = 1− α∗ = 1− 2α

a(a− 1),(13.43)

que equivale a um teste de diferencas de mediasbilateral com nıvel de significancia α∗. Erazoavel no calculo deste intervalo de confiancautilizar toda a informacao disponıvel e conside-rar a variancia de todas as a amostras. Destemodo:

µi − µj = xi − xj ± tγ∗,νDsD ×√1

ni+

1

nj(13.44)

s2D =

∑ai=1 νis

2i

νD(13.45)

νD =

a∑i=1

νi = n− a . (13.46)

Desta maneira pode-se construir nT intervalosde confianca e duas medias sao consideradas dis-tintas quando valor zero nao pertencer ao dadointervalo. Este teste e chamado de teste de Bon-ferroni.

Para os dados da Tabela 13.1, a = 4, nT = 6,α∗ = 0, 0085 entao:

µ1 − µ2 ∈ [−25; 7]

µ1 − µ3 ∈ [−33;−3] (?)

µ1 − µ4 ∈ [−34;−8] (?)

µ2 − µ3 ∈ [−26; 8]

µ2 − µ4 ∈ [−27; 3]

µ3 − µ4 ∈ [−11; 17] .

As diferencas significativas sao destacadas pelosımbolo ?,

Comparacoes Multiplas. Teste deScheffe. O metodo de Scheffe e mais eficientedo que o metodo de Bonferroni e escreve-se as

113

Page 114: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Fonte da Graus de Soma dos Quadrado Medio F P FcVariacao liberdade Quadrados Variancia

ENTRE a− 1 SQE s2E = SQE

a−1 s2E/s

2D

(Tratamento)

DENTRO n− a SQD s2D = SQD

n−a(Erro, Resıduo)

TOTAL n− 1 SQE + SQD (n− 1)s2T = (a− 1)s2

E + (n− a)s2D

Tabela 13.5: Tabela ANOVA de um fator.

diferencas de medias como:

µi − µj = xi − xj ±√√√√√√(a− 1)F

γ,

num︷ ︸︸ ︷a− 1,n− a︸ ︷︷ ︸

den

sD ×

√1

ni+

1

nj(13.47)

s2D =

∑ai=1 νis

2i∑a

i=1 νi. (13.48)

Observe que para duas amostras√√√√√F

γ,

num︷ ︸︸ ︷a− 1,n− a︸ ︷︷ ︸

den

= tγ∗,νD evidenciando que

neste caso os dois metodos sao equivalentes.

Comparacoes com o Tratamento Con-trole. Teste de Dunnet. Suponha agoraque nao seja necessario testar todas as com-binacoes, mas somente se cada media difere ounao da media da populacao de controle. Nestecaso deve-se fazer a−1 comparacoes. Este testee chamado de teste de Dunnet. Fixa-se a po-pulacao de controle, como sendo a populacao 1do exemplo abaixo:

µi − µ1 = xi − x1 ± tγ∗,νi+ν1sD,i,1 ×√1

ni+

1

n1(13.49)

sD,i,1 =νis

2i + ν1s

21

νi + ν1(13.50)

γ∗ = (1− α)1/(a−1) (13.51)

≈ 1− α

a− 1, (13.52)

equivalente a um teste de diferencas de mediasbilaterais com nıvel de significancia α∗.

Para os dados da Tabela 13.1, a = 4, nT = 6,

α∗ = 0, 017 entao:

µ1 − µ2 ∈ [−24; 5]

µ1 − µ3 ∈ [−31;−4] (?)

µ1 − µ4 ∈ [−33;−9] (?) .

Amostras de Mesmo Tamanho. Napratica e interessante considerar amostras detamanhos iguais sobre amostras de tamanhosdiferentes.

1. O valor de F e praticamente insensıvelaos pequenos afastamentos da suposicaode variancias iguais para as a populacoesquando as amostras sao de mesmo tama-nho.

2. A escolha de amostras de mesmo tamanhominimiza a probabilidade de cometer errodo tipo II.

3. Os calculos sao mais simples.

Considere o mesmo numero de elementosn1 = n2 = . . . = na = n′ para cada amostra.

A variancia entre as amostras mede a variacaoentre as medias amostrais

x =1

a

a∑i=1

xi (13.53)

s2E = n′s2

x (13.54)

s2x =

1

a− 1

a∑i=1

(xi − x)2 . (13.55)

A media ponderada pelo numero de graus deliberdade das variancias em cada amostra e avariancia dada por:

s2D =

1

a

a∑i=1

s2i

onde

s2i =

1

n′ − 1

n′∑j=1

[x(i)j − xj ]

2

114

Page 115: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

A soma dos quadrados e:

SQD =

a∑i=1

n′∑j=1

[x(i)j − xj ]

2

assim

s2D =

SQDa(n′ − 1)

Dois Fatores

Exercıcios

1. 2,0 pt. Considere as notas de provas P1,P2 e P3 dada pelos professores Pa, Pb e Pc:

Pa Pb PcP1 7,3 8,8 6,8

8,9 7,8 7,98,2 4,8 5,64,3 9,1 9,1

P2 8,0 5,1 7,17,3 8,5 7,16,6 7,4 8,76,0 7,7 4,1

P3 4,5 3,1 5,99,3 7,8 6,83,6 6,2 5,37,7 7,6 7,9

Quais as conclusoes que se pode tirar sobreestes dados.

115

Page 116: Notas de Aula da Disciplina de Estat stica
Page 117: Notas de Aula da Disciplina de Estat stica

Capıtulo 14

Variaveis Bidimensionais

Ate agora, vimos como organizar e resumir in-formacoes pertinentes a uma unica variavel, masfrequentemente estamos interessados em anali-sar o comportamento conjunto de duas ou maisvariaveis. Iremos nos deter basicamente emvariaveis bidimensionais, mas a extensao paramais de duas variaveis e imediata.

Suponhamos que queremos analisar o com-portamento conjunto de duas variaveis X e Y ,onde o domınio de X e divido em kx classes e odomınio de Y em ky classes. A frequencia ob-servada das realizacoes simultaneas de X e Ye dada por fi,j , onde o ındice i = 1, 2, . . . , kxe o ındice j = 1, 2, . . . , ky. Todos os fi,j for-mam a distribuicao conjunta de X e Y . A dis-tribuicao marginal de X e dada pelas somas

fi(X) =∑kyj=1 fi,j e a distribuicao marginal de

Y e dada fj(Y ) =∑kxi=1 fi,j . Isto pode ser re-

presentado para n observacoes de duas variaveispela tabela 14.1.

Em vez de trabalharmos com as frequenciasabsolutas, podemos construir tabelas com asfrequencias relativas (proporcoes), mas aquiexistem tres possibilidades de expressar a pro-porcao:

1. em relacao ao total geral,

2. em relacao ao total de cada linha e

3. em relacao ao total de cada coluna.

De acordo com o objetivo de cada pesquisa, umadelas sera mais conveniente.

A Tabela 14.2 representa a proporcao con-junta (e marginais) com relacao ao total geral.Chamamos p′i,j = fi,j/n.

Aqui o elemento p′i,j representa a proporcaode observacoes da variavel X assumindo o va-lor xi e da variavel Y assumindo o valor yj(distribuicao conjunta). A proporcao de ob-servacoes da variavel X assumindo o valor xi,contando todos as realizacoes em Y e dada por

p′i,. =∑kyj=1 p

′i,j (distribuicao marginal de X).

A proporcao de observacoes da variavel Y assu-mindo o valor yj , contando todos as realizacoes

em X e dada por p′.,j =∑kxi=1 p

′i,j (distribuicao

marginal de Y ).Um dos objetivos principais de uma distri-

buicao conjunta e descrever a associabilidadeexistente entre as variaveis, isto e, queremos co-nhecer o grau de dependencia entre elas.

14.1 Coeficiente de Con-tingencia

Para quantiticar a denpendencia entre variaveisqualitativas e quantitativas, considere a ta-bela de frequencia 14.1, onde designamosas frequencias como sendo valores observadosoi,j = fi,j como ilustrado abaixo (Tabela 14.3).

Supomos agora que as variaveis X e Y se-jam independentes. Para as observacoes da Ta-bela 14.3, as frequencias esperadas sao:

ei,j = p′.,j

ky∑k=1

fi,k = (

kx∑k=1

p′k,1)(

ky∑k=1

fi,k) (14.1)

sao as se X e Y fossem variaveis independen-tes. Aqui consideramos o total das colunas, po-derıamos ter considerado o total das linhas, oque leva ao mesmo resultado final. Isto e ilus-trado na Tabela 14.4:

ondeSe as variaveis X e Y sao independentes,

entao os valores observados oi,j sao “proximos”dos valores esperados ei,j . Para quantificar estaproximidade, utiliza-se a variavel

χ2 =

kx,ky∑i,j=1

(oi,j − ei,j)2

ei,j. (14.2)

Note que χ2 e adimensional, uma vez que es-tamos trabalhando com frequencias (contagens).

117

Page 118: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Domınio Y y1 y2 . . . yky DistribuicaoX Marginal de X

x1 f1,1 f1,2 . . . f1,ky

∑kyj=1 f1,j

x2 f2,1 f2,2 . . . f2,ky

∑kyj=1 f2,j

......

......

...

xkx fkx,1 fkx,2 . . . fkx,ky∑kyj=1 fkx,j

Distribuicao

Marginal de Y∑kxi=1 fi,1

∑kxi=1 fi,2 . . .

∑kxi=1 fi,ky

∑kx,kyi,j=1 fi,j = n

Tabela 14.1: Tabela de frequencias.

Domınio Y y1 y2 . . . yky Distribuicao

X Marginal de X

x1 p′1,1 p′1,2 . . . p′1,ky p′1,. =∑kyj=1 p

′1,j

x2 p′2,1 p′2,2 . . . p′2,ky p′2,. =∑kyj=1 p

′2,j

......

......

...

xkx p′kx,1 p′kx,2 . . . p′kx,ky p′kx,. =∑kyj=1 p

′kx,j

Distribuicao

Marginal de Y p′.,1 =∑kxi=1 p

′i,1 p′.,2 =

∑kxi=1 p

′i,2 . . . p′.,ky =

∑kxi=1 fi,ky

∑kx,kyi,j=1 p

′i,j = 1

Tabela 14.2: Tabela de proporcoes com relacao ao total geral.

Quanto maior for o valor de χ2, maior sera ograu de associacao (dependencia) entre as duasvariaveis.1 , 2

Defini-se entao o coeficiente de contigencia3

C =

√χ2 + n

χ2, (14.3)

onde o numero de observacoes e:

n =

kx,ky∑i,j=1

oi,j . (14.4)

Este valor deve variar entre zero e um, sendonulo quando as variaveis sao independentesχ2 = 0. No entanto, mesmo existindo uma asso-ciacao perfeita tem-se que C 6= 1, uma vez queo valor de χ2 e finito4, 5.

1Para saber se χ2 e grande ou pequeno deve-se com-parar com valor χ2

c (χ2 crıtico) que pode ser obtido comν = (kx − 1)(ky − 1) graus de liberdade e para um dadonıvel de significancia α. Este topico sera abordado nacapıtulo sobre teste de hipoteses.

2A expressao de χ2 e obtida da distribuicao multino-mial quando o numero de observacoes n for muito granden� 1.

3Devido a K. Pearson.4C = 1 somente se χ2 →∞.5O valor crıtico de C (Cc) e obtido de χ2

c .

O coefienciente de contigencia pode ser corri-gido

C∗ = C

√t

t− 1, (14.5)

onde t = min(kx, ky) e o menor valor entre onumero de linhas e o numero de coluna na tabelaconsiderada.

14.2 Tabelas 2× 2

Considere agora uma tabela de frequencias deduas variaveis, onde cada variavel tem dois es-tados possıveis. Isto e ilustrado na tabela 14.5,onde os totais parciais sao:

f1,. = f1,1 + f1,2

f2,. = f2,1 + f2,2

f.,1 = f1,1 + f2,1

f.,2 = f1,2 + f2,2

f.,. = f1,1 + f1,2 + f2,1 + f2,2

= f1,. + f2,. + f.,1 + f.,2 .

Para esta tabela o coeficiente de contigenciavale:

χ2 =|f1,1f2,2 − f1,2f2,1|2f.,.

f1,.f2,.f.,1f.,2, (14.6)

118

Page 119: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Domınio Y y1 y2 . . . ykyXx1 o1,1 o1,2 . . . o1,ky

x2 o2,1 o2,2 . . . o2,ky...

......

...xkx okx,1 okx,2 . . . okx,ky

Tabela 14.3: Valores observados: oi,j = fi,j .

Domınio Y y1 y2 . . . ykyXx1 e1,1 e1,2 . . . e1,ky

x2 e2,1 e2,2 . . . e2,ky...

......

...xkx ekx,1 ekx,2 . . . ekx,ky

Tabela 14.4: Valores esperados: ei,j = p′.,j∑kyk=1 fi,k = (

∑kxk=1 p

′k,1)(

∑kyk=1 fi,k)

Domınio Y y1 y2 Total deX Xx1 f1,1 f1,2 f1,.

x2 f2,1 f2,2 f2,.

Total deY f.,1 f.,2 f.,.

Tabela 14.5: Tabela de frequencias 2 × 2 parateste de contingencia.

e com a correcao de continuidade:

χ2 =|f1,1f2,2 − f1,2f2,1 − f.,./2|2f.,.

f1,.f2,.f.,1f.,2, (14.7)

em ambos os casos o numero de graus de liber-dade e ν = 1, pois e o numero de colunas me-nos uma unidade multiplicado pelo numero delinhas menos uma unidade.

Pode-se pensar nesta tabela como represen-tado dados que sao do tipo sucesso fracasso pro-venientes de duas populacoes 1 e 2 como ilus-trado na tabela 14.6. Neste caso faz-se um testede homogeneidade, ou seja, pergunta-se se asproporcoes de sucesso sao iguais nas populacoesno pior dos casos H0 : p1 = p2.

Neste caso o tamanho da amostra 1 e n1 =f1,. = f1,1 + f1,2 tendo k1 = f1,1 sucessos e otamanho da amostra 2 e n2 = f2,. = f2,1 + f2,2

tendo k2 = f2,1 sucessos. Os estimadores da

Sucesso FracassoAmostra 1 f1,1 f1,2 f1,.

Amostra 2 f2,1 f2,2 f2,.

f.,1 f.,2 f.,.

Tabela 14.6: Tabela de frequencias 2 × 2 parateste de homogeneidade.

probabilidade de sucesso na populacao sao:

p1 =k1

n1=f1,1

f1,.

p2 =k2

n2=f2,1

f2,..

Naturalmente, o teste de homogeneidade podeser unilateral ou bilateral dependendo dahipotese alternativa.

14.2.1 Teste Exato de Fisher

O valor de χ2, utilizado em tabelas 2× 2, e umvalor pivotal aproximado. Este problema podeser tratado exatamente. Para isso vamos pen-sar em um teste de homogeneidade como ilus-trado pela Tabela 14.6. Admite-se, no pior doscasos, a igualdade da probabilidade de sucessonas populacoes 1 e 2 H0 : p1 = p2. SupondoH0 verdadeiro e considerando que sejam dadosos totais das linhas (f1,. e f2,.) e colunas (f.,1 ef.,2) mas nao f1,1, f1,2, f2,1 e f2,2, pergunta-sequal a distribuicao de probabilidade de f1,1?

119

Page 120: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Para responder esta pergunta considere as f.,.realizacoes como f.,. objetos, por exemplo f1,.

bolas pretas e f2,. bolas brancas. Como em cadarealizacao tem-se a mesma probabilidade de su-cesso, qualquer subconjunto de f.,1 realizacoestem a mesma probabilidade de ser escolhido quequalquer outro. Entao a probabilidade que f1,1

tenha o valor k e o mesmo do que se ter k bolaspretas entre f.,1 bolas escolhidas sem reposicaode uma urna com f1,. bolas pretas e f2,. bolasbrancas. Sob a hopotese de independencia daslinhas e colunas, a distribuicao de probabilidadede f1,1 e a distribuicao hipergeometrica:

PH(f1,1 = k) =

(f1,.

k

)(f2,.

f.,1 − k

)(

f.,.f.,1

)=

f1,.!f2,.!f.,1!f.,2!

f.,.!f1,1!f1,2!f2,1!f2,2!,

onde f1,1 ∈ [max(0, f1,1 − f2,2),min(f1,., f.,1)].

Teste Unilateral

Para testes unilaterais, se f1,1 > f1,.f.,1/f.,. ⇒f1,1f2,2 > f1,2f2,1, entao valor-P e dado por:

P1(f1,1) =

min(f1,.,f.,1)∑k=f1,1

PH(k)

= 1− Pac(f1,1) + PH(f1,1) ,(14.8)

senao:

P1(f1,1) =

f1,1∑k=max(0,f1,1−f2,2)

PH(k)

= Pac(f1,1) , (14.9)

onde Pac(k) e a funcao acumulada da funcaohipergeometrica.

Teste Bilateral

Para um teste bilateral, o valor-P e definidocomo a soma de um teste unilateral P1(f1,1) ea probabilidade de que todos os outros pontosdo lado oposto do espaco amostral de k que naosejam maiores do que PH(f1,1).

Calculos

Para comecar os calculos de P1 e P2, as conta-gens na tabela 2× 2 devem ser reorganizadas e

utilisa-se a Pac(k).6

Rearranjo da Tabela Os seguintes passossao utilizados para rearranjar as tabelas:

1. Se f1,1f2,2 > f1,2f2,1

(a) entao: f ′1,1 = min(f1,2, f2,1), f ′1,2 =f1,. − f ′1,1 e f ′2,1 = f.,1 − f ′1,1

(b) senao: f ′1,1 = min(f1,1, f2,2) ,

2. Faca: f ′1,2 = f1,. − f ′1,1, f ′2,1 = f.,1 − f ′1,1 ef ′2,2 = f2,2.

Calculo de P1. Os seguintes passos sao uti-lizados para calcular o valor-P para um testeunilateral:

1. Se f.,. = 0

(a) entao P ′1 = 1,

(b) senao calcule7 P ′1 = Pac(f′1,1)

2. Se f ′1,1 = 0

(a) entao: P1 = P ′1.

(b) senao: P1 = Pac(f′1,1)−Pac(f ′1,1−1) =

PH(f ′1,1)

Calculo de P2. Uma vez calculado P1, os se-guintes passos adicionais sao necessarios paraobter o valor-P para um teste bilateral:

1. Se f.,. = 0

(a) entao P ′2 = 1,

(b) senao

i. procure de min(f1,., f.,1) e (f ′1,1 +1) e encontre o primeiro ponto ktal que PH(k) > P1.

ii. Se k ∈ [min(f1,., f.,1), (f ′1,1 + 1)],i.e., k existe:

A. Calcule P2 = P1 + 1−Pac(k).

B. P2 = 1

Exemplo

Os seguintes passos sao utilizados para calcularo valor-P para um teste bilateral:

Considere por exemplo a tabela 14.8 onde onıvel descritivo vale: P = 0, 341908321.

6Agresti A. A Survey of Exact Inference for Contin-gency Tables. Statistical Science 1992;7(1):131-177.http://home.clara.net/sisa/fishrhlp.htm.

7Observe que os totais das linhas f1,., colunas f.,1 etotal f.,. nao foram alterados com o rearranjo da tabela.

120

Page 121: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Sucesso FracassoAmostra 1 1 19 20Amostra 2 7 369 376

8 388 396

Tabela 14.7: Exemplo de tabela de frequencias2× 2 para teste de homogeneidade.

14.2.2 Risco Relativo e Razao dasChances (Odds Ratio)

O objetivo e procurar por uma associacao en-tre variaveis binarias. Estas variaveis podem serSucesso/Fracasso e Amostra 1 / Amostra2, ou como usualmente considerado para estescalculos as variaveis doenca e exposicao.

Na realidade compara-se proporcoes comp1,1 + p1,2 + p2,1 + p2,2 = 1. Considere a ta-bela 14.8.

DoencaExposicao + (Sim) − (Nao)+ (Sim) p1,1 p1,2

− (Nao) p2,1 p2,2

Tabela 14.8: Tabela 2 × 2 de proporcoes paracalculo de risco relativo e razao das chances(odds ratio) com p1,1 + p1,2 + p2,1 + p2,2 = 1.

O risco relativo e definido como:

RR =P [doenca + |exposicao+]

P [doenca + |exposicao−]

=

p1,1p1,1+p1,2p2,1

p2,1+p2,2

=p1,1(p2,1 + p2,2)

p2,1(p1,1 + p1,2); . (14.10)

Um RR = 5 significa que uma pessoa expostatem 5 vezes mais chance de contrair a doenca.

Muitos padroes de p1,1, p1,2, p2,1 e p2,2 po-dem ter o mesmo risco relativo. Isto nao e sur-preendente pois um unico numero RR esta resu-mindo os outros quatro numeros. Em particu-lar, a quantidade de doentes e/ou exposicao estafaltando. Considera-se o conceito de chance quee muito comum em jogos. Por exemplo, diz-seque a chance de um cavalo em particular de ga-nhar uma corrida e “3 para 1”, que significa quea probabilidade do dado cavalo vencer e 3 vezesmaior do que a de nao vencer. Ela e maior doque qualquer outro cavalo

Considere as duas questoes: Dado que umapessoa tenha sido exposta, qual a chance delase tornar doente , ou seja:

P [doenca + |exposicao+]

P [doenca− |exposicao+]?

Dado que uma pessoa nao tenha sido exposta,qual a chance dela se tornar doente , ou seja:

P [doenca + |exposicao−]

P [doenca− |exposicao−]?

A razao das chances (“odds ratio”)e dada por:

OR =

P [doenca+|exposicao+]

P [doenca−|exposicao+]

P [doenca+|exposicao−]

P [doenca−|exposicao−]

=

p1,1p1,1+p1,2

/p1,2

p1,1+p1,2p2,1

p2,1+p2,2/

p2,2p2,1+p2,2

=p1,1p2,2

p2,1p1,2, (14.11)

ou seja, OR e o produto da diagonal principaldivido pela produto da diagonal secundaria. UmOR = 5 significa que a chance de uma pessoaexposta contrair uma doenca e 5 vezes maior doque a chance de uma pessoa nao exposta con-trair a mesma doenca.

Considere a razao:

RR

OR=p2,1 + p2,2

p2,2

p1,2

p1,1 + p1,2. (14.12)

se p1,1 � p1,2 entao p1,2/(p1,1 + p1,2) '1 − p1,1/p1,2 e se p2,1 � p2,2 entao (p2,1 +p2,2)/p2,2 ' 1 + p2,1/p2,2 e

RR

OR= 1 +

p1,2p2,1 − p1,1p2,2

p1,2p2,2. (14.13)

Se a doenca afetar somente uma pequena fracaoda populacao (em ambos os grupos, expostose nao expostos) o risco relativo e aproximada-mente igual a razao das chances PP ' OR.

Se OR ou RR forem maiores do que 1, o grupoexposto tem maior risco de contrair a doenca,caso contrariom o grupo nao exposto tem maiorrisco de contrair a doenca.

Considere agora a situacao em que asvariaveis sao sucesso/fracasso e Populacao1/ Populacao 2 como mostrado na Ta-bela 14.9.

As vezes a relacao entre proporcoes e frequen-temente entendida mais facilmente em termos

121

Page 122: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Sucesso FracassoPopulacao 1 p1 q1 = 1− p1

Populacao 2 p2 q2 = 1− p2

Tabela 14.9: Tabela 2× 2 de probabilidades.

de razoes do que em termos de diferencas. Sejap1 a probabilidade de sucesso na populacao 1e p2 a probabilidade de sucesso na populacao2. A chance de sucesso na populacao 1 e entaoa razao entre as probabilidades de sucesso p1 efracasso q1 = 1 − p1: p1/q1 = p1/(1 − p1). Amesma coisa vales para a populacao 2. Assimdefine-se a razao das chances como:

OR =p1/q1

p2/q2=p1(1− p2)

p2(1− p1), (14.14)

que e estimado por:

OR =p1/q1

p2/q2=p1q2

p2q1=f1,1f2,2

f1,2f2,1. (14.15)

Observe que os valores dos estimadores fo-ram obtidos da Tabela 14.10 que sintiza as pro-porcoes da Tabela 14.6:

p1 =f1,1

f1,1 + f1,2(14.16)

q1 = 1− p1 =f1,2

f1,1 + f1,2(14.17)

p2 =f2,1

f2,1 + f2,2(14.18)

q2 = 1− p2 =f2,2

f2,1 + f2,2. (14.19)

Sucesso FracassoAmostra 1 p1 q1 = 1− p1

Amostra 2 p2 q2 = 1− p2

Tabela 14.10: Tabela 2× 2 de proporcoes.

Intervalo de Confianca para Razao dasChances

Se o valor de 0, 2 ≤ OR ≤ 5, 0, onde OR e dadopela Eq. 14.15 utilize o metodo descrito abaixo.Caso contrario metodos mais sofisticados devemser empregados.8

8Veja por exemplo: D. G. Kleinbaum, L. L. Kup-per and H. Morgenstern Epidemiologic research: prin-ciples and quantitative methods, Wadsworth, Belmont,CA (1982).

Atraves do intervalo de confianca pode-se fa-zer os testes de hipotese como vimos anterior-mente. Considera-se um coeficiente de confiancaγ, se OR ≥ 1 entao:

OR1−√χ2γ/χ

2

≤ OR ≤ OR1+√χ2γ/χ

2

, (14.20)

caso contrario:

OR1+√χ2γ/χ

2

≤ OR ≤ OR1−√χ2γ/χ

2

, (14.21)

onde OR e dado pela Eq. 14.15, χ2 e dado pelaEq. 14.7 e χ2

γ = Prob(χ2 > χ2c) onde χ2

c e obtidoda regiao de rejeicao para um teste unilateral adireita com α = 1− γ e um grau de liberdade.

As bordas do intervalo de confianca pode seraproximado por:

OR><

= exp[ln(OR)± zγσln(OR)

](14.22)

σln(OR) =

√1

f1,1+

1

f1,2+

1

f2,1+

1

f2,2,(14.23)

onde σln(OR) e o erro-padrao de ln OR.

Valor Q de Yule

A razao de chance OR pode ser transformadaem uma escala entre −1 e 1 de acordo com aregra Q de Yule:9

Q =OR− 1

OR+ 1. (14.24)

Tipos de Estudos

Vamos considerar em seguida os diversos tiposde estudos que podem ser realizados em tabelas,vamos considerar em particular as tabelas 2 ×2. Os estudos podem ser cruzado, prospectivo eretrospectivo de acordo com os totais maginaisda tabela.

Estudo Cruzado. Existe uma amostra detamanho f.,. de uma populacao e ambas asvariaveis (exposicao e doenca, por exemplo) saomedidas em cada elemento da amostra, nestecaso os totais das linhas e colunas sao aleatorios

9Existe uma regra ligeiramente diferente chamada deregra Y de Yule.

122

Page 123: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

enquanto que f.,. e fixo, o que implica em:

p1,1 =f1,1

f.,.(14.25)

p1,2 =f1,2

f.,.(14.26)

p2,1 =f2,1

f.,.(14.27)

p2,2 =f2,2

f.,.. (14.28)

Estudo Prospectivo. Se os totais das linhasforem fixos e mas os totais das colunas saoaleatorios (como na Tabela 14.10) isto implicaem:

p1,1 =f1,1

f1,1 + f1,2(14.29)

p1,2 =f1,2

f1,1 + f1,2(14.30)

p2,1 =f2,1

f2,1 + f2,2(14.31)

p2,2 =f2,2

f2,1 + f2,2. (14.32)

Estudo Retrospectivo. Se os totais das li-nhas forem aleatorios e mas os totais das colunassao fixos isto implica em:

p1,1 =f1,1

f1,1 + f2,1(14.33)

p1,2 =f1,2

f1,1 + f2,1(14.34)

p2,1 =f2,1

f1,2 + f2,2(14.35)

p2,2 =f2,2

f1,2 + f2,2. (14.36)

Resumo. A tabela 14.11 resume os diversostipos de resumo e quais as grandezas que podemser calculadas

14.3 Coeficiente de Cor-relacao

Quando as variaveis envolvidas sao ambas dotipo quantitativo, pode-se efetuar uma analiseda dependencia pelo coeficiente de contingencia.Neste caso, resume-se os dados em tabelas dedistribuicao conjunta de frequencia. Em alguns

casos, para evitar um grande numero de entra-das e conveniente agrupar os dados em interva-los de classes, de modo analogo ao feito no casounidimensional. Note que este agrupamento emclasses implica em uma perda de informacao dosdados. Variaveis quantitativas sao passıveis decriterios de analise mais refinados.

Considere as variaveis quantitativas X e Y daTabela 14.12.

Estes dados podem ser representados em umdiagrama de dispersao.

Para se obter um diagrama de dispersao pri-meiramente devemos fazer uma transformacaode coordenadas. Neste novo sistema de coorde-nadas, o sistema inicial e transladado de modoque a origem fique localizada no ponto medioda nuvem de ponto no diagrama de dispersao.Para uma populacao: x−µ(X) e y−µ(Y ) e parauma amostra: x− X e y− Y . Alem disto, comoo desvio-padrao nas coordenadas X e Y podemser diferentes, devemos mudar a escala dos ei-xos. Em unidades de desvio padrao, obtem-se agrandeza adimensional:

z(X) =x− µ(X)

σ(X)e z(Y ) =

y − µ(Y )

σ(Y ).

(14.37)

Se o ponto (z(X)i , z

(Y )i ) estiver no primeiro

quadrante (z(X)i > 0 e z

(Y )i > 0) ou terceiro

quadrante (z(X)i < 0 e z

(Y )i < 0) no dia-

grama de dispersao, o produto dos escores e

positivo z(X)i z

(Y )i > 0. Por outro lado, se o

ponto (z(X)i , z

(Y )i ) estiver no segundo quadrante

(z(X)i < 0 e z

(Y )i > 0) ou quarto quadrante

(z(X)i > 0 e z

(Y )i < 0) no diagrama de dispersao,

o produto dos escores e negativo z(X)i z

(Y )i < 0.

Considere as seguintes situacoes:

• Se soma∑ni=1 z

(X)i z

(Y )i for positiva, isto

indica que a maioria dos pontos estao noprimeiro e terceiro quadrantes10 indicandoa tendencia de aumento de Y quando Xaumenta e diminuicao de Y quando X di-minui, ou seja, uma dependencia entre asvariaveis X e Y .

• Se a soma for negativa, isto indica quea maioria dos pontos estao no segundo equarto quadrantes indicando a tendencia de

10Esta soma pode ser influenciada por valores discre-pantes. Este valores podem introduzir erros na inter-pretacao.

123

Page 124: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Tipo de Total Pode ser Calculado?Estudo Coluna Linha RR ORCruzado Aleatorio Aleatorio Sim SimProspectivo Aleatorio Fixo Sim SimRetrospectivo Fixo Aleatorio Nao Sim

Tabela 14.11: Resumo dos tipos de Estudos e possibilidade de calculos.

i X Y1 x1 y1

2 x2 y2

......

...n xn yn

Tabela 14.12: Valores de X e Y para as rea-lizacoes indexadas por i.

diminuicao de Y quando X aumenta e umaumento de Y quando X diminui, ou seja,uma dependencia entre as variaveis X e Y .

• Se a soma for “proxima” de zero11 isto in-dica que os pontos estao dispersos nos qua-tro quadrantes em torno da origem, nao in-dicando nenhuma tendencia, ou seja, a naodependencia entre X e Y 12

Para eliminar a dependencia do numero depontos considerados (tanto na populacao quantona amostra) deve-se dividir a soma pelo numerode elementos. Para uma populacao o coeficientede correlacao e definido como:

ρ(X,Y ) =1

n

n∑i=1

z(X)i z

(Y )i = µ(Z(X)Z(Y )) ,

(14.38)ou seja, o coeficiente de correlacao e a media doprodutos dos fatores Z.

Para uma amostra, o coeficiente de correlacaoe definido como13:

11O criterio de proximidade sera melhor detalhadoquando estudarmos o intervalo de confianca para o coe-ficiente de correlacao.

12Existem casos onde as variaveis X e Y sao mas asoma acima e nula. Por exemplo podemos citar o caso emque os pontos (xi, yi) estao formam uma circunferencia

yi = ±√

1− x2i .13Neste caso

zXi =xi − XsX

e zYi =yi − YsY

.

r(X,Y ) =1

n− 1

n∑i=1

z(X)i z

(Y )i , (14.39)

onde r e o estimador de ρ.O coeficiente de correlacao varia entao no in-

tervalo [−1, 1], se |ρ(X,Y )| ou |r(X,Y )| for 1,isto indica uma correlacao perfeita, ou seja, umadependencia perfeita entre X e Y . Considere osseguintes casos:

• O sinal positivo de ρ(X,Y ) ou r(X,Y )indica que quando X cresce Y cresce, equando X diminui Y diminui.

• O sinal negativo indica que quando Xcresce Y diminui, e quando X diminui Ycresce.

• Se |ρ(X,Y )| ou |r(X,Y )| for nulo, naoexiste correlacao entre as variaveis X e Y ,ou seja, o valor de Y nao depende das al-teracoes nos valor de X.

Observamos que:

1. ρ(X,Y ) = ρ(Y,X) e r(X,Y ) = r(Y,X),ou seja, a variavel X dependende de Y domesmo modo que Y depende de X e

2. ρ(X,X) = ρ(Y, Y ) = 1 e r(X,X) =r(Y, Y ) = 1, ou seja, uma variavel tem umacorrelacao perfeita com ela mesma.

Nota-se que se o comportamento de Y nao forlinear com X, pode-se definir uma nova variavelX ′, de modo que esta variavel seja uma funcaode X (X ′ = f(X)).

Considere como exemplo fenomenos que se-guem leis exponenciais, ou seja, o comporta-mento linear e encontrado para X e exp(αX).Neste caso X ′ = exp(αX), e conveniente napratica usar uma escala logaritmica para Y ,note que a relacao linear e esperada para: Y =a+ b exp(αX) entao log(Y − a) = log(b) + αX.Na escala semi-log obtem-se uma reta para

124

Page 125: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

fenomenos exponenciais, onde o coeficiente an-gular e o valor de α.

Para fenomenos que seguem leis de potenciaX ′ = Xq, e conveniente na pratica tomar o lo-garitmo de Y e de X. Neste caso, o compor-tamento linear e esperado para Y = a + bXq,tomando o logaritmo log(Y − a) = log(b) +q log(X). Na escala log-log obtem-se uma retapara fenomenos com lei de potencia, onde o co-eficiente angular da reta e q.

14.3.1 Covariancia

A covariancia tambem mede a dependencia en-tre as variaveis X e Y . e uma grandeza dimen-sional (unidade de X vezes unidade de Y ) quee definida para uma populacao :

σX,Y =1

n

n∑i=1

[xi − µ(X)][yi − µ(Y )] , (14.40)

e para uma amostra:

sX,Y =1

n− 1

n∑i=1

[xi − X][y − Y ] . (14.41)

A covariancia pode ser determinada pelo co-eficiente de correlacao e vice-versa. Para umapopulacao

ρ(X,Y ) =σX,Y

σ(X)σ(Y ), (14.42)

e para uma amostra o coeficiente de correlacaoe definido como:

r(X,Y ) =sX,YsXsY

. (14.43)

Observa-se que:

1. σXY = σY X e sX,Y = sY,X , ou seja, avariavel X dependende de Y do mesmomodo que Y depende de X e

2. σX,X = σ2(X) ou r(X,X) = s2(X) eσY,Y = σ2(Y ) ou r(Y, Y ) = s2(Y ), ouseja, a covariancia de uma variavel com elamesma e a variancia da variavel.

14.3.2 Correlacao Entre Momen-tos Superiores

e possıvel calcular o coeficiente de correlacaopara os momentos superiores de uma populacao:

ρ(Xq, Y p) =σXq,Y p

σ(Xq)σ(Y p), (14.44)

e para uma amostra o coeficiente de correlacaoe definido como:

r(Xq, Y p) =sXq,Y p

sXqsY p. (14.45)

14.3.3 Funcao de Auto-Correlacao

Considere agora o caso onde variacao de umavariavel se de em funcao do tempo X(t), te-mos entao uma serie temporal entao defini-se afuncao de auto-correlacao

φ(τ) =

∫ ∞−∞

dt ρ[X(t), X(t+ τ)]

=

∫ ∞−∞

dtσX(t),X(t+τ)

σ[X(t)]σ[X(t+ τ)],(14.46)

e para uma amostra o coeficiente de correlacaoe definido como:

f(τ) =

∫ ∞−∞

dt r[X(t), X(t+ τ)]

=

∫ ∞−∞

dtsX(t),X(t+τ)

sX(t)sX(t+τ). (14.47)

Algumas questoes interessante aparecem.Note que devemos calcular medias de X no ins-tante t. Estas medias sao chamadas de mediasde “ensemble”14, ou seja, imaginam-se que exis-tam diversas realizacoes de X no instante t.Desta maneira pode-se calcular ρ[X(t), X(t+τ)]em uma populacao ou r[X(t), X(t+ τ)] em umaamostra.

14Do frances Emsemble = Conjunto.

125

Page 126: Notas de Aula da Disciplina de Estat stica
Page 127: Notas de Aula da Disciplina de Estat stica

Capıtulo 15

Variaveis Multidimensionais

No caso de mais do que duas variaveis e in-teressante escrever as dependencias entre estasvariaveis atraves de matrizes do coeficiente decontigencia ou do coeficiente de correlacao ouda covariancia. Estas matrizes sao quadradas esimetricas.

No caso do coeficiente de correlacao entre asvariaveis X1, X2, . . . , Xk esta matriz e escritacomo:

1 r(1, 2) . . . r(1, k)

r(1, 2) 1 . . . r(2, k)...

......

r(1, k) r(2, k) . . . 1

15.1 Introducao a Analise

das ComponentesPrincipais

Considere a matriz de covariancia entre asvariaveis X1, X2, . . . , Xk:

Cov =

s1,1 s1,2 . . . s1,k

s1,2 s2,2 . . . s2,k

......

...s1,k s2,k . . . sk,k

. (15.1)

Como a matriz de covariancia nao e diago-nal, as variaveis X1, X2, . . ., Xk sao variaveisdependentes.

A ideia e criar novas variaveis Y1, Y2, . . . ,Yk onde cada Yi seja uma funcao das variaveisoriginais X1, X2, . . . , Xk:

Yi = fi(X1, X2, . . . , Xk) ,

de modo que Y1, Y2, . . ., Yk sejam variaveis inde-pendentes e, sem perda de generalidade, pode-seconsiderar:

Var(Y1) ≥ Var(Y2) ≥ · · · ≥ Var(Yn) .

Os valores de Yi sao chamados de componentesprincipais.

Temos entao um problema de diagonalizacaode matrizes (problema de auto-valores e auto-vetores). Na base Y1, Y2, . . ., Yk a matriz decovariancia e diagonal uma vez que as variaveisY1, Y2, . . ., Yk sao independentes. Esta matrize dada por:

λ1 0 . . . 00 λ2 . . . 0...

......

0 0 . . . λk

(15.2)

onde λi sao os autovalores da matriz Cov. Paracada auto-valor λi obtemos um auto-vetor Yique e independente dos outros autovetores jcom j 6= i. Transformamos entao um problemade variaveis dependentes em um problema devariaveis independentes. Pode-se entao traba-lhar com as variaveis Yi uma a uma (elas sao in-dependentes) e no final voltar para as variaveisoriginais do problema Xi.

Lembramos que λi ≥ 0 e representa avariancia de Yi. Sem perda de generalidadepode-se considerar o ındice i variando de talfor que λ1 ≥ λ2 ≥ . . . ≥ λk. As variaveisYi = fi(X1, X2, . . . , Xk) formam entao as com-ponentes principais das variacoes de X1, X2, . . .,Xk. A componente principal (a mais impor-tante) e Y1, pois e a que mais explica as va-riacoes de X1, X2, . . ., Xk. A segunda compo-nente principal e Y2, a terceira e Y3 e assim pordiante.

Tomemos por exemplo a situacao em queλ1 � λ2 deste modo a maior parte das variacoesde X1, X2, . . ., Xk podem ser explicadas apenascom a componente principal Y1.

127

Page 128: Notas de Aula da Disciplina de Estat stica
Page 129: Notas de Aula da Disciplina de Estat stica

Capıtulo 16

Regressao

O objetivo da regressao e determinar os co-eficientes da relacao entre uma variavel depen-dente (variavel resposta) y e uma variavel in-dependente (variavel preditora) x. Estes dadossao representados na tabela 16.1:

X Yx1 y1

x2 y2

......

xn yn

Tabela 16.1: Valores de X e Y a serem utiliza-dos.

Admite-se que:

1. investiga-se somente relacoes lineares e

2. que Y : N(µy, σ2y) para cada valor de X.

16.1 Regressao Linear

Suponha que a relacao entre Y com X na po-pulacao seja linear:

y′ = α′ + β′x . (16.1)

Esta e a reta de regressao com α′ sendo o in-tercepto e β′ sendo o coeficiente de regressao oucoeficiente angular da reta.

O metodo de regressao linear pode ser apli-cado a outras situacoes que nao sejam linea-res mediante a uma transformacao adequadade variaveis. Vejamos alguns exemplos na Ta-bela 16.2.

Existem varios metodos para estimar osparametros α′ e β′, tais como: Metodo dasMedias, Metodos dos Pontos Selecionados,Metodo dos Mınimos Quadrados etc.

O estudo da regressao pode ser visto com oestudo de resıduos:

Yi = α′ + βxi + εi

onde E(εi) = 0. A reta de regressao estimadapara cada observacao e dada por:

yi = a+ bxi + ei (16.2)

onde ei e o resıduo.

16.1.1 Metodo dos Mınimos Qua-drados

O metodo dos mınimos quadrados e o mais re-finado e consiste em minimizar a soma sobrei = 1, 2, . . . , n das diferencas, resıduos:

ei = yi − yi (16.3)

entre os valores observados yi e os valores esti-mados pela reta de regressao yi:

y = a+ bx

ao quadrado. Deseja-se minimizar a soma dosquadrados dos resıduos.

Achamos os valores a e b que sao estimativasde α′ e β′ de tal forma que a soma dos quadra-dos dos resıduos seja mınima. Este metodo echamado de mınimos quadrados

SQD =

n∑i=1

e2i =

n∑i=1

(yi − a− bxi)2(16.4)

∂aSQD = −2

n∑i=1

(yi − a− bxi)2 (16.5)

∂bSQD = −2

n∑i=1

xi(yi − a− bxi)2 ,(16.6)

igualando as derivadas parciais a zero(para en-

129

Page 130: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Funcao Transformacao Regressao Lineary′ = 1

α′+β′x U = 1y′ U = α′ + β′x

y′ = α′ + β′/x U = 1/x y = α′ + β′UU = log y′

y′ = Axβ′

V = log x U = α′ + β′Vα′ = logA

y′ = Aeβ′x U = ln y′ U = α′ + β′x

α′ = lnA

Tabela 16.2: Transformacoes mais usuais para a linearizacao dos dados.

contrar o valor extremo) obtemos:

na+ b

n∑i=1

xi =

n∑i=1

yi

a

n∑i=1

xi + b

n∑i=1

x2i =

n∑i=1

xiyi

a =n∑ni=1 xiyi − (

∑ni=1 xi) (

∑ni=1 yi)

n∑ni=1 x

2i − (

∑ni=1 xi)

2

a = y − bx .

Utilizando os metodo dos mınimos quadradosobtem-se para b, o estimador de β′:

b =sx,ysx,x

= r

√sy,ysx,x

,

onde e interessante observar que r2 = b2Sx,x =SQE e Sy,y = SQT , de modo que: r2 =SQE/SQT e

sx,y =Sx,yn− 1

n∑i=1

(xi − x)(yi − y)(16.7)

Sx,y =

n∑i=1

(xi − x)(yi − y) (16.8)

e a covariancia de x e y e sx,x = s2x e a variancia

de x. Observe que o valor de b pode ser ob-tido facilmente da matriz de covariancia, ou docoeficiente de correlacao r.

Como a reta dos mınimos quadrados para pelovalor medio de x (x) e de y (y) podemos obtero valor de a, o estimador de α′:

a = y − bx

16.1.2 Erro Padrao da Regressao

O erro padrao da regressao e dado por:

sD =

√∑ni=1(yi − yi)2

n− 2.

A interpretacao do erro padrao da estima-tiva e similar ao erro padrao da media (SEM)SEM = s/

√n.

16.1.3 Estatıstica do Coeficientede Regressao β′: Analise deVariancia

Para testar a hipotese H0 : β′ = β′0 comrelacao ao coeficiente de regressao β′, utilisa-sea variavel pivotal:

t =b− β′0sb

sb =sD

sx√n− 1

ν = n− 2 ,

que e distribuida segundo uma distribuicao t deStudent com n− 2 graus de liberdade.

O intervalo de confianca para β′ para um dadocoeficiente de confianca γ e dado por:

β′ = b± tγ,n−2sb .

Analise de Variancia

Muitos dos problemas analisando a qualidade dareta de regressao sao feitos atraves da analise devariancia. A analise de variancia e meramenteum metodo no qual a variacao total na variaveldependente e subdividida em componentes sig-nificativas que sao observadas e tratadas de umaforma sistematica.

No problema de regressao linear a soma dosquadrados total SQT = Sy,y e constituida deduas componentes, uma que e chamada de somade quadrados devido a regressao SQE e medea quantidade de variacao nos valores de y quepode ser explicada pela reta de regressao tendoum grau de liberdade νE = 1. A segunda com-ponente e a soma dos quadrados dos resıduos,

130

Page 131: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

erros, SQD tendo n − 2 graus de liberdadevD = n − 2, onde n e o numero de pares or-denados (xi, yi) considerados. Assim, a somados quadrados total e: SQT = SQE + SQD.

A variancia total e sy,y = (n − 1)Sy,y ea variancia entre grupos e o quadrado medioQME entre grupos e bsx,y.

O teste de hipotese que esta sendo realizado ese o coeficiente angular da reta de regressao β′

nao e significativo ao nıvel α. A hipotese nula eescrita como: H0 : β′ = 0 e a hipotese alterna-tiva vale: H1 : β′ 6= 0. Note que a variavel pivo-tal F tem um grau de liberdade no numerador.Neste caso ela e escrita como uma variavel pivo-tal t de Student ao quadrado com n−2 graus deliberdade, que e o numero de graus de liberdadedo denominadaor da variavel F .

16.1.4 Estatıstica do Intercepto α′

Para testar a hipotese H0 : α′ = α′0 com relacaoao intercepto α′, utilisa-se a variavel pivotal:

t =a− α′0sa

sa = sD

√n− 1− n(x/sx)2

n(n− 1)

ν = n− 2 ,

que e distribuida segundo uma distribuicao t deStudent com n− 2 graus de liberdade.

O intervalo de confianca para α′ e:

α′ = a± tγ,n−2sa . (16.9)

16.1.5 Intervalo de Confiancapara y′

y′ = y ± tγ,n−2sy = a+ bx± tγ,n−2sy

sy = sD

√n+ 1

n+

(x− x)2

(n− 1)sx,x.

16.1.6 Coeficiente de Deter-minacao

O coeficiente de determinacao e o valor davaricao de y que e explicado pela reta de re-gressao:

r2 =SQESQT

=variacao explicada

variacao total, (16.10)

onde r e o coeficiente de correlacao entre X e Y .

16.1.7 Analise de Variancia

16.2 Regressao LinearMultipla

16.3 Exercıcios

1. Durante muito tempo, o coeficiente de cor-relacao entre a nota final em um curso detreinamento e sua produtividade, apos seismeses do curso, resultou ser 0,50. Foramintroduzidas modificacoes no curso, com ointuito de aumentar a correlacao. Se o co-eficientede correlacao de uma amostra de28 operarios submetidos ao novo curso foide 0,65, voce diria que os objetivos da mo-dificacao foram atingidos para um nıvel designificancia de 0,05?

2. Estamos estudando se ha ou nao correlacaoentre as notas de diversas disciplinas de umcurso de mestrado. Analisando uma amos-tra de 12 estudantes, encontrou-se uma cor-relacao de 0,60 entre as disciplinas de Es-tatıstica e Metodologia da Pesquisa. Testea hipotese de nao haver correlacao entreas disciplinas. Caso a rejeite, de um in-tervalo de confianca para o coeficiente decorrelacao populacional.

3. Existe relacao entre o volume de uma cargae o tempo gasto para acondiciona-la? Parainvestigar esse fato, sortearam-se nove pe-didos de mercadorias, medindo-se as duasvariaveis de interesse. Com os dados ob-tidos abaixo, quais seriam as suas con-clusoes?

tempo volume84 48108 72110 63133 82144 88152 109180 112196 123231 140

4. Um levantamento obtido, junto aos fun-cionarios de um pequeno escritorio, buscarelacionar as variaveis: anos de estudo(X) e numero de diferentes empregos nosultimos 5 anos (Y ). Considere os dados for-necidos:

131

Page 132: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Fonte da Graus de Soma dos Quadrado Medio F P FcVariacao liberdade Quadrados VarianciaRegressao 1 SQE = bsx,y s2

E = bsx,y s2E/s

2D

(Entre)

Erro ou Resıduo n− 2 SQD = SQT − SQE s2D = SQD

n−2

(Dentro)TOTAL n− 1 SQT = (n− 1)sy,y

Tabela 16.3: Tabela ANOVA para regressao linear.

X Y8 49 210 111 212 1

(a) Obtenha a matriz de covariancia ouseus elementos: sx,x, sx,y e sy,y Resp:sx,x = 2, 0, sx,y = −1, 2 e sy,y = 1, 2

(b) Obtenha o coeficiente de correlacao rentre X e Y . Resp: r = −0, 7746

(c) Teste a hipotese de nao existir cor-relacao na populacao para um nıvel designificancia de 5%.

(d) Obtenha o intervalo de confianca paraρ com coeficiente de confianca de 95%.

(e) A correlacao da populacao pode sermenor do que −0, 80 para α = 0, 05?

(f) Obtenha a reta de regressao y = a+bx.

(g) Qual o valor de Y se:

i. x = 10, 5?

ii. y = 12, 5?

(h) Estime o intervalo de confianca comγ = 95%para:

i. a,

ii. b e

iii. c.

5. Para avaliar se o nıvel de tensao ocasionadapor exames escolares, 12 estudantes foramescolhidos e sua pulsacao foi medida antesa e depois d do exame

antes (a) depois (d)87 8378 8485 7993 8876 7580 8182 7477 7191 7874 7376 7679 71

(a) Obtenha a matriz de covariancia ouseus elementos: sa,a, sa,d e sd,d.Resp: sa,a = 35, 25, sa,d = 19, 375e sd,d = 26.85417

(b) Obtenha o coeficiente de correlacao rentre a e d. Resp: r = 0, 629733

(c) Teste a hipotese de nao existir cor-relacao na populacao para um nıvel designificancia de 1%.

(d) Obtenha o intervalo de confianca paraρ com coeficiente de confianca de 99%.

(e) A correlacao da populacao pode sermaior do que 0, 50 para α = 0, 01?

(f) Qual a melhor estimativa para x e y?

6. 1,0 pt.Considere os dados da tabelaabaixo:

tempo volume1,00 6,151,20 7,901,40 9,401,60 10,501,80 11,002,00 14,00

Deseja-se obter a regressao: y = b0 + b1x+b2x

2.

132

Page 133: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

7. 1,0 pt.Considerar os dados referentes aoconsumo mensal de energia em KWh,tempo de uso de ar condicionado (horas)e uso de secador de cabelos (horas).

Consumo de Ar SecadorEnergia Cond. de Cabelo(KWh) (hora) (hora)

35 1,5 1,063 4,5 2,066 5,0 2,017 2,0 0,094 8,5 3,079 6,0 3,093 13,5 1,066 8,0 1,094 12,5 1,082 7,5 2,078 6,5 3,065 8,0 1,077 7,5 2,075 8,0 2,062 7,5 1,085 12,0 1,043 6,0 0,057 2,5 3,033 5,0 0,065 7,5 1,033 6,0 0,0

133

Page 134: Notas de Aula da Disciplina de Estat stica
Page 135: Notas de Aula da Disciplina de Estat stica

Capıtulo 17

Processos Estocasticos

Considere um experimento com resultado ζque forma o espaco S. A cada valor de ζum ındice t e atribuıdo e define-se a funcaoX(t, ζ), onde t e frequentemente interpretadocomo sendo o tempo. Tem-se entao uma famıliade funcoes para diferentes valores de t para cadaζ. Esta famılia de funcoes e chamada de pro-cesso estocastico. Um processo estocastico podeser visto como uma funcao de duas variaveis.Para um valor especıfico de ζ (ζi), ela repre-senta uma simples funcao do tempo enquantoque para um dado tempo t (ti), ela representauma variavel aleatoria. Retirando o termo ζ danotacao, um processo estocastico {X(t), t ∈ T},e referido como sendo um estado do processono instante t. O espaco, que contem todos ospossıveis valores das variaveis aleatorias X(t) echamado de espaco de estados.

A evolucao de algum processo fısico no tempopode ser descrito por processos estocasticos.Um exemplo classico de um processo estocasticoe uma caminhada aleatoria na qual um moedae lancada e uma pessoa anda um passo para adireita se sai cara K na moeda e anda um passopara a esquerda se sai coroa C. A posicao dapessoa apos t lancamentos da moeda e X(t), queclaramente depende da sequencia de caras e co-roas.

17.0.1 Cadeias de Markov

Considere processos estocasticos dados por X(t)que representa o resultado no t-esima tentativa.Assume-se tambem que X pode ter um numerofinito de valores possıveis. Se X(t) = i, diz-seque o processo esta no estado i no instante t.Define-se Pi→j(t+ 1) = P [X(t+ 1) = j|X(t) =i] como a probabilidade do processo estar noestado j no instante t+ 1 dado que no instantet o processo estava no instante i.

Uma cadeia de Markov e um processo es-tocastico no qual a distribuicao condicional em

qualquer tempo futuro t+ 1 para dados estadospassados e o estado presente e independente dosestados passados e depende somente do estadopresente, i.e.,

Pi→j(t+ 1) = P [X(t+ 1) = j|X(t) = i,

X(t− 1) = it−1, . . . , X(0) = i0]

= P [X(t+ 1) = j|X(t) = i] .

O resultado de uma dada tentativa depende so-mente do resultado da tentativa precedente enao em qualquer outra. A grandeza Pi→j e cha-mada de probabilidade de transicao e o elementode uma matriz de probabilidade de transicao deum passo P

P =

P0→0 P0→1 P0→2 · · · · · ·P1→0 P1→1 P1→2 · · · · · ·

......

... Pi→j...

......

...

,

(17.1)onde Pi→j ≥ 0 para todo i e j tal que i, j ≥ 0 e

∞∑j=8

Pi→j = 1 ,

com i = 0, 1, 2, . . .. Uma matriz com estas pro-priedades e chamada de matriz estocastica.

A probabilidade do resultado da t-esima ten-tativa ser i e ai(t), i.e., a probabilidade que oestado i ocorra no instante t. O vetor de proba-bilidade de estados e definido como:

~a(t) =

a1

a2

...

. (17.2)

Assim o estado no instante t e determinadodo estado no instante precedente t − 1 atravesda matriz de transicao:

~a(t) = P~a(t− 1) (17.3)

135

Page 136: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Se no instante inicial t = 0 tem-se o vetor ~a(0),entao:

~a(1) = P (1)~a(0)

~a(2) = P (2)~a(1) = P (2)P (1)~a(0)

... =...

~a(t) = P (t)~a(t− 1) =

t∏i=1

P (i)~a(0) .

Quando a matriz de transicao nao se modifi-car no tempo, i.e., P (1) = P (2) = . . . = P (t) =P , escreve-se:

~a(t) = P t~a(0) . (17.4)

A probabilidade de transicao a t passos P(t)i→j do

estado i ao estado j e a probabilidade de que oprocesso saia do estado i e transicione ao estadoj em t passos adicionais, assim

P(t)i→j = P ({X(m+ t) = j|X(m) = i) ,

com t > 0.A equacao de Chapman-Kolmogorov:

P(t+m)i→j =

∞∑k=0

P(t)i→kP

(m)k→j

e utilizada para calcular a probabilidade detransicao de (t + m) passos em termos de umaprobabilidade de transicao de m passos e de umaprobabilidade de transicao de t passos.

Cadeias de Markov homogenea, nao-homogenea, irredutıvel e aperiodica

Uma cadeia de Markov e dita irredutıvel seexiste somente uma classe de equivalencia, i.e.,todos os estados podem comunicar entre si. Umconjunto de estados nos quais todos os mem-bros de um conjunto sao alcancaveis (ao longodo tempo e com probabilidade positiva) de to-dos os outros membros do conjunto e chamadode classe ergodica.

Para cada estado i, Pi→i e a probabilidade deque comecando no estado i, o processo voltarano estado i algum tempo depois. Se

• Pi→i = 1, o estado i e chamado de recor-rente ou absorvente;

• Pi→i < 1, o estado i e chamado de transi-ente;

Qualquer estado i e dito ter um perıodo d se

P(n)i→i = 0, quando n nao for divisıvel por d de

modo que d e o maior numero com esta propri-edade. Qualquer estado com perıodo 1 e cha-mado de estado aperiodico.

Uma cadeia de Markov irredutıvel compostade estados aperiodicos e chamada de cadeia deMarkov irredutıvel e aperiodica.

Probabilidade Limite

Se uma cadeia de Markov for irredutıvel eaperiodica com probabilidade de transicao P

(n)i→j

o limite:

qj = limn→∞

P(n)i→j j ≥ 0 ,

existe e e independent do estado inicial. A pro-babilidade qj e um elemento de um vetor de pro-babilidade estacionario ou de equilıbrio com aseguinte propriedade:∑

j

qj = 1 qj ≥ 0 ,

e e a unica solucao nao-negativa da equacao:

qj =∑i

Pi→jqi j ≥ 0 ,

Observe tambem que:

qj =∑i

Pi→jqj ,

uma vez que P e uma matriz estocastica, entao:

qiPi→j = qjPj→i .

Esta equacao diz que apos um grande numerode transicoes, os estados estarao distribuidosde acordo com um vetor de probabilidade deequilıbrio que e independente do estado inicial.

17.1 Processos de Poisson

As ocorrencias de uma sequencia discreta deeventos pode ser frequentemente modeladarealisticamente como um processo de Pois-son. A caracteristica de define tal processoe que os intervalos entre os eventos sucessivossao distribuıdos exponencialmente. Dada umsequencia de eventos discretos ocorrendo nostempos t0, t1, t2, t3, . . ., os intervalos entreeventos sucessivos sao: ∆t1 = t1 − t0, ∆t2 =t2 − t1, ∆t3 = t3 − t2, . . ., e assim por diante.

136

Page 137: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Para um processo de Poisson, estes intervalossao tratados como variaveis aleatorias indepen-dentes tiradas de uma populacao distribuıda ex-ponencialmente, i.e., uma populacao com funcaodensidade de probabilidade f(x) = λe−λx paraalguma constante fixa λ.

A distribuicao exponencial e particularmenteconveniente para a modelagem matematica poisela implica em uma taxa fixa de ocorrencia.Para ver porque este e o caso, considere um sis-tema que comece no estado 0 no tempo inicialt = 0, e mude para o estado 1 no instante detempo t = T , onde T e retirado aleatoriamentede uma distribuicao exponencial. Qual a pro-babilidade de que o sistema esteja no estado 1em algun instante de tempo arbitrario t1? Aresposta obviamente e a integral da funcao den-sidade de probabilidade de t = 0 ate t = t1. SePj(t) denota a probabilidade do sistema estarno estado j no instante t, tem-se:

P1(t1) =

∫ t1

0

dt λe−λt = 1− e−λt1 . (17.5)

A probabilidade do sistema ainda estar no es-tado 0 no instante t1 e justamente a probabili-dade complementar desta, i.e., P0(t1) = e−λt1 .Para qualquer instante de tempo t, a equacaoacima mostra que a taxa absoluta de variacaode probabilidade do sistema estar no estado1 e dP1/dt = λe−λt, tem-se entao a seguinterelacao:

dP1

dt= λP0 . (17.6)

E claro que, uma vez que P0 + P1 = 1, pode-setrocar P0 por 1− P1 e escrever:

dP1

dt+ λP1 = 1 , (17.7)

que e simplesmente um atraso de primeiraordem com “constante de tempo” 1/λ e asolucao desta equacao diferencial e justamente aEq. 17.5. O significado da Eq. 17.6 e que pode-se expressar a derivada do estado devido a umatransicao exponencial como o produto da taxade transicao λ com a probabilidade do estado

inicial P0λ−→ P1.

De modo geral, para qualquer numero de es-tados, se as transicoes de um estado para outrosao todas exponenciais, pode-se escrever imedi-atamente o sistema de equacoes diferenciais quegovernam as probabilidades de estar em cadaum dos estados. Este procedimento permite cal-cular o comportamente de um processo de Pois-son, porque (por definicao) o tempo de transicao

de estado Pn para o estado Pn+1 e exponen-cial para qualquer valor de n. E convenienterepresentar um processo de Poisson esquemati-camente como:

P0λ−→ P1

λ−→ P2λ−→ P3

λ−→ . . . .

Seja Pj a probabilidade do j-esimo estado, quee o estado quando exatamente j eventos ocorre-ram. Estas probabilidades sao funcoes do tempoe tipicamente inicializa-se com as condicoes ini-ciais: P0(0) = 1, Pj(0) = 0 para todo j >0. Dado que os intervalos entre as ocorrenciassao retirados de uma distribuicao exponencial,gostaria-se de obter a probabilidade que exata-mente n eventos ocorram ate o instante t. Emoutras palavras, quer-se determinar a probabi-lidade Pn(t). Uma vez que todas as transicoessao distribuıdas exponencialmente, tem-se ime-diatamente que:

dP0

dt= −λP0 (17.8)

dP1

dt= λP0 − λP1 (17.9)

dP2

dt= λP1 − λP2 (17.10)

... . (17.11)

Com a condicao inicial que P0(0) = 1, a primeiraequacao pode ser resolvida imediatamente e re-sulta em P0(t) = e−λt. Substituindo este resul-tado na segunda equacao, tem-se: dtP1 + P1 =λe−λt.1 Cuja solucao e:2

P1(t) = e−λt∫

dt λe−λteλt+ Ce−λt

= (λt)e−λt . (17.12)

Substituindo a expressao para P1(t) na proximaequacao do sistema tem-se:

dP2

dt+ λP2 = λ(λt)e−λt , (17.13)

1Lembre que a solucao geral para qualquer equacaoda forma:

dx

dt+ F (t)x = G(t)

e

x(t) = e−r[∫

dt G(t)er + C

]r =

∫dt F (t) ,

onde C e uma constante de integracao.2Considere x = P1, F (t) = λ e G(t) = λe−λt, de

onde r = λt e usando C = 0 para satisfazer a condicaoinicial P1(0) = 0.

137

Page 138: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

que pode ser resolvida e resulta em:

P2(t) =(λt)2

2e−λt , (17.14)

onde foi utilizado a condicao inicial: P2(0) = 0.Repitindo este procedimento, pode-se mostrarpor inducao que a probabilidade do nesimo es-tado no instante t e:

Pn(t) =(λt)n

n!e−λt . (17.15)

Esta e a distribuicao de probabilidade para umprocesso de Poisson de contagem que representaa probabilidade de que exatamente n eventostenham ocorrido ate o instante t. A soma destasprobabilidade de n = 0 ate ∞ e igual a 1.3

Convem mencionar que uma vez que a distri-buicao de intervalos entre ocorrencias sucessivase exponencial, a distribuicao de Poisson e es-tacionaria, significando que qualquer momentopode ser tomado como instante inicial t = 0, oque implica que a probabilidade de n ocorrenciasem um intervalo de tempo depende somente dotamanho do intervalo e nao depende de quandoeste intervalo aparece.

O valor esperado do numero de ocorrencias noinstante t e dado por:

E(n, t) =

∞∑n=0

nPn(t) = λt . (17.16)

17.1.1 Teoria das Filas

Uma aplicacao tıpica de transicoes exponenciaise modelos de Poisson e na teoria das filas. Supo-nha, por exemplo, que fregueses entrem em umaloja em instante aleatorios com uma taxa cons-tante λ e que os seus pedidos sejam processadosem uma taxa constante µ. Quantos freguesesestarao esperando em um dado instante?

Pode-se modelar este processo usando astransicoes exponenciais como ilustrado pelo es-quema:

P0

λ−→←−µ

P1

λ−→←−µ

P2

λ−→←−µ

P3

λ−→←−µ

. . . ,

onde o n-esimo estado representa o estadoquando n fregueses estao esperando e Pn(t) de-nota a probabilidade que aquele estado esteja

3Lembrete:

eλt =

∞∑n=0

(λt)n

n!.

no instante t. Cada “transicao λ” provoca umamudanca do estado n para o estado n+1 e Cada“transicao µ” provoca uma mudanca do estadon para o estado n− 1. No comeco do dia a lojaesta vazia, i.e,, o sistema esta no estado 0 comprobabilidade P0(0) = 1. O sistema de equacoesdinamicas e:

dP0

dt= −λP0 + µP1 (17.17)

dP1

dt= λP0 − λP1 − µP1 + µP2(17.18)

dP2

dt= λP1 − λP2 − µP2 + µP3(17.19)

... . (17.20)

Solucao Estacionaria

Frequentemente esta-se interessado no estadoestacionario das probabilidades, i.e., a distri-buicao de probabilidades uma vez que o sis-tema tenha alcancado o equilıbrio e tenha es-tabilizado. Esta condicao e caracterizada pelofato que todas a derivadas das probabilidadesse anulam, de modo que a primeira equacaoimplica em: P1 = (λ/µ)P0, e pode ser subs-tituıda na segunda equacao para resultar em:P2 = (λ/µ)2P0 e assim por diante. Em geraltem-se Pn = (λ/µ)nP0. Uma vez que a soma detodas a probabilidades e igual a 1, tem-se:

P0

[1 +

µ

)+

µ

)2

+ . . .

]=

P0

1− λ/µ= 1 ,

que resulta em P0 = 1− (λ/µ) e entao:

Pn =

(1− λ

µ

)(λ

µ

)n, (17.21)

que e a distribuicao geometrica. Neste exemplode fregueses esperando em uma loja, a distri-buicao geometrica e a probabilidade de que exa-tamente n fregueses estejam esperando (inclu-sive aqueles sendo atendidos). O numero espe-rado de fregueses esperando (i.e., o comprimentomedio da fila) e dado por:

E(n) =

∞∑n=0

n

(1− λ

µ

)(λ

µ

)n=

λ/µ

1− λ/µ. (17.22)

Este tipo de fila e chamada algumas vezes defila M/M/1, onde o primeiro M significa que as

138

Page 139: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

chegadas sao sem memoria (i.e., distribuıdas ex-ponencialmente), o segundo M tem o mesmo sig-nificado para as saıdas e o 1 significa somente umvendedor. O sistema de equacoes acima somenteconverge se λ < µ (i.e., a taxa de chegada formenor do que a taxa de saıda (processamento)),senao a fila crescera indefinidamente.

Solucao Dependente do Tempo

E tambem interessante considerar a solucao de-pendente do tempo do modelo. Pode-se comecarolhando uma versao truncada com somente osdois estados mais baixos com probabilidadesP0(t) e P1(t). O sistema de equacao e:

dP0

dt= −λP0 + µP1 (17.23)

dP1

dt= λP0 − µP1 , (17.24)

com as condicoes P0 + P1 = 1. Assim: dtP0 +(λ+ µ)P0 = µ com a condicao inicial P0(0) = 1a solucao e:

P0(t) =µ

λ+ µ+

λ

λ+ µe−(λ+µ)t .

Analogamente, pode-se considerar um sis-tema finito que consiste dos 3 estados mais bai-xos, o que leva a seguinte equacao diferencial:

d2tP0+2

(µ2 − λ2

µ− λ

)dtP0+

(µ3 − λ3

µ− λ

)P0 = µ2 .

Deste caso e do caso precedente pode-se es-tar tentado a assumir uma forma geral de “bi-nomial”, mas este padrao simples se quebraquando considera-se um sistema constituıdo dosquatro estados mais baixos, levando a equacaodiferencial:

d3tP0 + 3

(µ2 − λ2

µ− λ

)d2tP0 +

3

(µ3 − λ3

µ− λ

)dtP0 +

(µ4 − λ4

µ− λ

)P0 =

µ3 − µλdP0 .

Quantos mais estados forem incluıdos, maistermos “nao-binomiais” aparecem. No entantoexiste um padrao relativamente simples repre-sentando este sistema de equacoes diferenciais.

139

Page 140: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Para ver este padrao considere os quatro estados representados na forma matricial:−λ µ 0 0λ −(λ+ µ) µ 00 λ −(λ+ µ) µ0 0 λ −µ

P0

P1

P2

P3

=

P0

P1

P2

P3

. (17.25)

Em geral pode-se resolver este problema de auto valores encontrando as raızes do polinomiocaracterıstico, e para um sistema de n estados encontra-se n raızes distintas,onde uma das quaise nula, correspondente a constante de integracao na solucao da forma diferencial geral. As outrasn− 1 raızes sao:

2 estados −(λ+ µ)3 estados −(λ+ µ)±

√λµ

4 estados −(λ+ µ) −(λ+ µ)±√

2√λµ

5 estados −(λ+ µ)± 1+√

52

√λµ −(λ+ µ)± 1−

√5

2

√λµ

6 estados −(λ+ µ) −(λ+ µ)±√λµ −(λ+ µ)±

√3√λµ

Os autovalores para um sistema de n estados sao:

−(λ+ µ)± 2 cos

(kπ

n

)√λµ k = 1, 2, . . . , [n/2] , (17.26)

juntamente com o autovalor 0. Observe que para n par o autovalor com k = n/2 e simplesmente−(λ + µ). No caso mais geral, se m divide por n, entao os autovalores de um sistema com nestados sao um subconjunto daqueles de m estados. Baseados nestes autovalores, a solucao geralpara um sistema de n estados e da forma:

P0(t) = γ + e−(λ+µ)t

[n/2]∑k=1

(αke2t cos(kπ/n)

√λµ + βke−2t cos(kπ/n)

√λµ), (17.27)

onde γ, αk e βk sao constantes de integracao determinadas pelas condicoes iniciais. Da solucaoestacionaria para o n-esimo sistema tem-se:

γ =1− λ/µ

1− (λ/µ)n. (17.28)

Se considerarmos um sistema de infinitos estados, a soma torna-se integral e o argumento kπ/nse torna a variavel real θ ∈ [0, π/2] e os coeficiente se tornam funcoes contınuas de θ. Tem-seentao:

P0(t) = γ + e−(λ+µ)t

∫ π/2]

0

dθ(α(θ)e2t cos(θ)

√λµ + β(θ)e−2t cos(θ)

√λµ), (17.29)

com a condicao de que:

P0(0) = γ +

∫ π/2]

0

dθ (α(θ) + β(θ)) = 1 . (17.30)

E facil verificar a convergencia pois a magnitude do expoente negativo −(λ+µ)t e sempre maiorou igual a magnitude do expoente 2t cos(θ)

√λµ uma vez que o valor maximo de cos(θ) e 1. Do

quadrado destas grandezas encontra-se a desigualdade: (λ− µ)2 ≥ 0.As equacoes acima mostram que as probabilidades com dependencia temporal em uma fila

simples M/M/1 sao analogos ao coeficientes das series de Fourier das funcoes α(θ) e β(θ).

140

Page 141: Notas de Aula da Disciplina de Estat stica

Capıtulo 18

Statistical Methods for Rater Agreement

In many fields it is common to study agre-ement among ratings of multiple judges, ex-perts, diagnostic tests, etc. We are concer-ned here with categorical ratings: dichotomous(Yes/No, Present/Absent, etc.), ordered cate-gorical (Low, Medium, High, etc.), and nomi-nal (Schizophrenic, Bi-Polar, Major Depression,etc.) ratings. Likert-type ratings–intermediatebetween ordered-categorical and interval-levelratings, are also considered. There is little con-sensus about what statistical methods are bestto analyze rater agreement (we will use the gene-ric words “raters” and “ratings” here to includeobservers, judges, diagnostic tests, etc. andtheir ratings/results.) To the non-statistician,the number of alternatives and lack of consis-tency in the literature is no doubt cause for con-cern. This review1 aims to reduce confusion andhelp researchers select appropriate methods fortheir applications.

Despite the many apparent options for analy-zing agreement data, the basic issues are verysimple. Usually there are one or two methodsbest for a particular application. But it is neces-sary to clearly identify the purpose of analysisand the substantive questions to be answered.

The most common mistake made when analy-zing agreement data is not having a explicitgoal. It is not enough for the goal to be “measu-ring agreement” or “finding out if raters agree”.There is presumably some reason why onewants to measure agreement. Which sta-tistical method is best depends on this re-ason.

For example, rating agreement studies are of-ten used to evaluate a new rating system or ins-trument. If such a study is being conducted du-ring the development phase of the instrument,one may wish to analyze the data using methodsthat identify how the instrument could be chan-

1http://ourworld.compuserve.com/homepages/jsuebersax/agree.htm#recs

ged to improve agreement. However if an ins-trument is already in a final format, the samemethods might not be helpful.

Very often agreement studies are an indirectattempt to validate a new rating system or ins-trument. That is, lacking a definitive criterionvariable or “gold standard”, the accuracy of ascale or instrument is assessed by comparing itsresults when used by different raters. Here onemay wish to use methods that address the issueof real concern, how well do ratings reflect thetrue trait one wants to measure?

In other situations one may be consideringcombining the ratings of two or more raters toobtain evaluations of suitable accuracy. If so,again, specific methods suitable for this purposeshould be used.

A second common problem in analyzing agre-ement is the failure to think about the datafrom the standpoint of theory. Nearly all sta-tistical methods for analyzing agreement makeassumptions. If one has not thought about thedata from a theoretical point of view it will behard to select an appropriate method. The the-oretical questions one asks do not need to becomplicated. Even simple questions, like “is thetrait being measured really discrete, like pre-sence/absence of a pathogen, or is the trait re-ally continuous and being divided into discretelevels” (e.g., “low”, “medium”, “high”) for con-venience? If the latter, is it reasonable to as-sume that the trait is normally distributed? Oris some other distribution plausible?

Sometimes one will not know the answers tothese questions. That is fine, too, because thereare methods suitable for that case also. Themain point is to be inclined to think about datain this way, and to be attuned to the issue ofmatching method and data on this basis.

These two issues–knowing ones goals and con-sidering theory, are the main keys to successfulanalysis of agreement data. Following are some

141

Page 142: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

other, more specific issues that pertain to the se-lection of methods appropriate to a given study.

One can broadly distinguish two reasons forstudying rating agreement. Sometimes the goalis estimate the validity (accuracy) of ratings inthe absence of a “gold standard”. This is a re-asonable use of agreement data: if two ratingsdisagree, then at least one of them must be in-correct. Proper analysis of agreement data the-refore permits certain inferences about how li-kely a given rating is to be correct.

Other times one merely wants to know theconsistency of ratings made by different raters.In some cases, the issue of accuracy may evenhave no meaning–for example ratings may con-cern opinions, attitudes, or values.

One should also distinguish between modelingvs. describing agreement. Ultimately, there areonly a few simple ways to describe the amount ofagreement: for example, the proportion of timestwo ratings of the same case agree, the propor-tion of times raters agree on specific categories,the proportions of times different raters use thevarious rating levels, etc.

The quantification of agreement in any otherway inevitably involves a model about how ra-tings are made and why raters agree or disa-gree. This model is either explicit, as with la-tent structure models, or implicit, as with thekappa coefficient. With this in mind, two basicprinciples are evident:

It is better to have a model that is explicitlyunderstood than one which is only implicit andpotentially not understood.

The model should be testable. Methods varywith respect to how well they meet the thesetwo criteria.

Consider that disagreement has different com-ponents. With ordered-category (including di-chotomous) ratings, one can distinguish betweentwo different sources of disagreement. Ratersmay differ:

1. in the definition of the trait itself; or

2. in their definitions of specific rating levelsor categories.

A trait definition can be thought of as a weigh-ted composite of several variables. Different ra-ters may define or understand the trait as dif-ferent weighted combinations. For example, toone rater Intelligence may mean 50% verbal skilland 50% mathematical skill; to another it maymean 33% verbal skill, 33% mathematical skill,

and 33% motor skill. Thus their essential defini-tions of what the trait means differ. Similarityin raters’ trait definitions can be assessed withvarious estimates of the correlation of their ra-tings, or analogous measures of association.

Category definitions, on the other hand, dif-fer because raters divide the trait into differentintervals. For example, by “low skill” one ra-ter may mean subjects from the 1st to the 20thpercentile. Another rater, though, may take itto mean subjects from the 1st to the 10th per-centile. When this occurs, rater thresholds canusually be adjusted to improve agreement. Si-milarity of category definitions is reflected asmarginal homogeneity between raters. Margi-nal homogeneity means that the frequencies (or,equivalently, the “base rates”) with which tworaters use various rating categories are the same.

Because disagreement on trait definition anddisagreement on rating category widths are dis-tinct components of disagreement, with differentpractical implications, a statistical approach tothe data should ideally quantify each separately.

All other things being equal, a simpler sta-tistical method is preferable to a more compli-cated one. Very basic methods can reveal farmore about agreement data than is commonlyrealized. For the most part, advanced methodsare complements to, not substitutes for simplemethods.

To illustrate these principles, consider theexample for rater agreement on screening mam-mograms, a diagnostic imaging method for de-tecting possible breast cancer. Radiologistsoften score mammograms on a scale such as“no cancer”, “benign cancer”, “possible malig-nancy”, or “malignancy”. Many studies haveexamined rater agreement on applying these ca-tegories to the same set of images. In choosinga suitable statistical approach, one would firstconsider theoretical aspects of the data. Thetrait being measured, degree of evidence for can-cer, is continuous. So the actual rating levelswould be viewed as somewhat arbitrary discre-tizations of the underlying trait. A reasonableview is that, in the mind of a rater, the ove-rall weight of evidence for cancer is an aggregatecomposed of various physical image features andweights attached to each feature. Raters mayvary in terms of which features they notice andthe weights they associate with each.

One would also consider the purpose of analy-zing the data. In this application, the purposeof studying rater agreement is not usually to es-

142

Page 143: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

timate the accuracy of ratings by a single rater.That can be done directly in a validity study,which compares ratings to a definitive diagnosismade from a biopsy.

Instead, the aim is more to understand thefactors that cause raters to disagree, with an ul-timate goal of improving their consistency andaccuracy. For this, one should separately assesswhether raters have the same definition of thebasic trait (that different raters weight variousimage features similarly) and that they have si-milar widths for the various rating levels. Theformer can be accomplished with, for example,latent trait models. Moreover, latent trait mo-dels are consistent with the theoretical assump-tions about the data noted above. Raters’ ratingcategory widths can be studied by visually re-presenting raters’ rates of use for the differentrating levels and/or their thresholds for the va-rious levels, and statistically comparing themwith tests of marginal homogeneity.

Another possibility would be to examine ifsome raters are biased such that they make ge-nerally higher or lower ratings than other raters.One might also note which images are the sub-ject of the most disagreement and then to tryidentify the specific image features that are thecause of the disagreement.

Such steps can help one identify specific waysto improve ratings. For example, raters whoseem to define the trait much differently thanother raters, or use a particular category toooften, can have this pointed out to them, andthis feedback may promote their making ratingsin a way more consistent with other raters.

18.1 RecommendedMethods

This section suggests statistical methods suita-ble for various levels of measurement based onthe principles outlined above. These are gene-ral guidelines only–it follows from the discussionthat no one method is best for all applications.But these suggestions will at least give the rea-der an idea of where to start. Some readers maywonder why kappa statistics are not recommen-ded more strongly. Kappa statistics generally donot meet the criteria outlined above: they makeimplicit theoretical assumptions which are ar-bitrary and untested, they do not separate thedifferent components of disagreement, and they

do not express agreement in terms that are es-pecially useful. The growing consensus amongstatisticians is that kappa coefficients are vastlyoverused and that they should most definitelynot be viewed as the default or standard wayto measure agreement. It is unfortunate thatpublished studies have been slow to recognizethis.

18.1.1 Dichotomous data

Two raters

1. test association between raters with the logodds ratio;

2. use McNemar’s test to evaluate marginalhomogeneity.

The tetrachoric correlation coefficient can beused if its assumptions are sufficiently plausiblea priori. Consider reporting these raw agree-ment indices: the proportion of overall agree-ment, and the proportions of agreement specificto each category.

Multiple raters

If the underlying trait is assumed to be continu-ous, use latent trait models to assess associationamong raters and estimate the correlation of ra-tings with the true trait. These models can alsobe used to assess marginal homogeneity amongraters. If the underlying trait is assumed tobe discrete, consider use of latent class models.Another possibility is to consider each pair ofraters and proceed as described for two raters.

18.1.2 Ordered-category (exclu-ding Likert-type) data

Two raters

In most cases, the presence of multiple orde-red rating levels will imply that the underlyingtrait is fundamentally continuous. If so: (1) me-asure association between the raters with thepolychoric correlation coefficient or one of itsgeneralizations; (2) test marginal homogeneityand/or equality of rater thresholds and overallbias using McNemar tests. Use graphical dis-plays to visually compare the proportion of ti-mes raters use each category (base rates). Asso-ciation models, especially so-called RC modelsare another good alternative.

143

Page 144: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Multiple raters

1. use latent trait models to assess associationof raters’ ratings with the true trait;

2. use latent trait models to test for simila-rity/differences among rater thresholds.

Graphically portray and compare rater base ra-tes and/or thresholds. Alternatively, considereach pair of raters and proceed as described fortwo raters.

18.1.3 Nominal scale data

Two raters

Report these raw agreement indices: the propor-tion of overall agreement and the proportions ofagreement specific to each category. The kappacoefficient can be used to verify that raters agreemore than chance would predict; but aside fromthis ”significant/non-significant”determination,disregard kappa’s magnitude. Test marginal ho-mogeneity using McNemar tests. For deeperunderstanding of the data, consider latent classmodels, quasi-symmetry models, or RC(M) as-sociation models.

Multiple raters

Latent class modeling. Visually represent eachraters’ base rates with histograms or stacked-bar graphs. Marginal homogeneity can be tes-ted within the context of latent class modeling.Alternatively, consider each pair of raters andproceed as described for two raters

18.1.4 Likert-type data

Very often, Likert-type items can be assumed toproduce interval-level data. (By “Likert-type”it is meant an item where the format clearlyimplies to the rater that rating levels are evenly-spaced, such aslowest highest

|-------|-------|-------|-------|-------|-------|

1 2 3 4 5 6 7 (circle level that

applies)

Two raters

Assess association among raters using the re-gular Pearson correlation coefficient. Assessmarginal homogeneity as with ordered-categorydata. See also methods listed in the sectionMethods for Likert-type or interval-level data.

Multiple raters

Perform a one-factor common factor analysis.Measure the correlation of each rater with thecommon factor (for details, see the sectionMethods for Likert-type or interval-level data).Use histograms to describe raters’ marginal dis-tributions. If greater detail is required, considereach pair of raters and proceed as described fortwo raters

18.2 Raw Agreement Indi-ces

Much neglected, raw agreement indices are im-portant descriptive statistics. They have uniquecommon-sense value. A study that reports onlysimple agreement rates may have great value;a study that omits them but reports complexstatistics may be have little value.

Raw agreement measures and their calcula-tion are explained below. We examine first thecase of agreement between two raters on dicho-tomous ratings.

18.2.1 Two Raters, DichotomousRatings

Consider the ratings of two raters (or experts,judges, diagnostic procedures, etc.) summarizedby Table 18.1.

Rater 1 / Rater 2 + − Total+ a b a+ b− c d c+ d

Total a+ c b+ d N = a+ b+ c+ d

Tabela 18.1: Summary of dichotomous ratingsby two raters.

The values a, b, c and d here denote the ob-served frequencies for each possible combinationof ratings by Rater 1 and Rater 2.

Proportion of overall agreement

The observed proportion of overall agre-ement, which we denote po is the proportioncases for which Raters 1 and 2 agree. That is:

po =a+ d

a+ b+ c+ d=a+ d

N. (18.1)

144

Page 145: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

This value is useful and informative. Takenby itself, however, it has limitations. The mostobvious is that it does not distinguish betweenagreement on the two levels of the trait (e.g.,agreement on positive ratings vs. agreement onnegative ratings).

Consider an epidemiological applicationwhere a positive rating corresponds to a po-sitive diagnosis for a very rare trait–one, say,with a prevalence of 1 in 1, 000, 000. Thenwe would not be much impressed if po is veryhigh–even above 0.99; one might assume this ismainly due to agreement on trait absence.

This relates to Cohen’s (1960) original criti-cism of po–that it can be high even when ratersmake ratings purely by chance. In this example,if both raters simply guessed “trait absent” thelarge majority of times, they would agree mostof the time (they would also be correct most ofthe time–a related, but different issue).

While Cohen was correct in his diagnosis ofthe potential problem, his proposed solution,the kappa coefficient, is a more extreme responsethan is necessary (see the Kappa Coefficientspage for full discussion).

In fact, the potential limitation of po can beremedied in a simpler way. That is to calculateproportions of agreement specific to each cate-gory.

Proportions of specific agreement

The proportions of specific agreement for posi-tive ratings (ps+) and negative ratings (ps−) arecalculated as follows:

ps+ =2a

2a+ b+ c(18.2)

ps− =2d

2d+ b+ c. (18.3)

respectively.2 Observe that 2a+b+c = (a+b)+(a+ c), i.e., the partial total of the column andline of the table. These proportions are inter-pretable as estimated conditional probabilities.For example ps+ estimates the conditional pro-bability, given that one of the raters, randomlyselected, makes a positive rating, that the otherrater will also do so.

2Spitzer R, Fleiss J. A re-analysis of the reliabilityof psychiatric diagnosis. British Journal on Psychiatry,1974, 341-47.Cicchetti DV. Feinstein AR. High agreement but lowkappa: II. Resolving the paradoxes. Journal of Clini-cal Epidemiology, 1990, 43, 551-558.

The joint consideration of ps+ and ps− ad-dresses the objection that with extreme preva-lences or “base rates” agreement may be highby chance alone.

With the epidemiological example above, it istrue that chance ratings would produce a highpo – and ps− would also be high. But, if onlychance were operating, ps+ would be extremelylow. A high value for both ps+ and ps− wouldimply that the observed level of agreement ishigher than would occur by chance. Thus, bycalculating both ps+ and ps−, and requiring thatboth be high to consider agreement satisfactory,one meets the original criticism raised againstraw agreement indices.

Significance, standard errors, interval es-timation

Proportion of overall agreement

Statistical significance. In testing the signi-ficance of po, the null hypothesis is that ra-ters are independent, with their marginalprobabilities equal to the observed marginalproportions. For a 2×2 table, the test is thesame as a usual test of statistical indepen-dence in a contingency table. The followingmethods are suitable and will produce mos-tly the same results:

• a Pearson chi-squared (χ2) orlikelihood-ratio chi-squared (G2) testof independence

• the Fisher exact test

• test of a nonzero log-odds ratio

• test of a nonzero kappa coefficient

• test of fit of a loglinear model withmain effects only

All of these tests, except the last, can bedone with SAS PROC FREQ.

Standard error. Because po is a proportion,we can use standard methods to calculateits standard error and construct confidenceintervals. For a sample size N , the standarderror of po is:

sigma(po) =

√po(1− po)

N(18.4)

One can alternatively estimate sigma(po)using the nonparametric bootstrap orjackknifing, described in the next section.

145

Page 146: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Confidence intervals The Wald or “normalapproximation” method for constructingconfidence limits of a proportion is not re-commended when the proportion is lessthan .20 or greater than .80.3 Since po is of-ten above .80, the Wald method should ge-nerally not be used. Agresti (1996) suggestsa simple alternative which is much better,and numerous other methods of varyingexactness are available. Again, the nonpa-rametric bootstrap, described in the nextsection, can be used to estimate a confi-dence interval for po.

Proportions of specific agreement

Statistical significance. Logically speaking,there is only one test of independence ina 2× 2 table. If, using the methods descri-bed above, po is found significant, then ps+and ps− may be taken as significant as well.

Standard errors. If one were to regard the va-lue of 2a+b+c as fixed, then both ps+ andps− could be interpreted as simple propor-tions; one could then calculate their stan-dard error as with Eq. 18.4 and get confi-dence ranges using any of the methods des-cribed above. This assumption is met if oneassumes fixed marginals (it is more gene-ral, since it requires only that the positive-rating marginals for both raters sum to aconstant). This assumption is not withoutprecedence; Cook & Farewell (1995), forexample, suggest it is not very limiting.

Alternatively, the delta method can be usedto estimate the standard errors of theseterms. (Further details on this approachwill be supplied.)

One can also obtain the standard errors byusing the nonparametric bootstrap or thejackknife. These are described below withreference to ps+, but they apply equallywell to ps−.

With the nonparametric bootstrap (Efron& Tibshirani, 1993), one constructs a largenumber of simulated data sets of size N bysampling with replacement from the obser-ved data; for a 2×2 table, this can be donesimply by using random numbers to assignsimulated cases to cells with probabilities of

3Agresti A. An introduction to categorical dataanalysis. New York: Wiley, 1996.

a/N , b/N , c/N and d/N . One then calcula-tes the proportion of specific positive agre-ement for each simulated data set – whichwe denote p∗s+. The standard deviation of(p∗s+ minus ps+) across all simulated datasets estimates the standard error of ps+.

The delete-1 (Efron, 1982) jackknife worksby calculating ps+ for four alternative ta-bles where one case is subtracted from eachof the four cells. A few simple calculati-ons then provide an estimate of the stan-dard error of ps+. The delete-1 jackkniferequires less computation, but the nonpara-metric bootstrap is often preferred, especi-ally in conjunction with confidence intervalconstruction.

Confidence intervals. To estimate a confi-dence range with the nonparametric boots-trap, one proceeds as described above to ge-nerate a large number (for confidence rangeestimation, the number should be at least500) of simulated data sets. The value ofp∗s+ is calculated for each, and these valuesare then sorted by magnitude. Confidencelimits of ps+ are obtained with reference tothis ranking. For example, the 95% con-fidence range is estimated by the values ofp∗s+ that correspond to the 2.5 and 97.5 per-centiles.

An advantage of bootstrapping is that one canuse the same set of simulated data sets to es-timate not only the standard errors and confi-dence limits for ps+ and ps−, but for po, and,in fact, any other statistics defined on the 2× 2table, such as the odds ratio, marginal homoge-neity indices, and, if so desired, the kappa coef-ficient, all at the same time.

18.2.2 Two Raters, PolytomousRatings

We now consider results for two raters makingpolytomous (either ordered category or purelynominal) ratings.

Let C denote the number of rating categoriesor levels.

Results for the two raters may be summarizedas a C×C table such as Table 18.2. In the table,nij denotes the number of cases assigned ratingcategory i by Rater 1 and category j by Rater2, with i, j = 1, . . . , C. When a “.” appears ina subscript, it denotes a marginal sum over the

146

Page 147: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

corresponding index; e.g., ni. is the sum of nijfor j = 1, . . . , C, or the marginal sum for Rater1 and category i. N = n.. denotes the totalnumber of cases.

Overall Agreement

For this design, po is the sum of frequencies ofthe main diagonal of table {nij} divided by sam-ple size, or

po =1

N

C∑i=1

nii . (18.5)

Again, po can be viewed as a sample propor-tion. Its standard error and confidence intervalscan be calculated with the methods describedfor 2× 2 tables. Testing significance, though, isslightly more complex than with a 2 × 2 table,one cannot, for example, merely perform a χ2

or G2 test of independence.

One alternative is to test significance of poby calculating the kappa coefficient and tes-ting that for significance; if kappa is signifi-cant/nonsignificant, then po may be assumedsignificant/nonsignificant, and vice versa. Thatis because the numerator of kappa is simply thedifference between po and the level of agreementexpected under the null hypothesis of indepen-dence.

The parametric bootstrap can also be usedto test statistical significance. This is like thenonparametric bootstrap already described, ex-cept that samples are generated from the nullhypothesis distribution. Specifically, one cons-tructs a table corresponding to Table 18.2,where the expected frequency for every cell (i, j)is:

n′ij =ni.n.jN

. (18.6)

One then constructs many – say 500, simulatedsamples of size N from the distribution {n′ij}and the calculates p∗o for each. The po for theactual data is viewed statistically significant ifit exceeds the specified percentage (e.g., 5%) ofthe p∗o values.

If one already has a computer program fornonparametric bootstrap standard error andconfidence range estimation, only slight modifi-cations are needed for it to perform a parametricbootstrap significance test.

Specific agreement

With respect to Table 18.2, the proportion ofagreement specific to category i is:

ps(i) =2nii

ni.+ n.i. (18.7)

This is equivalent to collapsing the C ×C tableinto a 2 × 2 table for each category i, conside-ring the binary distinction “category i” (+) vs“not category i” (−), and calculating ps+. Thisalso suggests a simple way to test significance ofps(i): one collapses the table to form the appro-priate 2 × 2 table, and performs any standardtest of independence, as described earlier.

The jackknife or nonparametric bootstrap beused to estimate standard errors and confidenceintervals. The nonparametric bootstrap can beused to test statistical significance.

18.2.3 Generalized Case

We now consider generalized formulas for theproportions of overall and specific agreement.They apply to binary, ordered category, or no-minal ratings and permit any number of raters,with potentially different numbers of raters ordifferent raters for each case.

Specific agreement

Let there be K rated cases indexed by k =1, . . . ,K. The ratings made on case k are sum-marized as:

{njk}(j = 1, . . . , C) = {n1k, n2k, ..., nCk}

where njk is the number of times category j(j = 1, . . . , C) is applied to case k. For example,if a case k is rated five times and receives ratingsof 1, 1, 1, 2, and 2, then n1k = 3, n2k = 2, and{njk} = {3, 2}.

Let nk denote the total number of ratingsmade on case k; that is,

nk =

C∑j=1

njk . (18.8)

For case k, the number of actual agreementson rating level j is

njk(njk − 1) . (18.9)

147

Page 148: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Rater 1 / Rater 2 1 2 . . . C Total1 n11 n12 . . . n1C n1.

2 n21 n22 . . . n2C n2.

......

......

...C nC1 nC2 . . . nCC nC.

Total n.1 n.2 . . . n.C N

Tabela 18.2: Summary of polytomous ratings by two raters.

The total number of agreements specificallyon rating level j, across all cases is

S(j) =

K∑k=1

njk(njk − 1) . (18.10)

The number of possible agreements specifi-cally on category j for case k is equal to

njk(nk − 1) (18.11)

and the number of possible agreements on ca-tegory j across all cases is:

Sposs(j) =

K∑k=1

njk(nk − 1) . (18.12)

The proportion of agreement specific to ca-tegory j is equal to the total number of agree-ments on category j divided by the total numberof opportunities for agreement on category j, or

ps(j) =S(j)

Sposs(j). (18.13)

Overall agreement

The total number of actual agreements, regar-dless of category, is equal to the sum of Eq. (9)across all categories, or

O =

C∑j=1

S(j) . (18.14)

The total number of possible agreements is

Oposs =

K∑k=1

nk(nk − 1) . (18.15)

Dividing Eq. 18.14 by Eq. 18.15 gives the overallproportion of observed agreement, or

po =O

Oposs. (18.16)

Standard errors, interval estimation, sig-nificance

The jackknife or, preferably, the nonparametricbootstrap can be used to estimate standard er-rors of ps(j) and po in the generalized case. Thebootstrap is uncomplicated if one assumes ca-ses are independent and identically distributed(iid). In general, this assumption will be accep-ted when:

the same raters rate each case, and eitherthere are no missing ratings or ratings are mis-sing completely at random.

the raters for each case are randomly sampledand the number of rating per case is constant orrandom.

in a replicate rating (reproducibility) study,each case is rated by the procedure the samenumber of times or else the number of replicati-ons for any case is completely random. In thesecases, one may construct each simulated sampleby repeated random sampling with replacementfrom the set of K cases.

If cases cannot be assumed iid (for example,if ratings are not missing at random, or, say, astudy systematically rotates raters), simple mo-difications of the bootstrap method–such as two-stage sampling, can be made.

The parametric bootstrap can be used for sig-nificance testing. A variation of this method,patterned after the Monte Carlo approach des-cribed by Uebersax (1982), is as follows:

Loop through s, where s indexes simulateddata sets

Loop through all cases k

Loop through all ratings on case k

For each actual rating, generate a random si-mulated rating, chosen such that:

Pr(Rating category=j—Rater=i) = base rateof category j for Rater i.

If rater identities are unknown or for a repro-ducibility study, the total base rate for categoryj is used.

148

Page 149: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

End loop through case k’s ratings

End loop through cases

Calculate p∗o and p∗s(j) (and any other statis-tics of interest) for sample s.

End main loop

The significance of po, ps(j), or any other sta-tistic calculated, is determined with reference tothe distribution of corresponding values in thesimulated data sets. For example, po is signifi-cant at the .05 level (1-tailed) if it exceeds 95

18.2.4 References

Cohen J. A coefficient of agreement for nominalscales. Educational and Psychological Measure-ment, 1960, 20, 37-46.

Cook RJ, Farewell VT. Conditional inferencefor subject-specific and marginal agreement:two families on agreement measures. CanadianJournal on Statistics, 1995, 23, 333-344.

Efron B. The jackknife, the bootstrap andother resampling plans. Philadelphia: Societyfor Industrial and Applied Mathematics, 1982.

Efron B, Tibshirani RJ. An introduction tothe bootstrap. New York: Chapman and Hall,1993.

Fleiss JL. Measuring nominal scale agreementamong many raters. Psychological Bulletin,1971, 76, 378-381.

Fleiss JL. Statistical methods for rates andproportions, 2nd Ed. New York: John Wiley,1981.

Uebersax JS. A design-independent methodfor measuring the reliability of psychiatric diag-nosis. Journal on Psychiatric Research, 1982-1983, 17(4), 335-342.

18.3 Odds Ratio and Yule’sQ

The odds ratio is an important option for testingand quantifying the association between two ra-ters making dichotomous ratings. It should pro-bably be used more often with agreement datathan it currently is.

The odds ratio can be understood with refe-rence to a 2× 2 crossclassification table 18.3.

By definition, the odds ratio, OR, is

OR =[a/(a+ b)]/[b/(a+ b)]

[c/(c+ d)]/[d/(c+ d)], (18.17)

but this reduces to

OR =a/b

c/d=ad

bc, (18.18)

which shows that OR is equal to the simple cros-sproduct ratio of a 2× 2 table.

18.3.1 Intuitive explanation

The concept of “odds” is familiar from gam-bling. For instance, one might say the odds ofa particular horse winning a race are “3 to 1”;this means the probability of the horse winningis 3 times the probability of not winning. InEquation 18.18, both the numerator and deno-minator are odds. The numerator, a/b, givesthe odds of a positive versus negative rating byRater 1 given that Rater 2’s rating is positive.The denominator, c/d, gives the odds of a posi-tive versus negative rating by Rater 1 given thatRater 2’s rating is negative.OR is the ratio of these two odds–hence its

name, the odds ratio. OR, then, indicates howmuch the odds of Rater 1 making a positive ra-ting increase for cases where Rater 2 makes apositive rating.

This alone would make the odds ratio a poten-tially useful way to assess association betweenthe ratings of two raters. However, it has someother appealing features as well. Note that:

OR =a/b

c/d=a/c

b/d=d/b

c/a=d/c

b/a=ad

bc.

(18.19)¿From this we see that the odds ratio can be

interpreted in various ways. Generally, it showsthe relative increase in the odds of one ratermaking a given rating, given that the other ratermade the same rating–the value is invariantregardless of whether one is concerned with apositive or negative rating, or which rater is thereference and which the comparison.

The odds ratio can be interpreted as a me-asure of the magnitude of association betweenthe two raters. The concept of an odds ratiois also familiar from other statistical methods(e.g., logistic regression).

18.3.2 Yule’s Q

OR can be transformed to a -1 to 1 scale byconverting it to Yule’s Q (or a slightly differentstatistic, Yule’s Y.) For example, Yule’s Q is:

Q =OR− 1

OR+ 1. (18.20)

149

Page 150: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Rater 1 Rater 2 + −+ a b a+ b− c d c+ d

a+ c b+ d Total

Tabela 18.3: Crossclassification frequencies for binary ratings by two raters Rater 1 Rater 2.

18.3.3 Log-odds ratio

It is often more convenient to work with the logof the odds ratio than with the odds ratio itself.The formula for the standard error of log(OR)is very simple:

σlog(OR) =

√1

a+

1

b+

1

c+

1

d. (18.21)

Knowing this standard error, one can easilytest the significance of log(OR) and/or cons-truct confidence intervals. The former is accom-plished by calculating:

z =log(OR)

σlog(OR), (18.22)

to determine the p-value in hypothesis testing.Confidence limits are calculated as:

log(OR)± zγσlog(OR) , (18.23)

where zγ is the z value defining the appropri-ate confidence limits, e.g., zγ = 1.645 or 1.96for a two-sided 90% or 95% confidence interval,respectively. Confidence limits for OR may becalculated as:

exp[log(OR)± zγσlog(OR)

]. (18.24)

Alternatives are to estimate confidence intervalsby the nonparametric bootstrap (for descrip-tion, see the Raw agreement indices page) orto construct exact confidence intervals by con-sidering all possible distributions of the cases ina 2× 2 table.

Once one has used log OR or OR to assessassociation between raters, one may then alsoperform a test of marginal homogeneity, such asthe McNemar test.

18.3.4 Pros and Cons: the OddsRatio

Pros

• The odds ratio is very easily calculated.

• It is a natural, intuitively acceptable wayto express magnitude of association.

• The odds ratio is linked to other statisticalmethods.

Cons

• If underlying trait is continuous, the va-lue of OR depends on the level of each ra-ter’s threshold for a positive rating. Thatis not ideal, as it implies the basic asso-ciation between raters changes if their th-resholds change. Under certain distributio-nal assumptions (so-called “constant asso-ciation” models), this problem can be elimi-nated, but the assumptions introduce extracomplexity.

• While the odds ratio can be generalizedto ordered category data, this again in-troduces new assumptions and complexity.(See the Loglinear, association, and quasi-symmetry models page).

18.3.5 Extensions and alternati-ves

Extensions

More than two categories. In an N×N ta-ble (where N > 2), one might collapse the tableinto various 2× 2 tables and calculate log(OR)or OR for each. That is, for each rating ca-tegory k = 1, . . . , N , one would construct the2× 2 table for the crossclassification of Level kvs. all other levels for Raters 1 and 2, and calcu-late logOR or OR. This assesses the associationbetween raters with respect to the Level k vs.not-Level k distinction. This method is proba-bly more appropriate for nominal ratings thanfor ordered-category ratings. In either case, onemight consider instead using Loglinear, associa-tion, or quasi-symmetry models.

Multiple raters. For more than two raters,a possibility is to calculate log(OR) or OR for

150

Page 151: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

all pairs of raters. One might then report, say,the average value and range of values across allrater pairs.

Alternatives

Given data by two raters, the following alterna-tives to the odds ratio may be considered.

• In a 2×2 table, there is a close relationshipbetween the odds ratio and loglinear mode-ling. The latter can be used to assess bothassociation and marginal homogeneity.

• Cook and Farewell (1995) presented a mo-del that considers formal decomposition ofa 2× 2 table into independent componentswhich reflect (1) the odds ratio and (2) mar-ginal homogeneity.

• The tetrachoric and polychoric correlationsare alternatives when one may assume thatratings are based on a latent continuoustrait which is normally distributed. Withmore than two rating categories, extensionsof the polychoric correlation are availablewith more flexible distributional assumpti-ons.

• Association and quasi-symmetry modelscan be used for N×N tables, where ratingsare nominal or ordered-categorical. Thesemethods are related to the odds ratio.

• When there are more than two raters, la-tent trait and latent class models can beused. A particular type of latent trait mo-del called the Rasch model is related to theodds ratio.

18.3.6 References

Either of the books by Agresti are excellent star-ting points. Agresti A. Categorical data analy-sis. New York: Wiley, 1990.

Agresti A. An introduction to categorical dataanalysis. New York: Wiley, 1996.

Bishop YMM, Fienberg SE, Holland PW. Dis-crete nultivariate analysis: theory and practice.Cambridge, Massachusetts: MIT Press, 1975

Cook RJ, Farewell VT. Conditional inferencefor subject-specific and marginal agreement:two families of agreement measures. CanadianJournal of Statistics, 1995, 23, 333-344.

Fleiss JL. Statistical methods for rates andproportions, 2nd Ed. New York: John Wiley,1981.

Khamis H. Association, measures of. In Ar-mitage P, Colton T (eds.), The Encyclopedia ofBiostatistics, Vol. 1, pp. 202-208. New York:Wiley, 1998.

Somes GW, O’Brien, KF. Odds ratio estima-tors. In Kotz L, Johnson NL (eds.), Encyclope-dia of statistical sciences, Vol. 6, pp. 407-410.New York: Wiley, 1988.

Sprott DA, Vogel-Sprott MD. The use of thelog-odds ratio to assess the reliability of dichoto-mous questionnaire data. Applied PsychologicalMeasurement, 1987, 11, 307-316.

18.4 Tests of Marginal Ho-mogeneity

Consider symptom ratings (1 = low, 2 = mode-rate, 3 = high) by two raters on the same sampleof subjects, summarized by a 3× 3 table 18.4.

Here pij denotes the proportion of all casesassigned to category i Rater 1 and category j byRater 2. (The table elements could as easily befrequencies.) The terms p1., p2., and p3. denotethe marginal proportions for Rater 1–i.e. thetotal proportion of times Rater 1 uses categories1, 2 and 3, respectively. Similarly, p.1, p.2, andp.3 are the marginal proportions for Rater 2.

Marginal homogeneity refers to equality (lackof significant difference) between one or moreof the row marginal proportions and the corres-ponding column proportion(s). Testing margi-nal homogeneity is often useful in analyzing ra-ter agreement. One reason raters disagree is be-cause of different propensities to use each ratingcategory. When such differences are observed, itmay be possible to provide feedback or improveinstructions to make raters’ marginal proporti-ons more similar and improve agreement.

Differences in raters’ marginal rates can beformally assessed with statistical tests of mar-ginal homogeneity (Barlow, 1998; Bishop, Fien-berg & Holland, 1975; Ch. 8). If each raterrates different cases, testing marginal homoge-neity is straightforward: one can compare themarginal frequencies of different raters with asimple chi-squared test. However this cannotbe done when different raters rate the same ca-ses – the usual situation with rater agreementstudies; then the ratings of different raters are

151

Page 152: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

1 2 31 p11 p12 p13 p1.

2 p21 p22 p23 p2.

3 p31 p32 p33 p3.

p.1 p.2 p.3 1.0

Tabela 18.4: Summarization of ratings by Rater 1 (rows) and Rater 2 (columns).

not statistically independent and this must beaccounted for.

Several statistical approaches to this problemare available. Alternatives include:

• Nonparametric tests

• Bootstrap methods

• Loglinear, association, and quasi-symmetrymodels

• Latent trait and related models

18.4.1 Nonparametric tests

The main nonparametric test for assessing mar-ginal homogeneity is the McNemar test. TheMcNemar test assesses marginal homogeneityin a 2 × 2 table. Suppose, however, that onehas an N×N crossclassification frequency tablethat summarizes ratings by two raters for an N -category rating system. By collapsing the N×Ntable into various 2 × 2 tables, one can use theMcNemar test to assess marginal homogeneityof each rating category. With ordered-categorydata one can also collapse the N × N table inother ways to test rater equality of category th-resholds, or test raters for overall bias (i.e., atendency to make higher or lower rating thanother raters.) The Stuart-Maxwell test can beused to test marginal homogeneity between tworaters across all categories simultaneously. Itthus complements McNemar tests of individualcategories by providing an overall significancevalue.

?? Further explanation of these methods andtheir calculation can be found by clicking on thetest names above.

MH, a computer program for testing marginalhomogeneity with these methods is available on-line. For more information, click here.

These tests are remarkably easy to use andare usually just as effective as more complexmethods. Because the tests are nonparame-tric, they make few or no assumptions about the

data. While some of the methods described be-low are potentially more powerful, this comes atthe price of making assumptions which may ormay not be true. The simplicity of the nonpara-metric tests lends persuasiveness to their results.

A mild limitation is that these tests applyonly for comparisons of two raters. With morethan two raters, of course, one can apply thetests for each pair of raters.

18.4.2 Bootstrapping

Bootstrap and related jackknife methods(Efron, 1982; Efron & Tibshirani, 1993) providea very general and flexible framework for tes-ting marginal homogeneity. Again, suppose onehas an N×N crossclassification frequency tablesummarizing agreement between two raters onan N-category rating. Using what is termed thenonparametric bootstrap, one would repeatedlysample from this table to produce a large num-ber (e.g., 500) of pseudo-tables, each with thesame total frequency as the original table. Vari-ous measures of marginal homogeneity would becalculated for each pseudo-table; for example,one might calculate the difference between therow marginal proportion and the column mar-ginal proportion for each category, or constructan overall measure of row vs. column marginaldifferences.

Let d∗ denote such a measure calculated fora given pseudo-table, and let d denote the samemeasure calculated for the original table. ¿Fromthe pseudo-tables, one can empirically calculatethe standard deviation of d∗, or σd∗ . Let d′ de-note the true population value of d. Assumingthat d′ = 0 corresponds to the null hypothesisof marginal homogeneity, one can test this nullhypothesis by calculating the z value:

z =d

σd∗(18.25)

and determining the significance of the standardnormal deviate z by usual methods (e.g., a tableof z value probabilities).

152

Page 153: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

The method above is merely an example.Many variations are possible within the fra-mework of bootstrap and jackknife methods.

An advantage of bootstrap and jackknifemethods is their flexibility. For example, onecould potentially adapt them for simultaneouscomparisons among more than two raters.

A potential disadvantage of these methods isthat the user may need to write a computerprogram to apply them. However, such a pro-gram could also be used for other purposes, suchas providing bootstrap significance tests and/orconfidence intervals for various raw agreementindices.

18.4.3 Loglinear, association andquasi-symmetry modeling

If one is using a loglinear, association or quasi-symmetry model to analyze agreement data, onecan adapt the model to test marginal homoge-neity. For each type of model the basic approachis the same. First one estimates a general formof the model–that is, one without assuming mar-ginal homogeneity; let this be termed the ”un-restricted model.”Next one adds the assumptionof marginal homogeneity to the model. This isdone by applying equality restrictions to somemodel parameters so as to require homogeneityof one or more marginal probabilities (Barlow,1998). Let this be termed the ”restricted mo-del.”

Marginal homogeneity can then be testedusing the difference G2 statistic, calculated as:

differenceG2 = G2(restricted)−G2(unrestricted)

whereG2(restricted) and G2(unrestricted) are the

likelihood-ratio chi-squared model fit statistics(Bishop, Fienberg & Holland, 1975) calculatedfor the restricted and unrestricted models.

The difference G2 can be interpreted as a chi-squared value and its significance determinedfrom a table of chi-squared probabilities. Thedf are equal to the difference in df for the un-restricted and restricted models. A significantvalue implies that the rater marginal probabili-ties are not homogeneous.

An advantage of this approach is that one cantest marginal homogeneity for one category, se-veral categories, or all categories using a uni-fied approach. Another is that, if one is already

analyzing the data with a loglinear, association,or quasi-symmetry model, the addition of mar-ginal homogeneity tests may require relativelylittle extra work.

A possible limitation is that loglinear, asso-ciation, and quasi-symmetry models are onlywell-developed for analysis of two-way tables.Another is that use of the difference G2 testtypically requires that the unrestricted modelfit the data, which sometimes might not be thecase.

18.4.4 Latent trait and relatedmodels

Latent trait models and related methods suchas the tetrachoric and polychoric correlation co-efficients can be used to test marginal homo-geneity for dichotomous or ordered-category ra-tings. The general strategy using these methodsis similar to that described for loglinear and re-lated models. That is, one estimates both anunrestricted version of the model and a restric-ted version that assumes marginal homogeneity,and compares the two models with a differenceG2 test. With latent trait and related models,the restricted models are usually constructed byassuming that the thresholds for one or more ra-ting levels are equal across raters.

A variation of this method tests overall raterbias. That is done by estimating a restrictedmodel in which the thresholds of one rater areequal to those of another plus a fixed constant.A comparison of this restricted model with thecorresponding unrestricted model tests the hy-pothesis that the fixed constant, which corres-ponds to bias of a rater, is 0.

Another way to test marginal homogeneityusing latent trait models is with the asymp-totic standard errors of estimated category th-resholds. These can be used to estimate thestandard error of the difference between the th-resholds of two raters for a given category, andthis standard error used to test the significanceof the observed difference.

An advantage of the latent trait approach isthat it can be used to assess marginal homoge-neity among any number of raters simultane-ously. A disadvantage is that these methodsrequire more computation than nonparametrictests. If one is only interested in testing mar-ginal homogeneity, the nonparametric methodsmight be a better choice. However, if one is

153

Page 154: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

already using latent trait models for other rea-sons, such as to estimate accuracy of individualraters or to estimate the correlation of their ra-tings, one might also use them to examine mar-ginal homogeneity; however, even in this case, itmight be simpler to use the nonparametric testsof marginal homogeneity.

If there are many raters and categories, datamay be sparse (i.e., many possible patterns ofratings across raters with 0 observed frequen-cies). With very sparse data, the difference G2

statistic is no longer distributed as chi-squared,so that standard methods cannot be used to de-termine its statistical significance.

18.4.5 References

Barlow W. Modeling of categorical agreement.The encyclopedia of biostatistics, P. Armitage,T. Colton, eds., pp. 541-545. New York: Wiley,1998.

Bishop YMM, Fienberg SE, Holland PW. Dis-crete multivariate analysis: theory and practice.Cambridge, Massachusetts: MIT Press, 1975

Efron B. The jackknife, the bootstrap andother resampling plans. Philadelphia: Societyfor Industrial and Applied Mathematics, 1982.

Efron B, Tibshirani RJ. An introduction tothe bootstrap. New York: Chapman and Hall,1993.

18.5 Kappa Coefficients

Though the kappa coefficient was very popularfor many years, there has been continued andincreasing criticism of its use. At the least, itcan be said that (1) kappa should not be viewedas the standard or default way to quantify agre-ement; (2) one should be concerned about usinga statistic that is the source of so much contro-versy; and (3) one should consider some of thealternatives so as to make an informed decision.

One can distinguish between two possible usesof kappa: as a way to test rater independence(i.e. as a test statistic), and as a way to quan-tify the level of agreement (i.e., as an effect-size measure). The first use involves testingthe null hypothesis that there is no more agree-ment than might occur by chance given randomguessing; that is, one makes a qualitative, ”yesor no”decision about whether raters are inde-pendent or not. Kappa is appropriate for thispurpose (although to know that raters are not

independent is not very informative; raters aredependent by definition, inasmuch as they arerating the same cases).

It is the second use of kappa–quantifying ac-tual levels of agreement–that is the source ofconcern. Kappa’s calculation uses a term calledthe proportion of chance (or expected) agree-ment. This is interpreted as the proportion oftimes raters would agree by chance alone. Howe-ver, the term is relevant only under the conditi-ons of statistical independence of raters. Sinceraters are clearly not independent, the relevanceof this term, and its appropriateness as a correc-tion to actual agreement levels, is very questio-nable.

Thus, the common statement that kappais a ”chance-corrected measure of agree-ment”misleading. As a test statistic, kappa canverify that agreement exceeds chance levels. Butas a measure of the level of agreement, kappa isnot ”chance-corrected”; indeed, in the absenceof some explicit model of rater decisionmaking,it is by no means clear how chance affects thedecisions of actual raters and how one might cor-rect for it.

A better case for using kappa to quantify ra-ter agreement is that, under certain conditions,it approximates the intra-class correlation. Butthis too is problematic in that (1) these con-ditions are not always met, and (2) one couldinstead directly calculate the intraclass correla-tion.

18.5.1 Pros and Cons

Pros

• Kappa statistics are easily calculated andsoftware is readily available (e.g., SASPROC FREQ).

• Kappa statistics are appropriate for testingwhether agreement exceeds chance levelsfor binary and nominal ratings.

Cons

• Kappa is not really a chance-corrected me-asure of agreement (see above).

• Kappa is an omnibus index of agreement. Itdoes not make distinctions among varioustypes and sources of disagreement.

• Kappa is influenced by trait prevalence(distribution) and base-rates. As a result,

154

Page 155: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

kappas are seldom comparable across stu-dies, procedures, or populations (Thomp-son & Walter, 1988; Feinstein & Cicchetti,1990).

• Kappa may be low even though there arehigh levels of agreement and even thoughindividual ratings are accurate. Whethera given kappa value implies a good or abad rating system or diagnostic method de-pends on what model one assumes aboutthe decisionmaking of raters (Uebersax,1988).

• With ordered category data, one must se-lect weights arbitrarily to calculate weigh-ted kappa (Maclure & Willet, 1987).

• Kappa requires that two rater/proceduresuse the same rating categories. There aresituations where one is interested in mea-suring the consistency of ratings for ratersthat use different categories (e.g., one usesa scale of 1 to 3, another uses a scale of 1to 5).

Tables that purport to categorize ranges ofkappa as “good,´´ “fair,” “poor” etc. areinappropriate; do not use them.

18.5.2 Bibliography: Kappa Coef-ficient

Where to Start

Cohen J. A coefficient of agreement for nominalscales. Educational and Psychological Measure-ment, 196037-46, 1960.

Cohen J. Weighted kappa: Nominal scaleagreement with provision for scaled disagree-ment or partial credit. Psychological Bulletin.70:213-20, 1968.

Cook RJ. Kappa. In: The Encyclopedia ofBiostatistics, T. P. Armitage, Colton, eds., pp.2160-2166. New York: Wiley, 1998.

Cook RJ. Kappa and its dependence on mar-ginal rates. In: The Encyclopedia of Biostatis-tics, P. Armitage, T. Colton, eds., pp. 2166-2168. New York: Wiley, 1998.

Hutchinson TP. Focus on Psychometrics.Kappa muddles together two sources of disagre-ement: tetrachoric correlation is preferable. Re-search in Nursing & Health, 1993, 16, 313-316.

McKenzie DP, Mackinnon AJ, Peladeau N,Onghena P, Bruce PC, Clarke DM, Harrigan S,McGorry PD. Comparing correlated kappas by

resampling: is one level of agreement significan-tly different from another? Journal of Psychia-tric Research, 1996, 30, 483-492.

Maclure M, Willett WC. Misinterpretationand misuse of the kappa statistic. AmericanJournal of Epidemiology, 1987, 126, 161-169.

Uebersax JS. Diversity of decision-makingmodels and the measurement of interrater agre-ement. Psychological Bulletin, 1987, 101, 140-146.

Overviews

Cook RJ. Kappa. In: The Encyclopedia of Bios-tatistics, T. P. Armitage, Colton, eds., pp. 2160-2166. New York: Wiley, 1998.

Fleiss JL. Statistical methods for rates andproportions. 2nd ed. New York: John Wiley,1981, 38-46.

Kraemer HC. Measurement of reliability forcategorical data in medical research. Statisti-cal Methods in Medical Research. 1(2):183-99,1992.

Shrout PE. Measurement reliability and agre-ement in psychiatry. Statistical Methods in Me-dical Research. 7(3):301-17, 1998 Sep.

Calculation of the Kappa Coefficient

Cohen J. A coefficient of agreement for nominalscales. Educational and Psychological Measure-ment. 20:37-46, 1960.

Fleiss JL. Measuring nominal scale agreementamong many raters. Psychological Bulletin.76:378-81, 1971.

Fleiss JL. Statistical methods for rates andproportions. 2nd ed. New York: John Wiley,1981, 38-46.

Weighted Kappa

Cicchetti DV. A new measure of agreementbetween rank ordered variables. Proceedings ofthe American Psychological Association, 1972,7, 17-18. Cicchetti DV. Comparison of the nulldistributions of weighted kappa and the C or-dinal statistic. Applied Psychological Measure-ment, 1977, 1, 195-201.

Cohen J. Weighted kappa: Nominal scaleagreement with provision for scaled disagree-ment or partial credit. Psychological Bulletin.70:213-20, 1968.

Fleiss JL, Cohen, J. The equivalence of weigh-ted kappa and the intraclass correlation coeffici-

155

Page 156: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

ent as measures of reliability. Educational andPsychological Measurement, 1973, 33, 613-619.

Issues and Problems

Brenner H. Kliebsch U. Dependence of weightedkappa coefficients on the number of categories.Epidemiology. 7(2):199-202, 1996 Mar.

Byrt T. Bishop J. Carlin JB. Bias, prevalenceand kappa. Journal of Clinical Epidemiology.46(5):423-9, 1993 May.

Cicchetti DV. Feinstein AR. High agreementbut low kappa: II. Resolving the paradoxes.Journal of Clinical Epidemiology. 43(6):551-8,1990.

Cook RJ. Kappa and its dependence on mar-ginal rates. In: The Encyclopedia of Biostatis-tics, P. Armitage, T. Colton, eds., pp. 2166-2168. New York: Wiley, 1998.

Feinstein AR. Cicchetti DV. High agreementbut low kappa: I. The problems of two parado-xes [see comments]. Journal of Clinical Epide-miology. 43(6):543-9, 1990.

Grove WM, Andreasen NC, McDonald-ScottP, Keller MB, Shapiro RW. Reliability studiesof psychiatric diagnosis. Theory and practice.Archives of General Psychiatry. 38(4):408-13,1981 Apr.

Guggenmoos-Holzmann I. How reliable arechance-corrected measures of agreement? Sta-tistics in Medicine. 12(23):2191-205, 1993 Dec15.

Hutchinson TP. Focus on Psychometrics.Kappa muddles together two sources of disagre-ement: tetrachoric correlation is preferable. Re-search in Nursing & Health. 16(4):313-6, 1993Aug.

Kraemer HC, Bloch DA. Kappa coefficientsin epidemiology: an appraisal of a reappraisal.Journal of Clinical Epidemiology, 1988, 41, 959-68.

Lantz CA. Nebenzahl E. Behavior and inter-pretation of the kappa statistic: resolution ofthe two paradoxes. Journal of Clinical Epide-miology. 49(4):431-4, 1996 Apr.

Maclure M, Willett WC. Misinterpretationand misuse of the kappa statistic. AmericanJournal of Epidemiology. 126(2)161-9, 1987Aug. [dissenting letter and reply appears in AmJ Epidemiol 1888 Nov.;128(5)1179-81].

Spitznagel EL, Helzer JE. A proposed solu-tion to the base rate problem in the kappa statis-tic. Archives of General Psychiatry. 42(7):725-8, 1985 Jul.

Stewart, G. W, J. M. Rey, ”A Partial Solu-tion to the Base Rate Problem of the k Sta-tistic,”Archives of General Psychiatry, Vol. 45,504-505, 1988.

Thompson WD. Walter SD. A reappraisal ofthe kappa coefficient. Journal of Clinical Epide-miology. 41(10):949-58, 1988.

Thompson WD. Walter SD. Kappa and theconcept of independent errors. Journal of Clini-cal Epidemiology, 1988, 41, 969-70.

Uebersax JS. Measuring diagnostic reliability:Reply to Spitznagel and Helzer (letter). Archi-ves of General Psychiatry, 1987, 44, 193-194.

Uebersax, J. S. (1987). Diversity of decision-making models and the measurement of inter-rater agreement. Psychological Bulletin, 101,140-146.

Significance, Standard Errors, IntervalEstimates, Comparing Kappas

Blackman NJ, Koval JJ. Interval estimation forCohen’s kappa as a measure of agreement. Sta-tistics in Medicine. 19(5):723-741, 2000 Mar.

Donner A. Sample size requirements for thecomparison of two or more coefficients of inter-observer agreement. Statistics in Medicine.17(10):1157-68, 1998 May.

Donner A. Eliasziw M. A goodness-of-fit approach to inference procedures for thekappa statistic: confidence interval construc-tion, significance-testing and sample size esti-mation [see comments]. Statistics in Medicine.11(11):1511-9, 1992 Aug.

Donner A. Eliasziw M. Klar N. Testing thehomogeneity of kappa statistics. Biometrics.52(1):176-83, 1996 Mar.

Fleiss, J. L., J. Cohen, B. S. Everitt, ”LargeSample Standard Errors of Kappa and WeightedKappa,”Psychological Bulletin, Vol. 72, 323-327, 1969.

Fleiss JL, Nee JCM, Landis JR. Large samplevariance of kappa in the case of different sets ofraters. Psychological Bulletin, 1979, 86, 974-77.

Hale CA. Fleiss JL. Interval estimation undertwo study designs for kappa with binary classi-fications. Biometrics. 49(2):523-34, 1993 Jun.

Lee J. Fung KP. Confidence interval of thekappa coefficient by bootstrap resampling [let-ter]. Psychiatry Research. 49(1):97-8, 1993 Oct.

Lehmann M. Daures JP. Mottet N. NavratilH. Comparison between exact and parametricdistributions of multiple inter-raters agreement

156

Page 157: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

coefficient. Computer Methods & Programs inBiomedicine. 47(2):113-21, 1995 Jul.

Lui KJ. Kelly C. A note on interval estimationof kappa in a series of 2 x 2 tables. Statistics inMedicine. 18(15):2041-9, 1999 Aug 15.

McKenzie DP. Mackinnon AJ. Peladeau N.Onghena P. Bruce PC. Clarke DM. Harrigan S.McGorry PD. Comparing correlated kappas byresampling: is one level of agreement significan-tly different from another?. Journal of Psychia-tric Research. 30(6):483-92, 1996 Nov-Dec.

Extensions and Variations of Kappa

Barlow W. Lai MY. Azen SP. A comparison ofmethods for calculating a stratified kappa. Sta-tistics in Medicine. 10(9):1465-72, 1991 Sep.

Donner A. Klar N. The statistical analysis ofkappa statistics in multiple samples. Journal ofClinical Epidemiology. 49(9):1053-8, 1996 Sep.

Fleiss J, Spitzer R, Endicott J, Cohen J.Quantification of agreement in multiple psychi-atric diagnosis. Archives of General Psychiatry,1972, 26, 168-71.

Gross ST. The kappa coefficient of agreementfor multiple observers when the number of sub-jects is small. Biometrics. 42(4):883-93, 1986Dec.

Haley SM. Osberg JS. Kappa coefficient cal-culation using multiple ratings per subject:a special communication. Physical Therapy.69(11):970-4, 1989 Nov.

Kupper LL. Hafner KB. On assessing interra-ter agreement for multiple attribute responses.Biometrics. 45(3):957-67, 1989 Sep.

Kvalseth TO. A coefficient of agreement fornominal scales: An asymmetric version ofKappa. Educational and Psychological Measu-rement. 1991 Spr; Vol 51(1): 95-101.

Lau T. Higher-order kappa-type statistics fora dichotomous attribute in multiple ratings. Bi-ometrics. 49(2):535-42, 1993 Jun.

O’Connell, D. L., Dobson, A. J. (1984). Gene-ral observer-agreement measures on individualsubjects and groups of subjects. Biometrics, 40,973-983.

Posner, K. L., Sampson, P. D., Caplan, R. A.,Ward, R. J., Cheney, F. W. (1990). Measuringinterrater reliability among multiple raters: Anexample of methods for nominal data. Statisticsin Medicine, 9, 1103-1115.

Roberts C. McNamee R. A matrix of kappa-type coefficients to assess the reliability of nomi-nal scales. Statistics in Medicine. 17(4):471-88,

1998 Feb 28.

Schouten HJA. Measuring pairwise interob-server agreement when all subjects are judgedby the same observers. Statistica Neerlandica,1982, 36, 45-61.

Schouten HJ. Estimating kappa from binocu-lar data and comparing marginal probabilities.Statistics in Medicine. 12(23):2207-17, 1993 Dec15.

Shoukri MM. Martin SW. Mian IU. Maxi-mum likelihood estimation of the kappa coeffi-cient from models of matched binary responses.Statistics in Medicine. 14(1):83-99, 1995 Jan 15.

Shoukri MM. Mian IU. Maximum likelihoodestimation of the kappa coefficient from bivari-ate logistic regression. Statistics in Medicine.15(13):1409-19, 1996 Jul 15.

Spitzer R, Cohen J, Fleiss J, Endicott J.Quantification of agreement in psychiatry diag-nosis: A new approach. Archives of GeneralPsychiatry, 1967, 17, 83-87.

Szalai JP. Kappa-sub(sc): A measure of agre-ement on a single rating category for a singleitem or object rated by multiple raters. Psy-chological Reports. 1998 Jun; Vol 82(3, Pt 2):1321-1322.

Uebersax JS. A design-independent methodfor measuring the reliability of psychiatric diag-nosis. Journal of Psychiatric Research. 1982-1983; Vol 17(4): 335-342.

Uebersax JS. A generalized kappa coefficient.Educational and Psychological-Measurement.1982 Spr; Vol 42(1): 181-183.

Software for Estimation of Kappa

Ahn CW. Mezzich JE. PROPOV-K: a FOR-TRAN program for computing a kappa coef-ficient using a proportional overlap procedure.Computers & Biomedical Research. 22(5):415-23, 1989 Oct.

Aiken LR. Program for computing andevaluating reliability coefficients for criterion-referenced tests. Educational and PsychologicalMeasurement. 1988 Fal; Vol 48(3): 697-700.

Berk RA, Campbell KL. A FORTRAN pro-gram for Cohen’s kappa coefficient of observeragreement. Behavior Research Methods, Instru-ments and Computers. 1976 Aug; Vol 8(4): 396.

Boushka WM. Marinez YN. Prihoda TJ.Dunford R. Barnwell GM. A computer pro-gram for calculating kappa: application to in-terexaminer agreement in periodontal research.

157

Page 158: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

Computer Methods & Programs in Biomedicine.33(1):35-41, 1990 Sep.

Gamsu CV. Calculating reliability measuresfor ordinal data. British Journal of Clinical Psy-chology. 1986 Nov; Vol 25(4): 307-308.

Moussa MA. The measurement of interobser-ver agreement based on categorical scales. Com-puter Programs in Biomedicine. 19(2-3):221-8,1985.

Oud JH, Sattler JM. Generalized kappa co-efficient: A Microsoft BASIC program. Beha-vior Research Methods, Instruments and Com-puters. 1984 Oct; Vol 16(5): 481.

Strube MJ. A general program forthe calculation of the kappa coefficient.Behavior-Research-Methods,-Instruments-and-Computers. 1989 Dec; Vol 21(6): 643-644.

Uebersax JS. GKAPPA: Generalized kappacoefficient (computer program abstract). Ap-plied Psychological Measurement, 1983, 5, 28.

Valiquette CAM, Lesage AD, Cyr M, ToupinJ. Computing Cohen’s kappa coefficients usingSPSS MATRIX. Behavioral Research Methods,Instruments and Computers, 1994, 26, 60-61.

Vierkant RA. A SAS macro for calculating bo-otstrapped confidence intervals about a kappacoefficient. Paper presented at the annual SUGI(SAS User’s Group) Meeting, 2000?

18.6 McNemar Tests ofMarginal Homogeneity

18.6.1 The McNemar test

The McNemar test (McNemar, 1947; Sheskin,2000, pp. 491-508; Somes, 1983) is an extremelysimple way to test marginal homogeneity in K×K tables. The basic McNemar test applies to 2×2 tables. Consider table 18.1 that summarizesagreement between two raters on a dichotomoustrait.

Marginal homogeneity implies that row totalsare equal to the corresponding column totals, or(a+ b) = (a+ c) (c+ d) = (b+ d).

Since the a and the d on both sides of theequations cancel, this implies b = c; this is thebasis of the McNemar test.

The McNemar statistic is calculated as

χ2 =(b− c)2

b+ c. (18.26)

The value χ2 can be viewed as a chi-squaredstatistic with 1 df.

Some authors recommend a version of the Mc-Nemar test with a correction for discontinuity,calculated as:

χ2 =(|b− c| − 1)2

/b+ c . (18.27)

but this is controversial.

Statistical significance is determined by eva-luating the probability of χ2 with reference toa table of cumulative probabilities of the chi-squared distribution or a comparable computerfunction. A significant result implies that mar-ginal frequencies (or proportions) are not homo-geneous. The test is inherently two-tailed. Fora one-tailed test, one could divide the obtainedp value by two.

When b and/or c are small, the McNemar testχ2 is not well approximated by the chi-squareddistribution. When, say, (b + c) < 10 a two-tailed exact test, based on the cumulative bino-mial distribution with p = q = .5, can be usedinstead.

Example Let the cells of a 2 × 2 table beas 18.6.1:

40 1020 50

Tabela 18.5: Example data

By Eq. 18.26, the McNemar test χ2 = (10 −20)2/(10+20) = 100/30 = 3.33 (1 df, p = .068).

Using the continuity correction (Eq. 18.27),χ2 = 2.70 (1 df, p = .100).

With the exact test, p = 0.099.

18.6.2 Test of marginal homoge-neity for a single category

Given ratings on a K-level categorical variable,agreement between two raters is summarized bya K×K crossclassification table. Table 3 belowis an example with three rating categories of 1= low, 2 = moderate, and 3 = high.

with, nij being the number of cases assignedcategory i by Rater 1 and category j by Rater2. To test marginal homogeneity for a single ca-tegory, one collapses the full table into a 2 × 2table. Specifically, to test row/column margi-nal homogeneity for category k, one collapses allrows and columns corresponding to the other ca-tegories. For example, to test marginal homoge-

158

Page 159: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

low mod. high row totallow n11 n12 n13 n1.

moderate n21 n22 n23 n2.

high n31 n32 n33 n3.

column total n.1 n.2 n.3 n..

Tabela 18.6: Summarization of ratings by Rater1 (rows) and Rater 2 (columns).

neity for the category “low”, one would collapsethe table above to produce 18.6.2:

and then apply the basic McNemar test tothis table. The test has 1 df. A significant χ2

value would imply that the Rater 1 and Rater 2marginals for this category differ.

Similarly, to test the raters’ marginal rates forthe “moderate´´ category, one would collapserows/columns 1 and 3 to produce the 2 × 2 ta-ble 18.6.2 and perform the basic McNemar teston this table.

In this way marginal homogeneity with res-pect to each category can be tested. Becausethere are multiple tests, one may wish to adjustthe overall alpha. For example, a simple Bon-ferroni adjustment can be applied. With K ca-tegories, there are K− 1 independent tests. Foran “experiment-wise” alpha of 0.05, the Bon-ferroni method would make 0.05/(K − 1) thesignificance criterion for each test.

18.6.3 Stuart-Maxwell test

Whereas the method above tests row/columnhomogeneity with respect to each individual ca-tegory, the Stuart-Maxwell test (Stuart, 1955;Maxwell, 1970; Everitt, 1977) tests marginal ho-mogeneity for all categories simultaneously. Thetest is calculated in the following way. Consi-der a K ×K frequency table of the same formas Table 18.6.2. Let column vector ~d containany K − 1 of the values, d1, d2, . . . , dK wheredi = ni. − n.i (i = 1, . . . ,K) Let S denote the(K − 1) × (K − 1) matrix of the variances and

covariances of the elements of ~d. The elementsof S are equal to: sii = ni. + n.i − 2nii andsij = −(nij + nji).

The Stuart-Maxwell statistic is calculated as:χ2 = ~d′S−1 ~d, where ~d′ is the transpose of ~d andmatrix S−1 is the inverse of S. χ2 is interpretedas a chi-squared value with df equal to K − 1.In the case of K = 2, the Stuart-Maxwell sta-tistic and the McNemar statistic (Eq. 18.26) are

identically equal.If there is perfect agreement for any category

k, that category must be omitted in order toinvert matrix S. (Note that if there is per-fect agreement on a category, the correspondingrow and column marginal frequencies are equal.)Such categories should be ignored in calculati-ons and the Stuart-Maxwell test performed withrespect to the remaining categories. The df inthis case can still be considered K−1, where Kis the number of original categories; this treatsomitted categories as if they were included butcontributed 0 to the value of χ2, a reasonableview since such categories have equal row andcolumn marginals.

Example Consider the hypothetical data inTable 18.6.3.

We first calculate any K − 1 of the (row sum- column sum) differences; we arbitrarily choosethose for rows/columns 1 and 2. This produces:

~d =

(123

).

The corresponding variance/covariance ma-trix

S =

(18 −13−13 33

).

The inverse, , is:

S−1 =

(0.0776 0.03060.0306 0.0424

).

The value of ~d′S−1 ~d = χ2 = 13.76. With 2df, p = 0.001.

18.6.4 Test of equal category th-resholds

The Concept of Rater Thresholds With ordered-category ratings, it is often theoretically reaso-nable and intuitively appealing to consider theidea of rater thresholds. By this view, raters be-gin with a subjective continuous impression ofhow much trait a case has. Then they applysubjective thresholds or cutpoints which mapthat impression into a particular rating cate-gory. For example, if the trait is “mobility”,a rater first perceives a given patient’s level asfalling somewhere on a continuum. The raterthen applies thresholds to assign a specific ra-ting category of, say, low, moderate, or high, asillustrated below.

159

Page 160: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

low mod. or high row totallow n11 n12 + n13 n1.

mod. or high n21 + n31 n22 + n23 + n32 + n33 n2. + n3.

column total n.1 n.2 + n.3 n..

Tabela 18.7: Table 18.6.2 collapsed to test row/column homogeneity for the “low” category.

mod. low. or high row totalmod. n22 n21 + n23 n2.

low or high n12 + n32 n11 + n13 + n31 + n33 n1. + n3.

column total n.2 n.1 + n.3 n..

Tabela 18.8: Table 18.6.2 collapsed to test row/column homogeneity for the “mod.” category.

low mod. high row totallow 20 10 5 35

moderate 3 30 15 48high 0 5 40 45

column total 23 45 60 128

Tabela 18.9: Hypothetical summary of ratingsby Rater 1 (rows) and Rater 2 (columns).

low moderate high

<--------|------------|---------------->

t2 t3

Actual Trait Level (continuous)

In the example above, a case whose judgedtrait level is below threshold t2 would be assig-ned the rating category “low”. A case whosejudged trait level is above threshold t3 wouldbe assigned the rating category “high”. A casewhose judged trait level is between the two th-resholds would be assigned the rating category“moderate”.

Threshold tk (k = 2, . . . ,K) is the minimumtrait level a case must display to be assignedrating level k or higher. There is no thresholdt1; a case is assigned rating level 1 if the case’strait level does not exceed threshold t2.

Threshold locations potentially differ betweenraters. The locations of a rater’s thresholds de-termine how often the rater uses each rating ca-tegory. For example in the situation below,

<--------|------------|------------>

Rater 1 t2 t3

<---------------|-----|------------>

Rater 2 t2 t3

Rater 2 has a higher threshold t2. This cor-responds to a wider definition of the lowest ra-

ting category and a narrower definition of themiddle rating category. Rater 2, then, wouldtend to use the lowest rating category more of-ten, and the middle category less often, thanRater 1. We now return to the 3 × 3 crossclas-sification in Table 18.6.2. Suppose one wishesto test whether the lowest threshold (t2) is thesame for both raters. To do this one would firstcollapse all rows after Row 1 and all columnsafter Column 1. Then one would perform theMcNemar test on the resulting 2 × 2 table. Asignificant result would imply that threshold t2differs between the two raters. (Note that herethe 2× 2 table and associated McNemar test isthe same as with Table 18.6.2.)

To test equality of threshold t3 between ra-ters, one would collapse Rows 1 and 2, and Co-lumns 1 and 2 to produce the following 2 × 2table 18.6.4 and perform a McNemar test onthis table.

In general, with a K ×K table, one can testequality of a given threshold k (k = 2, . . . ,K)by collapsing rows/columns 1 to k − 1 and col-lapsing rows/columns k to K, and performingthe basic McNemar test on the resulting 2 × 2table.

The tests for thresholds t2 and tK are iden-tical to the tests of marginal homogeneity forcategories 1 and K (although the results are in-terpreted differently). However, the tests for th-resholds t3, . . . , tK−1 are unique.

18.6.5 Test of overall bias

With ordered-category ratings, the McNemartest can also be used to assess overall bias of ra-ters, defined as a tendency of one rater to makeratings generally higher or lower than the other

160

Page 161: Notas de Aula da Disciplina de Estat stica

Alexandre Souto Martinez Estatıstica DFM/FFCLRP/USP

low or mod. high row totallow or mod. n11 + n12 + n21 + n22 n13 + n23 n2.

high n31 + n32 n33 n1. + n3.

column total n.1 + n.2 n.1 + n.3 n..

Tabela 18.10: Table 18.6.2 collapsed to test row/column homogeneity for the “high” category.

rater. This simple test is described by Bishop,Fienberg and Holland (1975; pp. 284-285). Fora K×K table, let b = the sum of frequencies incells above the main diagonal, and let c = thesum of frequencies in cells below the main diago-nal. For example, with reference to Table 18.6.2,b = n12 + n13 + n23 and c = n21 + n31 + n32.

One then uses these values of b and c inEq. 18.26. The test has 1 df. A significant χ2 va-lue implies that one raters’ ratings are generallyhigher or lower than those of the other rater.

18.6.6 Software

The MH program will perform all the tests des-cribed on this page for a K ×K crossclassifica-tion table, where K can be as large as 50.

SAS will perform a McNemar test for 2 × 2tables. It is possible SPSS has similar features.Other specialized biostatistics and epidemiologi-cal software, such as Epistat, perform the McNe-mar test. For additional suggestions, one mightsearch the web using the key words “McNemartest” and “software”.

18.6.7 References

Agresti A. Categorical data analysis. New York:Wiley, 1990.

Barlow W. Modeling of categorical agree-ment. The encyclopedia of biostatistics, P. Ar-mitage, T. Colton, eds., pp. 541-545. New York:Wiley, 1998.

Bishop YMM, Fienberg SE, Holland PW. Dis-crete multivariate analysis: theory and practice.Cambridge, Massachusetts: MIT Press, 1975

Everitt BS. The analysis of contingency ta-bles. London: Chapman & Hall, 1977.

Fleiss JL. Statistical methods for rates andproportions (second ed.) New York: Wiley,1981.

Maxwell AE. Comparing the classification ofsubjects by two independent judges. BritishJournal of Psychiatry, 1970, 116, 651-655.

McNemar Q. Note on the sampling error ofthe difference between correlated proportions orpercentages. Psychometrika, 1947, 12, 153-157.

Sheskin DJ. Handbook of parametric andnonparametric statistical procedures (secondedition). Boca Raton: Chapman & Hall, 2000.

Somes G. McNemar test. Encyclopedia of sta-tistical sciences, vol. 5, S. Kotz & N. Johnson,eds., pp. 361-363. New York: Wiley, 1983.

Stuart AA. A test for homogeneity of the mar-ginal distributions in a two-way classification.Biometrika, 1955, 42, 412-416.

161