Probabilidade e Estatística - Aula 03

68
Probabilida de e Estatística ESTATÍSTICA DESCRITIVA MEDIDAS DESCRITIVAS E ANÁLISE DE DADOS 1 A u l a 0 3 P r o f . : A u g u s t o J u n i o r

Transcript of Probabilidade e Estatística - Aula 03

Page 1: Probabilidade e Estatística - Aula 03

1

Probabilidade e EstatísticaESTATÍSTICA DESCRITIVA

MEDIDAS DESCRITIVAS E ANÁLISE DE DADOS

Aula 03

Prof.: Augusto Junior

Page 2: Probabilidade e Estatística - Aula 03

2Aula 03

Prof.: Augusto Junior

Medidas descritivas Objetivo: Reduzir o conjunto de dados observados

(numéricos) a um pequeno grupo de valores. Classificadas em quatro grupos:

Medidas de localização (tendência central ou posição) Indicam um ponto central onde, em muito dos casos, está localizada a

maioria das observações. Medidas separatrizes

Indicam limites para proporções de observações de um conjunto; Podem ser utilizadas para construir medidas de dispersão.

Medidas de variação (dispersão) Informam sobre a variabilidade dos dados

Medidas de formato Informam o modo como os valores distribuem-se; Medidas de assimetria: indicam se a maior proporção de valores está

no centro, ou nas extremidades; Medidas de curtose: Descreve o grau de achatamento da distribuição.

Page 3: Probabilidade e Estatística - Aula 03

3Aula 03

Prof.: Augusto Junior

Medidas descritivasDevido a enorme quantidade de tipos de medidas descritivas, muitas delas que competem entre si, é importante saber escolher a medida mais adequada. Guia geral: Para escolher o(s) tipo(s) de medida mais

adequado(s), responda às perguntas abaixo: Com que objetivo a medida está sendo obtida? A medida é fácil de interpretar? É intuitiva? Existem valores atípicos que podem afetá-la exageradamente? O propósito da análise é meramente descritivo, ou planeja-se

fazer inferências? Uma medida descritiva deverá, sempre que possível:

Ser representativa; Ser de fácil interpretação; Prestar-se bem a tratamento matemático e/ou estatístico em

etapas posteriores.

Page 4: Probabilidade e Estatística - Aula 03

4Aula 03

Prof.: Augusto Junior

Medidas de localização - Média

Média aritmética Medida de localização mais utilizada; Pode ser simples, ou ponderada.

Média aritmética simples () Todas as observações participam com o mesmo peso.

Exemplo:Se X = tempo (h), e para temos:

Page 5: Probabilidade e Estatística - Aula 03

5Aula 03

Prof.: Augusto Junior

Medidas de localização - Média

Média aritmética ponderada () As observações participam com pesos diferentes entre si.

Exemplo:Para temos os respectivos pesos :

Page 6: Probabilidade e Estatística - Aula 03

6Aula 03

Prof.: Augusto Junior

Medidas de localização - Média Propriedades matemáticas da média aritmética

1º - A média de um conjunto de dados que não variam (constante) é ela própria;

2º - Ao somar, ou subtrair, o conjunto de dados por uma constante “c”, a média também sofre a mesma alteração e de mesmo valor;

3º - Ao multiplicar, ou dividir, o conjunto de dados por uma constante “c”, a média também sofre a mesma alteração e de mesmo valor;

4º - A soma de todos desvios, em relação à média, dará o resultado igual a zero;

5º - A soma do quadrado dos desvios em relação a uma constante “c”, , é mínima quando .

Page 7: Probabilidade e Estatística - Aula 03

7Aula 03

Prof.: Augusto Junior

Medidas de localização – Mediana (Md)

Medida que divide um conjunto de dados ordenados em duas partes iguais: 50% dos valores abaixo da mediana; 50% dos valores acima da mediana.

Existem dois casos diferentes para o cálculo da mediana: Números de dados observados (n) é ímpar; Números de dados observados (n) é par;

Page 8: Probabilidade e Estatística - Aula 03

8Aula 03

Prof.: Augusto Junior

Medidas de localização – Mediana (Md) Número de dados (n) ímpar

Determinar a posição mais central (p) do conjunto de dados ordenado;

A mediana será o valor do conjunto de dados que ocupa a posição “p”, ou seja Md = .

Exemplo - Se X = tempo (h), e , temos que:

Logo:

Page 9: Probabilidade e Estatística - Aula 03

9Aula 03

Prof.: Augusto Junior

Medidas de localização – Mediana (Md)

Número de dados (n) par Neste caso, temos duas posições centrais no

conjunto de dados ordenado, chamadas de e . Ao determinar a posição mais central (p) do

conjunto de dados ordenado, a expressão gera um valor não inteiro.

As posições e são os dois inteiros mais próximos do valor de p.

A mediana será a média aritmética simples dos valores que ocupam as posições e .

Page 10: Probabilidade e Estatística - Aula 03

10

Aula 03

Prof.: Augusto Junior

Medidas de localização – Mediana (Md)

Exemplo:Seja X = tempo (h);Para , temos:

e

Logo:

Page 11: Probabilidade e Estatística - Aula 03

11

Aula 03

Prof.: Augusto Junior

Medidas de localização – Moda (Mo) É o valor de maior ocorrência num conjunto de

dados. É a única medida que pode não existir e,

existindo, pode não ser a única.Exemplos:X = peso (em Kg)1- Para , temos Mo = 7 Kg;2- Para , temos Mo = 4 Kg e 8 Kg (conjunto bimodal);3- Para , não existe Mo (conjunto amodal);4- Para , não existe Mo (conjunto amodal).

Page 12: Probabilidade e Estatística - Aula 03

12

Aula 03

Prof.: Augusto Junior

Medidas separatrizes Delimitam proporções de uma variável. Estabelecem limites para uma determinada proporção de

observações. São intuitivas e de fácil interpretação. Considerando um conjunto de dados ordenado,

representado como , , , ... , , pressupondo uma ordenação ascendente, de modo que é o menor valor e é o maior valor do conjunto.

Em todas as medidas separatrizes é importante conhecer a “profundidade”. Posição ocupada por um dado ordenado relação à

extremidade mais próxima. A profundidade do máximo e do mínimo é igual a 1. O

segundo menor e o segundo maior têm profundidade 2, e assim por diante.

A profundidade cresce no sentido do centro até um certo ponto, quando começa a decrescer.

Page 13: Probabilidade e Estatística - Aula 03

13

Aula 03

Prof.: Augusto Junior

Medidas separatrizes Se o número de observações é ímpar, então existe no

conjunto um valor cuja profundidade é máxima. Mediana: divide o conjunto de dados em duas partes.

A partir daí, surgem novas divisões: Quartil: Dividir cada metade surgida pela mediana em

duas partes; Oitavo: Dividir cada parte surgida pelos quartis em

duas partes; Percentil: Delimitação de porções que expressam uma

percentagem de dados do conjunto ordenado. Estudaremos as medidas separatrizes mais utilizadas

Mediana (já visto anteriormente); Quartis.

Page 14: Probabilidade e Estatística - Aula 03

14

Aula 03

Prof.: Augusto Junior

Medidas separatrizes – Quartis () Três medidas que dividem um conjunto de dados

ordenados em quatro partes iguais. Primeiro quartil (): 25% dos valores ficam abaixo e

75% dos valores ficam acima desta medida; Segundo quartil (): 50% dos valores ficam abaixo e

50% dos valores ficam acima desta medida. Corresponde à mediana ().

Terceiro quartil (): 75% dos valores ficam abaixo e 25% dos valores ficam acima desta medida.

Observações importantes: O primeiro quartil é o percentil 0,25, o segundo quartil

(mediana) é o percentil 0,5 e o terceiro quartil é o percentil 0,75.

Page 15: Probabilidade e Estatística - Aula 03

15

Aula 03

Prof.: Augusto Junior

Medidas separatrizes – Quartis () O processo de obtenção dos quartis obedecem à

mesma regra de obtenção da mediana. Primeiro ordenar os dados e; Determinar a posição do “p” do quartil no conjunto de

dados ordenado. Existem dois casos diferentes para a determinação

de “p”: Quando o “n” é ímpar; Quando o “n” é par.

Page 16: Probabilidade e Estatística - Aula 03

16

Aula 03

Prof.: Augusto Junior

Medidas separatrizes – Quartis ()

1º caso: Quando “n” é ímpar.Para , temos: ;Para , temos: ;Para , temos: ;

2º caso: Quando “n” é par.Para , temos: ;Para , temos: ;Para , temos: ;

Page 17: Probabilidade e Estatística - Aula 03

17

Aula 03

Prof.: Augusto Junior

O quartil será o valor do conjunto de dados que ocupa a posição “p”.

Se “p” não for um número inteiro, o quartil será a média aritmética simples dos dois valores que ocupam as posições correspondentes ao menor e ao maior número inteiro mais próximo de “p”.

Exercício proposto:Com base nos dados ordenados abaixo, definir os quartis.a) 3, 3, 4, 6, 7, 9, 9, 11, 12;b) 3, 3, 4, 6, 7, 9, 9, 11, 12, 14.

Medidas separatrizes – Quartis ()

Page 18: Probabilidade e Estatística - Aula 03

18

Aula 03

Prof.: Augusto Junior

Medidas de dispersão Também chamadas de medidas de variação; Complementam as medidas de localização.

Indicam quanto as observações diferem entre si, ou;

Grau de afastamento das observações em relação à média.

Medidas de dispersão mais utilizadas: Amplitude; Variância; Desvio padrão; Coeficiente de variação.

Page 19: Probabilidade e Estatística - Aula 03

19

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Amplitude 1º - Amplitude total (): Diferença entre o maior e o

menor valor de um conjunto de dados., onde:

ES = Extremo superior do conjunto de dados;EI = Extremo inferior do conjunto de dados. É uma medida pouco precisa.

Bastante influenciada por valores discrepantes.Exemplo: Para os dados de tempo (em horas) listados a seguir – 9, 7, 5, 10, 4 – temos:

Significado: Todos os valores do conjunto de dados diferem, no máximo, em 6h.

Page 20: Probabilidade e Estatística - Aula 03

20

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Amplitude 2º - Amplitude interquatílica (): Diferença entre o

primeiro quartil () e o terceiro quartil ().

Apesar de pouco utilizada, é uma medida que traz um resultado mais consistente. Não sofre nenhuma influência de valores discrepantes.

Exemplo: Com base no exercício proposto, letra (a), temos:

e Com isso, temos que:

Significado: 50% dos valores (mais centrais) estão dentro desse intervalo, diferindo entre si, no máximo, em 6,5Kg.

Page 21: Probabilidade e Estatística - Aula 03

21

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Variância ()

Definição: É a média dos quadrados dos desvios em relação à média aritmética

Onde: n-1 = Grau de liberdade ou desvios independentes. O “Porquê” da utilização do denominador n-1:

1 - Como a soma dos desvios é nula, existe n-1 desvios independentes, isto é, conhecidos n-1 desvios o último está automaticamente determinado, pois a soma é zero;

2 – O divisor n-1 faz com que a variância possua melhores propriedades estatísticas.

Quando a variância for utilizada para descrever a variação de uma população, então pode ser calculada com o denominador igual a “n”.

Se for para descrever o fenômeno numa amostra, o denominador deverá ser “n-1”

Medida de dispersão mais utilizada Facilidade de compreensão e cálculo; Possibilidade de emprego na inferência estatística.

Page 22: Probabilidade e Estatística - Aula 03

22

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Variância ()Exemplo:Se X = tempo (h)Para , onde , temos

Page 23: Probabilidade e Estatística - Aula 03

23

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Variância ()

Propriedades matemáticas1º - A variância de um conjunto de dados que não varia é igual a zero;2º - Se somarmos uma constante “c” a todos os valores de um conjunto de dados, a variância não se altera;3º - Se multiplicarmos todos os valores de um conjunto de dados por uma constante “c”, a variância desses dados fica multiplicada pelo quadrado dessa constante.

Desvantagens da variância Como é calculada a partir da média, é uma medida que

pode ser muito influenciada pela discrepância dos valores; Como a unidade de medida fica elevada ao quadrado, a sua

interpretação fica mais difícil.

Page 24: Probabilidade e Estatística - Aula 03

24

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Desvio padrão (s) Surgiu para solucionar o problema de interpretação da

variância. É a raiz quadrada da variância: Tendo como base o exemplo anterior: Logo, temos como desvio padrão:

Observamos que o valor do desvio padrão se apresenta na mesma unidade de medida dos dados, o que facilita a sua interpretação. Geralmente, o desvio padrão é apresentado junto com a

média de dados da seguinte forma: Desta forma, temos a indicação da variação média dos

dados em torno da média aritmética.

Page 25: Probabilidade e Estatística - Aula 03

25

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Coeficiente de Variação

Representado por “CV”, é a medida mais utilizada quando existe interesse em comparar variabilidades de diferentes conjuntos de dados.

Devemos utilizar o CV nas situações em que as médias dos conjuntos comparados são muito desiguais, ou as unidades de medida são diferentes.

É definido como a proporção da média representada pelo desvio padrão.

Page 26: Probabilidade e Estatística - Aula 03

26

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Coeficiente de Variação

No exemplo anterior, vimos que e .Com base nesses resultados, temos como coeficiente de variação (CV):

As vantagens do coeficiente de variação É desprovido de unidade de medida (é expresso em

percentagem); É uma medida relativa, ou seja, que relaciona o desvio padrão (s)

com a sua respectiva média aritmética (). Melhora a interpretação do resultado do desvio padrão, no

sentido de entender se os dados obtidos estão muito variados, ou não, em relação à média aritmética.

Page 27: Probabilidade e Estatística - Aula 03

27

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Coeficiente de Variação

Exemplo 1:Consideremos que e são conjuntos de valores referentes a produção diária de leite (em Kg) de vacas das raças Holandesa e Jersey, respectivamente.Foram obtidas as seguintes medidasHolandesa - Jersey -

Page 28: Probabilidade e Estatística - Aula 03

28

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Coeficiente de Variação

Observamos que se utilizarmos somente o desvio padrão para comparar as variações, concluiríamos que o grupo das vacas holandesas é o mais variável.

Entretanto, devemos fazer a seguinte consideração:1- O desvio padrão de 4,2 mesmo sendo o maior, quando relacionado com à média 25, representa uma porção menor deste valor do que 3,4 quando relacionado com à média 13.

Quando as médias são muito desiguais, devemos utilizar na comparação dos conjuntos de valores o CV, que é uma medida relativa.

Page 29: Probabilidade e Estatística - Aula 03

29

Aula 03

Prof.: Augusto Junior

Medidas de dispersão – Coeficiente de Variação

Exemplo 2:Consideremos que e são conjuntos de valores referentes a altura (em cm) e peso (em Kg), respectivamente, de um grupo de estudantes.Foram obtidas as seguintes medidasAltura - Peso - Neste caso, verificamos que a comparação entre conjuntos de valores expressos em unidades de medida diferentes o CV é a única medida que pode ser utilizada, por ser desprovida de unidade de medida.Se utilizássemos qualquer outra medida de variação estaríamos comparando centímetros com quilogramas, o que não é possível, por tratar-se de grandezas não comparáveis entre si.

Page 30: Probabilidade e Estatística - Aula 03

30

Aula 03

Prof.: Augusto Junior

Medidas de formato

É um aspecto importante de uma distribuição. Relaciona-se com as idéias de simetria e

curtose. Embora mudanças em uma medida variação

alterem o aspecto visual também da distribuição. Principais cálculos

Momentos; Assimetria; Curtose.

Page 31: Probabilidade e Estatística - Aula 03

31

Aula 03

Prof.: Augusto Junior

Medidas de formato - Momentos

Medidas calculadas com o propósito de estudar a distribuição. Delas é que sabemos os dados de assimetria e curtose. Tanto mais conhecemos uma distribuição quanto mais

conhecermos sobre os seus momentos. O momento de ordem “r” centrado num valor “a” é dado pela

seguinte expressão

Dois valores de “a” geram momentos importantes num conjunto de dados: Quando a=0, temos os momentos centrados na origem, denominados

momentos ordinários de ordem r e representados por . Quando a=, temos os momentos de ordem r centrados na média.

Page 32: Probabilidade e Estatística - Aula 03

32

Aula 03

Prof.: Augusto Junior

Medidas de formato – Coeficiente de Assimetria

Denotado por , informa se a maioria dos valores estão à esquerda, ou à direita, ou uniformemente distribuídos em torno da média aritmética.

Indica o grau e o sentido do afastamento da simetria e é obtida utilizando o segundo e o terceiro momentos centrados na média, através da seguinte expressão:

Se , assimétrica negativa: Maioria dos valores são maiores que a média; localizam-se à direita da média;

Se , simétrica: Valores uniformemente distribuídos em torno da média;

Se , assimétrica positiva: Maioria dos valores são menores que a média; localizam-se à esquerda da média

Page 33: Probabilidade e Estatística - Aula 03

33

Aula 03

Prof.: Augusto Junior

Medidas de formato – Coeficiente de Assimetria

Page 34: Probabilidade e Estatística - Aula 03

34

Aula 03

Prof.: Augusto Junior

Medidas de formato – Coeficiente de Curtose

Denotado por , indica o grau de achatamento de uma distribuição. Relacionada com o grau de concentração das observações no

centro e nas caudas da distribuição. Não tem interpretação tão intuitiva quanto a simetria. Calculado a partir do segundo e quarto momentos centrados na

média, através da seguinte expressão:

Se 3, distribuição platicúrtica: Baixa concentração de valores no centro, tornando a distribuição mais achatada que a distribuição normal;

Se , distribuição mesocúrtica: Concentração de valores semelhante a de uma distribuição normal;

Se , distribuição leptocúrtica: Alta concentração de valores no centro e nas extremidades, o que provoca um pico maior que o da distribuição normal.

Page 35: Probabilidade e Estatística - Aula 03

35

Aula 03

Prof.: Augusto Junior

Medidas de formato – Coeficiente de Curtose

Page 36: Probabilidade e Estatística - Aula 03

36

Aula 03

Prof.: Augusto Junior

Medidas descritivasDados agrupados em classes

Essas medidas podem ser calculadas quando os dados estão agrupados por classes.

Quando calculadas por meio de tabelas de distribuição de frequências de variáveis contínuas, essas medidas, em geral, são apenas aproximações das medidas obtidas a partir de dados não agrupados.

Page 37: Probabilidade e Estatística - Aula 03

37

Aula 03

Prof.: Augusto Junior Média aritmética

Distribuição de frequência de variáveis contínuas não existem valores individuais.

O melhor representante dos valores de uma classe é o centro da classe ().

Portanto, a média da distribuição será a média ponderada (pelas frequências absolutas) dos centros de classe.

O valor da média dessa distribuição é obtido com um erro, provocado pelo agrupamento dos dados.

O erro será menor quanto maior for a simetria dos valores de cada classe em relação ao seu ponto médio.

Medidas descritivasDados agrupados em classes

Page 38: Probabilidade e Estatística - Aula 03

38

Aula 03

Prof.: Augusto Junior Classe mediana e classe modal

Classe mediana Aquela onde está compreendida a mediana. É a classe onde a frequência absoluta

acumulada () é maior, ou igual, ao valor de “p” (posição da mediana).

Classe modal Aquela que possui a maior frequência

acumulada (). Não é, necessariamente, a classe que compreende a

moda do conjunto de valores.

Medidas descritivasDados agrupados em classes

Page 39: Probabilidade e Estatística - Aula 03

39

Aula 03

Prof.: Augusto Junior Variância

Devido a inexistência de valores individuais na distribuição de frequências, devemos utilizar para o cálculo da variância a seguinte expressão:

A variância pode ser entendida como uma medida de extensão de um histograma, ou de um polígono de frequências, sobre o eixo horizontal.

Desvio padrão e coeficiente de variação São obtidos da mesma forma antes explicada para dados

não agrupados.

Medidas descritivasDados agrupados em classes

Page 40: Probabilidade e Estatística - Aula 03

40

Aula 03

Prof.: Augusto Junior

Medidas de formato As expressões que definem os coeficientes de assimetria e de curtose

também permanecem as mesmas que para os dados não agrupados. São elas (assimetria e curtose), respectivamente:

Os momentos centrados da média, utilizado para esses coeficientes, pelas mesmas razões já mencionadas para a variância e á média, são assim definidos:

Medidas descritivasDados agrupados em classes

Page 41: Probabilidade e Estatística - Aula 03

41

Aula 03

Prof.: Augusto Junior

Para facilitar compreensão da obtenção dessas medidas, convém utilizar a tabela abaixo:

Medidas descritivasDados agrupados em classes

EI ES1 16 19,3 7 72 19,3 22,6 9 163 22,6 25,9 15 314 25,9 29,2 12 435 29,2 32,5 9 526 32,5 35,8 6 587 35,8 39,1 2 60

Fj(cj-xp)^2 Fj(cj-xp)^3 Fj(cj-xp)^4

Total

Classesj cj Fj F'j cj x Fj

Page 42: Probabilidade e Estatística - Aula 03

42

Aula 03

Prof.: Augusto Junior

Exercícios propostos1- Os valores que seguem são os tempos (em segundos) da reação de um alarme de incêndio, após a liberação de fumaça de uma fonte fixa:

12 9 11 7 9 14 6 10

Calcule as medidas de localização (média, mediana e moda)e as medidas de dispersão (amplitude total, variância, desvio padrão e coeficiente de variação) para o conjunto de dados.

Page 43: Probabilidade e Estatística - Aula 03

43

Aula 03

Prof.: Augusto Junior

Exercícios propostos2- Foram registrados os tempos de frenagem (em segundos) para 21 motoristas que dirigiam a 65 Km/h. Os valores obtidos foram:

69 58 70 80 46 61 65 74 75 55 6756 70 72 61 66 58 68 70 68 58

Para esse conjunto de valores, calcule os quartis e a amplitude interquartílica e interprete os resultados obtidos.

Page 44: Probabilidade e Estatística - Aula 03

44

Aula 03

Prof.: Augusto Junior

Exercícios propostos3- O Gerente de um restaurante self-service fez uma análise, no intuito de verificar se o molho especial para salada, único no mercado, está com boa receptividade pelos clientes.Para isso, fez uma contagem, durante um dia inteiro, da quantidade de molhos retirados por cliente.Com base nos dados observados, calcular as medidas descritivas.

j Classes Fj1 0 72 1 93 2 194 3 105 4 36 5 2

50Total

Page 45: Probabilidade e Estatística - Aula 03

45

Aula 03

Prof.: Augusto Junior

Análise exploratória de dados Vimos que a média aritmética e a variância são muito

utilizadas para representar, respectivamente, a tendência central e a dispersão de um conjunto de valores. Apresentam boas propriedades matemáticas e estatísticas.

Entretanto, elas descrevem de forma ótima somente as distribuições de frequência unimodais, simétricas e mesocúrticas. Limitação importante do uso indiscriminado da média e da

variância na descrição de um conjunto de dados. Numa distribuição assimétrica, essa medidas teriam

valores fortemente afetados pela discrepância dos valores observados.

Page 46: Probabilidade e Estatística - Aula 03

46

Aula 03

Prof.: Augusto Junior

Análise exploratória de dados

Em 1970, Jonh Tukey propôs algumas técnicas que contornavam esse problema;

Ao conjunto dessa técnicas, deu-se o nome de Análise Exploratória de Dados;

O enfoque proposto era de obter medidas resistentes e robustas.

Page 47: Probabilidade e Estatística - Aula 03

47

Aula 03

Prof.: Augusto Junior

Análise exploratória de dados

Medidas resistentes são aquelas que se mostram pouco sensíveis à presença de valores discrepantes do centro da distribuição. Principal exemplo: Mediana.

Medidas robustas são aquelas que apresentam pouca sensibilidade diante dos desvios aos pressupostos básicos, inerentes aos modelos probabilísticos. Exemplo: Tipos de formato da distribuição.

Page 48: Probabilidade e Estatística - Aula 03

48

Aula 03

Prof.: Augusto Junior

Análise exploratória de dados As técnicas exploratórias dão uma visão distinta,

prévia, mas complementar às técnicas de Inferência. Ajudam: A comprovar as condições de aplicação dos testes de

hipóteses (Inferência Estatística); A detectar erros ou valores discrepantes; A buscar a melhor transformação de dados quando

houver necessidade. Abordaremos três dessas técnicas:

O resumo de cinco números; O gráfico em caixa (“box plot”); O diagrama de ramos e folhas.

Page 49: Probabilidade e Estatística - Aula 03

49

Aula 03

Prof.: Augusto Junior

Análise exploratória – Resumo de cinco números Descreve o conjunto de dados através de cinco valores:

Mediana (Md); Os quartis primeiro e terceiro (); Extremos Inferior e Superior (EI e ES, respectivamente).

A partir desses valores, calculamos: Amplitude interquartílica (): Diferença entre os quartis; Dispersão Inferior (DI): Diferença entre a mediana e o EI; Dispersão Superior (DS): Diferença entre a mediana e o ES.

O resumo de cinco números fornece uma idéia acerca da simetria da distribuição porque o percentual de observações compreendido dentro de cada um desses intervalos é conhecido (25%)

Page 50: Probabilidade e Estatística - Aula 03

50

Análise exploratória – Resumo de cinco números A distribuição será simétrica quando a diferença entre

o primeiro quartil e o extremo inferior é aproximadamente igual à diferença entre o extremo superior e o terceiro quartil () e a diferença entre a mediana e o primeiro quartil for aproximadamente igual à diferença entre o terceiro quartil e a mediana ().

Se não atender uma dessas duas condições, então, a distribuição será assimétrica.

Assimétrica Positiva: Dispersão superior for muito maior que a inferior; Maior concentração de dados entre o extremo inferior e a mediana.

Assimétrica Negativa: Dispersão inferior muito maior que a superior; Maior concentração de dados entre o extremo superior e a mediana.

Page 51: Probabilidade e Estatística - Aula 03

51Resumos de cinco

números: SimétricaEI

𝑄1 𝑄3 ES

Md25%

25%

25%

25%

EI

ES

Md

EI

ES

Md𝑄1 𝑄325%

25%

25%

25%

25%

25%

25%

25%

𝑄1 𝑄3

𝑎𝑞<𝐷𝐼=𝐷𝑆

𝑎𝑞=𝐷𝐼=𝐷𝑆

𝑎𝑞>𝐷𝐼=𝐷𝑆

Page 52: Probabilidade e Estatística - Aula 03

52

Resumos de cinco números: Assimétrica negativaE

I𝑄1 𝑄3 E

SMd25

%25%

25%

25%

𝑄1 𝑄3EI

ES

Md25%

25%

25%

25%

𝐷𝐼=𝐷𝑆𝑎𝑞

50%

𝐷𝐼 𝐷𝑆50%

50%

𝑎𝑞

50%

𝐷𝐼 𝐷𝑆50%

50% 𝐷𝐼>𝐷𝑆

Page 53: Probabilidade e Estatística - Aula 03

53

Resumos de cinco números: Assimétrica positivaE

I𝑄1 𝑄3 E

SMd25

%25%

25%

25%

𝑄1 𝑄3EI

ES

Md25%

25%

25%

25%

𝐷𝐼<𝐷𝑆𝑎𝑞

50%

𝐷𝐼 𝐷𝑆50%

50%

𝑎𝑞

50%

𝐷𝐼 𝐷𝑆50%

50% 𝐷𝐼<𝐷𝑆

Page 54: Probabilidade e Estatística - Aula 03

54

Aula 03

Prof.: Augusto Junior

Tomemos a seguinte variável:X = peso ao nascer (em Kg) de 60 bovinos machos, para qual os valores observados (e já ordenados) foram:16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23, 23, 23, 23, 23, 25, 25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30, 31, 32, 33, 33, 33, 34, 34, 35, 36, 39, 45.

Resumos de cinco números: Exemplo

Page 55: Probabilidade e Estatística - Aula 03

55

Aula 03

Prof.: Augusto Junior

O resumo de cinco número permite verificar que a distribuição não é simétrica, assumindo um caráter assimétrico positivo.

25%

25%

25%

25%

𝑎𝑞=8

Resumos de cinco números: Exemplo

16

22

25

30

45

EI

𝑄1 𝑄3 ES

Md

22

30

𝑄1 𝑄3

EI

ES

Md𝐷𝐼=916

25

45

𝐷𝑆=20

Page 56: Probabilidade e Estatística - Aula 03

56

Aula 03

Prof.: Augusto Junior Formato mais objetivo: Utilização das medidas “Cerca Inferior”

e “Cerca Superior”. CERCA INFERIOR

CERCA SUPERIOR

Serão considerados discrepantes os valores que estiverem fora do seguinte intervalo:

Valores menores que a CI são considerados discrepantes inferiores, e os maiores que a CS são considerados discrepantes superiores.

Identificação de valores discrepantes

Page 57: Probabilidade e Estatística - Aula 03

57

Aula 03

Prof.: Augusto Junior Levando em consideração os dados encontrados no exemplo

anterior, temos que: CERCA INFERIOR

CERCA SUPERIOR

Com isso, verificamos que o valor 45, do conjunto de dados, ultrapassa a cerca superior, sendo classificado como discrepante superior.

Identificação de valores discrepantes

Page 58: Probabilidade e Estatística - Aula 03

58

Aula 03

Prof.: Augusto Junior

Gráfico de Caixa Uma forma de apresentar a informação

dada pelo resumo de cinco números. Antes de construir o gráfico, precisamos

definir os valores adjacentes. Maior e menor valores que não são discrepantes

de um conjunto de dados.; Ou seja, o maior valor que não ultrapassa a cerca

superior e o menor valor que não ultrapassa a cerca inferior.

SE, NUM CONJUNTO DE DADOS, NENHUM VALOR É CONSIDERADO DISCREPANTE, OS VALORES ADJACENTES SERÃO OS PRÓPRIOS EXTREMOS.

Page 59: Probabilidade e Estatística - Aula 03

59

Aula 03

Prof.: Augusto Junior

Gráfico de CaixaConstrução do gráfico: 1º: Consideraremos um

retângulo, onde estarão representados a mediana e os quartis;

2º: Saindo do retângulo, para cima e para baixo, surgem linhas que vão até os valores adjacentes Bigodes.

3º: Os valores discrepantes recebem uma representação individual através de uma letra, ou um símbolo.

Page 60: Probabilidade e Estatística - Aula 03

60

Aula 03

Prof.: Augusto Junior

Gráfico de Caixa

Page 61: Probabilidade e Estatística - Aula 03

61

Aula 03

Prof.: Augusto Junior

Diagrama de ramos e folhas

Ferramenta útil para descrever um pequeno grupo de dados. Já nos dá uma idéia de como poderá comportar-se

a sua distribuição. Fornece boa visão geral dos dados sem que

haja perda de informação detectável. Cada valor retém a sua identidade, perdendo

somente a organização inicial. Uma boa opção quando temos em mãos

somente os dados, caneta e papel.

Page 62: Probabilidade e Estatística - Aula 03

62

Aula 03

Prof.: Augusto Junior

Diagrama de ramos e folhas - Exemplo Dados relativos à nota de 40 alunos

em uma prova da matéria X.

78 59 86 94 43 56 78 84 57 4996 68 67 65 75 73 67 87 84 4556 94 87 56 85 76 86 79 78 7759 76 68 49 86 87 83 94 85 96

Page 63: Probabilidade e Estatística - Aula 03

63

Aula 03

Prof.: Augusto Junior

1º Passo: Separação dos dados, juntando os valores que tem o mesmo número inicial.

43 49 4559 56 57 56 56 5968 67 65 67 6878 78 75 73 76 79 78 77 7686 84 89 87 84 87 85 86 86 87 83 8594 96 94 94 96

Diagrama de ramos e folhas - Exemplo

Page 64: Probabilidade e Estatística - Aula 03

64

Aula 03

Prof.: Augusto Junior

2º Passo: Mostrar o primeiro dígito para cada linha, à esquerda, e separar os outros dígitos por uma linha vertical.

4 3 9 55 9 6 7 6 6 96 8 7 5 7 87 8 8 5 3 6 9 8 7 68 6 4 9 7 4 7 5 6 6 7 3 59 4 6 4 4 6

Diagrama de ramos e folhas - Exemplo

Page 65: Probabilidade e Estatística - Aula 03

65

Aula 03

Prof.: Augusto Junior

3º Passo: Organizar os números do lado direito, de forma ascendente, ou descendente.

4 3 5 95 6 6 6 7 9 96 5 7 7 8 87 3 5 6 6 7 8 8 8 98 3 4 4 5 5 6 6 6 7 7 7 99 4 4 4 6 6

Diagrama de ramos e folhas - Exemplo

Page 66: Probabilidade e Estatística - Aula 03

66

Aula 03

Prof.: Augusto Junior

Diagrama de ramos e folhas

RAMO: Cada linha que corresponde aos

dados com o mesmo dígito inicial.

FOLHA: Cada número do ramo à esquerda

da linha vertical.

Page 67: Probabilidade e Estatística - Aula 03

67

Aula 03

Prof.: Augusto Junior

EXERCÍCIOS PROPOSTOS1- Os dados abaixo, em rol, referem-se aos valores gastos (em reais) pelas primeiras 50 pessoas que entraram em um determinado supermercado, no dia 01/01/2000:

3,11 8,88 9,26 10,81 12,69 13,78 15,23 15,62 17,00 17,3918,36 18,43 19,27 19,50 19,54 20,16 20,59 22,22 23,04 24,4724,58 25,13 26,24 26,26 27,65 28,06 28,08 28,38 32,03 36,3738,64 38,98 39,16 41,02 42,97 44,08 44,67 45,40 46,69 48,65 50,39 52,75 54,80 59,07 61,22 70,32 82,70 85,76 86,37 93,34

Para esses dados: a) Obtenha o resumo de cinco números;b) Verifique se existem valores discrepantes;c) Construa o gráfico em caixa;d) Com base no gráfico, classifique a distribuição quanto à simetria.

Justifique a sua resposta.

Page 68: Probabilidade e Estatística - Aula 03

68

Aula 03

Prof.: Augusto Junior

EXERCÍCIOS PROPOSTOS2- As durações (em horas de uso contínuo) de 25 componentes eletrônicos selecionados de um lote de produção são:

834 919 784 865 839912 888 783 655 831886 842 760 854 939961 826 954 866 675760 865 901 632 718

Construa um diagrama de ramos e folhas com rótulos de ramos com um dígito e folhas de dois dígitos.Use esse diagrama de ramos e folhas para decidir sobre a simetria desses dados.