Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica...

Post on 18-Apr-2020

12 views 0 download

Transcript of Estatistica - icmc.usp.brEstatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matem´atica...

Estatistica

Ricardo Ehlersehlers@icmc.usp.br

Departamento de Matematica Aplicada e Estatıstica

Universidade de Sao Paulo

Introducao

O que e Estatıstica

• Ciencia de aprendizagem a partir de dados.

• Envolve a coleta e analise de dados e sua consequentetransformacao em informacao.

• Objetivos: postular, refutar ou validar hipoteses cientıficassobre um fenomeno observavel.

• Analogamente: tomada de decisao nos mais variadosproblemas onde existe incerteza.

• Usando Teoria das Probabilidades, os estatısticos formalizameste processo de forma a aperfeicoa-lo.

• Os metodos estatısticos tem um forte embasamentomatematico.

Informacao Dados → Analise → Tomada de Decisao

1

Probabilidade nao existe.

Bruno de Finetti

Todos os modelos estao errados, mas alguns sao uteis.

George P. Box

2

Velocidades de 82 galaxias em Km/seg na constelacao de Coroa

Boreal

0 10 20 30 40

0.0

00

.05

0.1

00

.15

0.2

0

velocity of galaxy (1000km/s)

de

nsity

3

• Quantos grupos de galaxias existem?

• Os valores mais afastados formam outro grupo ou sao’outliers’?

• Como tratar problemas de identificacao do modelo?

• Se uma nova galaxia for descoberta ela pertencera a qualgrupo com qual probabilidade?

4

Analise Temporal

Analise e Previsao de Series Temporais.

0 50 100 150 200 250

−4

−2

02

46

Time

se

rie

s

• Existem padroes temporais ?

• Como fazer boas previsoes? (O que e uma“boa”previsao?)

• Como construir os intervalos de previsao?

• Quao longe no futuro e seguro prever?

6

Taxas de cambio diarias em relacao ao Dolar Americano.

Franco Marco

Libra Dolar Canadense

0 500 1000 1500 2000 0 500 1000 1500 2000

1.1

1.2

1.3

1.4

1.5

1.4

1.5

1.6

1.7

1.8

1.9

0.50

0.55

0.60

0.65

0.70

5.0

5.5

6.0

Time 7

Retornos diarios em relacao ao Dolar Americano.

Franco Marco

Libra Dolar Canadense

0 500 1000 1500 2000 0 500 1000 1500 2000

−0.01

0.00

0.01

−0.02

0.00

0.02

−0.02

0.00

0.02

−0.02

−0.01

0.00

0.01

0.02

Time 8

Contagio Financeiro

• Aumento significativo da probabilidade de crise em um paıscondicional a crise em outro paıs.

• Por exemplo, a ocorrencia de crise cambial em um paısaumenta a probabilidade de ataques especulativos em outrospaıses.

9

Precos diarios, alguns indices de mercado europeu

1992 1993 1994 1995 1996 1997 1998

20

00

30

00

40

00

50

00

60

00

70

00

80

00

DAX

SMI

CAC

FTSE

10

Ozonio (em PPB) e radiacao solar em NY 1/5/1973 a 30/9/1973

05

01

00

15

0

Ozo

ne

0 50 100 150

Index

01

00

20

03

00

So

lar

11

Dados peso versus idade (em dias) de frangos sob diferentes dietas.

100

200

300

0 5 10 15 20

Time

we

igh

t

Diet

1

2

3

4

12

0 5101520 0 5101520 0 5101520 0 5101520 0 5101520

0 5101520 0 5101520 0 5101520 0 5101520

100

200

300

100

200

300

100

200

300

100

200

300

100

200

300

100

200

300

we

igh

t

13

Tendencia de precos de casas por estado americano (1975 a 2013).

0

250000

500000

750000

1980 1990 2000 2010

Date

Ho

me.V

alu

e

State

AK

AL

AR

AZ

CA

CO

CT

DC

DE

FL

GA

HI

IA

ID

IL

IN

KS

KY

LA

MA

MD

ME

MI

MN

MO

MS

MT

NC

ND

NE

NH

NJ

NM

NV

NY

OH

OK

OR

PA

RI

SC

SD

TN

TX

UT

VA

VT

WA

WI

WV

WY

14

VA VT WA WI WV WY

OK OR PA RI SC SD TN TX UT

NC ND NE NH NJ NM NV NY OH

LA MA MD ME MI MN MO MS MT

FL GA HI IA ID IL IN KS KY

AK AL AR AZ CA CO CT DC DE

198019902000201019801990200020101980199020002010198019902000201019801990200020101980199020002010

198019902000201019801990200020101980199020002010

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

0

250000

500000

750000

Ho

me.V

alu

e

15

Alguns Tipos de Associacao

Medidas de Associacao para Valores Extremos (Dados simulados)

−5.0

−2.5

0.0

2.5

−4 0 4

x

y

16

Valores Extremos (minimos e maximos)

−5.0

−2.5

0.0

2.5

−4 0 4

x

y

17

Dados de peso, altura e idade (questionario estudantil)

50

60

70

80

90

1.5 1.6 1.7 1.8

Alt

Peso

17

19

21

23

25Idade

18

Dados de peso, altura e sexo (questionario estudantil)

50

60

70

80

90

1.5 1.6 1.7 1.8

Alt

Peso

Sexo

F

M

19

Dados de peso, altura, idade e sexo (questionario estudantil)

50

60

70

80

90

1.5 1.6 1.7 1.8

Alt

Peso

17

19

21

23

25Idade

Sexo

F

M

20

Dados de peso, altura, idade e sexo (questionario estudantil)

AlturaPeso

Idade

21

Afghanistan

Argentina Barbados

Bhutan

Botswana

Brazil

Britain

Cape Verde

China

Congo

FranceGermany

Greece

IndiaIraq

ItalyJapan

Myanmar

New Zealand

Norway

Russia

Rwanda

Singapore

South Africa

Sudan

United States

Venezuela

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1 2 3 4 5 6 7 8 9 10

Corruption Perceptions Index, 2011 (10=least corrupt)

Hu

ma

n D

eve

lop

me

nt

Ind

ex,

20

11

(1

=B

est)

Corruption and Human development

22

Analise Espacial

Medidas de associacao em 2 dimensoes

X

Y

2

4

6

8

10

2 4 6 8 10

0

1

2

3

4

5

23

Taxa de Desemprego por condado nos EUA, 2009

2−4% 4−6% 6−8% 8−10% >10%

24

Abalos sismicos (MB > 4) em torno das Ilhas Fiji desde 1964

100 120 140 160 180

−4

0−

30

−2

0−

10

0

25

xxxxx

26

Modelos e Inferencia

Um modelo e uma simplificacao da realidade(e alguns sao uteis)

Quantidades observaveis Quantidades nao observaveis(podem ser medidas) (parametros e variaveis latentes)

Abordagens: Classica e Bayesiana

Intuicao sem base teorica e reflexao em geral resulta em erro.

Dados: os valores observados das quantidades observaveis.

27

Inferencia estatıstica

Processo de tirar conclusoes sobre um conjunto maior (populacao)usando informacao de um conjunto menor (amostra).

PopulacaoTodos os casos ou situacoes sobre as quais o pesquisador querfazer inferencias.

Exemplos,

• Fazer inferencias sobre concentracao de poluentes numdeterminado lencol freatico,

• Predizer a quantidade de petroleo num poco a ser perfurado,

• Estimar o tempo de vida util de um componente eletronico.

28

AmostraUm subconjunto qualquer da populacao.

Por que nao observar a populacao inteira?

• Alto custo.

• Tempo muito longo.

• Impossibilidade fısica (e.g. estudo de poluicao amosferica).

• Impossıvel logica (e.g. em ensaios destrutivos).

29

• Variaveis: caracterısticas de uma populacao que diferem deum indivıduo para outro e as quais queremos estudar.

• Observacoes: medidas de uma ou mais variaveis de umindivıduo na amostra.

• Censo: estudo que inclui todos os elementos de umapopulacao.

30

Dados Brutos

Exemplo. Dados parciais de um questionario estudantil.

http://www.ime.usp.br/~noproest/dados/questionario.txt

Turma Sexo Idade Alt Peso Filhos Fuma Toler Exerc Cine OpCine TV OpTV

A F 17 1.60 60.50 2 NAO P 0 1 B 16 RA F 18 1.69 55.00 1 NAO M 0 1 B 7 RA M 18 1.85 72.80 2 NAO P 5 2 M 15 RA M 25 1.85 80.90 2 NAO P 5 2 B 20 RA F 19 1.58 55.00 1 NAO M 2 2 B 5 RA M 19 1.76 60.00 3 NAO M 2 1 B 2 RA F 20 1.60 58.00 1 NAO P 3 1 B 7 RA F 18 1.64 47.00 1 SIM I 2 2 M 10 RA F 18 1.62 57.80 3 NAO M 3 3 M 12 RA F 17 1.64 58.00 2 NAO M 2 2 M 10 RA F 18 1.72 70.00 1 SIM I 10 2 B 8 NA F 18 1.66 54.00 3 NAO M 0 2 B 0 RA F 21 1.70 58.00 2 NAO M 6 1 M 30 RA M 19 1.78 68.50 1 SIM I 5 1 M 2 NA F 18 1.65 63.50 1 NAO I 4 1 B 10 R

31

Id: identificac~ao do aluno.

Turma: turma a que o aluno foi alocado (A ou B).

Sexo: F se feminino, M se masculino.

Idade: idade em anos.

Alt: altura em metros.

Peso: peso em quilogramas.

Filhos: numero de filhos na familia.

Fuma: habito de fumar, sim ou n~ao.

Toler: tolerancia ao cigarro:

(I) indiferente, (P) incomoda pouco e (M) incomoda muito.

Exerc: horas de atividade fisica, por semana.

Cine: numero de vezes em que vai ao cinema por semana.

OpCine: opini~ao a respeito das salas de cinema na cidade:

(B) regular a boa e (M) muito boa.

TV: horas gastas assistindo TV, por semana.

OpTV: opini~ao a respeito da qualidade da programac~aoo na TV:

(R) ruim, (M) media, (B) boa e (N) n~ao sabe.

32

Exemplo. Dados de incidencia de cancer.

http://www.ime.usp.br/~noproest/dados/cancer.txt

Grupo Idade AKP P LDH ALB N GL

1 71 8.00 3.20 7.80 62 6 1131 66 10.50 5.10 50.10 57 9 931 83 8.50 3.30 15.30 53 21 1091 52 12.80 3.20 18.80 45 14 911 61 7.40 4.30 12.90 69 19 781 54 8.10 2.70 15.90 57 10 1221 27 3.80 3.20 24.90 64 14 881 91 7.80 3.50 30.10 61 28 1041 74 8.20 3.20 20.70 66 21 911 67 14.00 2.90 15.80 60 15 1031 43 7.30 3.90 11.80 68 15 931 40 5.50 2.80 18.10 63 16 961 64 6.30 3.20 22.40 56 14 1271 23 3.30 2.40 24.20 61 13 931 58 10.30 3.00 14.90 62 14 1021 18 9.30 2.70 12.50 55 6 99

33

coluna 1: Identificac~ao do paciente.

coluna 2: Diagnostico:

1 = Falso-negativo: diagnosticados como n~ao tendo a

doenca quando na verdade a tinham.

2 = Negativo: diagnosticados como n~ao tendo a doenca

quando de fato n~ao a tinham.

3 = Positivo: diagnosticados corretamente como tendo a doenca.

4 = Falso-positivo: diagnosticados como tendo a doenca

quando na verdade n~ao tinham.

coluna 3: Idade.

coluna 4: Espectro quımico da analise do sangue:

alkaliine phosphatose (AKP).

coluna 5: Concentrac~ao de fosfato no sangue (P).

coluna 6: Enzima, lactate dehydrogenase (LDH).

coluna 7: Albumina (ALB).

coluna 8: Nitrogenio na ureia (N).

coluna 9: Glicose (GL).

34