IESB Logística Empresarial - Métodos Quantitativos - Volume I

INSTITUTO DE EDUCAÇÃO SUPERIOR DE BRASÍLIA

PROGRAMA DE PÓS-GRADUAÇÃO LATO SENSU EM LOGÍSTICA EMPRESARIAL

Apostila 01: Revisão de tópicos sobre Estatística

Disciplina: Estatística e modelos de otimização aplicados à logística

Prof. Rafael José Rorato

Brasília, abril de 08

INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Pós-graduação Lato Sensu em Logística Empresarial

Módulo: Estatística e modelos de otimização aplicados à logística

2

c2008 INSTITUTO DE EDUCAÇÃO DE BRASÍLIA Campus Jovanina Rimoli SGAN Quadra 609 – Módulo D – Avenida L2 Norte Brasília – DF CEP:70850-090 Este exemplar é de propriedade do Instituto de Educação de Brasília, que poderá incluí-lo em base de dados, armazenar em computador, microfilmar ou adotar qualquer forma de arquivamento. É permitida a menção, reprodução parcial ou integral e a transmissão entre bibliotecas deste trabalho, sem modificação de seu texto, em qualquer meio que esteja ou venha a ser fixado, para ensino, comentários e citações, desde que sem finalidade comercial e que seja feita a referência bibliográfica completa. Os conceitos expressos neste trabalho são de responsabilidade do autor.



3

4

5

6

Inferência Estatística

População

Amostra

Parâmetros

Estimativas

Atributo

Variável Qualitativa

Variável Quantitativa

8

8

Gráficos de Barras ou Colunas

Gráficos de Pizza

9

Tabelas de Freqüências

Histograma

Ogivas

Dispersão

11

Média simples ou média aritimética

Média geométrica

Média harmônica

Média ponderada

Mediana

Moda

Percentil

Quartis

Amplitude

Amplitude interquartil

Variância

Desvio-padrão

Coeficiente de Variação

Box-plot

16

Covariância

Correlação

18

Variáveis Aleatórias

Probabilidade

Distribuição de Probabilidades

Distribuição Normal

Teorema do Limite Central

Parâmetros da Distribuição Normal

1.3.5) Distribuição de Probabilidade.............

1.3.1) Sintetização de dados qualitativos......

1.3.2) Sintetização de dados quantitativos....

1.3.3) Métodos Numéricos..........................

1.3.4) Medidas Associativas..........................

1) Estatística........................................................

1.1) Dados x Informação................................

1.2) População, Amostra e Variáveis..............

1.3) Estatística Descritiva.................................

ÍNDICE



4

1) Estatística Vamos considerar algumas definições:

a) Método: consiste no conjunto de meios e rotinas dispostos convenientemente e logicamente para chegar a uma finalidade desejada.

b) Método experimental: no método experimental mantêm-se todas as

causas e fatores, menos uma, e variar esta causa de modo que se possa descobrir seus efeitos (ex.: princípio da análise de sensibilidade de um modelo).

c) Método estatístico: adimite que todas as causas presentes, variando-as,

dada a impossibilidade de mantê-las constantes, registrando estas variações e procurando determinr as influências de cada uma delas.

Assim, a Estatística é a arte e a ciência de coletar, analizar, apresentar, caracterizar e interpretar os dados para a utilização dos mesmos na tomada de decisões. Podemos considerar que a estatística torna-se um conjunto de técnicas fundamentadas na matemática com que torna-se possível transformar dados em informação. Constitui-se do conjunto de técnicas e métodos de pesquisa que entre outros tópicos, envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações. O conjunto de algumas técnicas fundamentadas integralmente ou parcialmente constituem da área de conhecimento tais como: Estatística Básica (Descritiva, ANOVA: Análise de variância, Teste de Hipótese, Regressão), Séries Temporais (Aplicação à Economia: Econometria), Data Mining, Redes Neurais, Controle de Qualidade (CEP: Controle Estatístico de Processos, Seis-Sigma), Planejamento de Experimentos (DOE: Design of Experiments), Simulação e Pesquisa Operacional (Otimização) O desenvolvimento das técnicas estatísticas de obtenção e análise de informações permite o controle e o estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do conhecimento, sejam com ambiente experimental controlado, tal como um laboratório de Análises Clínicas, ou em ambientes não controlados, tais como, vendas de um determinado produto em um supermercado, ou o risco de inadimplência na liberação de crédito a um possível cliente de instituição financeira, ou análise de passageiros transportados por empresa de transporte aéreo. A Estatísitca apresenta como objetivo fornecer métodos numéricos capazes de lidarmos racionalmente na análise de dados, gerando informações para tomada de decisão segundo situações sujeitas a incertezas quantificadas. O porquê de estudar Estatística justifica-se na compreenção da leitura numérica e de dados estatísticos encontrados em jornais, relatórios analíticos de instituições públicas ou privadas, sites na internet, biddings de transportes e demais licitações



5

que necessitem de uma interpretação numérica e/ou histórica de dados. Através dela, minimizam-se os riscos de sermos iludidos por estatísticos ou pseudo-estatísticos, constituindo-se assim de um poderoso instrumento para a tomada de decisões. De nada adianta apresentarmos ou possuirmos “ferramental” computacional e algumas informações se não formos capazes de interpretarmos as informações, gráficos ou tabelas. Por quê Estatística e Logística? Revisaremos uma das definições da Logística:

“Logística é a parte do processo da cadeia de suprimentos que planeja, implementa e controla, de forma eficiente e eficaz, a expedição, o fluxo reverso e a armazenagem de bens e serviços, assim como do fluxo de informações relacionadas, entre o ponto de origem e o ponto de consumo, com o propósito de atender às necessidades dos clientes.” (Fonte: Concil of Supply Chain Management Professional)

Observamos que a eficiência e a eficácia nos processos logísticos vão além da infra-estrutura física de terminais, tecnologias de transporte, especialização da mão-de-obra. Para a busca da otimização nos processos logísticos de movimentação e armazenagem, necessita-se saber responder:

Aonde? Onde? Quando? Quantos? A que custo? A qual prazo? Como mensurar o serviço?

Como mensurar o risco? 1.1) Dados x Informação Os dados são definidos como os fatos, classes e números observados e sintetizados para apresentação e interpretação, úteis para uma determinada finalidade. Apresentam significado implicito sobre os fenômenos do mundo real ou de experimentações controladas. Porém, um dado por si só, não é fortemente representativo!

(a) (b)

Figura 1: Representatividade visual do agrupamento de dados: (a) isolado, baixa geração de informação (b) conjunto de dados, significativa

(b) geração de informação



6

Informação constitui-se de um agrupamento de dados, devidamente armazenados e possíveis serem classificadas, verificadas as correlações, as dependências, as associações e deduções, cujos resultados geram uma ação.

1.2) População, Amostra e Variáveis Quando buscamos obter informações para a tomada de decisão, necessitamos coletar dados, sejam eles através de pesquisa de campo, entrevistas e preenchimento de formulários ou acessar os sistemas de banco de dados das empresas. Porém nem sempre, ao investigar um determinado comportamento ou ação, não obtemos recursos financeiros para realizar a pesquisa. Por exemplo: ao investigarmos o número de acessos (chegadas e partidas) de veículos de passeio ao terminal do Aeroporto Estadual Dr. Leite Lopes em Riberião Preto (SP) em um ano, damandaria um alto custo em manter uma equipe de pesquisadores relizando contagens de pessoas em 24h, por 7 dias na semana, ao longo de 365 dias do ano. Para minimizarmos esses custos é realizado um processo chamado de Inferência Estatística. Através do planejamento de experimentos da pesquisa realiza-se a coleta de dados em um período inferior a 365 dias e com dias específicos ao longo da semana e concentrando os esforços em horários significativos. Com a Inferência Estatística busca-se justificar o comportamento de uma população através do estudo de uma amostra. Os dados de uma amostra podem ser usados para fazer estimativas e para testar hipóteses sobre a característica

Planejamento Tático, Estratégico e Operacional Relacionamento com Fornecedores Relacionamento com Clientes Marketing analítico CRM analítico Budget Localização de Instalações: fábricas, centros de distribuição e varejo Etc...

Dados

Processo de Transformação

Informação

Atitude

Conhecimento

1. Modelagem de Processos 2. Tecnologia da Informação: BI, DW, Banco

Dados, ERP... 3. Data Quality 4. Áreas da Estatística: Descritiva, ANOVA,

Regressão, CEP, Econometria...



7

de uma população. Ex.: No Controle Estatístico de Processo da produção e envaze de garrafas com óleo de soja, seria irrealistico validar a calibração da máquina de envase medindo todas as garrafas produzidas em um dia. Faz-se a segmentação em lotes de produção e desse lote são extraídas amostras e delas feito a medição volumétrica, a quantificação da variabilidade do envase e a inferência sobre o lote. Em outro caso, um analísta de risco de uma instituição financeira ao acessar o sistema de banco de dados apresenta condições em consultar todos os registros desde a criação do sistema até a carga mais recente extraída da base transacional. Nestas condições o analista trabalha com a população de dados. População e amostra referem-se ao conjunto de variáveis qualitativas ou quantitatvas cujas propriedades desejamos averiguar. A população é o conjunto de todos os elementos de interesse de um determinado estudo. A amostra é um subconjunto da população. A notação encontrada nas fórmulas de estatística para o tamanho de população e amostra é dado por:

� N: Tamanho da População � n: Tamanho da Amostra

Parâmetros são os valores singulares que existem na população e que servem para caracterizá-la. O parâmetro somente defini-se ao examinar toda a população. Ex.: o analista risco mensura que para os registros de liberações de crédito a inadimplência atingiu 18,7% da carteira, sendo o valor médio de emprestimo de R$25.679,00. Estimativas são valores aproximados do parâmetro e são calculados com o uso dos dados amostrais. Ex.:Pesquisa realizada em 21 de junho de 2000 levantou que a média diária de veículos de passeio que chegam ao terminal aéreo de Ribeirão Preto (SP) são de 175,1 veículos, para o período compreendido das 9:00 às 19:00. Atributo: quando os dados estatísticos apresentam um caráter qualitativo, o levantamento e os estudos necessários ao tratamento desses dados são designados genericamente de estatística de atributo. Variável: é o conjunto de resultados possíveis de um fenômeno ou os valores que identificam características para cada registro. As variáveis são classificadas em:

� Qualitativa: quando os valores são expressos por atributos, de forma não numérica. As variáveis qualitativas são sub-classificadas em:



8

Sexo Freq Freq Relativa Freq %F 15 0.75 75M 5 0.25 25Total 20

o Qualitativa Nominal: Sexo (M ou F), Cor da pele (branca, preta, amarela);

o Qualitativo Ordinal: Classificado em Ruim, Bom e Excelente;

Extremamente Fácil, Fácil, Difícil, Muito Difícil;

� Quantitativa: quando os valores são expressos por números. As variáveis quantitativas são sub-classificadas em:

o Quantitativa Discreta: expresso por números inteiros tais como

idade (12, 17, 23, 42), pesos de uma categoria (-10, 0, 12, -22, 47);

o Quantitativa Contínua: espresso por números reais decimais. (Ex.: notas dos alunos na disciplina de Estatística: 5,5; 7,4; 9; 0; 2,4);

1.3) Estatística Descritiva A Estatística Descritiva tem como objetivo descrever dados de uma amostra ou de uma população via uso de métodos tabulares, métodos gráficos e métodos numéricos. Os métodos tabulares e gráficos apresentam-se como uma forma de sintetizar as informações em tabelas e gráficos através da frequência de ocorrência de categorias de uma variável quantitativa ou qualitativa. Já os métodos numéricos são diretamente aplicados a variáveis quantitativas e fornecem informações de posição e de dispersão da amostra ou população. 1.3.1) Sintetização de dados qualitativos Uma simples forma para sintetizar dados qualitadivos é realizada através da Distribuição de Freqüência. Defini-se como um sumário tabular de dados que mostra a freqüência (ou o número) de observações em cada uma das diversas classes não sobrepostas. Outras formas de tabulação são as Freqüências Relativas e Percentuais. Basicamente a Freqüência Relativa é determinado pela divisão da freqüência da classe pelo total das variáveis. Como exemplo para os dados da Figura 1(b) temos para a variável Sexo:

Tabela 1: Freqüência, Freqüência Relativa e Freqüência Percentual da variável Sexo Os gráficos descritivos são conhecidos como:

� Gráficos de Barras ou Colunas



9

NC

VVL menormaior −

=

� Gráficos de Pizza Nessas representações gráficas, cada categoria de uma variável qualitativa são agrupadas e em barras ou fatias e dimensionadas conforme as Freqüencias a elas atribuidas. A maioria dos programas computacionais estatísticos são habilitados à tabular dados qualitativos em forma gráfica. 1.3.2) Sintetização de dados quantitativos Os dados quatitativos também apresentam formas sintéticas de apresentação. Podemos utilizar-se de Tabelas de Freqüências em relação a classes, definida pelos número e largura de classes. Indica-se o uso de tabelas de frequências para amostras ou populações pequenas (n<30; N<30). Para dimensioná-las saiba que:

� Largura entre as classes devem ser iguais; � Quanto maior o número de classes, menor será a largura; � A largura é definida por:

Sendo, Vmaior: maior valor registrado na variável em estudo Vmenor: menor valor registrado na variável em estudo NC: Número de Classes (recomenda-se o uso de 5 ou 6 classes)

Tabela 2: Distribuição de Freqüências por Classe para uma variável quantitativa Outras formas de representação de dados quantitativos:

� Histograma: é uma apresentação de uma distribuição de freqüência, distribuição de freqüência relativa ou distribuição de freqüência percentual



10

Histograma Peso

Peso

Fre

qüên

cia

50 60 70 80 90

01

23

45

1000 2000 3000 4000 5000 6000

2000

4000

600

08

000

100

00

Fator de Estiva

Número de TEUs Embarcados

Atr

asos

para dados quantitativos construídos colocando-se os intervalos de classe no eixo horizontal e as freqüencias no eixo vertical

Figura 2: Histograma para a variável Peso apresentada na Figura 1

� Ogivas: defini-se como um gráfico de linha que apresenta a distribuição cumulativa. Os valores dos dados são mostrados no eixo horizontal e as freqüências no eixo vertical.

Figura 3: Exemplo de uma ogiva

� Dispersão: o gráfico de dispersão consiste na plotagem registros entre duas variáveis quantitativas, aplicadas nos eixos x e y. Serve como um diagnóstico para verificação visual de correlação entre as variáveis, sendo uma primeira etapa para refutação ou aprovação de uma análise de regressão.

Figura 3: Gráfico de disperção



11

1.3.3) Métodos Numéricos Os métodos numéricos em Estatística Descritiva para variáveis quantitativas nos fornecem medidas de posição e medidas de variabilidade. Com elas podemos fazer a caracterização númérica da distribuição amostral ou da população. São com as medidas de posição e de variabilidade que geralmente um analista de logística embasa as decisões para um problema. As medidas de posição são: ] Média: é a medida de posição mais importande de uma variável quantitativa. A média fornece uma medida de posição central. Os principais tipos de média são: Média simples ou média aritimética:

n

xx

i∑= x = Média da amostra

N

xi∑=µ µ= Média da população

Média geométrica

nn

n

i

i xxxxxx ×××=

= ∏

=

...3211

x = Média da amostra

NN

N

i

i xxxxx ×××=

= ∏

=

...3211

µ µ= Média da população

A média geométrica deverá apenas ser usada quando os registros da variável quantitativa em estudo forem positivos, evitando assim raízes de ordem n ou N com números negativos. Freqüentemente utiliza-se para números cujos valores apresentam um significado em serem multiplicados entre si (progreção geométrica – PG) ou serem uma série de comportamento exponencial por natureza, tal como dados de crescimento da população humana ou taxas de investimento financeiro. Média harmônica

nxxxx

nx

1...

111

321

++++

=



12

A média harmônica consiste na inversão dos números da variável quantitativa, tirar a media dos inversos e inverter novamente, devendo ser aplicados quanto esses números apresentam uma relação onde numerador é uma constante e o denominador varia, isto é, apresentam uma relação;

b

a

Sendo, a um valor fixo e b variável. Exemplificando, tomamos que a variável a represente a distâncias entre cidades (são fixas e não se alteram ao longo do tempo – fator constante) e b representa o tempo de viagem entre essas cidades (pode variar pois o veículo poderá alterar a velocidade). Supomos que em uma viagem cíclica em uma operação logística de transportes, cujo caminhão semi-reboque coleta carga em uma Unidade Fabril (UF) e transporta a um Centro de Distribuição (CD), viajando na ida a 70km/h e realiza na volta uma velocidade de 90km/h. Utilizando a média harmônica temos:

hkmxharmônica

/75,78160

63002

9070

90702

90

1

70

12

=×

=

×

+=

+

=

Se utilizarmos a média aritimética temos:

hkmx aaritimétic /802

160

2

9070==

+=

Para visualizar a diferença da aplicação desse exemplo, a média harmônica considera que existe na determinação da velocidade média do caminha a relação espaço/tempo. Consideramos que a distância entre a UF e o CD é de 35km. O tempo de viagem de ida seria de 35 km / 70km/h = 0,5 horas = 30 min, enquanto que a volta do veículo seria 35 km / 90km/h = 0,389 h = 23,3 min. Logo, o tempo total do ciclo será igual a 0,889h = 53,3 min para percorrer 2 x 35 km = 70km. Conseqüentemente, a velocidade média será 70 km / 0,889 h = 78,75km/h (igual a média harmônica). Média ponderada

n

nn

n

i

i

n

i

ii

www

xwxwxw

w

xw

x...

...

21

2211

1

1

++

+++=

×

=

∑

∑

=

=

Sendo wi os pesos ao qual queira-se vincular as variáveis xi. A média ponderada faz com que os elementos de maior peso wi contribuam mais do que os elementos de menor valor de wi no cálculo da média. A média ponderada deverá ser utilizada sendo que os pesos não sejam negativos. Alguns elementos do peso poderão ser nulos, porém nem todos devido a divisão por



13

zero. Se todos os pesos forem de mesmo valor, a média ponderada a apresentará o mesmo valor da média aritimética.

********** Como as médias reportam a tendência central da amostra ou população, a média aritimética não é apropiada para descrever distribuições enviesadas, porque essa mediada não tem intepretação do fenêmeno. A média aritimética é facilemente influenciada pelos outliers. As distorções ocorridas pelos outliers são percebidas pelo quanto a média difere-se da mediana. Para casos de amostras ou populações com ocorrência de outliers indica-se o uso da mediana.

Figura 4: Média x Mediana

********** Mediana: é outra medida de posição central de uma variável. A mediana é o valor que fica no meio da seqüência quando os dados são arranjados na ordem ascendente (classificação do menor valor para o maior). Com um número ímpar de observações, a mediana é o valor do meio. Um número par de observações não tem um valor único no meio. Neste caso, seguimos a convenção de definir a mediana como sendo a média dos valores das duas observações do meio. Assim, defini-se: Mediana com os valores dados arranjados na ordem ascendente:

1. para um número ímpar de observações, a mediana é o valor do meio.

2. para um número par de observações, a mediana é a média dos dois valores do meio.

Moda: é o valor de dados que ocorre com maior freqüência. Conforme o tipo de variável estudada e o processo de obtenção da informação (pesquisa de campo, formulários, contagens, etc) a utilização prática da moda pode ser na identificação de possíveis dados fake (“chutado” pelo entrevistador)

1 2 3 4 5 6 7 8 9 10

Média = 4.4

Mediana = 4

Moda = 3



14

no processo de pesquisa, podendo ou não utilizaram-se do processo de “limpeza” ou exclusão dos dados. Percentil: o percentil fornece a informação sobre como os valores de dados estão distribuídos sobre o intervalo, do maior para o menor. O p-ésimo percentil é um valor tal que pelo menos p por cento das observações assumem esse valor ou menos e pelo menos (100 – p) por cento das observações assumem esse valor ou mais. Quartis: defini-se como a divisão dos dados em quatro partes, cada parte contendo aproximadamente um quarto, ou 25% das observações. Esses pontos são definidos como quartis e estão nomeados como: Q1: primeiro quartil, ou 25º percentil Q2: segundo quartil, ou 50º percentil (igual a mediana) Q3: terceiro quartil, ou 75º percentil As medidas de variabilidade são: Amplitude (range): a amplitude consiste na diferença entre o maior e o menor valor das categorias da variável. A amplitude é fácil de calcular, mas é sensível aos dois valores de dados: o maior e o menor. Amplitude interquartil (IQ): defini-se como a diferença entre o terceiro e o primeiro quartil (Q3 – Q1). Variância: a variância é uma medida de dispersão que indica quão longe em geral os valores da variável se encontram do valor esperado. Segundo a teoria das probabilidades o valor esperado de uma variável aleatória é a soma das probabilidades de cada possibilidade de um registro possa ser igual a média aritimética. Assim baseia-se na diferença entre o valor de cada observação e a média. O valor da variância nunca é negativa e a unidade da variância é o quadrado da unidade da observação.

( )N

xi∑ −=

2

2µ

σ 2σ = Variância da população

( )

1

2

2

−

−=∑

n

xxs

i 2s = Variância da amostra

Nas aplicações estatísticas, os dados analisados são para uma amostra. Assim quando calculada a variância da amostra, estamos interessados na busca da variância da população. Podemos mostrar que, se a soma dos desvios elevados ao quadrado ao redor da média for dividida por n-1 e não por n, a variância da amostra resultante fornece uma estimativa não enviesada ou não-induzida da variância da população.



15

Desvio-padrão: é a raiz quadrada positiva da variância. Esta medida de variabilidade é um número positivo e utiliza-se das mesma unidade da variável quantitativa, facilitando assim a interpretação real da informação. Nota importante: Maiores detalhes sobre curvas de distribuição veremos em item a seguir. Mas como propriedade do desvio-padrão temos que, em uma distribuição normal simétrica, mesocúrtica e unimodal podemos afirmar que:

� 68% dos valores encontram-se a uma distância da média inferior a um desvio padrão.

� 95% dos valores encontram-se a uma distância da média inferior a duas vezes o desvio padrão.

� 99,7% dos valores encontram-se a uma distância da média inferior a três vezes o desvio padrão.

Figura 5: Distribuição normal de probabilidade e o desvio-padrão

Coeficiente de Variação: é uma medida de variabilidade que mensura a desvio-padrão relativo à média.

100×−

=Média

padrãoDesvioCV

********** Box-plot: é um sumário gráfico dos dados baseado em uma regra que contém cinco medidas de posição: o menor valor, o primeiro quartil (Q1), a mediana (Q2), o terceiro quartil (Q3) e o maior valor.



16

1000

2000

3000

4000

5000

6000

Box-plot

Dis

tânc

ias

Outliers

Q1

Q3

Mediana

Usando a amplitude interquartil, IQ = Q3 – Q1 os limites de 50% da amostra são assinalados. Os limites do gráfico de box-plot são definidos por 1,5QI abaixo de Q1 e 1,5QI acima de Q3. Os pontos fora desses limites são classificados como outliers. Os outliers são pontos que fogem da distribuição estatística assumida para os dados. Nos gráficos de box-plot deve haver cautela na intepretação dos outliers. Os gráficos de box-plot são úteis para detecção quando a distrubuição é simétrica. ‘

********** 1.3.4) Medidas Associativas Usualmente, na geração de informações para a tomada de decisão faz-se necessário investigar o comportamento de uma variável em relação a outra. Neste contexto utilizamos de medidas descritivas de relação entre duas variáveis: a correlação e a covariância. A covariância é por vezes chamada de medida de dependência/associação linear entre as duas variáveis quantitativas aleatórias. Valores positivos indicam uma relação positiva entre duas distintas variáveis x e y. Valores negativos indicam uma relação negativa entre as variáveis x e y. Valores nulos representam nenhuma relação entre x e y.



17

( )( )1−

−−=∑

n

yyxxs

ii

xy

xys : Covariância das amostras das variáveis x e y de um conjunto de dados;

xi: Valores de x variando de i=1 até i=n; x : Média amostral da variável x; yi: Valores de x variando de i=1 até i=n; y : Média amostral da variável y; n: tamanho da amostra

( )( )N

yx yixi

xy

∑ −−=

µµσ

xyσ = Covariância da população das variáveis x e y de um conjunto de dados

xi: Valores de x variando de i=1 até i=n; µx: Média da população da variável x; yi: Valores de x variando de i=1 até i=n; µy: Média da população da variável y; N: tamanho da população A correlação é um conceito relacionado usado para medir o grau de dependência linear entre duas variáveis. É conhecida como correlação de Pearson ou Momento de Pearson. Os valores compreendem entre -1 a +1. Valores próximos a +1 indicam uma forte relação linear positiva; valores próximos a -1 indicam uma forte relação linear negativa. Valores nulos ou próximos de zero indicam a falta de relação linear.

yx

xy

xyss

sr =

xyr : correlação das amostras das variáveis x e y de um conjunto de dados;

sxy: covariância da amostra; sx: desvio-padrão amostral da variável x; sy: desvio-padrão amostral da variável y.

yx

xy

xyρρ

ρρ =

xyρ : correlação das populações das variáveis x e y de um conjunto de dados;

ρxy: covariância da população; ρx: desvio-padrão da população da variável x; ρy: desvio-padrão da população da variável y.



18

-6

-4

-2

0

2

4

6

8

1 0

1 2

1 4

0 1 2 3 4 5 6 7 8

-1 0

-8

-6

-4

-2

0

2

4

6

0 1 2 3 4 5 6 7 8

0

1

2

3

4

5

6

7

8

-6 -4 -2 0 2 4 6 8 1 0 1 2 1 4

Covariância positiva: x e y são relacionados positiva e linearmente

Covariância aproximadamente nula: x e y não são relacionados linearmente

Covariância negativa: x e y são relacionados negativa e linearmente

1.3.5) Distribuição de Probabilidade Antes de definirmos a distribuição de probabilidade iremos revisar algumas definições.



19

Variáveis Aleatórias: A variável aleatória é uma descrição numérica do resultado de um experimento, mecanismo ou sistema não-determinístico. Matematicamente é definida como uma função mensurável de um espaço probabilístico. No experimento a variável xi aleatória apresenta um valor único. A palavra não-determinística, aleatória ou estocástica apresentam o mesmo significado. Representa que a variável obtida somente será conhecida após o experimento ser realizado. Ex.: Em uma fila de pedágio em uma rodovia, o processo de chegada de veículos é aleatório, isto é, não conseguimos determinar com precisão qual será o comprimento da fila ou quantos veículos passarão em um dia de operação. Diferentemente, um processo determinístico poder-se-á calcular o valor da variável a ser calculada. Ex.: Na física, sabemos que o deslocamento de um veículo é dado por:

tvx ×= Onde, x: deslocamento (km ou m); v: velocidade (km/h ou m/s); t: tempo (h ou s); Outro exemplo vem dos fenômenos de hidráulica e mecânicas dos fluidos. A vazão de água passando por um tubo de diâmetro conhecido e constante é dado por:

vAQ ×= Onde, Q: vazão do fluído (m3/s ou m3/h);

A: área do tudo de diâmetro D (m2), definido por 4

2D

A×

=π

;

v: velocidade do fluído no tubo (m/s ou m/h) Nesses dois exemplos de comportamento determinísticos, caso sejam fornecido duas variávis poder-se-á calcular a terceira incógnita. Assim, se tivermos deslocamento e tempo, determinamos a velocidade. Se tivermos a vazão e o diâmetro de um tubo poder-se-á determinar qual é a velocidade de fluxo. Já em fenõmenos aleatórios ou não-determinísticos não se pode encontrar essa relação. Exemplos de variáveis aleatórias:



20

a. número de alunos que não compareceram a aula de estatística num determinado dia; b. altura de um adulto do sexo masculino selecionado aleatoriamente. c. processo de chegada de caminhões em um terminal portuário (apesar dos sistemas de transportes apresentarem a possibilidade de itens deterministicos, tais como velocidade média operacional, distância e a possibilidade de estimativa de tempos e, conseqüentemente, ter a freqüência de viagens, esses processos estão sujeitos e eventos aleatórios e não programados, tais como, problemas mecâncios de veículos devido a condições de infra-estrutura viária, congestionamentos, acidentes ou intempéries. As variáveis aleatórias podem ser classificadas como: Variável aleatória discreta: é aquela que assume valores inteiros e finitos (Ex.: 0, 1, 2, 3, ...). Variável aleatória contínua: é aquela que pode assumir inúmeros valores num intervalo de números reais e é medida numa escala contínua (1.23, 4.56, 7,3333). Probabilidade: medida numérica da plausividade de que um evento ocorrerá. As probabilidades medem o grau de incerteza associada aos eventos. Se as probabilidades estiverem disponíveis, poder-se-á determinar a plausividade de ocorrência de cada evento. Além de identificar os valores de uma variável aleatória, freqüentemente podemos atribuir uma probabilidade a cada um desses valores. Quando conhecemos todos os valores de uma variável aleatória juntamente com suas respectivas probabilidades, temos uma distribuição de probabilidades.

A Distribuição de Probabilidades associa uma probabilidade a cada resultado numérico de um experimento, ou seja, dá a probabilidade de cada valor de uma variável aleatória. Por exemplo, no lançamento de um dado cada face tem a mesma probabilidade de ocorrência que é 1/6. Como os valores das distribuições de probabilidades são probabilidades, e como as variáveis aleatórias devem tomar um de seus valores, temos as duas regras a seguir que se aplicam a qualquer distribuição de probabilidades:

1. A soma de todos os valores de uma distribuição de probabilidades deve ser igual a 1

∑∑∑∑P(x) = 1, onde x toma todos os valores possíveis

2. A probabilidade de ocorrência de um evento deve ser maior do que zero e

menor do que 1

0 ≤≤≤≤P (x) ≤≤≤≤ 1 para todo x



21

No exemplo do lançamento de um dado, como todas as faces têm a mesma probabilidade de ocorrência que é 1/6 ao somá-las obtemos o valor 1, que corresponde a primeira regra citada acima. O valor 1/6 é maior do que zero e menor do que 1, assim satisfaz a segunda regra acima.

A distribuição de probabilidades pode ser representada por um histograma de probabilidades. Este se assemelha ao histograma de freqüências apresentado na anteriormente, entretanto a escala vertical representa probabilidades, em lugar das freqüências relativas. O histograma de probabilidades nos permite visualizar a forma da distribuição. A média, a variância e o desvio-padrão traduzem outras características. Para uma distribuição de probabilidades, essas medidas podem ser determinadas usando as expressões mostradas na tabela 1.

Tabela 3. Expressões para cálculo da média, variância e desvio-padrão das distribuições de probabilidades.

Média µ=∑x P(x) Variância σ2=∑[(x-µ)2 P(x)] Variância σ2=[∑x2 P(x)] - µ2

Desvio-Padrão σ=([∑x2 P(x)] - µ2)1/2

Ao calcularmos a média de uma distribuição de probabilidades, obtemos o valor médio que esperaríamos ter se pudéssemos repetir as provas indefinitivamente. Não obtemos o valor que esperamos ocorrer com maior freqüência. Já o desvio-padrão nos dá uma medida de quanto a distribuição de probabilidades se dispersa em torna da média. Um grande desvio-padrão reflete dispersão considerável, enquanto que um desvio-padrão menor traduz menor variabilidade, com valores relativamente mais próximos da média. Estas fórmulas podem ser utilizadas para qualquer distribuição de probabilidades, entretanto, veremos mais adiante que elas podem ser simplificadas dependendo do tipo de distribuição. A média de uma variável aleatória discreta é o resultado médio teórico de um número infinito de provas. Podemos encarar essa média como o valor esperado no sentido de que é o valor médio que esperaríamos obter se as provas se prolongassem indefinitivamente. As aplicações do valor esperado (também chamado esperança ou esperança matemática) são extensas e variadas e o mesmo desempenha um papel de extrema importância em uma área de aplicação chamada teoria da decisão. O valor esperado de uma variável aleatória discreta é denotado por E e representa o valor médio dos resultados:

E = ∑x P(x) (1) Observamos que E=µ. Isto é, a média de uma variável aleatória discreta coincide com seu valor esperado.



22

Exemplo: Na tabela abaixo são fornecidas as probabilidades de ocorrências de um determinado evento. Entretanto, o objetivo da mesma é enfatizar o cálculo da média, da variância e do desvio-padrão. Juntamente com a tabela será mostrado o histograma de probabilidades.

Tabela 4. Cálculo da média, variância e desvio-padrão para uma distribuição de probabilidades.

X P(x) x P(x) x2

x2

P(x)

0 0,210 0,000 0 0,000 1 0,367 0,367 1 0,367 2 0,275 0,550 4 1,100 3 0,115 0,345 9 1,035 4 0,029 0,116 16 0,464 5 0,004 0,020 25 0,100 6 0 0,000 36 0,000 7 0 0,000 49 0,000

Total 1,000 1,398 - 3,066

µ=∑x P(x) = 1,398 = 1,4

σ2=[∑x2 P(x)] - µ2 = 3,066-1,3982 =1,111596 = 1,1

σ=(1,111596)1/2 = 1,054323 = 1,1

Figura 6. Histograma de probabilidades. As distribuições de freqüências construídas a partir de observações podem ser representadas através de formas matemáticas. Então, as formas matemáticas



23

utilizadas para a idealização dos dados reais são referidas como distribuições teóricas. As distribuições teóricas representam os dados aproximadamente, embora em muitos casos a aproximação pode ser muito boa. Basicamente, há três aspectos em que o emprego das distribuições de probabilidade teóricas podem ser útil: Compacidade: é trabalhoso lidar com grandes conjuntos de dados brutos, sendo que às vezes, também pode haver limitações para a análise. Uma distribuição teórica bem ajustada à série de dados reduz o número de trabalho exigido para a caracterizar as propriedades da mesma. Alisamento e interpolação: os dados reais estão sujeitos a variações na amostragem que podem levar a falha de dados ou a dados errôneos nas distribuições empíricas. Por exemplo, numa amostra de dados de temperatura máxima de uma cidade, localizada na região tropical, não foram observadas temperaturas máximas entre 30 e 35ºC no verão, embora certamente temperaturas máximas nesta faixa podem ocorrer. A imposição de uma distribuição teórica sobre estes dados representaria a possibilidade dessas temperaturas ocorrerem, tanto quanto permitiria estimar a suas probabilidades de ocorrência. Extrapolação: estimar a probabilidade de eventos extremos a variação de um conjunto de dados particular exige a suposição de eventos ainda não observados. Isso pode ser realizado com a imposição de um modelo de probabilidade (isto é, uma distribuição teórica) ajustado a série de dados. Distribuição Normal: A distribuição de probabilidade contínua mais importante e mais utilizada é a distribuição normal, geralmente citada como curva normal ou curva de Gauss. Sua importância em análise matemática resulta do fato de que muitas técnicas estatísticas, como análise de variância, de regressão e alguns testes de hipótese, assumem e exigem a normalidade dos dados. Além disso, a ampla aplicação dessa distribuição vem em parte devido ao teorema do limite central. Este teorema declara que na medida em que o tamanho da amostra aumenta, a distribuição amostral das médias amostrais tende para uma distribuição normal. Esta explicação parece um pouco complicada, portanto segue uma abordagem mais detalhada sobre a mesma. Teorema do Limite Central: A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do conhecimento da distribuição amostral. Para obtermos uma distribuição amostral é necessário repetir n vezes um experimento e após calcular a média das amostras. Este procedimento fornece um novo conjunto de dados que é denominado de distribuição amostral. Na verdade o que o teorema do limite central quer dizer é que se uma população tem distribuição normal, a distribuição das médias amostrais extraídas da população também terá distribuição normal, para qualquer tamanho de amostra. Além disso, mesmo no caso de uma distribuição não-normal, a distribuição das médias amostrais será aproximadamente normal,



24

desde que a amostra seja grande. Este é um resultado notável, na verdade, pois nos diz que não é necessário conhecer a distribuição de uma população para podermos fazer inferência sobre ela a partir de dados amostrais. A única restrição é que o tamanho da amostra seja grande. Uma regra prática muito usada é que a amostra deve consistir de 30 ou mais observações. Estes resultados são conhecidos como o Teorema do Limite Central e representam talvez o conceito mais importante na inferência estatística. Em geral, a distribuição amostral das médias amostrais é a distribuição das médias amostrais quando extraímos repetidas amostras de mesmo tamanho, da mesma população. Em outras palavras, se extrairmos amostras de mesmo tamanho da mesma população, calculamos suas médias e construímos um histograma destas médias, esse histograma tende para a forma de um sino de uma distribuição normal. Isto é verdade independentemente da forma da distribuição da população original. Suponhamos que a variável x represente notas que podem ter, ou não, distribuição normal, e que a média dos valores x seja µ e o desvio-padrão seja σ. Suponha que coletemos amostras de tamanho n e calculemos as médias amostrais. O que sabemos sobre a coleção de todas as médias amostrais que obtemos repetindo esse experimento? O Teorema do Limite Central nos diz que, na medida em que o tamanho n da amostra aumenta, a distribuição amostral das médias amostrais tente para uma distribuição normal com média µ e desvio-

padrão n/σ . A distribuição das médias amostrais tende para uma distribuição normal no sentido de que, quando n aumenta, a distribuição das médias amostrais se aproxima de uma distribuição normal. Essa conclusão não é obvia intuitivamente; foi obtida após extensa pesquisa de análise. Parâmetros da Distribuição Normal: A distribuição normal é uma distribuição de dois parâmetros µ (média) e σ (desvio-padrão) . A densidade de probabilidade desta distribuição tem a seguinte forma:

( )( )

2

2

2

X

e2

1Xf σ

µ−−

πσ=

onde µ e σ são a média e o desvio-padrão da população, respectivamente. µ é estimado por x e σ por s, que são obtidos através das relações: Uma notação bastante empregada para designar que uma variável tem distribuição normal com média x e variância s2 (s é a representação de σ e x de

µ de uma amostra) é ( )2s,XN . Se uma amostra de dados tem realmente distribuição normal a seguinte relação é válida: A = (K-3) = 0. A curtose da distribuição normal é igual a 3 e a assimetria é nula.



25

0.000000

0.000100

0.000200

0.000300

0.000400

0.000500

0.000600

0 1000 2000 3000 4000 5000 6000 7000

Densidade Normal da Probabilidade

O histograma de freqüências da distribuição normal tem a forma de sino ou parecida. Com a média constante e a variância variável, o gráfico da curva normal assume diferentes formas de sino: de alongada a achatada. A probabilidade de que X assuma valores menores ou iguais a um dado x quando X é N(x ,s2) é estimada por:

( )( )

dXe2

1XF

X

2

X2

2

∫∞−

σ

µ−−

πσ=

Mas essa equação não pode ser resolvida analiticamente sem o uso de métodos

de integração aproximada. Por essa razão usa-se a transformação

( )s

XXZ

−=

e com isso a variável Z tem N(0,1). A variável Z é chamada variável reduzida e a curva

( ) dZe2

1ZF

Z

2

Z2

∫∞−

−

π=

é a curva normal reduzida. F(Z) na forma da equação é tabulada e criada as tabelas de probabilidades da curva normal.

Figura 7 Gráfico da dansidade normal da provabilidade de uma variável aleatória quantitativa



26

Existem outras curvas de distribuição de probabilidade que somente serão citadas a seguir:

� Distribuição beta

� Distribuição chi

� Distribuição gama

� Distribuição uniforme

� Distribuição log-normal

� Distribuição de Pareto

� Distribuição de Weibull

IESB Logística Empresarial - Métodos Quantitativos - Volume I

Education

Transcript of IESB Logística Empresarial - Métodos Quantitativos - Volume I