BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 · boletim de anÁlises estatÍstico basta 2017...

132
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO Programas de Pós Graduação em Economia e Administração da PUC-SP BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL ATLAS BRASIL DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA Fernanda Cardoso Romão Freitas 1º SEMESTRE São Paulo – SP 2017 A Importância e Impacto da Esperança de Vida e o Analfabetismo no País.

Transcript of BOLETIM DE ANÁLISES ESTATÍSTICO BASTA 2017 Vol. 2 · boletim de anÁlises estatÍstico basta 2017...

  • PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

    Programas de Pós Graduação em

    Economia e

    Administração da

    PUC-SP

    BOLETIM DE ANÁLISES ESTATÍSTICO

    BASTA 2017 Vol. 2

    IDHEs ÍNDICE DE DESENVOLVIMENTO HUMANO ESTADUAL

    ATLAS BRASIL

    DISCIPLINA: MÉTODOS QUALITATIVOS E QUANTITATIVOS DA PESQUISA EMPÍRICA PROF. ARNOLDO JOSÉ DE HOYOS GUEVARA

    Fernanda Cardoso Romão Freitas

    1º SEMESTRE

    São Paulo – SP

    2017

    A Importância e Impacto da Esperança de Vida e o Analfabetismo no País.

  • 2

    SUMÁRIO

    INTRODUÇÃO ............................................................................................................................................... 5

    CAPÍTULO I. ANÁLISE EXPLORATÓRIA DOS DADOS .......................................................................... 6

    1.1 Entendendo os dados.....................................................................................................................................6

    1.2 As variáveis ................................................................................................................................................ 6

    1.2.1 A Tabela de Dados .................................................................................................................................. 9

    1.2.2 Variáveis Categóricas ............................................................................................................................ 10

    1.2.3 Variáveil Muncipio ................................................................................................................................ 10

    1.2.4 Variáveis Quantitativa ........................................................................................................................... 11

    1.3 ANÁLISE DAS VARIÁVEIS .................................................................................................................. 12

    1.3.1 Variável: “ESPVIDA” (Dimensão Demografia).................................................................................... 12

    1.3.2 Variável: “MORT1” (Dimensão Demografia) ....................................................................................... 13

    1.3.3 Variável: “T_ANALF11A14” (Educação) ............................................................................................ 14

    1.3.4 Variável: “T_ANALF15M” (Educação) ............................................................................................... 15

    1.3.5 Variável: “PIND” (Renda) ..................................................................................................................... 16

    1.3.6 Variável: “RIND” (Renda) .................................................................................................................... 17

    1.3.7 Variável: “REN3” (Trabalho) ................................................................................................................ 18

    1.3.8 Variável: “RENOCUP” (Trabalho) ....................................................................................................... 19

    1.3.9 Variável: “T_AGUA”(Habitação) ........................................................................................................ 20

    1.3.10 Variável: “T_LIXO” (Habitação) ........................................................................................................ 21

    1.3.11 Variável: “T_FORA6A14” (Vulnerabilidade) .................................................................................... 22

    1.3.12 Variável: “T_M10A14CF” (Vulnerabilidade) ..................................................................................... 23

    1.3.13 Variável: “PESORUR” (População) ................................................................................................... 24

    1.3.14 Variável: “PESOURB” (População) ................................................................................................... 25

    1.3.15 Variável: “IDHM” (Índice de Desenvolvimento Humano) ................................................................. 26

    1.3.16 Variável: “IDHM_E” (Índice de Desenvolvimento Humano) ............................................................ 27

    1.3.17 Variável: “IDHM_L”(Índice de Desenvolvimento Humano) ............................................................. 28

    1.3.18 Variável: “IDHM_R”(Índice de Desenvolvimento Humano) ............................................................. 29

    1.4 Análise comparativa e considerações Finais ............................................................................................ 30

    CAPÍTULO II. ANÁLISE DAS CORRELAÇÕES. ...................................................................................... 32

    2.1 Objetivos das Correlações .......................................................................... ...............................................32 2.2 As Variáveis que se correlacionam .......................................................................................................... 35

    2.3 Gráfico de Dispersão ................................................................................................................................ 37

    2.4 Dendograma ............................................................................................................................................. 50

    CAPÍTULO III. ANÁLISE DE TENDÊNCIAS ............................................................................... 50

    3.1 Apresentação e Objetivos ......................................................................................................................... 50

    3.2 Os indivíduos ........................................................................................................................................... 51

    3.3 As Variáveis ............................................................................................................................................. 51

    3.4 A Tabela de dados .................................................................................................................................... 51

    3.5 A Análise Das Variáveis .......................................................................................................................... 52

    3.5.1 A Análise de tendência - Variável Natalidade ...................................................................................... 52

    3.5.2 A análise de tendência – Variável ESP VIDA ....................................................................................... 55

    3.5.3 A análise de tendência – Variável MORT INF ...................................................................................... 57

    CAPÍTULO IV. ANÁLISE DE REGRESSÃO LINEAR E STEPWISE ................................................... 57 4.1 Regressão Linear ..................................................................................................................................... 57

    4.2 Regressão Stepwise .................................................................................................................................. 59

    4.3 Considerações e Análises ........................................................................................................................ 61

    CAPÍTULO V. COMPARAÇÕES ......................................................................................................... 61 5.1 Apresentação e Objetivos ......................................................................................................................... 61

  • 3

    5.2 Anova por Região ..................................................................................................................................... 61

    5.3 Box Plot por Região e Estado ................................................................................................................... 78

    5.4 Análises e Considerações ......................................................................................................................... 83

    CAPÍTULO VI. Amostragem ................................................................................................................ 84

    6.1 Apresentação e Objetivos ......................................................................................................................... 84

    6.2 As variáveis ............................................................................................................................................. 84

    6.3 Análise Exploratória para Amostra de 25,100 e 400 Indivíduos ............................................................... 85

    6.3.1 Amostras Variável ESPVIDA ............................................................................................................... 85

    6.3.2 Amostras Variável MORT1 ................................................................................................................... 88

    6.3.3 Amostras para a Variável T_ANALF15M ............................................................................................. 88

    6.3.4 Amostras para a Variável IDHM_L ....................................................................................................... 90

    6.3.5 Amostras para a Variável IDHM_R ...................................................................................................... 91

    6.4 Considerações e Análises ......................................................................................................................... 92

    CAPÍTULO VII. ANÁLISE DOS COMPONENTES PRINCIPAIS. ........................................................ 93

    7.1 Apresentação e Objetivos ......................................................................................................................... 93

    7.2 Análise dos componentes ......................................................................................................................... 93

    7.3 Scaterplot por região ................................................................................................................................ 95

    7.4 Considerações e Análises ....................................................................................................................... 95

    CAPÍTULO VIII. ANÁLISE DE CLUSTERS. ....................................................................................... 95 8.1 Apresentação e Objetivos ......................................................................................................................... 95

    8.2 Análise do agrupamento das observações ................................................................................................. 95

    8.2.1 Mapa do Brasil com 7 Clusters .............................................................................................................. 98

    8.2.2 Mapa do Brasil com 3 Clusters .............................................................................................................. 99

    8.3 Considerações e Análises ......................................................................................................................... 99

    CAPÍTULO IX. CLASSIFICAÇÃO SUPERVISIONADA. ..................................................................... 99 9.1 Apresentação e Objetivos ......................................................................................................................... 99

    9.2 Classificação não supervisionada ............................................................................................................. 99

    9.3 Classificação Supervisionada ................................................................................................................. 102

    9.4 Anova... .................................................................................................................................................. 104

    9.5 Considerações e Análises ....................................................................................................................... 108

    CAPÍTULO X. REGRESSÃO LOGISTICA......................................................................................... 108 10.1 Apresentação e Objetivos ..................................................................................................................... 108

    10.2 Regressão Logística ESP VIDA, MORT1, T_ANALF11A14 e T_ANALF15M ................................. 108

    10.2.1 Regressão Logística ESP VIDA e MORT1 ....................................................................................... 110

    10.2.2 Regressão Logística ESP VIDA ........................................................................................................ 111

    10.2.3 Regressão Logística T_ANALF11A14 .............................................................................................. 112

    10.2.4 Regressão Logística T_ANALF15M ................................................................................................. 113

    10.3 Considerações e Análises ..................................................................................................................... 114

    CAPÍTULO XI. ANÁLISE DE CORRESPONDÊNCIA. ...................................................................... 114 11.1 Apresentações e Objetivos .................................................................................................................... 114

    11.2 As Análises de Correspondência .......................................................................................................... 115

    11.2.1 Análise de Correspondência por ESTADOS das variáveis ESPVIDA, MORT1 e T_ANALF15M .. 115

    11.2.2 Análise de Correspondência por REGIÃO das variáveis ESPVIDA, MORT1 e T_ANALF15M ..... 116

    11.2.3 Análise de Correspondência por GRUPO das variáveis ESPVIDA, MORT1 e T_ANALF15M E

    T_ANALF11Á14. ........................................................................................................................................ 117

    11.2.4 Análise de Correspondência por GRUPO das variáveis ESPVIDA, MORT1 e T_ANALF15M ....... 119

    11.3 Considerações e Análises ..................................................................................................................... 121

    CAPÍTULO XII. ÁRVORE DE CLASSIFICAÇÃO ............................................................................. 121 12.1 Apresentações e Objetivos .................................................................................................................... 121

    12.2 Análise Discriminante Stepwise ........................................................................................................... 122

  • 4

    12.3 Árvore de Classificação ........................................................................................................................ 125

    12.3.1 Modelo de arvore com limitadores de 3 e 2 ....................................................................................... 126

    12.4 Considerações e Análises ..................................................................................................................... 127

    CAPÍTULO XIII. RANKING – O NOVO INDICADOR ...................................................................... 128 13.1 Apresentações e Objetivos .................................................................................................................... 128

    13.2 Componentes Principais ....................................................................................................................... 128

    13.3 Regressão Stepwise .............................................................................................................................. 130

    13.4 O Ranking ............................................................................................................................................ 130

    REFERÊNCIAS.................................................................................................................. ............................132

    CONSIDERAÇÕES FINAIS.............................................................................................. ............................132

  • 5

    INTRODUÇÃO

    O Atlas Brasil do Desenvolvimento Humano

    O Atlas Brasil do Desenvolvimento Humano é uma plataforma de consulta ao Índice do

    Desenvolvimento Humano Municipal (IDHM). O Atlas traz o IDHM e mais 200 indicadores de

    desenvolvimento nas dimensões de demografia, educação,renda,trabalho,habitação e vulnerabilidade

    através dos dados extraídos dos censos demográficos.

    Este trabalho tem por objetivo realizar uma análise exploratória na dimensão do IDHM dos

    dados disponibilizados na plataforma Atlas. A Base de dados do Atlas Brasil apresenta o Índice de

    Desenvolvimento Humano Municipal de 5.565 municípios, 27 unidades de Federação (UF) e 20

    Regiões Metropolitanas.

    Para iniciar a compreensão dos dados faremos a apresentação das variáveis escolhidas

    incluindo suas definições, significados, unidade de medida e faremos a apresentação da tabela de

    dados. Em seguida será apresentada a análise de cada uma das variáveis. Para a análise contaremos

    com a o auxílio de gráficos e dados numéricos como histograma, Box-plot, curva de densidade, teste

    de normalidade de Anderson Darling, média,mediana,quartis,desvio padrão, variância e intervalo de

    confiança.

    Por fim faremos uma análise sobre todas as variáveis estudadas. O Software estatístico

    utilizado neste trabalho foi o MINITAB 17.

    Estrutura do trabalho Final

    Como o estudo envolve o conjunto de 12 trabalhos que foram desenvolvidos ao longo do

    semestre, podemos resumir cada um deles no Quadro 1 com o título e o respectivo conteúdo:

    Quadro 1- Os 12 trabalhos

    Título Conteúdo

    Análise Exploratória dos Dados Estatística Descritiva das Variáveis

    Quantitativas e Média, Mínimo e Máximo

    das variáveis

    Relação entre as Variáveis Stem-and-Leaf Display, Análise de

    Regressão, correlação, regressão e teste

    qui-quadrado

    Análise de Tendências Modelo curva S,curva quadrática,curva

    exponencial e curva linear.

    Regressão Stepwise Analise de Variancia, Cluster Variable e

    Dendograma

    Comparações Teste de Hipóteses e Intervalo de

    Confiança, BoxPlot, Análise pela Oneway

    ANOVA, Análise pelo Two-Sample T-

    Test and CI

    Amostragem Amostragem Ramdon date e Boxplot

    Análise dos componentes Principais Loading Plot, Principal Component

    Analysis, Scree plot, One-way ANOVA

    Análise de Cluster Loading Plot, Scree plot

    Classificação supervisionada Dendograma, análsie discriminante

    Regressão Logistica Média, Análise de Variancia, Intervalo de

    Confiança, Análise Discriminante, Fitted

    Line Plot, Loading Plot, Scree plot

  • 6

    Análise de Correspondência Análise de correspondência simples e

    gráfico de simetria

    Árvore de Cassificação oftware SPSS – árvore de decisão (Tree)

    com Chad Extendido

    Ranking

    Componentes Principais, Regressão

    Stepwise e Ranking Elaborado pela autora

    No Trabalho 12 foi empregado o Software estatístico SPSS porque ele gera a Árvore de

    Decisão. De acordo com a IBM SPSS: Decision Tree – Árvore de decisão é uma ferramenta que nos

    ajuda a identificar grupos, descobrir relacionamentos entre eles e predizer eventos futuros. O modelo

    gráfico gerado se assemelha a um organograma, muito embora seja chamado de árvore de decisão.

    Os trabalhos de 1 ao 12, exceto o 12, foi empregado o software MINITAB. Para o trabalho final esse

    software será utilizado em mais de 95% e apenas 5% para o SPSS.

    CAPÍTULO I. ANÁLISE EXPLORÁTÓRIA DOS DADOS

    1.1 Entendendo os dados

    Os indivíduos estudados neste trabalho são os 5.565 municípios brasileiros que serão

    analisados pela dimensão do Desenvolvimento Humano e seus indicadores, presentes no relatório do

    Atlas Brasil 2013. Os dados analisados são do ano de 2010.

    Quando a dimensão do Desenvolvimento Humano Municipal Brasileiro, este considera as mesmas

    três dimensões do IDH- Global que são longevidade, educação e renda.

    A importância do IDHM se dá, pois sintetiza uma realidade complexa em um único número e

    viabiliza a comparação entre os municípios ao longo do tempo. Ele também populariza a visão do

    desenvolvimento voltado para pessoas e não apenas para o progresso econômico. O Crescimento

    econômico seja transformado em outras conquistas além da renda e da riqueza e que alcance a

    qualidade de vida de cada indivíduo.

    1.2 As Variáveis

    São 18 as variáveis desta pesquisa. As mesmas são melhores explicadas na tabela 1. Ressalta-se que

    todos os dados desta pesquisa são referentes ao ano de 2010.

    Quadro2. As Variáveis

    Variável Significado Tipo Unidade de

    Medida

    ESPVIDA

    Número médio de anos que as

    pessoas deverão viver a partir do

    nascimento, se permanecerem

    constantes ao longo da vida o nível e

    o padrão de mortalidade por idade

    prevalecentes no ano do Censo.

    Variável

    Quantitativa Índice

    MORT1

    Número de crianças que não deverão

    sobreviver ao primeiro ano de vida

    em cada 1000 crianças nascidas vivas.

    Variável

    Quantitativa Índice

  • 7

    T_ANALF11A14

    Razão entre a população de 11 a 14

    anos de idade que não sabe ler nem

    escrever um bilhete simples e o total

    de pessoas nesta faixa etária

    multiplicado por 100.

    Variável

    Quantitativa Índice

    T_ANALF15M

    Razão entre a população de 15 anos

    ou mais de idade que não sabe ler

    nem escrever um bilhete simples e o

    total de pessoas nesta faixa etária

    multiplicado por 100.

    Variável

    Quantitativa Índice

    PIND

    Proporção dos indivíduos com renda

    domiciliar per capita igual ou inferior

    a R$ 70,00 mensais, em reais de

    agosto de 2010. O universo de

    indivíduos é limitado àqueles que

    vivem em domicílios particulares

    permanentes.

    Variável

    Quantitativa Percentual

    RIND

    Média da renda domiciliar per capita

    das pessoas com renda domiciliar per

    capita igual ou inferior a R$ 70,00

    mensais, a preços de agosto de 2010.

    O universo de indivíduos é limitado

    àqueles que vivem em domicílios

    particulares permanentes.

    Variável

    Quantitativa Índice

    REN3

    Razão entre o número de pessoas de

    18 anos ou mais de idade ocupadas e

    com rendimento mensal de todos os

    trabalhos inferior a 3 salários

    mínimos de julho de 2010 e o número

    total de pessoas ocupadas nessa faixa

    etária multiplicado por 100.

    Variável

    Quantitativa Percentual

    RENOCUP

    Média dos rendimentos de todos os

    trabalhos das pessoas ocupadas de 18

    anos ou mais de idade. Valores em

    reais de agosto de 2010.

    Variável

    Quantitativa Índice

    T_AGUA

    Razão entre a população que vive em

    domicílios particulares permanentes

    com água canalizada para um ou mais

    cômodos e a população total residente

    em domicílios particulares

    permanentes multiplicado por 100. A

    água pode ser proveniente de rede

    geral, de poço, de nascente ou de

    reservatório abastecido por água das

    chuvas ou carro-pipa.

    Variável

    Quantitativa Percentual

  • 8

    T_LIXO

    Razão entre a população que vive em

    domicílios com coleta de lixo e a

    população total residente em

    domicílios particulares permanentes

    multiplicado por 100. Estão incluídas

    as situações em que a coleta de lixo

    realizada diretamente por empresa

    pública ou privada, ou o lixo é

    depositado em caçamba, tanque ou

    depósito fora do domicílio, para

    posterior coleta pela prestadora do

    serviço. São considerados apenas os

    domicílios particulares permanentes

    localizados em área urbana.

    Variável

    Quantitativa Percentual

    T_FORA6A14

    Razão entre as crianças de 6 a 14 anos

    que não frequenta a escola e o total de

    crianças nesta faixa etária

    multiplicado por 100.

    Variável

    Quantitativa Percentual

    T_M10A14CF

    Razão entre as mulheres de 10 a 14

    anos de idade que tiveram filhos e o

    total de mulheres nesta faixa etária

    multiplicado por 100.

    Variável

    Quantitativa Percentual

    PESORUR População residente na área rural Variável

    Quantitativa Índice

    PESOURB População residente na área urbana Variável

    Quantitativa Índice

    IDHM

    Índice de Desenvolvimento Humano

    Municipal. Média geométrica dos

    índices das dimensões Renda,

    Educação e Longevidade, com pesos

    iguais.

    Variável

    Quantitativa Índice

    IDHM_ E

    Índice sintético da dimensão

    Educação que é um dos 3

    componentes do IDHM. É obtido

    através da média geométrica do

    subíndice de frequência de crianças e

    jovens à escola, com peso de 2/3, e do

    subíndice de escolaridade da

    população adulta, com peso de 1/3.

    Variável

    Quantitativa Índice

  • 9

    Fonte: Atlas Brasil 2013

    1.2.1 A Tabela de Dados

    Estatísticas Descritivas: ANO; UF; Codmun6; Codmun7; ESPVIDA; MORT1;

    T_ANALF11A14; ...

    Variável N N* Média EP Média DesvPad Mínimo Q1 Mediana Q3

    ANO 5565 10 2010,0 0,000000 0,000000 2010,0 2010,0 2010,0 2010,0

    UF 5565 10 32,372 0,132 9,830 11,000 25,000 31,000 41,000

    Codmun6 5565 10 325305 1320 98452 110001 251209 314620 411905

    Codmun7 5565 10 3253053 13198 984521 1100015 2512089 3146206 4119054

    ESPVIDA 5575 0 72,968 0,0525 3,920 1,000 71,140 73,470 75,160

    MORT1 5575 0 19,293 0,0966 7,213 8,490 13,800 17,000 23,900

    T_ANALF11A14 5565 10 3,6888 0,0508 3,7925 0,0000 1,1900 2,0200 5,2400

    T_ANALF15M 5565 10 16,159 0,132 9,840 0,950 8,080 13,120 24,320

    PIND 5565 10 11,341 0,158 11,764 0,000 1,640 6,240 19,065

    RIND 5565 10 32,036 0,129 9,603 0,000 27,435 32,510 37,090

    REN3 5565 10 90,932 0,0789 5,889 51,450 87,275 91,940 95,840

    RENOCUP 5565 10 780,11 4,58 341,68 136,42 488,59 761,72 1008,08

    T_AGUA 5565 10 85,598 0,197 14,721 0,150 79,635 90,280 96,260

    T_LIXO 5565 10 94,047 0,148 11,050 0,000 93,720 98,030 99,490

    T_FORA6A14 5565 10 2,8632 0,0357 2,6653 0,0000 1,5200 2,3800 3,4350

    T_M10A14CF 5565 10 0,39929 0,00927 0,69120 0,00000 0,00000 0,00000 0,67000

    pesoRUR 5565 10 5360 89,0 6642 0,0 1599 3233 6769

    pesourb 5565 10 28917 2702 201551 174 2838 6263 15492

    IDHM_L

    Índice da dimensão Longevidade que

    é um dos 3 componentes do IDHM. É

    obtido a partir do indicador

    Esperança de vida ao nascer, através

    da fórmula: [(valor observado do

    indicador) - (valor mínimo)] / [(valor

    máximo) - (valor mínimo)], onde os

    valores mínimo e máximo são 25 e 85

    anos, respectivamente.

    Variável

    Quantitativa Índice

    IDHM_R

    Índice da dimensão Renda que é um

    dos 3 componentes do IDHM. É

    obtido a partir do indicador Renda per

    capita, através da fórmula: [ln (valor

    observado do indicador) - ln (valor

    mínimo)] / [ln (valor máximo) - ln

    (valor mínimo)], onde os valores

    mínimo e máximo são R$ 8,00 e R$

    4.033,00 (a preços de agosto de

    2010).

    Variável

    Quantitativa Índice

  • 10

    IDHM 5565 10 0,65916 0,000965 0,07200 0,41800 0,59900 0,66500 0,71800

    IDHM_E 5565 10 0,55909 0,00125 0,09333 0,20700 0,49000 0,56000 0,63100

    IDHM_L 5565 10 0,80156 0,000599 0,04468 0,67200 0,76900 0,80800 0,83600

    IDHM_R 5565 10 0,64287 0,00108 0,08066 0,40000 0,57200 0,65400 0,70700

    1.2.2 Variáveis Categóricas

    Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo pie chart

    e barras.

    1.2.3 Variável: “Município”

    A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no território nacional de

    acordo com a região no gráfico 1.

    Gráfico 1- Municípios por região Brasileira.

    Fonte: elaborado pelo autor, 2017 (Atlas Brasil)

    Observando o gráfico 1 notamos que a maior concentração dos municípios está na região

    Nordeste com 32% dos Municípios seguida pela região Sudeste com 30% dos municípios.

    O Gráfico 2 demonstra a distribuição dos Municípios pelas Unidades Federativas do Brasil.

  • 11

    Gráfico 2- Distribuição dos Municípios pelas Unidades Federativas do Brasil.

    Fonte: Elaborado pelo autor, 2017 (Atlas Brasil)

    O Gráfico 2 traz uma análise mais analítica sobre a distribuição dos municípios pelas Unidades

    Federativas do Brasil.

    Podemos observar que as Unidades Federativas com maior concentração de Municípios são

    Minas Gerais, com 26443 municípios, seguido por São Paulo com 22575 municípios e Rio Grande

    do Sul com 21328 Municípios.

    1.2.4 Variáveis Quantitativas

    A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de análise

    como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de informações

    numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de confiança e teste

    de normalidade de Anderson-Darling.

    1.3 Análise das Variáveis

    1.3.1 Variável: “ESPVIDA” (Dimensão Demografia)

    Rio Grande do Sul

    Sergipe

    Espírito Santo

    Ceará

    Paraíba

    Tocantins

    Mato Grosso

    Piauí

    Alagoas

    Pará

    Rio de Janeiro

    Maranhão

    Rondônia

    Mato Grosso do Sul

    Amapá

    Amazonas

    Roraima

    São Paulo

    Bahia

    Santa Catarina

    Minas Gerais

    Paraná

    Pernambuco

    Rio Grande do Norte

    Goiás

    Categoria

    53264210806256390057245572145

    27544928

    7191

    2363

    5575

    4232

    24962100

    21328

    12792

    40084810 16359

    26443

    12306

    12093

    22575

    3036

    Unidades Federativas

  • 12

    Gráfico 3 – Análise exploratória ESPVIDA

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “ESPVIDA”.

    Forma:

    Através do histograma podemos verificar que se trata de uma distribuição simétrica. O teste

    de normalidade de Anderson- Darling demonstra normalidade na distribuição.

    Centro e Dispersão:

    Podemos notar que a mediana indica que metades dos municípios estudados possuem

    expectativa de vida menor que 73,470 anos e a outra metade da amostra maior que 73,470. A média

    dos municípios é de 73,089 com desvio padrão de 2,681, oque não considerado um valor significativo

    para desvio padrão.

    1o. Quartil 71,150

    Mediana 73,470

    3o Quartil 75,160

    Máximo 78,640

    73,019 73,159

    73,380 73,550

    2,632 2,731

    A-Quadrado 34,95

    Valor-p

  • 13

    1.3.2 Variável: “MORT1” (Dimensão Demografia)

    Gráfico 4 – Análise exploratória MORT1

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “MORT1”.

    Forma:

    O histograma nos mostra uma distribuição assimétrica. Existe uma discrepância na

    distribuição da amostra devido ao fato de uma pequena quantidade de municípios possuírem um

    elevado índice de mortalidade infantil, enquanto que em 50% dos municípios a mortalidade está na

    faixa de 16,900 de acordo com histograma, sendo confirmado pelo Box-Plot.

    Centro e Dispersão:

    Podemos notar que a mediana indica que na metade dos municípios estudados a taxa de

    mortalidade infantil é de 16,900 para cada mil crianças nascidas vivas. A média dos municípios é de

    19,247 com desvio padrão de 7,137. O desvio padrão indica o quanto os dados estão dispersos da

    média, neste caso o desvio padrão é significativo tento em vista que o número mínimo de crianças

    que não sobrevivem após o nascimento é de 8,490.

  • 14

    1.3.3 Variável: “T_ANALF11A14” (Educação)

    Gráfico 5 – Análise exploratória T_ANALF11A14

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “T_ANALF11A14”.

    Forma:

    O Histograma indica uma distribuição assimétrica da amostra para a direita. A distribuição

    tem um único pico

    Centro e Dispersão:

    Podemos notar que a mediana indica que na metade dos municípios a razão entre a população

    de 11 a 14 anos de idade que não sabe ler nem escrever um bilhete simples e o total de pessoas nesta

    faixa etária multiplicado por 100.é de 2,0200. A média dos municípios é de 3,6888 com desvio padrão

    de 3,7925. O desvio padrão indica o quanto os dados estão dispersos da média.

    1o. Quartil 1,1900

    Mediana 2,0200

    3o Quartil 5,2400

    Máximo 38,9800

    3,5892 3,7885

    1,9500 2,0900

    3,7233 3,8643

    A-Quadrado 372,64

    Valor-p

  • 15

    1.3.4 Variável: “T_ANALF15M” (Educação)

    Gráfico 6– Análise exploratória T_ANALF15M

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “T_ANALF15M”.

    Forma:

    O Histograma indica uma distribuição simétrica da amostra. A sua assimetria é de 0,599509

    Centro e Dispersão:

    Podemos notar que a mediana indica que na metade dos municípios cuja razão entre a

    população de 15 anos ou mais de idade que não sabe ler nem escrever um bilhete simples e o total de

    pessoas nesta faixa etária multiplicado por 100 é de 13,120. A média dos municípios é de 16,159 com

    desvio padrão de 9,840.

    1o. Quartil 8,080

    Mediana 13,120

    3o Quartil 24,320

    Máximo 44,400

    15,900 16,417

    12,859 13,481

    9,660 10,026

    A-Quadrado 140,31

    Valor-p

  • 16

    1.3.5 Variável: “PIND” (Renda)

    Gráfico 7– Análise exploratória PIND

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “PIND”.

    Forma:

    O histograma nos mostra uma distribuição assimétrica para a direita. Existe esta assimetria na

    distribuição da amostra devido ao fato de uma pequena quantidade de municípios possuírem uma

    proporção elevada dos indivíduos com renda domiciliar per capita igual ou inferior a R$ 70,00

    mensais, em reais de agosto de 2010.A análise do Box-Plot confirma esta assimetria de 1,10865.

    Centro e Dispersão:

    Podemos notar que a mediana indica que na metade dos municípios estudados a proporção

    dos indivíduos com renda domiciliar per capita igual ou inferior a R$ 70,00 mensais é de 6,240. A

    média dos municípios é de 11,341 com desvio padrão de 11,764.

    1o. Quartil 1,640

    Mediana 6,240

    3o Quartil 19,065

    Máximo 69,670

    11,032 11,651

    5,739 6,860

    11,550 11,987

    A-Quadrado 291,12

    Valor-p

  • 17

    1.3.6 Variável: “RIND” (Renda)

    Gráfico 8– Análise exploratória RIND

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “RIND”.

    Forma:

    O histograma nos mostra uma distribuição simétrica, sendo sua taxa de assimetria de -0,

    28293.O Histograma apresenta uma distribuição concentrada nas faixas entre 0 e 70.

    Centro e Dispersão:

    De acordo com a mediana em metade dos municípios estudados a renda per capta dos

    extremamente mais pobres é de 32,510 sendo que o máximo é de 70 e o mínimo é 00. A média dos

    municípios é de 32,036 mostrando a simetria existente também confirmada pelo Box-Plot.

    1o. Quartil 27,435

    Mediana 32,510

    3o Quartil 37,090

    Máximo 70,000

    31,783 32,288

    32,280 32,730

    9,428 9,785

    A-Quadrado 60,66

    Valor-p

  • 18

    1.3.7 Variável: “REN3” (Trabalho)

    Gráfico 9–Análise exploratória REN3

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “REN3”.

    Forma:

    O histograma diferente dos anteriores analisados até este momento possui uma assimetria para

    a esquerda. Neste caso a distribuição aponta para a esquerda produzindo um valor de assimetria

    negativo de -1,03727.

    Centro e Dispersão

    De acordo com a mediana, em 50% da amostragem 91% dos indivíduos ocupados acima dos

    18 anos de idade possuem rendimento de até 3 salários mínimos, a média é de 90,932.

    1o. Quartil 87,275

    Mediana 91,940

    3o Quartil 95,840

    Máximo 100,000

    90,777 91,087

    91,740 92,170

    5,781 6,000

    A-Quadrado 88,87

    Valor-p

  • 19

    1.3.8 Variável: “RENOCUP” (Trabalho)

    Gráfico 10– Análise exploratória RENOCUP

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “RENOCUP”.

    Forma:

    O histograma indica uma leve assimetria para a direita. Dados sobre renda salarial

    normalmente possuem este tipo de assimetria, pois poucos são os indivíduos que possuem uma renda

    mais elevada e muitos os indivíduos de baixa renda. A leve assimetria neste caso é de 0,72362.

    Centro e Dispersão:

    A mediana é de 761,72, muito próxima da média que é de 780,11. O desvio padrão é de 341,68

    oque considero significativo tendo em vista que o valor mínimo do rendimento médio dos ocupados

    acima de 18 anos foi de 136,42.

    1o. Quartil 488,59

    Mediana 761,72

    3o Quartil 1008,08

    Máximo 3177,26

    771,13 789,09

    745,23 776,58

    335,45 348,15

    A-Quadrado 35,59

    Valor-p

  • 20

    1.3.9 Variável: “T_AGUA” (Habitação)

    Gráfico 11– Análise exploratória T_AGUA

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “T_AGUA”.

    Forma:

    O histograma é assimétrico para a esquerda e produz um valor de assimetria negativa de -

    1,89166. Isto demonstra que o mínimo da população que vive em domicílios não possui água

    encanada, a grande maioria possui.

    Centro e Dispersão:

    A mediana é de 90,28 os que nos mostra que em 50% da amostra 90,28% da população que

    vive em domicilio possuem água encanada A média é de 85,598. O desvio padrão é de 14,721.

    1o. Quartil 79,635

    Mediana 90,280

    3o Quartil 96,260

    Máximo 100,000

    85,211 85,985

    89,870 90,701

    14,453 15,000

    A-Quadrado 270,99

    Valor-p

  • 21

    1.3.10 Variável: “T_LIXO” (Habitação)

    Gráfico 12– Análise exploratória T_LIXO

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “T_LIXO”.

    Forma:

    O Histograma nos permite analisar que trata-se de uma distribuição visivelmente assimétrica

    para a esquerda. A distribuição tem um único grande pico que indica que aproximadamente que

    98%da população em domicílios possui coleta de lixo. Porém, alguns municípios possuem uma taxa

    significativamente baixa.

    Centro e Dispersão:

    A mediana é de 98,030 os que nos mostra que em 50% da amostra 98,030% da população

    que vive em domicilio possuem coleta de lixo A média é de 94,047. O desvio padrão é de 11,050.

    1o. Quartil 93,720

    Mediana 98,030

    3o Quartil 99,490

    Máximo 100,000

    93,757 94,338

    97,900 98,190

    10,848 11,259

    A-Quadrado 776,69

    Valor-p

  • 22

    1.3.11 Variável: “T_FORA6A14” (Vulnerabilidade)

    Gráfico 13– Análise exploratória T_FORA6A14

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “T_FORA6A14”.

    Forma:

    Trata-se de um histograma visivelmente assimétrico para a direita indicando que na grande

    maioria dos municípios uma pequena porcentagem de crianças de 6 á 14 anos não frequentam a

    escola. Se valor de assimetria neste caso é de 5,9599.

    Centro e Dispersão:

    A mediana indica que em 50% da amostra apenas 2,38% das crianças de 6 a 14 anos não

    frequentam a escola. A média é de 2,86%. O Box-Plot confirma esta afirmação. O desvio padrão é de

    2,6653.

    1o. Quartil 1,5200

    Mediana 2,3800

    3o Quartil 3,4350

    Máximo 48,2300

    2,7932 2,9333

    2,3300 2,4200

    2,6167 2,7157

    A-Quadrado 379,51

    Valor-p

  • 23

    1.3.12 Variável: “T_M10A14CF” (Vulnerabilidade)

    Gráfico 14– Análise exploratória T_M10A14CF

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “T_M10A14CF”.

    Forma:

    O histograma é extremamente assimétrico para a direita o que indica que é muito baixo o

    porcentual de mulheres entre 10 e 14 anos que tiveram filhos. A assimetria é de 2,5712.

    Centro e Dispersão:

    Neste caso a assimetria para a direita é tão grande que a mediana ficou em 0,00000 e a média

    0,39929 sendo confirmado pelo Box-Plot.O desvio padrão foi de 0,69120.

    1o. Quartil 0,00000

    Mediana 0,00000

    3o Quartil 0,67000

    Máximo 8,38000

    0,38113 0,41745

    0,00000 0,00000

    0,67860 0,70429

    A-Quadrado 711,83

    Valor-p

  • 24

    2.3.13 Variável: “PESORUR” (População)

    Gráfico 15– Análise exploratória T_PESORUR

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “PESORUR”.

    Forma:

    O histograma é extremamente assimétrico para a direita com um grande pico que mostra que

    em 1857 municípios a população rural esta na entre 1.000 e 3.000 habitantes. A assimetria é de

    4,6970.

    Centro e Dispersão:

    A mediana é de 3233, a média é de5360 com desvio padrão de 6642.

    1o. Quartil 1599

    Mediana 3233

    3o Quartil 6769

    Máximo 125336

    5186 5535

    3130 3354

    6521 6767

    A-Quadrado 457,97

    Valor-p

  • 25

    2.3.14 Variável: “PESOURB” (População)

    Gráfico 16– Análise exploratória PESOURB

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “PESOURB”.

    Forma:

    Este é o mais assimétrico dos histogramas analisados até aqui. A Assimetria para a direita é

    de 37,77 com um único grande pico de distribuição.

    Centro e Dispersão:

    A Mediana é de 6263 e a média é de 28917 mostrando um elevado desvio padrão de 201551.

    1o. Quartil 2838

    Mediana 6263

    3o Quartil 15492

    Máximo 11152344

    23621 34214

    5993 6516

    197875 205367

    A-Quadrado 1664,44

    Valor-p

  • 26

    1.3.15 Variável: “IDHM” (Índice de Desenvolvimento Humano)

    Gráfico 17– Análise exploratória IDHM

    Fonte : Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “IDHM”.

    Forma:

    O Histograma é simétrico conforme demonstra sua taxa de assimetria de -0,155605.Os lados

    do histograma quase refletem um ao outro. Notamos que a curtose da amostra é de- 0,844490.

    Centro e Dispersão:

    A Mediana é de 0,66500 confirmado pelo Box-Plot e a média é de 0, 65916.A mediana

    informa que no caso do IDHM pelo em metade dos municípios o IDHM é de 0,65916, valor este

    muito próximo da média.O desvio padrão é mínimo com taxa de 0,07200.

    1o. Quartil 0,59900

    Mediana 0,66500

    3o Quartil 0,71800

    Máximo 0,86200

    0,65727 0,66105

    0,66200 0,66900

    0,07068 0,07336

    A-Quadrado 40,51

    Valor-p

  • 27

    1.3.16 Variável: “IDHM_E” (Índice de Desenvolvimento Humano)

    Gráfico 18– Análise exploratória IDHM_E

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “IDHM_E”.

    Forma:

    O Histograma é simétrico conforme demonstra sua taxa de assimetria de -0,098463.Os lados

    do histograma quase refletem um ao outro. Notamos que a curtose da amostra é de- 0,515037.

    Centro e Dispersão:

    A Mediana é de 0,56000 confirmado pelo Box-Plot e a média é de 0,55909. A mediana

    informa que no caso do IDHE em metade dos municípios o IDHE é de 0,56000, valor este muito

    próximo da média.O desvio padrão é mínimo com taxa de 0,09333.

    1o. Quartil 0,49000

    Mediana 0,56000

    3o Quartil 0,63100

    Máximo 0,82500

    0,55664 0,56155

    0,55700 0,56300

    0,09163 0,09509

    A-Quadrado 9,32

    Valor-p

  • 28

    1.3.17 Variável: “IDHM_L” (Índice de Desenvolvimento Humano)

    Gráfico 19– Análise exploratória IDHM_L

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “IDHM_L”.

    Forma:

    Notamos que o histograma é simétrico, se passarmos uma linha no meio deste histograma os

    dois lados quase refletem um ao outro, A assimetria é de -0,409358.

    Centro e Dispersão:

    A mediana é de 0,80800 o que indica que 50% das observações estão abaixo deste número e

    50% estão acima dele. A média é 0,80156 com um pequeno desvio padrão de 0,04468.

    1o. Quartil 0,76900

    Mediana 0,80800

    3o Quartil 0,83600

    Máximo 0,89400

    0,80039 0,80274

    0,80600 0,80900

    0,04387 0,04553

    A-Quadrado 35,06

    Valor-p

  • 29

    1.3.18 Variável: “IDHM_R” (Índice de Desenvolvimento Humano)

    Gráfico 20– Análise exploratória IDHM_R

    Fonte: Minitab17

    Este relatório contém Histograma, Curva de Densidade, Box-Plot, Intervalo de confiança da

    média e mediana, desvio-padrão, variância, valores mínimos, máximos e o teste de normalidade de

    Anderson-Darling (A-Squared e P-Value), para a variável “IDHM_R”.

    Forma:

    O Histograma é mais simétrico do que assimétrico, se passarmos uma linha no meio deste

    histograma os dois lados quase refletem um ao outro, porém podemos notar uma pequena assimetria

    entre o 0,56 e o 0,63. A assimetria é de -0,101024.

    Centro e Dispersão:

    A mediana é de 0,65400 e a média 0,64287 com desvio padrão de 0,08066.

    1o. Quartil 0,57200

    Mediana 0,65400

    3o Quartil 0,70700

    Máximo 0,89100

    0,64075 0,64499

    0,65000 0,65700

    0,07919 0,08219

    A-Quadrado 55,08

    Valor-p

  • 30

    1.4 Análise Comparativa E Considerações Finais

    Quadro3 – Comparação entre as variáveis.

  • 31

  • 32

    Fonte: Elaborado pela autora.

    Acima encontra-se uma tabela comparando Histograma, Box-Plot, Curva de Densidade,

    média, desvio-padrão, mediana e P-Value do teste de normalidade de Anderson-Darling, das variáveis

    quantitativas analisadas.

    A tabela nos permite perceber de maneira rápida o que já foi explicitado nos tópicos anteriores,

    quando analisamos individualmente as variáveis.

    As variáveis T_AGUA e T_LIXO derivadas da dimensão Habitação possuem um

    comportamento similar entre si com uma cauda bastante assimétrica para a esquerda e um pico

    bastante elevado.

    A variável T-FOR6A14 e T-M10A14CF da dimensão Vulnerabilidade também possuem

    comportamentos similares com uma cauda para a direita.

    As variáveis PESORUR e PESOURB são similares com uma grande assimetria para a direita.

    Já a variável IDHM e os demais IDHM_E, IDHM_L e IDHM_R também possuem certa

    similaridade, pois ambos são histogramas mais simétricos do que assimétricos mostrando assim que

    seus valores de assimetria são mais próximos de zero. Vale ressaltar que a falta de assimetria não

    indica necessariamente normalidade.

    Vale ressaltar que a simetria ou não das distribuições não necessariamente tem relação com a

    qualidade ou validade dos dados trabalhados. Distribuições assimétricas podem, por exemplo, nos

    indicar onde devemos focar ou concentrar esforços para a obtenção de resultados esperados de forma

    mais eficiente.

    CAPÍTULO II. ANÁLISE DAS CORRELAÇÕES

    2.1 Objetivos das Correlações

    Este trabalho tem como objetivo realizar uma análise das correlações entre as variáveis

    selecionadas, comparados a partir de dezoito variáveis quantitativas, A análise exploratória dos dados

    foi realizada através dos dados obtidos nas fontes de cada variável. Empregou-se o Minitab17 ® para

    as análises estatísticas.

  • 33

    Resultados de: Plan1

    Correlação: ESPVIDA; MORT1; T_ANALF11A14; T_ANALF15M; PIND; RIND; REN3;

    RENOCUP; ...

    ESPVIDA MORT1 T_ANALF11A14 T_ANALF15M PIND

    MORT1 -0,763

    0,000

    T_ANALF11A14 -0,667 0,692

    0,000 0,000

    T_ANALF15M -0,824 0,825 0,757

    0,000 0,000 0,000

    PIND -0,760 0,765 0,771 0,813

    0,000 0,000 0,000 0,000

    RIND -0,000 0,005 -0,073 -0,010 -0,132

    0,981 0,736 0,000 0,442 0,000

    REN3 -0,701 0,661 0,510 0,753 0,656

    0,000 0,000 0,000 0,000 0,000

    RENOCUP 0,741 -0,704 -0,561 -0,794 -0,737

    0,000 0,000 0,000 0,000 0,000

    T_AGUA 0,549 -0,546 -0,554 -0,631 -0,662

    0,000 0,000 0,000 0,000 0,000

    T_LIXO 0,416 -0,441 -0,456 -0,409 -0,563

    0,000 0,000 0,000 0,000 0,000

    T_FORA6A14 -0,207 0,196 0,500 0,242 0,367

    0,000 0,000 0,000 0,000 0,000

    T_M10A14CF -0,148 0,150 0,223 0,155 0,196

    0,000 0,000 0,000 0,000 0,000

    pesoRUR -0,245 0,249 0,302 0,219 0,333

    0,000 0,000 0,000 0,000 0,000

    pesourb 0,091 -0,073 -0,045 -0,114 -0,079

    0,000 0,000 0,001 0,000 0,000

  • 34

    IDHM 0,852 -0,829 -0,744 -0,884 -0,863

    0,000 0,000 0,000 0,000 0,000

    IDHM_E 0,704 -0,684 -0,680 -0,789 -0,756

    0,000 0,000 0,000 0,000 0,000

    IDHM_L 1,000 -0,967 -0,667 -0,824 -0,760

    0,000 0,000 0,000 0,000 0,000

    IDHM_R 0,834 -0,814 -0,714 -0,878 -0,884

    0,000 0,000 0,000 0,000 0,000

    RIND REN3 RENOCUP T_AGUA T_LIXO

    REN3 -0,017

    0,203

    RENOCUP 0,020 -0,947

    0,142 0,000

    T_AGUA 0,066 -0,549 0,599

    0,000 0,000 0,000

    T_LIXO 0,091 -0,350 0,394 0,278

    0,000 0,000 0,000 0,000

    T_FORA6A14 -0,164 0,142 -0,148 -0,243 -0,198

    0,000 0,000 0,000 0,000 0,000

    T_M10A14CF 0,028 0,080 -0,088 -0,079 -0,142

    0,034 0,000 0,000 0,000 0,000

    pesoRUR -0,044 0,139 -0,173 -0,256 -0,184

    0,001 0,000 0,000 0,000 0,000

    pesourb 0,046 -0,241 0,233 0,083 0,039

    0,001 0,000 0,000 0,000 0,004

    IDHM 0,072 -0,839 0,869 0,659 0,468

    0,000 0,000 0,000 0,000 0,000

    IDHM_E 0,098 -0,753 0,764 0,615 0,393

    0,000 0,000 0,000 0,000 0,000

    IDHM_L -0,000 -0,701 0,741 0,549 0,416

    0,977 0,000 0,000 0,000 0,000

  • 35

    IDHM_R 0,051 -0,872 0,915 0,641 0,499

    0,000 0,000 0,000 0,000 0,000

    T_FORA6A14 T_M10A14CF pesoRUR pesourb IDHM

    T_M10A14CF 0,246

    0,000

    pesoRUR 0,215 0,085

    0,000 0,000

    pesourb 0,012 0,003 0,220

    0,353 0,820 0,000

    IDHM -0,368 -0,181 -0,272 0,149

    0,000 0,000 0,000 0,000

    IDHM_E -0,415 -0,176 -0,249 0,147 0,951

    0,000 0,000 0,000 0,000 0,000

    IDHM_L -0,206 -0,148 -0,245 0,091 0,852

    0,000 0,000 0,000 0,000 0,000

    IDHM_R -0,289 -0,165 -0,260 0,157 0,948

    0,000 0,000 0,000 0,000 0,000

    IDHM_E IDHM_L

    IDHM_L 0,704

    0,000

    IDHM_R 0,820 0,834

    0,000 0,000

    Conteúdo da Célula: Correlação de Pearson

    Valor-p

    2.2. As variáveis que se correlacionam

    Quadro 4- Variáveis que se correlacionam.

    Variável Variável Grau de Correlação

    ESPVIDA T_ANALF15M -0,824

  • 36

    MORT1 T_ANALF15M 0,825

    T_ANALF15M PIND 0,813

    ESPVIDA IDHM 0,852

    MORT1 IDHM -0,829

    T_ANALF15M IDHM -0,884

    PIND IDHM -0,863

    MORT1 IDHM_L -0,967

    T_ANALF15M IDHM_L -0,824

    ESPVIDA IDHM_R 0,834

    MORT1 IDHM_R -0,814

    T_ANALF15M IDHM_R -0,878

    PIND IDHM_R -0,884

    REN3 RENOCUP -0,947

    REN3 IDHM_R -0,872

    RENOCUP IDHM_R 0,915

    IDHM IDHM_E 0,951

    IDHM IDHM_L 0,852

    IDHM IDHM_R 0,948

    IDHM_E IDHM_R 0,820

    IDHM_L IDHM_R 0,834

    ESPVIDA IDHM_L 1,000

    Fonte: Elaborada pelo autor, 2017.

  • 37

    2.3 Gráfico de Dispersão

    Nos gráficos abaixo vamos demonstrar as relações entre as variáveis.

    50403020100

    80,0

    77,5

    75,0

    72,5

    70,0

    67,5

    65,0

    T_ANALF15M

    ES

    PV

    IDA

    Gráfico de Dispersão de ESPVIDA versus T_ANALF15M

    50403020100

    50

    40

    30

    20

    10

    T_ANALF15M

    MO

    RT

    1

    Gráfico de Dispersão de MORT1 versus T_ANALF15M

  • 38

    706050403020100

    50

    40

    30

    20

    10

    0

    PIND

    T_A

    NA

    LF15

    M

    Gráfico de Dispersão de T_ANALF15M versus PIND

    0,90,80,70,60,50,4

    80,0

    77,5

    75,0

    72,5

    70,0

    67,5

    65,0

    IDHM

    ES

    PV

    IDA

    Gráfico de Dispersão de ESPVIDA versus IDHM

  • 39

    0,90,80,70,60,50,4

    50

    40

    30

    20

    10

    IDHM

    MO

    RT

    1

    Gráfico de Dispersão de MORT1 versus IDHM

    0,90,80,70,60,50,4

    50

    40

    30

    20

    10

    0

    IDHM

    T_A

    NA

    LF15

    M

    Gráfico de Dispersão de T_ANALF15M versus IDHM

  • 40

    0,900,850,800,750,70

    50

    40

    30

    20

    10

    IDHM_L

    MO

    RT

    1

    Gráfico de Dispersão de MORT1 versus IDHM_L

    0,90,80,70,60,50,4

    70

    60

    50

    40

    30

    20

    10

    0

    IDHM

    PIN

    D

    Gráfico de Dispersão de PIND versus IDHM

  • 41

    0,900,850,800,750,70

    50

    40

    30

    20

    10

    0

    IDHM_L

    T_A

    NA

    LF15

    M

    Gráfico de Dispersão de T_ANALF15M versus IDHM_L

    0,90,80,70,60,50,4

    50

    40

    30

    20

    10

    IDHM_R

    MO

    RT

    1

    Gráfico de Dispersão de MORT1 versus IDHM_R

  • 42

    0,90,80,70,60,50,4

    80,0

    77,5

    75,0

    72,5

    70,0

    67,5

    65,0

    IDHM_R

    ES

    PV

    IDA

    Gráfico de Dispersão de ESPVIDA versus IDHM_R

    0,90,80,70,60,50,4

    50

    40

    30

    20

    10

    0

    IDHM_R

    T_A

    NA

    LF15

    M

    Gráfico de Dispersão de T_ANALF15M versus IDHM_R

  • 43

    3500300025002000150010005000

    100

    90

    80

    70

    60

    50

    RENOCUP

    REN

    3

    Gráfico de Dispersão de REN3 versus RENOCUP

    0,90,80,70,60,50,4

    100

    90

    80

    70

    60

    50

    IDHM

    REN

    3

    Gráfico de Dispersão de REN3 versus IDHM

  • 44

    0,90,80,70,60,50,4

    3500

    3000

    2500

    2000

    1500

    1000

    500

    0

    IDHM

    REN

    OC

    UP

    Gráfico de Dispersão de RENOCUP versus IDHM

    0,90,80,70,60,50,4

    100

    90

    80

    70

    60

    50

    IDHM_R

    REN

    3

    Gráfico de Dispersão de REN3 versus IDHM_R

  • 45

    0,90,80,70,60,50,4

    3500

    3000

    2500

    2000

    1500

    1000

    500

    0

    IDHM_R

    REN

    OC

    UP

    Gráfico de Dispersão de RENOCUP versus IDHM_R

    0,90,80,70,60,50,4

    0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2

    IDHM_R

    IDH

    M_E

    Gráfico de Dispersão de IDHM_E versus IDHM_R

  • 46

    0,90,80,70,60,50,4

    0,90

    0,85

    0,80

    0,75

    0,70

    IDHM_R

    IDH

    M_L

    Gráfico de Dispersão de IDHM_L versus IDHM_R

    0,90,80,70,60,50,4

    70

    60

    50

    40

    30

    20

    10

    0

    IDHM_R

    PIN

    D

    Gráfico de Dispersão de PIND versus IDHM_R

  • 47

    0,90,80,70,60,50,40,30,2

    0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    IDHM_E

    IDH

    M

    Gráfico de Dispersão de IDHM versus IDHM_E

    0,900,850,800,750,70

    0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    IDHM_L

    IDH

    M

    Gráfico de Dispersão de IDHM versus IDHM_L

  • 48

    0,90,80,70,60,50,4

    0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    IDHM_R

    IDH

    M

    Gráfico de Dispersão de IDHM versus IDHM_R

    0,90,80,70,60,50,4

    0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2

    IDHM_R

    IDH

    M_E

    Gráfico de Dispersão de IDHM_E versus IDHM_R

  • 49

    Os gráficos de dispersão devem ser analisados quanto a seu padrão geral e seus desvios

    relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua forma, direção

    e intensidade.

    Direção: Da análise das correlações acima percebemos que existem associações positivas e

    negativas, o crescimento de uma variável é acompanhado do crescimento da outra ou acontece a

    relação inversa.

    Intensidade: Os gráficos acima apresentam uma relação linear, mas os gráficos que

    relacionam ESPVIDA x MORT1; IDHM_E x IDHM; IDHM_R x IDHM; e, IDHM_E x

    T_FUNDIN_TODOS_MEIO possuem uma relação mais forte que as demais, sendo que a maior

    0,90,80,70,60,50,4

    0,90

    0,85

    0,80

    0,75

    0,70

    IDHM_R

    IDH

    M_L

    Gráfico de Dispersão de IDHM_L versus IDHM_R

    0,900,850,800,750,70

    80,0

    77,5

    75,0

    72,5

    70,0

    67,5

    65,0

    IDHM_L

    ES

    PV

    IDA

    Gráfico de Dispersão de ESPVIDA versus IDHM_L

  • 50

    intensidade encontrada foi entre as variáveis ESPVIDA x IDHM_L, ou seja, a medida que que

    aumenta a variável ESPVIDA aumenta diretamente a variável IDHM_L.

    Forma: Os gráficos apresentam conglomerados que sugerem relações lineares, no entanto

    vale salientar a relação dos gráficos MORT1 x IDHM_L, REN3 x RENOCUP, RENOCUP x

    IDHM_R, IDHM x IDHM_E, IDHM x IDHM_R e ESPVIDA x IDHM_L que apresentam um

    agrupamento mais intenso.

    Valores Atípicos: Os gráficos indicam a existência de valores atípicos.

    2.4 Dendograma

    Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação

    icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação apresenta

    um diagrama de similaridade.

    A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na

    intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis medidas.

    Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

    Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a

    similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos ter uma

    visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de amostras utilizado no

    estudo.

    Através do dendrograma abaixo podemos notar que a maior similaridade encontrada está nas

    variáveis ESPVIDA x IDHM_L que estão rente a linha do eixo.

    CAPÍTULO III. ANÁLISE DE TENDÊNCIAS

    3.1 Apresentação e Objetivos

    O presente trabalho tem por objetivo realizar a análise de tendências das variáveis temporais

    TAXA DE NATALIDADE, EXPECTATIVA DE VIDA e MORTALIDADE INFANTIL. Todas as

    variáveis mencionadas neste trabalho serão a nível mundial.

    Tais variáveis integram a série estatistica do Banco Mundial. O banco de dados do Banco

    Mundial é uma ferramenta de análise que consiste em uma coleção de dados e séries cronológicas

    sobre diversos temas. Todos os dados disponibilizados pelo Banco Mundial são usados como

    indicadores do desenvolvimento mundial e nos permite realizar um acompanhamento real deste

    desenvolvimento.

    peso

    urb

    peso

    RUR

    T_M

    10A1

    4CF

    T_FO

    RA6A

    14RE

    N3PI

    ND

    T_AN

    ALF1

    1A14

    T_AN

    ALF1

    5M

    MOR

    T1RI

    ND

    T_LIX

    O

    T_AG

    UA

    IDHM

    _EID

    HM

    IDHM

    _R

    RENO

    CUP

    IDHM

    _L

    ESPV

    IDA

    1,65

    34,43

    67,22

    100,00

    Variáveis

    Sim

    ilarid

    ade

    DendrogramaLigação Completa; Distância do Coeficiente de Correlação

  • 51

    3.2 Os Indivíduos

    Os dados são séries históricas Mundiais, portanto, tratam-se de séries temporais. As séries vão de

    1995 á 2014 para todas as variávies estudadas.

    3.3 As Variáveis

    São 4 as variáveis desta pesquisa, incluindo o ano a que se referem os dados. As mesmas são

    melhores explicadas na Tabela 1.

    Quadro 5- As variáveis

    Variável Significado Tipo Unidade de Medida

    Ano É o ano que se refere Variável Categórica Formato: AAAA

    Taxa de

    Natalidade

    Nascidos vidos para

    cada mil pesoas

    Quantitativa ÍNDICE

    Espectativa

    de Vida ao

    nascer

    Número médio de

    anos que as pessoas

    deverão viver a partir

    do nascimento

    Quantitativa ÍNDICE

    Taxa de

    Mortalidade

    Infantil

    Número de crianças

    que não deverão

    sobreviver ao

    primeiro ano de vida

    em cada 1000

    crianças nascidas

    vivas.

    Quantitativa ÍNDICE

    Fonte: Elaborado pela autora

    3.4 A Tabela de Dados

    Quadro 6 – Tabela de dados

    Ano Taxa de

    Natalidade

    Espec. Vida Taxa de

    Mortalidade

    Infantil

    1995 23,327 66,283 60

    1996 23,04 66,565 59

    1997 22,71 66,857 57,8

    1998 22,229 67,101 56,4

    1999 21,874 67,339 54,8

    2000 21,616 67,606 53,1

    2001 21,272 67,903 51,4

    2002 21,023 68,158 49,5

    2003 20,804 68,423 47,7

    2004 20,651 68,752 46

    2005 20,522 69,013 44,3

  • 52

    2006 20,379 69,339 42,8

    2007 20,301 69,642 41,4

    2008 20,212 69,915 40,1

    2009 20,045 70,22 38,7

    2010 19,854 70,485 37,5

    2011 19,695 70,765 36,2

    2012 19,611 71,005 34,9

    2013 19,415 71,243 33,7

    Fonte: Elaborado pela autora

    3.5 Análise Das Variáveis

    Conforme mencionado acima, cada variável será analisada utilizando gráficos para

    demonstrar o comportamento histórico da série, linhas de tendência, funções, erros das funções,

    além de extrapolações estatísticas.

    3.5.1 A análise de tendência - Variável Natalidade

    Nesta seção analisaremos a tendência da série de dados, buscando encontrar a função (linear,

    quadrática, exponencial ou s-curve) que melhor a represente. Para medir a eficiência da função ou da

    curva de tendência, analisaremos os erros: MAPE (Mean Average Percentual Error), MAD (Mean

    Absolute Deaviation) e MSD (Mean Standard Deviation).

  • 53

    Para podermos visualizar qual a melhor função para representar a série de dados acima,

    podemos analisar a tabela abaixo, que compara os três tipos de erros para cada uma das quatro

    funções:

    TAXA DE NATALIDADE MUNDIAL

    Quadro 7 – Natalidade Mundial

    LINEAR QUADRATICA EXPONENCIAL CURVA S

    EPAM 6,267 6,573 7,196 6,336

    DAM 0,934 1,061 1,146 1,057

    DPM 3,059 2,684 3,268 2,609 Fonte: Elaborada pela autora

    Percebemos claramente que a função linear é a que melhor se adapta à nossa série de dados

    “Taxa de Natalidade”, uma que possui os menores valores para os três erros. Assim, esta será a função

    utilizada para as projeções dos próximos 10 anos (2014-2024).

    Utilizando a equação da função linear apresentada no gráfico acima, temos os seguintes valores

    previstos para os próximos 10 anos em relação ao desemprego no Brasil.

    Year Taxa mundial de Natalidade

    Quadro 8 – Tendência de natalidade

    2015 17,001

    2016 16,672

    2017 16,344

    2018 16,016

    2019 15,688

    2020 15,360

    2021 15,032

    2022 14,704

    2023 14,375

    2024 14,047

    Fonte: Elaborada pela autora

    Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:

  • 54

    3.5.2 Análise de tendência - Variável ESPC VIDA

  • 55

    TAXA DE ESPECTATIVA DE VIDA MUNDIAL

    Quadro 9 - Expectativa de vida mundial

    LINEAR QUADRATICA EXPONENCIAL CURVA S

    EPAM 0,054 0,054 0,051 0,055

    DAM 0,038 0,037 0,035 0,038

    DPM 0,001 0,002 0,002 0,002 Fonte: Elaborada pela autora

    Percebemos claramente que a função exponencial é a que melhor se adapta à nossa série de

    dados “Taxa de ESPEC. VIDA”, uma que possui os menores valores para os três erros. Assim, esta

    será a função utilizada para as projeções dos próximos 10 anos (2014-2024).

    Utilizando a equação da função linear apresentada no gráfico acima, temos os seguintes valores

    previstos para os próximos 10 anos em relação a expectativa de vida mundial.

    Year Taxa mundial de expectativa de vida

    Quadro 10 – Tendência expectativa de vida

    2015 71,87

    2016 72,16

    2017 72,45

    2018 72,74

    2019 73,04

    2020 73,33

    2021 73,63

    2022 73,93

    2023 74,23

    2024 74,53

    Fonte: Elaborada pela autora

    Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:

  • 56

    3.5.3 Análise de tendência - MORT INF

    TAXA DE MORTALIDADE INFANTIL MUNDIAL

    Quadro 11- Mortalidade Infantil mundial

    LINEAR QUADRATICA EXPONENCIAL CURVA S

    EPAM 1,132 0,670 0,701 0,709

    DAM 0,489 0,323 0,362 0,394

    DPM 0,307 0,160 0,328 0,708 Fonte: Elaborada pela autora

    Percebemos claramente que a função exponencial é a que melhor se adapta à nossa série de

    dados “Taxa de ESPEC. VIDA”, uma que possui os menores valores para os três erros. Assim, esta

    será a função utilizada para as projeções dos próximos 10 anos (2014-2024).

    Utilizando a equação da função linear apresentada no gráfico acima, temos os seguintes valores

    previstos para os próximos 10 anos em relação mortalidade infantil mundial.

    Year Taxa de mortalidade infantil mundial

    Quadro 12 – Tendência para mortalidade Infantil

    2015 31,003

    2016 29,774

  • 57

    2017 28,572

    2018 27,396

    2019 26,245

    2020 25,121

    2021 24,022

    2022 22,949

    2023 21,903

    2024 20,882

    Fonte: Elaborada pela autora

    Os valores acima podem ser melhor ilustrados de forma gráfica, conforme abaixo:

    CAPÍTULO IV. ANÁLISE DE REGRESSÃO LINERAR E STEPWISE

    Este trabalho tem como objetivo construir um modelo de regressão múltipla entre as variáveis

    dependente e de variáveis dependentes explicativas. Empregou-se o Minitab ® para as análises

    estatísticas.

    4.1 Regressão Linear

    Análise de Regressão: ESPVIDA versus MORT1; T_ANALF11A14; T_ANALF15M; PIND;

    RIND; REN3; ...

    Análise de Variância

    Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P

    Regressão 13 37755,4 2904,26 7233,32 0,000

    MORT1 1 8911,5 8911,53 22194,95 0,000

    T_ANALF11A14 1 24,6 24,57 61,19 0,000

  • 58

    T_ANALF15M 1 3,1 3,10 7,73 0,005

    PIND 1 1,0 0,96 2,40 0,121

    RIND 1 0,0 0,01 0,03 0,863

    REN3 1 2,4 2,40 5,99 0,014

    RENOCUP 1 28,7 28,71 71,50 0,000

    T_AGUA 1 2,6 2,56 6,38 0,012

    T_LIXO 1 17,3 17,32 43,13 0,000

    T_FORA6A14 1 26,6 26,65 66,36 0,000

    T_M10A14CF 1 0,4 0,42 1,06 0,304

    pesoRUR 1 1,5 1,46 3,63 0,057

    pesourb 1 0,1 0,07 0,18 0,667

    Erro 5551 2228,8 0,40

    Total 5564 39984,2

    Sumário do Modelo

    S R2 R2(aj) R2(pred)

    0,633649 94,43% 94,41% 94,40%

    Coeficientes

    Termo Coef EP de Coef Valor-T Valor-P VIF

    Constante 80,886 0,509 158,97 0,000

    MORT1 -0,33682 0,00226 -148,98 0,000 3,61

    T_ANALF11A14 0,03386 0,00433 7,82 0,000 3,73

    T_ANALF15M -0,00591 0,00213 -2,78 0,005 6,06

    PIND -0,00268 0,00173 -1,55 0,121 5,75

    RIND 0,000158 0,000917 0,17 0,863 1,07

    REN3 -0,01147 0,00469 -2,45 0,014 10,55

    RENOCUP 0,000771 0,000091 8,46 0,000 13,44

    T_AGUA -0,002045 0,000810 -2,53 0,012 1,97

    T_LIXO -0,006260 0,000953 -6,57 0,000 1,54

    T_FORA6A14 -0,03237 0,00397 -8,15 0,000 1,55

    T_M10A14CF -0,0132 0,0128 -1,03 0,304 1,09

    pesoRUR -0,000003 0,000001 -1,90 0,057 1,24

    pesourb -0,000000 0,000000 -0,43 0,667 1,16

    Equação de Regressão

    ESPVIDA = 80,886 - 0,33682 MORT1 + 0,03386 T_ANALF11A14 - 0,00591 T_ANALF15M

    - 0,00268 PIND

    + 0,000158 RIND - 0,01147 REN3 + 0,000771 RENOCUP - 0,002045 T_AGUA

    - 0,006260 T_LIXO - 0,03237 T_FORA6A14 - 0,0132 T_M10A14CF - 0,000003 pesoRUR

    - 0,000000 pesourb

  • 59

    4.2 Regressão Stepwise

    1. Regression Stepwise

    2. Stepwise Regression: ESPVIDA versus MORT1; T_ANALF11A14; ...

    3.

    4. Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

    5.

    6.

    7. Response is ESPVIDA on 13 predictors, with N = 5565

    8.

    9.

    10. Step 1 2 3 4 5 6

    11. Constant 80,08 78,74 79,37 79,47 79,40 79,46

    12.

    13. MORT1 -0,3633 -0,3315 -0,3347 -0,3337 -0,3409 -0,3380

    14. T-Value -283,48 -195,05 -191,49 -190,59 -171,40 -152,86

    15. P-Value 0,000 0,000 0,000 0,000 0,000 0,000

    16.

    17. RENOCUP 0,00094 0,00098 0,00098 0,00101 0,00095

    18. T-Value 26,53 27,37 27,47 28,37 22,49

    19. P-Value 0,000 0,000 0,000 0,000 0,000

    20.

    21. T_LIXO -0,00635 -0,00701 -0,00582 -0,00559

    22. T-Value -7,28 -7,99 -6,56 -6,28

    23. P-Value 0,000 0,000 0,000 0,000

    24.

    25. T_FORA6A14 -0,0195 -0,0339 -0,0350

    26. T-Value -5,91 -8,90 -9,15

    27. P-Value 0,000 0,000 0,000

    28.

    29. T_ANALF11A14 0,0278 0,0334

    30. T-Value 7,46 8,02

    31. P-Value 0,000 0,000

    32.

    33. T_ANALF15M -0,0061

    34. T-Value -3,01

    35. P-Value 0,003

    36.

    37. S 0,682 0,643 0,640 0,638 0,635 0,634

    38. R-Sq 93,53 94,25 94,31 94,34 94,40 94,41

    39. R-Sq(adj) 93,52 94,25 94,30 94,34 94,39 94,40

    40. Mallows Cp 886,4 164,4 112,4 78,9 25,2 18,1

    41.

    42.

    43. Step 7 8 9 10

  • 60

    44. Constant 80,46 80,54 80,63 80,90

    45.

    46. MORT1 -0,3380 -0,3375 -0,3375 -0,3369

    47. T-Value -152,91 -152,15 -152,19 -149,56

    48. P-Value 0,000 0,000 0,000 0,000

    49.

    50. RENOCUP 0,00079 0,00078 0,00081 0,00076

    51. T-Value 9,22 9,09 9,34 8,43

    52. P-Value 0,000 0,000 0,000 0,000

    53.

    54. T_LIXO -0,00549 -0,00556 -0,00567 -0,00623

    55. T-Value -6,16 -6,24 -6,36 -6,54

    56. P-Value 0,000 0,000 0,000 0,000

    57.

    58. T_FORA6A14 -0,0344 -0,0337 -0,0342 -0,0330

    59. T-Value -8,99 -8,76 -8,88 -8,46

    60. P-Value 0,000 0,000 0,000 0,000

    61.

    62. T_ANALF11A14 0,0324 0,0334 0,0323 0,0338

    63. T-Value 7,74 7,92 7,63 7,81

    64. P-Value 0,000 0,000 0,000 0,000

    65.

    66. T_ANALF15M -0,0058 -0,0060 -0,0067 -0,0060

    67. T-Value -2,85 -2,94 -3,25 -2,82

    68. P-Value 0,004 0,003 0,001 0,005

    69.

    70. REN3 -0,0098 -0,0104 -0,0098 -0,0114

    71. T-Value -2,15 -2,28 -2,14 -2,45

    72. P-Value 0,031 0,023 0,032 0,014

    73.

    74. pesoRUR -0,00000 -0,00000 -0,00000

    75. T-Value -2,09 -2,35 -2,07

    76. P-Value 0,037 0,019 0,039

    77.

    78. T_AGUA -0,00176 -0,00210

    79. T-Value -2,25 -2,60

    80. P-Value 0,024 0,009

    81.

    82. PIND -0,0028

    83. T-Value -1,66

    84. P-Value 0,097

    85.

    86. S 0,634 0,634 0,634 0,634

    87. R-Sq 94,41 94,42 94,42 94,42

    88. R-Sq(adj) 94,41 94,41 94,41 94,41

    89. Mallows Cp 15,4 13,1 10,0 9,3

  • 61

    90.

    4.3 Considerações e Análises

    Neste trabalho fizemos uso da Análise de Regressão com suporte do software estatístico

    Mininat17. A Análise de Regressão possibilita encontrar uma relação entre as variáveis dependentes

    e independentes. O objetivo desta análise é explicar um determinado comportamento de uma variável.

    Como as variáveis independentes explicam a variável dependente. Em um primeiro momento foi

    realizado a análise de regressão onde a variável dependente (Y) foi a variável ESPVIDA. Notamos

    que esta variável dependente tem seu comportamento explicado em 94% pelas suas variáveis

    independentes. Foi possível notar também que as variáveis com menor poder explicativo foram

    RIND, PESOURB, cujos valores de P excederam o limite aceitável e estipulado para este trabalho de

    no máximo 0,05.

    Posteriormente aplicamos o teste de Stepwise cuja função é adicionar a variável mais

    significante ou remover do modelo a variável menos significante. Neste caso a variável MORT1

    explica 93,53% o comportamento da variável dependente ESPVIDA. Todas as demais variáveis

    independentes acrescentam apenas mais 0,88, sendo assim, o uso das demais variável independente

    pode ser dispensado deste modelo.

    CAPÍTULO V. COMPARAÇÕES

    5.1 Apresentação e Objetivos

    O objetivo de nosso trabalho é comparar a o comportamento de cada variável em cada região

    do Brasil l. Assim, cada variável será separada por região. Em outras palavras, os dados de cada

    variável poderão ser comparados com as demais regiões do Brasil.

    A princípio fizemos o teste ANOVA para todas as variáveis e posteriormente fizemos o

    BoxPlot para análise apenas das variáveis que apresentaram o maior valor de F.

    A análise de variância (ANOVA) testa a hipótese de que as médias de duas ou mais

    populações são iguais. Análises ANOVA testam a importância de um ou mais fatores comparando as

    médias das variáveis de resposta em diferentes níveis dos fatores. A hipótese nula afirma que todas

    as médias das populações (médias dos níveis dos fatores) são iguais, enquanto a hipótese alternativa

    afirma que pelo menos uma é diferente.

    Para as comparações serão analisados: a média, o intervalo de confiança para a média e a

    variância.

    5.2 Anova por Região

    ANOVA com um fator: ESPVIDA versus REGIÃO

    Método

    Hipótese nula Todas as médias são iguais

    Hipótese alternativa No mínimo uma média é diferente

    Nível de significância α = 0,05

    Assumiu-se igualdade de variâncias para a análise

    Informações dos Fatores

    Fator Níveis Valores

  • 62

    REGIÃO 5 CO; N; NE; S; SE

    Análise de Variância

    Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P

    REGIÃO 4 25000 6249,91 2319,02 0,000

    Erro 5560 14985 2,70

    Total 5564 39984

    Sumário do Modelo

    S R2 R2(aj) R2(pred)

    1,64167 62,52% 62,50% 62,46%

    Médias

    REGIÃO N Média DesvPad IC de 95%

    CO 466 74,3405 1,1079 (74,1914; 74,4896)

    N 449 71,8179 1,7239 (71,6660; 71,9698)

    NE 1794 70,2549 1,8094 (70,1789; 70,3309)

    S 1188 75,1156 1,5697 (75,0222; 75,2090)

    SE 1668 74,6863 1,6038 (74,6075; 74,7651)

    DesvPad Combinado = 1,64167

    ANOVA com um fator: MORT1 versus REGIÃO

    Método

    Hipótese nula Todas as médias são iguais

    Hipótese alternativa No mínimo uma média é diferente

    Nível de significância α = 0,05

    Assumiu-se igualdade de variâncias para a análise

    Informações dos Fatores

    Fator Níveis Valores

    REGIÃO 5 CO; N; NE; S; SE

    Análise de Variância

    Fonte GL SQ (Aj.) QM