Aplicação de business intelligence como instrumento de ...

77
UNIVERSIDADE FEDERAL DE SERGIPE CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA DEPARTAMENTO DE COMPUTAÇÃO Aplicação de business intelligence como instrumento de apoio á coordenação do curso de pós-graduação em Ciência da Computação da Universidade Federal de Sergipe Trabalho de Conclusão de Curso Antônio Carlos Teixeira de Carvalho Departamento de Computação/UFS São Cristóvão – Sergipe 2020

Transcript of Aplicação de business intelligence como instrumento de ...

Page 1: Aplicação de business intelligence como instrumento de ...

UNIVERSIDADE FEDERAL DE SERGIPE

CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA

DEPARTAMENTO DE COMPUTAÇÃO

Aplicação de business intelligence como instrumento de apoioá coordenação do curso de pós-graduação em Ciência da

Computação da Universidade Federal de Sergipe

Trabalho de Conclusão de Curso

Antônio Carlos Teixeira de Carvalho

Departamento de Computação/UFS

São Cristóvão – Sergipe

2020

Page 2: Aplicação de business intelligence como instrumento de ...

UNIVERSIDADE FEDERAL DE SERGIPE

CENTRO DE CIÊNCIAS EXATAS E TECNOLOGIA

DEPARTAMENTO DE COMPUTAÇÃO

Antônio Carlos Teixeira de Carvalho

Aplicação de business intelligence como instrumento de apoioá coordenação do curso de pós-graduação em Ciência da

Computação da Universidade Federal de Sergipe

Trabalho de Conclusão de Curso submetido ao De-partamento de Computação da Universidade Federalde Sergipe como requisito parcial para a obtenção dotítulo de Bacharel em Ciência da Computação.

Orientador(a): Andre Britto

São Cristóvão – Sergipe

2020

Page 3: Aplicação de business intelligence como instrumento de ...

I dedicate this thesis to all my family, friends and

professors who gave me the necessary support to get here.

Page 4: Aplicação de business intelligence como instrumento de ...

Agradecimentos

Registro sinceros agradecimentos a Deus, pela vida, saúde e força dada nos momentosdifíceis para superá-los e fazê-los escada para novas conquistas.

A toda minha família, especialmente à minha mãe Maria Cristina, que sempre me apoiou,ao meu pai, Antonio que está presente em espírito e no amor, por serem minha fortaleza e porterem oferecido as bases sólidas para meu crescimento pessoal e profissional. Aos amigos ecolegas da UFS, pelo companheirismo e compreensão, imprescindíveis para que esse momentofosse possível.

Aos professores da UFS, especialmente aos que contribuiram diretamente nesta jornada.Ao professor e orientador Andre Brito, que ensinou mais do que apenas conteúdos, mas que épossível aliar sabedoria, competência e humildade, tornando-se parâmetro para minha carreiraprofissional.

Aos professores membros da banca de avaliação, pela disponibilidade e contribuiçõesdadas para o aperfeiçoamento do trabalho.

Por fim, mas não menos importante, à minha noiva Larissa Pimentel e a toda sua família,por todo amor, carinho, cuidados e incentivos necessários para que eu conseguisse cumprir essadifícil meta. A todos vocês, muito obrigado!

Page 5: Aplicação de business intelligence como instrumento de ...

Lembrar que você vai morrer é a melhor maneira

de evitar a armadilha de pensar

que você tem algo a perder.

Você já está nu.

Não existe motivo

para não seguir seu coração.

(Steve Jobs)

Page 6: Aplicação de business intelligence como instrumento de ...

ResumoÀ medida que nossa sociedade se orienta cada vez mais para a informação, organizar dadospara maximizar sua utilidade mostra-se um desafio para as organizações. Para os gestores ecoordenadores dos cursos de pós-graduação isso representa novos desafios, gerir de formaeficiente o recurso público, garantir a qualidade do ensino e de manutenção do programa naavaliação quadrienal. É necessário, durante a tomada de decisão, que se tenha informação,atualizada, de qualidade e de forma tempestiva para superação dos desafios. O presente trabalhopropõe a construção de um sistema de Business Intelligence(BI) formado por três ferramentas: umprojeto de Data Warehouse(DW) com informações das publicações em periódicos e conferenciasde todos os programas de pós-graduação ativos no Brasil, um sistema de extração, transformaçãoe carga (ETL) para obtenção dos dados, transformação e carga dos dados e por fim uma ferramentaOnline Analytical Processing(OLAP). Data Warehouse consiste em uma coleção de dadosorientada por assuntos integrados, variante no tempo e não volátil que dá suporte à tomadade decisão. O ETL é um tipo de data integration em três etapas (extração, transformação,carregamento) usado para combinar dados de diversas fontes. A ferramenta OLAP permitemanipular e analisar grandes volumes de dados sob perspectivas de interesses. Será construídoo Data Warehouse e carregado utilizando o processo de ETL e por fim especificadas consultasOLAP para auxiliar a coordenação no acompanhamento de desempenho do programa de pós-graduação em Ciência da Computação da Universidade Federal de Sergipe.

Palavras-chave: Data Warehouse, OLAP, Sistemas de Apoio a Decisão, Banco de dados, Insti-tuições de Ensino.

Page 7: Aplicação de business intelligence como instrumento de ...

AbstractAs our society is increasingly oriented towards information, organizing data to maximize its use-fulness proves to be a challenge for organizations. For managers and coordinators of postgraduatecourses, this presents new challenges, efficiently managing public resources, ensuring the qualityof teaching and maintaining the program in the four-year evaluation. It is necessary, duringdecision making, to have information, updated, of quality and in a timely manner to overcome thechallenges. This work proposes the construction of a Business Intelligence (BI) system formedby three tools: a Data Warehouse project (DW) with information from publications in journalsand conferences of all active graduate programs in Brazil, a system extraction, transformationand loading (ETL) to obtain the data, transformation and loading of the data and finally an OnlineAnalytical Processing (OLAP) tool. Data Warehouse consists of a collection of data oriented byintegrated subjects, variant in time and non-volatile that supports decision making. ETL is a typeof three-step data integration (extraction, transformation, loading) used to combine data fromdifferent sources. The OLAP tool allows you to manipulate and analyze large volumes of datafrom the perspective of interests. The Data Warehouse will be built and loaded using the ETLprocess and finally specified OLAP queries to assist coordination in monitoring the performanceof the graduate program in Computer Science at the Federal University of Sergipe.

Keywords: Data Warehouse, OLAP, Decision Support Systems, Databases, Educational Institu-tions.

Page 8: Aplicação de business intelligence como instrumento de ...

Lista de ilustrações

Figura 1 – Elementos básicos de um data warehouse extraído de Kimball e Ross (2002). 20Figura 2 – Exemplo de Esquema Estrela . . . . . . . . . . . . . . . . . . . . . . . . . 23Figura 3 – Exemplo de Esquema Floco de Neve . . . . . . . . . . . . . . . . . . . . . 23Figura 4 – Cubo de dados com o fato Venda e dimensões Produto, Funcionário e Tempo. 25Figura 5 – Diferença entre o fluxo seguido pelo Drill Up e pelo Drill Down, extraída de

Sharma et al. (2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26Figura 6 – Solução de BI com Pentaho . . . . . . . . . . . . . . . . . . . . . . . . . . 27Figura 7 – Detalhes sobre o spoon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28Figura 8 – Tela inicial do Schema Workbench . . . . . . . . . . . . . . . . . . . . . . 30Figura 9 – Tela inicial do PAD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30Figura 10 – Tela inicial do pentaho BI server . . . . . . . . . . . . . . . . . . . . . . . 31Figura 11 – Exemplo de report no saiku . . . . . . . . . . . . . . . . . . . . . . . . . . 32

Figura 12 – Divisão do sistema de avaliacao segundo avaliacaocapes (2019). . . . . . . 35Figura 13 – Divisão do sistema de avaliacao retirado de avaliacaocapes (2019). . . . . . 36Figura 14 – Configuração da variável JAVA_HOME . . . . . . . . . . . . . . . . . . . 40Figura 15 – Configuração da variável path . . . . . . . . . . . . . . . . . . . . . . . . . 40Figura 16 – Configuração do Spoon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42Figura 17 – Modelo multidimensional do Data Warehouse deste estudo de caso. . . . . . 44Figura 18 – Script gerado pelo SQL Power Architect. . . . . . . . . . . . . . . . . . . . 45Figura 19 – Processo ETL da dimensão programa. . . . . . . . . . . . . . . . . . . . . 46Figura 20 – Processo ETL da dimensão Pais. . . . . . . . . . . . . . . . . . . . . . . . 46Figura 21 – Processo ETL da dimensão veiculos con veiculos de conferencias. . . . . . 47Figura 22 – Processo ETL da dimensão veiculos com veiculos de periodicos. . . . . . . 47Figura 23 – Processo ETL do fator desempenho de programa com as publicações em

conferencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47Figura 24 – Processo ETL do fator desempenho de programa com as publicações em

periodicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48Figura 25 – Processo ETL do fator publicação com as publicações em periodicos. . . . . 48Figura 26 – Processo ETL do fator publicação com as publicações em conferencias. . . 48Figura 27 – Job dos ETLs e scripts utilizando o PDI. . . . . . . . . . . . . . . . . . . . 49Figura 28 – Lista de conexões do pentaho community . . . . . . . . . . . . . . . . . . . 50Figura 29 – Lista de conexões do pentaho community . . . . . . . . . . . . . . . . . . . 50Figura 30 – Modelagem de um cubo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Figura 31 – Modelagem do cubo Desempenho programa . . . . . . . . . . . . . . . . . 51Figura 32 – Modelagem do cubo Desempenho programa . . . . . . . . . . . . . . . . . 52

Page 9: Aplicação de business intelligence como instrumento de ...

Figura 33 – Publicação dos cubos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Figura 34 – Marketplace do Pentaho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Figura 35 – Tela inicial do Saiku Analytics . . . . . . . . . . . . . . . . . . . . . . . . 55Figura 36 – Tela do Saiku com resultado de uma consulta sendo mostrada em tabela . . 55Figura 37 – Tela do Saiku com resultado de uma consulta sendo mostrada em gráfico . . 56Figura 38 – Notas do programa no quadriênio 2013 a 2016. . . . . . . . . . . . . . . . . 56Figura 39 – Pontuacão em conferencia e periodico no quadriênio 2013 a 2016 . . . . . . 57Figura 40 – Pontuação em conferências por ano . . . . . . . . . . . . . . . . . . . . . . 57Figura 41 – Pontuação em Periódicos por ano . . . . . . . . . . . . . . . . . . . . . . . 57Figura 42 – Quantidade de publicações em Conferências por ano . . . . . . . . . . . . . 58Figura 43 – Quantidade de publicações em periódicos por ano . . . . . . . . . . . . . . 58Figura 44 – Porcentagem de publicação de acordo com o qualis em conferências por ano 59Figura 45 – Porcentagem de publicação de acordo com o qualis em periódicos por ano . 59Figura 46 – Comparação da pontuação dos programas ativos . . . . . . . . . . . . . . . 60Figura 47 – Relatorio de comparação do NPRestrito dos programas ativos . . . . . . . . 60Figura 48 – Relatorio de comparação do NPGeral dos programas ativos . . . . . . . . . 61Figura 49 – Quantidade de publicações de discentes em Conferências por ano . . . . . . 62Figura 50 – Quantidade de publicações de discentes em periódicos por ano . . . . . . . 62Figura 51 – Porcentagem de publicação dos discentes de acordo com o qualis em confe-

rências por ano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Figura 52 – Porcentagem de publicação dos discentes de acordo com o qualis em periódi-

cos por ano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Figura 53 – Quantidade de publicações de discentes em Conferências por ano . . . . . . 64Figura 54 – Quantidade de publicações de discentes em periódicos por ano . . . . . . . 64Figura 55 – Porcentagem de publicação dos discentes de acordo com o qualis em confe-

rências por ano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Figura 56 – Relatório de Resumo das notas do PROCCC . . . . . . . . . . . . . . . . . 65Figura 57 – Pontuação obtida pelos discentes em conferências. . . . . . . . . . . . . . . 66Figura 58 – Relatório de Resumo das notas do PROCCC . . . . . . . . . . . . . . . . . 66Figura 59 – Pontuação obtida pelos discentes em conferências . . . . . . . . . . . . . . 66Figura 60 – Pontuação obtida pelos discentes em periódicos . . . . . . . . . . . . . . . 67

Figura 61 – Configuração da variável JAVA_HOME . . . . . . . . . . . . . . . . . . . 73Figura 62 – Configuração da variável path . . . . . . . . . . . . . . . . . . . . . . . . . 73Figura 63 – Configuração do Spoon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

Page 10: Aplicação de business intelligence como instrumento de ...

Lista de tabelas

Tabela 1 – Comparativo OLTP e OLAP . . . . . . . . . . . . . . . . . . . . . . . . . 24Tabela 2 – Comparativo OLTP e OLAP . . . . . . . . . . . . . . . . . . . . . . . . . 29

Page 11: Aplicação de business intelligence como instrumento de ...

Lista de abreviaturas e siglas

UFS Universidade Federal de Sergipe

DCOMP Departamento da Computação

DW Data Warehouse

BI Business Intelligence

OLAP Online Analytical Processing

ROLAP Relational Online Analytical Processing

MOLAP Multidimensional Online Analytical Processing

HOLAP Hybrid Online Analytical Processing

SGBD Sistema de Gerenciamento de Banco de Dados

ETL Extract Transform Load

OLTP Online Transaction Processing

SAD Sistema de Apoio a Decisão

CSV Comma-Separated Values

PDI Pentaho Data Integration

SO Sistema Operacional

SVG Scalable Vector Graphics

TCC Trabalho de Conclusão de Curso

PROCC Programa de Pós-Graduação em Ciência da Computação

ER Entity Relationship

CAPES Coordenação de Aperfeiçoamento de Pessoal de Nível Superior

Page 12: Aplicação de business intelligence como instrumento de ...

Sumário

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.2.1 Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.2.2 Especificos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4 Estrutura do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2 Fundamentação Teórica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.1 Sistemas de Apoio a Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Data warehouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2.1 Características dos Data Warehouses . . . . . . . . . . . . . . . . . . . 192.2.2 Componentes Básicos de um Data Warehouse . . . . . . . . . . . . . . 202.2.3 Modelagem Dimensional . . . . . . . . . . . . . . . . . . . . . . . . . 212.2.4 Tipos de Tabelas do Modelo Dimensional . . . . . . . . . . . . . . . . 222.2.5 Esquema Dimensional . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.3 OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.1 Tipos de OLAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3.2 Caracteristicas do OLAP . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4 Pentaho BI Suite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.4.1 Licenças e formas de obtenção . . . . . . . . . . . . . . . . . . . . . . 262.4.2 Arquitetura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.4.2.1 Pentaho Data Integration (PDI) . . . . . . . . . . . . . . . . 272.4.2.2 Pentaho Schema Workbench (PSW) . . . . . . . . . . . . . . 292.4.2.3 Pentaho Aggregation Designer (PAD) . . . . . . . . . . . . . 302.4.2.4 Pentaho BI Server . . . . . . . . . . . . . . . . . . . . . . . 312.4.2.5 Pentaho Report Designer (PRD) . . . . . . . . . . . . . . . . 312.4.2.6 Saiku Analytics . . . . . . . . . . . . . . . . . . . . . . . . . 31

3 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1 Estudo de Caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.1.1 Avaliação dos cursos de Pós Graduação . . . . . . . . . . . . . . . . . 343.1.2 Avaliação Quadrienal . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.3 Qualis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.4 Documentos de Área . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.2 Cenário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

Page 13: Aplicação de business intelligence como instrumento de ...

3.3 Criação do ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4 Preparação do ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4.1 Instalação de Pré Requisitos . . . . . . . . . . . . . . . . . . . . . . . 393.4.2 Instalando o pacote BI . . . . . . . . . . . . . . . . . . . . . . . . . . 413.4.3 Configuração das ferramentas . . . . . . . . . . . . . . . . . . . . . . 41

3.5 Desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.5.1 extração, transformação e carga (ETL) . . . . . . . . . . . . . . . . . . 45

3.6 Instalação e Criação lógica dos Cubos OLAP . . . . . . . . . . . . . . . . . . 493.6.1 Ambiente para montagem dos relatórios . . . . . . . . . . . . . . . . . 52

4 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544.1 Relatórios Obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.1.1 Relatórios Programa . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.1.2 Relatórios envolvendo discentes . . . . . . . . . . . . . . . . . . . . . 614.1.3 Relatórios envolvendo docentes . . . . . . . . . . . . . . . . . . . . . 67

5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Apêndices 71

APÊNDICE A Manual de instalação . . . . . . . . . . . . . . . . . . . . . . . . . . 72A.1 Instalação de Pré-Requisitos . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

A.1.1 Instalando Java . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72A.1.2 Configurando as variáveis de ambiente Java . . . . . . . . . . . . . . . 72A.1.3 Instalando o PostgreSQL . . . . . . . . . . . . . . . . . . . . . . . . . 74A.1.4 instalando o PGAdmin4 . . . . . . . . . . . . . . . . . . . . . . . . . 74A.1.5 Instalando o SQL Power Architect . . . . . . . . . . . . . . . . . . . . 74

A.2 Instalando o pacote BI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74A.2.1 Configuração das ferramentas . . . . . . . . . . . . . . . . . . . . . . 75

Page 14: Aplicação de business intelligence como instrumento de ...

13

1Introdução

A partir das últimas décadas, com a explosão no uso dos computadores pessoais eo crescimento da Internet, aliados à crescente facilidade de acesso a dados, as organizaçõescomeçaram a perceber que fatores como diferencial competitivo e ascensão no mercado sãoobtidos mais facilmente por aqueles que aplicam estratégias de consulta aos dados operacionais.Tendo em vista a constante necessidade de se analisar grandes volumes de dados em ambientede produção, desenvolvedores sentiram a necessidade de novas estruturas que suportassem, deforma otimizada, os conceitos de multidimensionalidade de dados e navegabilidade hierárquicafacilitada. Neste sentido, o conceito de Business Intelligence vem oferecer meios de organizarprocessos de extração de conhecimento das bases de dados existentes nas organizações. Ossistemas de BI são geralmente associados às seguintes tecnologias: Data Warehouse (DW),Online Analytical Processing (OLAP) e Data Mining. O DW funciona como ferramenta dearmazenamento dos dados. OLAP, juntamente com Data Mining, são técnicas de descoberta deconhecimento utilizando os dados do DW (KHAN; QUADRI, 2012).

Um DW é um tipo especial de banco de dados que facilita a exploração de grandesvolumes de dados, proporcionando agregações e sumarizações de forma otimizada. De acordocom Inmon (2005), o termo é definido como “um depósito de dados orientado por assunto,integrado, não volátil, variável com o tempo, para apoiar decisões gerenciais”. As tecnologiasOLAP, por sua vez, são projetadas para apoiar consultas não triviais, além de auxiliar a sintetizarinformações através de comparações, visões personalizadas e dados históricos. As tecnologiasOLAP têm como característica principal permitir visões intuitivas dos dados multidimensionais,por meio de análises em diferentes perspectivas. OLAP também auxilia na exploração dos dadosarmazenados no DW, fornecendo funcionalidades para análise interativa de dados em diferentesdimensões e granularidades (INMON, 2005).

Utilizar o Business Intelligence na educação significa permitir que as instituições deensino se beneficiem de uma ampla gama de aplicações de softwares e ferramentas tecnológicas

Page 15: Aplicação de business intelligence como instrumento de ...

Capítulo 1. Introdução 14

úteis para relatar, analisar e apresentar dados em uma grande variedade de formatos. Dessa forma,é possível contribuir para a identificação de tendências e oportunidades capazes de oferecersuporte às tomadas de decisão de gestores educacionais.

Nos programas de pós-graduação, a Coordenação de Aperfeiçoamento de Pessoal deNível Superior (CAPES) realiza uma avaliação de forma quadrienal para assegurar e manter aqualidade dos programas de Mestrado e Doutorado no país. A avaliação por sua vez tem porprincipal base o Coleta de Dados da Capes (sucupira.capes.gov.br), que anualmente recolhe ainformação, fornecida pelos programas, de seu desempenho. É importante notar que, os critériosgerais de avaliação seguem quatro pilares básicos, que são essencialmente a produção científicados docentes e discentes (Através da pontuação qualis de cada publicação), a formação do corpodocente, a qualidade da formação dos alunos e, agora, também o impacto social do programa,cada área tem bastante liberdade para definir como vai operar a sua avaliação. É importanteenfatizar que a pontuação obtida na avaliação servem de base para a formulação de políticaspúblicas para a área de pós-graduação, também para as decisões sobre alocação de recursos econcessão de bolsas de estudo.

No contexto do programa de Pós-graduação em ciência da computação da UniversidadeFederal de Sergipe (PROCC), as ferramentas BI podem se tornar importantes instrumentosde tomada de decisão para a coordenação, onde poderá obter informações cruciais, comoo acompanhamento de desempenho do programa, comparação de desempenho com outrosprogramas e acompanhamento do desempenho dos discentes e docentes. Com esse objetivo,este trabalho de conclusão de curso propõe o desenvolvimento de um BI, utilizando um datawarehouse utilizando um sistema de ETL para a carga com os dados das publicações emperiódicos e conferencias de todos os programas de pós-graduação do Brasil.

1.1 Motivação

A coordenação do programa de pós-graduação em ciência da computação da Universi-dade Federal de Sergipe (PROCC) realiza uma pré avaliação do desempenho das publicações emperiódicos e conferencias de forma manual utilizando arquivos em Excel gerados pela secretariaque realiza a extração dos dados através do portal do ministério da educação (SUCUPIRA).Além de algo trabalhoso o PROCC não possui recursos ou mão de obra suficiente para fomentaras estatísticas necessárias.

1.2 Objetivos

1.2.1 Geral

O trabalho tem como objetivo implantar um ambiente de Business Intelligence paraa coordenação do Programa de Pós-Graduação em Ciência da Computação da Universidade

Page 16: Aplicação de business intelligence como instrumento de ...

Capítulo 1. Introdução 15

Federal de Sergipe.

1.2.2 Especificos

• Elaborar um modelo modelo multidimensional.

• Elaborar um sistema de Extract Transform Load(ETL) com os dados das publicações detodos os programas de pós-graduação ativos e carrega-los no Data warehouse.

• Elaborar cubos de dados.

• Disponibilizar uma ferramenta de consulta OLAP para auxiliar a tomada de decisão doscoordenadores do PROCC;

1.3 Metodologia

A metodologia utilizada na primeira etapa foi a pesquisa exploratória, com a realizaçãode uma revisão bibliográfica, planejando do data warehouse a ser implantado e estudado daferramenta BI a ser utilizada. Já na segunda etapa será feita a parte pratica, será realizada aimplementação da ferramenta escolhida utilizando o data warehouse desenvolvido nesse trabalho.

A pesquisa exploratória será para encontrar um entendimento inicial sobre os temas dotrabalho. A pesquisa bibliográfica será feita em livros e artigos relacionados a estes assuntos:Business Intelligence, data warehouse, ETL, OLAP. Na implementação da ferramenta será aaplicação pratica de todo o estudo, realizando a extração, transformação e carga dos dados ecriação de relatórios consistentes.

As etapas do roteiro a ser seguido são:

• Revisão da literatura sobre Data Warehouse, ETL e OLAP;

• Pesquisa sobre trabalhos relacionados;

• Estudo sobre ferramentas de BI;

• Especificação de requisitos;

• Escolha da ferramenta de BI que melhor atenda aos requisitos de negócio;

• Desenho do modelo de dados;

• Implementação e carga do Data Warehouse;

• Disponibilização da informação;

• Elaboração do presente trabalho.

Page 17: Aplicação de business intelligence como instrumento de ...

Capítulo 1. Introdução 16

Materiais e ferramentas utilizadas:

• Postgresql;

• SQL Power Architect;

• Pentaho BI Suite;

– Pentaho Data Integration;

– Pentaho Schema Workbench;

– Pentaho BI Server;

• Saiku Analytics;

1.4 Estrutura do Documento

A organização deste trabalho está da seguinte forma:

• 1. Introdução - Este capítulo aborda a contextualização, o problema, os objetivos do projetoe a organização do trabalho.

• 2. Fundamentação Teorica - Este capítulo sintetiza todo o conhecimento teórico necessáriopara entender o problema e fundamentos do Data warehouse e ferramentas de BI queutilizam modelagem multidimensional e OLAP.

• 3. Desemvolvimento - Este capítulo aborda os detalhes sobre o Data Warehouse construido,Cubo de dados, rotinas ETL utilizadas, construção do BI e consultas implementadas

• 4. Apresentação sobre a Ferramenta - Este capítulo apresenta em detalhes a ferramentaque foi construida, com suas principais funções e caracteristicas.

• 5. Conclusão - Este capítulo descreve as conclusões e considerações finais, assim como aspossibilidades de trabalhos futuros.

Page 18: Aplicação de business intelligence como instrumento de ...

17

2Fundamentação Teórica

Esse capítulo será apresentada toda a fundamentação teórica necessaria, como a definiçãode Sistemas de Apoio à Decisão e as principais características sobre os temas deste trabalho deconclusão de curso: data warehouse, ETL, modelagem multidimensional e OLAP.

2.1 Sistemas de Apoio a Decisão

Vários autores têm denominado SAD a qualquer sistema que forneça alguma contribuiçãoao processo de tomada de decisões não-estruturadas ou semi-estruturadas

Um SAD, segundo SPRAGUE (1989), caracteriza-se por:

• Direcionar-se, principalmente, para problemas não estruturados, que ocorrem com maisfreqüência nos altos níveis gerenciais;

• Combinar a utilização de técnicas de modelagens e analíticas, com funções tradicionais deacesso e recuperação de informações;

• Ter sua interface construída com os usuários visando, principalmente, a facilidade de uso;

• Enfatizar a flexibilidade e adaptabilidade para acompanhamento das mudanças, tanto doambiente, quanto nas diferentes necessidades de utilização por parte dos usuários.

Segundo Almeida (2002), diferente das outras abordagens de Sistemas de Informação,onde é preciso entender apenas como operar o sistema, num SAD o conhecimento de métodosde apoio a decisão é imprescindível para sua correta utilização. Vários autores sugerem que osdecisores atuem de forma integrada com um analista de decisões ou de pesquisa operacional((SPRAGUE, 1989); (BIDGOLI, 1989)).

Page 19: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 18

Para que o SAD auxilie no processo de tomada de decisão é preciso ser composto de umabase de dados que auxilia o sistema, uma base de modelos que provê a capacidade de análisee o diálogo que provê a interação entre o usuário e o sistema. A relação entre esses elementosconstitui a arquitetura de um SAD .

Na base de dados, estão presentes os dados internos e os externos, que podem se acessa-dos diretamente pelo usuário ou entram como input para a base de modelos. Os dados internosreferem-se aos conhecimento a priori de gerentes e aos dados provenientes dos sistemas transaci-onais da organização. Já os dados externos são necessários especialmente quando as decisõessão dos níveis mais altos da organização. De acordo com Bidgoli (1989), a base de dados deveráfornecer as informações de forma rápida e permitir sua manipulacão de forma eficiente.

A base de modelos provê a capacidade de análise para o SAD. Usando uma representaçãomatemática do problema, os algoritmos servem para gerar informação para auxiliar a tomada dedecisão (ALMEIDA, 2002).

2.2 Data warehouse

O Data warehouse é uma base de dados que armazena suas informações de maneiraorientada a satisfazer solicitações de tomadas de decisão (CHAUDHURI; DAYAL, 1997). Adiferença entre um típico banco de dados transacional e um data warehouse, consiste na maneiracomo esses dados são armazenados. Em vez de existirem múltiplos ambientes de decisãooperando de forma independente, o que com frequência traz informações conflituosas, um datawarehouse unifica as fontes de informações relevantes, de maneira que a integridade qualidadedos dados são garantidas (SHARMA et al., 2012). Dessa forma, Chaudhuri e Dayal (1997) afirmaque o ambiente de Data Warehousing possibilita que seu usuário realize buscas complexas demaneira mais amigável diretamente em um só ambiente, em vez de acessar informações atravésde relatórios gerados por especialistas.

Em Inmon (2005) é descrito que o data warehouse é uma coleção de dados que temcomo característica ser orientada a assunto, integrada, não volátil e temporal. Por orientação aassunto, podemos entender como um foco em algum aspecto específico da organização, comopor exemplo as vendas de uma loja. O fato do ambiente ser integrado remete ao fato deleser alimentado com dados que têm como origem de múltiplas fontes, integrando esses dadosde maneira a construir uma única orientação. Como um conjunto não volátil e temporal dedados, é entendido que a informação carregada remete a um determinado momento da aplicação,possibilitando assim acesso a diferentes intervalos de tempo, não havendo como modificá-losatualizando em tempo real.

São vários os tipos de aplicação que um data warehouse suporta. A seguir algunsexemplos.

Page 20: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 19

OLAP (online analytical processing – processamento analítico on-line): Conjunto deprincípios que fornecem uma estrutura dimensional de apoio à decisão (KIMBALL; ROSS,2011). As ferramentas OLAP empregam as capacidades de computação distribuída para análisesque requerem mais armazenamento e poder de processamento do que pode estar localizadoeconômica e eficientemente em um desktop individual (ELMASRI; NAVATHE, 2011).

DSS (decision-support systems– sistemas de apoio à decisão): são sistemas que ajudamos principais tomadores de decisões de uma organização com dados de nível mais alto emdecisões complexas e importantes (ELMASRI; NAVATHE, 2011). Segundo Kimball et al. (2008)os DSSs têm como objetivo tornar a informação de uma organização acessível e consistente,prover uma fonte adaptável e resiliente de informações, e garantir a segurança aos dados paraassim ser um sistema base para a tomada de decisão.

OLTP (online transaction processing – processamento on-line de transações): bancosde dados tradicionais têm suporte para o OLTP, com suas operações de inserção, atualização eexclusão e também à consulta de dados. Sharma et al. (2012) explica que sistemas OLTP usamtabelas simples para armazenar dados, estes que são normalizados, para se reduzir a redundânciaou até mesmo eliminá-los, buscando sempre a garantia de sua consistência.

2.2.1 Características dos Data Warehouses

Em Elmasri e Navathe (2011) diferencia um data warehouse de uma estratégia demultibancos de dados afirmando que o primeiro possui um armazenamento em um modelomultidimensional, assim dados de múltiplas fontes são integrados e processados para tal e sendoassim contrário ao segundo, que oferece acesso a bancos de dados disjuntos e normalmenteheterogêneos. A vantagem se nota pela adoção de um padrão de design mais conciso, que podelevar a uma menor complexidade de implantação.

Diferentemente da maioria dos banco de dados transacionais, data warehouses costumamapoiar a análise de série temporal e tendência, ambas exigindo mais dados históricos do quegeralmente é mantido nos bancos de dados transacionais. É importante notar também que osdata warehouses são não-voláteis. Sendo assim, suas informações possuem a característicade mudarem de uma forma muito menos frequente, portanto dificilmente seria enquadradacomo uma informação em tempo real, e sim como uma de atualização periódica (ELMASRI;NAVATHE, 2011).

Segundo Inmon (2005) o Datawa-rehouse deve possuir as seguintes caracteristicas:

• Conjunto de dados orientado ao assunto, quando, pode ser utilizado para analisar umaassunto específico, como por exemplo, educação profissionalizante.

• Integrado entende-se que o mesmo integra dados de diversas fontes de dados, por exemplo,um produto pode ser identificado de um forma na fonte A e totalmente diferente na fonte

Page 21: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 20

B mas em um data warehouse deve haver apenas uma única maneira de identificar umproduto.

• Não-volátil, pois uma vez que os dados estão no data warehouse, ele não ser alterado.

• Variável em relação ao tempo uma vez que os dados históricos são mantidos, ou seja,pode-se recuperar dados de 3 meses, 6 meses, 12 meses ou até dados mais antigos de umdata warehouse.

2.2.2 Componentes Básicos de um Data Warehouse

A Figura 1 representa a estrutura básica de um data warehouse segundo Kimball e Ross(2002). Os componentes apresentados serão definidos em seguida.

Figura 1 – Elementos básicos de um data warehouse extraído de Kimball e Ross (2002).

Sistemas de Fonte de Dados Operacionais (OSS - Operational Source Systems): Repre-senta os sistemas que irão prover informações para o data warehouse. Seus dados podem serprovenientes de outros sistemas OLTPs, planilhas e etc, que compõem o negócio a ser tratado.Devem ser pensados como fora do data warehouse porque há pouco ou nenhum controle sobre oconteúdo e formato dos dados presentes nestes tipos de sistemas legados (KIMBALL; ROSS,2002).

Área de Preparação dos Dados (DSA - Data Staging Area): É onde irá ocorrer a possívellimpeza e reformatação dos dados antes que sejam carregados no data warehouse (ELMASRI;NAVATHE, 2011). Essas tarefas caracterizam os passos do processo que consistem na extração,transformação e carga dos dados, conhecido como Extraction-Transformation-Load (ETL). Cadaum dos passos recebe a seguinte descrição:

Page 22: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 21

• Extração: Primeira etapa do processo de ETL, consiste na leitura e entendimento da fontedos dados, copiando os que são necessário para futuros trabalhos (KIMBALL; ROSS,2002).

• Transformação: Após a etapa de extração ter sido feita, os dados podem receber diversostipos de transformações, que incluem correções de conflitos, conversão de formatos,remoção de campos que não são úteis, combinação entre dados de diversas fontes, entreoutros (KIMBALL; ROSS, 2002).

• Carga: Após ter sido realizado o processo de transformação, os dados já estão prontospara serem carregados no data warehouse, tornando possível que todos os dados visualiza-dos após esse processo reflitam a informação que passou pelos processos de extração etransformação (SHARMA et al., 2012).

Área de Apresentação dos Dados (DPA - Data Presentation Area): Representa a áreaonde os dados são organizados, armazenados e disponibilizados para consulta direta pelosusuários, autores de relatórios e outras aplicações. Os dados da área de apresentação devemser dimensionais e atômicos e devem estar de acordo com a arquitetura do data warehouse(KIMBALL; ROSS, 2002).

Ferramentas de Acesso de Dados (DAT - Data Access Tools): Representa a área ondeuma variedade de ferramentas e técnicas podem ser utilizadas para apresentar aos usuários denegócio as consultas feitas aos dados do data warehouse. A apresentação dos dados nessa áreadeve prover insumos que irão ajudar na tomada de decisões analíticas (KIMBALL; ROSS, 2002).

Metadados: Definido como toda a informação no ambiente de data warehouse que nãosão os dados em si (KIMBALL; ROSS, 2002). Os metadados num ambiente data warehousepodem apontar para dados sobre tabelas do sistema, índices, relacionamentos, e etc. Kimball eRoss (2002) recomenda que a arquitetura de um DW seja orientada a metadados, devido a seupapel crítico de prover informações e parâmetros que permitem que as aplicações executaremsuas tarefas com um controle maior sobre os dados provenientes das fontes de dados e outroselementos fundamentais para sua execução.

2.2.3 Modelagem Dimensional

Kimball e Ross (2002) afirma que a habilidade de visualizar algo tão abstrato comoum conjunto de dados de maneira concreta e tangível é o segredo da compreensibilidade, demodo que um modelo de dados que se inicia de forma simples tende a ser simples até o final damodelagem, ao contrário de um modelo que já se inicia de forma complicada. Nesse contexto, omodelo dimensional difere em muitos aspectos do modelo normalizado em sua terceira formanormal, também conhecido como modelo entidade-relacionamento. O modelo normalizadocontém seus dados divididos em muitas entidades, cada qual identificada como uma tabela,

Page 23: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 22

buscando assim evitar redundância entre os dados, sendo eles armazenados em tempo real namedida que forem atualizados. O problema associado a essa solução é a tamanha complexidadeadquirida pelos modelos, uma vez que são criadas um número grande de tabelas dificultandoassim sua navegação. Em um sentido oposto, a modelagem dimensional resolve esse problemaassociado à complexidade, uma vez que, mesmo possuindo as mesmas informações que ummodelo normalizado, elas estão modeladas de forma que estejam em sintonia com o entendimentodo usuário e ao alto desempenho de consultas.

2.2.4 Tipos de Tabelas do Modelo Dimensional

Um modelo dimensional é composto por tabelas fatos e tabelas dimensões, que quandojuntas formam o esquema estrela.

• Tabela de fato é a tabela primária no modelo dimensional. O termo fato está associado àmaneira como ela representa uma medida de negócio (KIMBALL; ROSS, 2002).

• Tabela dimensão contém descrições textuais dos negócios envolvidos, o que a torna achave para que o modelo seja utilizável e de fácil entendimento. Kimball e Ross (2002)faz uma relação direta entre a qualidade do data warehouse como um todo e a qualidade eprofundidade dos atributos das tabelas dimensão.Isto é, as dimensões determinam o fundocontextual para os fatos

2.2.5 Esquema Dimensional

Segundo Passos e Goldschmidt (2005) existem dois tipos mais comuns de esquemas sãoo esquema estrela e o esquema floco de neve. O esquema estrela é o mais famoso, consiste emuma tabela de fatos com uma única tabela para cada dimensão (ELMASRI; NAVATHE, 2011).Os fatos são cercados por relações com as dimensões do problema. Este termo é usado pois aestrutura resultante parece uma estrela.

A Figura 2 mostra o esquema estrela logicamente, onde a tabela de fatos é centralizada,enquanto as tabelas de dimensão ficam ao redor relacionadas somente a ela.

O esquema floco de neve é resultado da normalização e expansão das tabelas de dimensãodo esquema estrela (ELMASRI; NAVATHE, 2011). A Figura 3 ilustra um exemplo de esquemafloco de neve, onde as dimensões produto e vendedor foram normalizadas. Por ter sido baseadana Figura 3, é possível afirmar que este esquema é uma extensão do esquema estrela.

2.3 OLAP

A sigla OLAP é originada de On Line Analytical Processing, refere-se ao tipo deprocessamento e ferramentas voltadas para a análise de dados típica do suporte a decisão, onde

Page 24: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 23

Figura 2 – Exemplo de Esquema Estrela

Figura 3 – Exemplo de Esquema Floco de Neve

os dados são apresentados através do modelo de visão multidimensional. As visões independemda forma como os dados estão armazenados (INMON, 1997).

Segundo Laudon e Laudon (1998), OLAP é uma tecnologia projetada para permitiracesso e análises multidimensionais sobre os diversos níveis de negócios da empresa.

Do ponto de vista prático, conforme Laudon e Laudon (1998), OLAP sempre envolveconsultas interativas aos dados, percorrendo um caminho de análises através de múltiplascamadas, podendo aprofundar-se até o nível mais baixo de uma informação específica.

Se comparada com o tipo de processamento OLTP, a modalidade OLAP apresenta

Page 25: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 24

características completamente distintas, conforme pode ser verificado na tabela 1.

Tabela 1 – Comparativo OLTP e OLAP

OLTP OLAPModelo Relacional Modelo Multidimensional

Dados Individualizados Dados sumarizadosValor Presente Valor histórico

Acessa um registro por vez Acessa muitos registros por vezOrientação para o processo Orientação para o negócio

2.3.1 Tipos de OLAP

Apesar de obedecer a uma estrutura cliente/servidor multiusuário, as ferramentas OLAPpodem ser implementadas de diversas formas, classificadas em três principais tipos a seguir(INMON, 1997):

• MOLAP (Multidimensional On Line Analytical processing);

• ROLAP (Relational On Line Processing);

• HOLAP (Hybrid On Line Analytical Processing);

Na arquitetura MOLAP os dados ficam armazenados em um banco de dados multidimen-sional, onde o servidor MOLAP atua e o usuário trabalha, monta e manipula os dados diferentesno servidor (CARVALHO, 2003). Os dados de um banco multidimensional são armazenadosem um espaço menor que o utilizado para armazenar os mesmos dados em um banco de dadosrelacional. No banco multidimensional, os dados são mantidos em estruturas de dados do tipoarray de maneira a prover um melhor desempenho ao acessá-los. Além de ser uma arquiteturarápida uma outra vantagem é o rico e complexo conjunto de funções de análises presentes nosbancos multidimensionais (CARVALHO, 2003).

Já a arquitetura ROLAP é uma simulação da tecnologia OLAP feita em banco dedados relacionais que, por utilizar a estrutura relacional, possui a vantagem de não restringir ovolume de armazenamento de dados (CARVALHO, 2003). Essa ferramenta não utiliza cubospré-calculados como a MOLAP. À medida que o usuário monta sua consulta em uma interfacegráfica, a ferramenta acessa os metadados ou quaisquer outros recursos que possua, para geraruma consulta SQL (Structured Query Language) (THOMSEN, 2002).

A arquitetura HOLAP, ou processamento híbrido, está se tornando a mais popular paraos produtos atuais, porque consegue combinar a capacidade e a escalabilidade das ferramentasROLAP com o desempenho superior dos bancos de dados multidimensionais (THOMSEN, 2002).Por exemplo, suponha uma base de 50.000 clientes distribuídos em 500 cidades, 23 estados, 5

Page 26: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 25

regiões e um total geral. Até o nível de cidades o armazenamento multidimensional resolveria asconsultas para levantar totais de vendas. Porém, se fosse necessário consultar o total de vendasde um determinado cliente, o banco de dados relacional responderia com muito mais rapidez àsolicitação. Essa situação é típica para a indicação da arquitetura HOLAP (CARVALHO, 2003).

2.3.2 Caracteristicas do OLAP

A modelagem multidimensional adotada pelo OLAP é associada de maneira metafóricanaliteratura a um cubo de dados, cujas arestas definem as dimensões dos dados e as célulasdocubo contém valores de medida (KIMBALL; ROSS, 2002). Os cubos de dados têm um foconasnecessidades de negócio e podem ser exemplificados como na Figura 4:

Figura 4 – Cubo de dados com o fato Venda e dimensões Produto, Funcionário e Tempo.

Segunda Sharma et al. (2012) e Kimball e Ross (2002) as operações possíveis de seremaplicadas a um cubo OLAP são categorizadas a seguir.

• Drill Down: Drilling em modelagem multidimensional significa ir de um nível hierárquicoa outro. Portanto, Drill Down busca aumentar o nível de detalhamento, partindo de umcerto nível de dados para um nível mais detalhado.

• Drill Up: Ao contrário da operação Drill Down, a Roll Up parte de um nível mais detalhadopara um nível menos detalhado.

• Slice and Dice: Técnica com filosofia parecida à cláusula where usada em SQL. Permiteque sejam criadas restrições na análise dos dados.

• Drill Across: Permite que diferentes cubos sejam concatenados. Uma operação do tipo DrillAcross irá simplesmente unir diferentes tabelas fato através de dimensões correspondentes.

Page 27: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 26

• Pivoting: Metaforicamente, significa rotacionar o cubo. Essa técnica altera a ordenaçãodas tabelas dimensionais.

A Figura 5, mostra o fluxo percorrido pelo Drill Down e pelo Drill Up nas consultasOLAP:

Figura 5 – Diferença entre o fluxo seguido pelo Drill Up e pelo Drill Down, extraída de Sharmaet al. (2012)

2.4 Pentaho BI Suite

Pentaho BI é uma suíte completa de código aberto, desenvolvida em Java, e é o resultadoda integração de diversas ferramentas de BI desenvolvidas de modo independente. A soluçãoproporciona a transformação de dados (ETC), desenvolvimento de relatórios, análises OLAP,painéis (dashboards) e mineração de dados (data-mining), A Figura 6 mostra a solução BIutilizando pentaho.

Segundo o Gartner Group (www.gartner.com/), o Pentaho BI Community Edition é aplataforma de BI open source mais utilizada no mundo. No Brasil, há um crescente interessepela sua utilização em soluções corporativas, inclusive na Área da Educação.

Nesta seção, serão apresentados os tipos de licenças, bem como as ferramentas necessá-rias para o desenvolvimento de um projeto de BI de ponta-a-ponta, desde a integração dos dadosaté os relatórios para os usuários finais.

2.4.1 Licenças e formas de obtenção

A plataforma Pentaho BI oferece duas edições diferentes: uma é a Community Edition(CE) e a outra é a Enterprise Edition (EE).

A CE é distribuída como código aberto para desenvolvimento cooperativo pela co-munidade, através da Licença Pública da Pentaho (PPL - Pentaho Public License). Exis-tem diversas versões disponíveis e podem ser baixadas gratuitamente, através do endereçohttp://sourceforge.net/projects/pentaho/files/.

Page 28: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 27

Figura 6 – Solução de BI com Pentaho

A EE é uma suíte de ferramentas já previamente integradas e algumas mais desenvolvidasque a versão livre. Além disso, conta com suporte técnico, manutenção com atualizaçõesfrequentes e acesso a uma melhor documentação e treinamento. O download da versão EE deavaliação pode ser efetuado no próprio sítio do Pentaho (http://www.pentaho.com/), para testesdurante 30 dias. Após esse período, é necessário realizar a compra da licença, pois se trata de umsoftware comercial.

2.4.2 Arquitetura

A suite Pentaho é formada por um conjunto de softwares voltados para construçãode soluções de BI de ponta-a-ponta, que inclui programas para extrair os dados de sistemasde origem em uma empresa, gravá-los em um data warehouse (ou base de dados), limpá-los,prepará-los e entregá-los a outros sistemas de destino ou mesmo a outros componentes da suítepara estudar ou dar acesso aos dados ao usuário final.

2.4.2.1 Pentaho Data Integration (PDI)

O Pentaho Data Integration é o componente da suíte Pentaho usado para criar processosde extração, transformação e carga (do inglês Extraction, Transformation and Loading, ETL)que alimentam o banco de dados. Trata-se da ferramenta mais popular e madura da suíte inteira,com seus mais de 15 anos de existência.

Com o Pentaho Data Integration é possível fazer inúmeras operações de Integração deDados. Como por exemplo:

• Migração de dados;

• Movimentação de grandes volumes de dados;

• Transformação de dados;

Page 29: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 28

• Limpeza de dados;

• Conformidade de dados,

O Pentaho Data Integration é formado por duas categorias de artefatos, Jobs e Transfor-maços, e estes artefatos são construídos por meio de sua interface gráfica, o Spoon. O Spoon é ainterface gráfica do Pentaho Data Integration que facilita na concepção de rotinas e lógica ETL.A seguir, apresentamos a interface do Spoon. A Figura 7 detalha o spoon.

Figura 7 – Detalhes sobre o spoon

Uma transformação registra o passo-a-passo de como a extração ou leitura de uma fontede informação é realizada. É a transformação que opera sobre os dados. Ela pode conter:

• Leitura de dados de uma tabela, de um banco de dados;

• Seleção de campos específicos de uma tabela;

• Concatenação de valores de dois campos distintos de uma tabela;

• Divisão de valores contidos em um único campo gerando dois ou mais novos campos oulinhas;

• Merge de dados de tabelas contidas em bancos de dados diferentes;

• Merge de dados originados em tabelas, arquivos XML, TXT ou CSV, entre outras fontesde dados;

Page 30: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 29

• Aplicação de expressões regulares em texto para limpeza.

O aspecto mais importante em uma transformação é que ela opera todas as etapassimultaneamentes - uma transformação não tem início ou fim, ela apenas processa linhas quechegam.

Em Um Job, ele sequencia operações. Ao contrário de uma transformação, que operasobre as linhas de dados em paralelo, um job realiza operações completas, uma por uma. Elepermite, por exemplo, combinar transformações em uma sequência específica e, com isto,automatizar uma dada tarefa. Por sua natureza, ele não fornece muitos recursos técnicos paramanusear os dados em si, deixando isto à cargo das transformações.

A Tabela 2 faz um comparação entre Transformação e Jobs

Tabela 2 – Comparativo OLTP e OLAP

Jobs(*.kjb) Transformação(*.ktr)Passos são executados sequencialmente Passos são executados simultaneamente

Opera sobre o fluxo de ações Opera sobre as linhas de dadosCriar/apagar tabelas Carga de Dados

Testar condições Aplicação de regras de negócio

O Pentaho Data Integration, é parte das soluções disponibilizadas pela suite Pentaho,possui versões Community e Enterprise mas a diferença existente entre as versões não representanenhum impeditivo para o uso da versão Community. A versão Community possui todos os recur-sos necessários a qualquer implementação que se deseje realizar e possui vasta disponibilidadede plugins para serem utilizados, inclusive plugins que geram a documentação de projetos.

2.4.2.2 Pentaho Schema Workbench (PSW)

O Schema Workbench é uma interface de design, desenvolvida em Java, que permiteo desenvolvimento e testes de esquemas de cubos OLAP, através de arquivos XML, que sãoexecutados pelo Mondrian, o engine OLAP do Pentaho. Na Figura 8 mostra um exemplo dePSW.

O PSW fornece as seguintes funcionalidades:

• Editor de esquema integrado, para construção dos cubos OLAP, apresentando a fonte dosdados no rodapé para validação;

• Testes das consultas MDX (multi-dimensional expressions ou expressões multidimensio-nais) nos esquemas e nas bases de dados;

• Visualização da estrutura da base de dados.

Page 31: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 30

Figura 8 – Tela inicial do Schema Workbench

2.4.2.3 Pentaho Aggregation Designer (PAD)

É uma ferramenta gráfica, desenvolvida em Java, para simplificar a criação e implantaçãode tabelas agregadas, melhorando o desempenho das análises no Pentaho e seus Cubos (OLAP).Ela fornece uma interface simples que permite criar tabelas agregadas de dimensões com níveis,de acordo com a especificação necessária. Na figura 9 mostra um exemplo de PAD.

Figura 9 – Tela inicial do PAD

Page 32: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 31

2.4.2.4 Pentaho BI Server

Front-end de interação com o usuário final. Provê dois “auto-serviços” conhecidos comoPUC (Pentaho User Console) e PAC (Pentaho Administration User). O WAQR (Web AdHocQuery and Reporting) permite criação de relatórios on-line, via web, e o OLAP (On LineAnalytical Processing) permite navegação através de níveis (nível agregado ao menor grão). Eem se tratando de BI, o OLAP é o coração da análise e dá acesso aos relatórios publicados peloReport Designer. A Figura 10 mostra o pentaho BI server.

Figura 10 – Tela inicial do pentaho BI server

2.4.2.5 Pentaho Report Designer (PRD)

É uma ferramenta para geração de relatórios que tem a capacidade de se conectar amúltiplas fontes de dados, como, por exemplo, SQL, MDX e Community Data Access. Ela écapaz de gerar relatórios em PDF, Excel, HTML, CSV etc.

2.4.2.6 Saiku Analytics

O Saiku Business Analytics é um cliente web OLAP disponível como plugin para oPentaho Business Intelligence Server. Ele usa o Pentaho Analisys (Mondrian) para proporcionaruma forma fácil e amigável de usar o recurso de cubos OLAP com uma experiência simples parausuário final. Na Figura 11 mostra um exemplo de report no saiku.

O Saiku permite que os usuários de negócios explorem fontes de dados complexas,usando uma interface familiar de arrastar e soltar e terminologia de negócios fácil de entender,tudo dentro de um navegador. Selecione os dados que você está interessado, olhe para ele deperspectivas diferentes, faça um detalhamento. Depois de ter sua resposta, salve seus resultados,compartilhe-os, exporte-os para o Excel ou PDF, tudo diretamente do navegador. Assim como o

Page 33: Aplicação de business intelligence como instrumento de ...

Capítulo 2. Fundamentação Teórica 32

Figura 11 – Exemplo de report no saiku

Pentaho Business Intelligence, o Saiku tem uma versão community (Saiku CE) e uma versãocomercial(Saiku EE).

Page 34: Aplicação de business intelligence como instrumento de ...

33

3Desenvolvimento

O presente capitulo tem por objetivo demonstrar a aplicação dos conceitos de BusinessIntelligence, abordados nos capítulos anteriores, em um ambiente real. As estratégias, necessida-des, pré-requisitos, instalação e resultados de todo o processo de criação do DW, sistemas deETL e OLAP serão destacados nas seções seguintes.

Na primeira seção deste capítulo, será descrito o cenário do estudo de caso, suas peculi-aridades e todas suas necessidades informacionais. Depois serão descritas todas as atividadesnecessarias para a criação de um ambiente de Business Intelligence. Como a preparação doambiente, criação do modelo relacional do Data warehouse, criação do sistema de ETL e aelaboração da interface OLAP. Por fim, a interface Web, destinada aos tomadores de decisão,será apresentada juntamente com todos os recursos OLAP nela presentes. Os resultados dasconsultas OLAP serão demonstrados no capitulo 4.

3.1 Estudo de Caso

Está seção apresentara todos os detalhes do estudo de caso sobre a avaliação quadrienalaplicada pela a CAPES em todos os programas de pôs-graduação. Detalhando todas as carac-teristicas necessarias para a realização do processo de ETL do data warehouse e geração dosrelatorios necessarios.

A Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), fundação doMinistério da Educação (MEC), desempenha papel fundamental na expansão e consolidação dapós-graduação stricto sensu (mestrado e doutorado) em todos os estados da Federação (CAPES,2019).

Em 2007, passou também a atuar na formação de professores da educação básica,ampliando o alcance de suas ações na formação de pessoal qualificado, no Brasil e no exterior(CAPES, 2019).

Page 35: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 34

As atividades da CAPES são agrupadas nas seguintes linhas de ação, cada qual desenvol-vida por um conjunto estruturado de programas (CAPES, 2019):

• avaliação da pós-graduação stricto sensu;

• acesso e divulgação da produção científica;

• investimentos na formação de recursos humanos de alto nível, no país e exterior;

• promoção da cooperação científica internacional;

• indução e fomento da formação inicial e continuada de professores para a educação básicanos formatos presencial e a distância.

A CAPES tem sido decisiva para os êxitos alcançados pelo sistema nacional de pós-graduação, tanto no que diz respeito à consolidação do quadro atual, como na construção dasmudanças que o avanço do conhecimento e as demandas da sociedade exigem (CAPES, 2019).

O sistema de avaliação, continuamente aperfeiçoado, serve de instrumento para a co-munidade universitária na busca de um padrão de excelência acadêmica para os mestrados edoutorados nacionais. Os resultados da avaliação servem de base para a formulação de políticaspara a área de pós-graduação, bem como para o dimensionamento das ações de fomento (bolsasde estudo, auxílios, apoios) (CAPES, 2019).

3.1.1 Avaliação dos cursos de Pós Graduação

A Avaliação do Sistema Nacional de Pós-Graduação, na forma como foi estabelecidaa partir de 1998 , é orientada pela Diretoria de Avaliação/CAPES e realizada com a parti-cipação da comunidade acadêmico-científica por meio de consultores ad hoc. A avaliação éatividade essencial para assegurar e manter a qualidade dos cursos de Mestrado e Doutorado nopaís(AVALIACAOCAPES, 2019).

Os objetivos da avaliação de acordo com avaliacaocapes (2019) são:

• Certificação da qualidade da pós-graduação Brasileira (referência para a distribuição debolsas e recursos para o fomento à pesquisa);

• Identificação de assimetrias regionais e de áreas estratégicas do conhecimento no SNPGpara orientar ações de indução na criação e expansão de programas de pós-graduação noterritório nacional.

O Sistema de Avaliação pode ser dividido em dois processos distintos que se referem àentrada e à permanência dos cursos de mestrado profissional (MP), mestrado acadêmico (ME) edoutorado (DO) no SNPG (AVALIACAOCAPES, 2019).

Page 36: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 35

A avaliação é realizada de forma quadrienal em 49 áreas de avaliação, número vigente em2017, e segue uma mesma sistemática e conjunto de quesitos básicos estabelecidos no ConselhoTécnico Científico da Educação Superior (CTC-ES) (AVALIACAOCAPES, 2019).

3.1.2 Avaliação Quadrienal

O Sistema de Avaliação desenvolvido pela CAPES pode ser dividido em dois processosdistintos que se referem à entrada e permanência dos cursos de mestrado profissional (MP),mestrado acadêmico (ME) e doutorado (DO) no SNPG Figura 12.

Figura 12 – Divisão do sistema de avaliacao segundo avaliacaocapes (2019).

De acordo com quadrienal (2019) ambos os processos são conduzidos com base nosmesmos fundamentos:

• Reconhecimento e Confiabilidade fundados na qualidade assegurada pela análise dospares;

• Critérios debatidos e atualizados pela comunidade acadêmico-científica a cada períodoavaliativo;

– no portal da CAPES;

– nas páginas das áreas de avaliação.

A Avaliação Quadrienal é parte do processo de Permanência, e é realizada em 49 áreasde avaliação, número vigente em 2017, seguindo sistemática e conjunto de quesitos básicosestabelecidos no Conselho Técnico Científico da Educação Superior (CTC-ES) quadrienal(2019), seguindo fluxo da Figura 13.

Os resultados da avaliação periódica de programas de pós-graduação são expressos emnotas, numa escala de 1 a 7, que são atribuídas aos mestrados e doutorados após análise dosindicadores referentes ao período avaliado. Esta análise é conduzida nas comissões de área deavaliação e, posteriormente, no CTC-ES, que homologa os resultados finais. São estes resultadosque fundamentam a deliberação do Conselho Nacional de Educação - CNE/MEC sobre quais

Page 37: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 36

Figura 13 – Divisão do sistema de avaliacao retirado de avaliacaocapes (2019).

cursos obterão a renovação de reconhecimento para a continuidade de funcionamento no períodosubsequente (QUADRIENAL, 2019).

3.1.3 Qualis

A função do QUALIS é exclusivamente para avaliar a produção científica dos programasde pós-graduação. Qualquer outro uso fora do âmbito da avaliação dos programas de pós-graduação não é de responsabilidade da CAPES (CAPESQUALIS, 2019).

A classificação de periódicos é realizada pelas áreas de avaliação e passa por processoanual de atualização. Esses veículos são enquadrados em estratos indicativos da qualidade - A1,o mais elevado; A2; A3; A4; B1; B2; B3; B4; e C - com peso zero (CAPESQUALIS, 2019).

A classificação ainda é feita pelos comitês compostos por consultores de cada área deavaliação. Os critérios são previamente definidos pela área e aprovados pelo Conselho Técnico-Científico da Educação Superior (CTC-ES) (CAPESQUALIS, 2019).

Para isso, os membros buscam refletir a importância relativa dos diversos periódicospara uma determinada área. Todos os critérios, tanto os específicos quanto os gerais, usadosem cada campo de avaliação são fornecidos nos respectivos Documentos de Área da Capes(CAPESQUALIS, 2019).

3.1.4 Documentos de Área

Os documentos de área são referência para os processos avaliativos, tanto na elaboraçãoe submissão de propostas de cursos novos quanto na avaliação quadrienal dos cursos em funcio-namento. Neles estão descritos o estado atual, as características e as perspectivas, assim como os

Page 38: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 37

quesitos considerados prioritários na avaliação dos programas de pós-graduação pertencentes acada uma das 49 áreas de avaliação (AVALIACAOCAPES, 2019).

Em conjunto com as Fichas de Avaliação e os Relatórios de Avaliação, os Documentos deÁrea constituem o trinômio que expressa os processos e os resultados da Avaliação Quadrienal(AVALIACAOCAPES, 2019).

Na avaliação serão considerados a produção total do programa em periódicos e conferên-cias pelos docentes e discentes, o índice geral (IGeral) e o índice restrito (IRestrito) dos docentese discentes do programa e o índice geral (IG) e índice restrito (IR) das conferências e periódicos(ÁREA; PHILIPPE NORBERTO, 2016).

Para o cálculo do IG e do IR serão utilizadas as seguintes definições e fórmulas (ÁREA;PHILIPPE NORBERTO, 2016):

• NDA = Número de professores ativos que compõe o corpo docente do programa;

• NPA(i) = Número de publicações em periódicos classificados nos estratos A(i);

• NPB(i) = Número de publicações em periódicos classificados nos estratos B(i);

• NCA(i) = Número de publicações em conferências classificadas nos estratos A(i);

• NCB(i) = Número de publicações em conferências classificadas nos estratos B(i);

• NPGeral = NPA(1) x 1,0 + NPA(2) x 0,85 + NPB(1) x 0,70 + NPB(2) x 0,50 + NPB(3) x0,20 + NPB(4) x 0,10 + NPB(5) x 0,05 ;

• NCGeral = NCA(1) x 1,0 + NCA(2) x 0,85 + NCB(1) x 0,70 + NCB(2) x 0,50 + NCB(3)x 0,20 + NCB(4) x 0,10 + NCB(5) x 0,05;

• NPRestrito = NPA(1) x 1,0 + NPA(2) x 0,85 + NPB(1) x 0,70;

• NCRestrito = NCA(1) x 1,0 + NCA(2) x 0,85 + NCB(1) x 0,70;

• IGeral = (NPGeral + NCGeral)/NDA;

• IRestrito = (NPRestrito + NCRestrito)/NDA;

Os documentos de área e os relatórios de avaliação encontram-se disponíveis nas respec-tivas páginas das áreas de avaliação.

3.2 Cenário

O cenário de aplicação deste estudo de caso foi a Coordenação do programa de Pós-graduação em Ciência da Computação da Universidade Federal de Sergipe. O programa foi

Page 39: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 38

escolhido pela a necessidade de um ambiente que auxile a coordenação a extrair informaçõesimportantes sobre o desempenho e manuntenção do programa na avaliação da CAPES.

No estudo de caso ficou nitida a importancia de algumas informações para obter umambiente BI que satisfaça as necessidades de informação da coordenação, que de acordo com oscriterios de avaliação da CAPES serão os indicadores que envolvem as publicações em periódicose conferências, como a nota qualis de cada veiculo a qual foi publicado, autor, ano da publicação,quadriênio, entre outros.

Tais informações antes de serem carregadas no data warehouse, deverão passar por umsistema de ETL, que sistematicamente realizará o tratamento e limpeza dos dados oriundos dosdiversos arquivos fornecidos pela a coordenação para a inserção no DW.

Com o DW carregado é necessario a criação de um modelo de dados OLAP, onde ainformação será conceitualmente organizada em cubos de dados. De acordo com o estudo de caso,será criado dois cubos de dados, sendo o primeiro "Desempenho_Programa"especificamentevoltado para as informações sobre o desempenho nas publicações do programa e "Desempe-nho_Publicacoes"que terá as informações dos autores nas publicações, em especial a categoriados mesmos.

Após a descoberta dos requisitos do negócio, pôde-se dar início ao desenvolvimento dosistema de Business Intelligence. Nas próximas seções, será abordada a preparação do ambiente,concepção do Data Warehouse, o processo ETL, desemvolvimento OLAP e a integração entre aplataforma de BI e os dados.

3.3 Criação do ambiente

Esta seção será descrito todos os detalhes da criação do ambiente de simulação de umservidor de Business intelligence. O mesmo servirá como laboratorio de testes para a concepçãode todo o desenvolvimento do projeto.

Antes de criar o ambiente de testes, é crucial realizar uma analise de pré-requisitos, paraentender a real necessidade de alocação de recursos no ambiente. Entendo quais são os requisitosminimos para o pleno funcionamento das ferramentas utilizadas na solução.

Após uma analise ficou definido como requisitos minimos:

• 2 núcleos de processamento;

• 4 GB de memória RAM;

• 35 GB de armazenamento;

No caso do sistema operacional(SO) a ser utilizado, é algo opcional, a instalação dasferramentas no SO se assemelha muito, mas é aconselhado algumas distribuições especificas

Page 40: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 39

para o pleno funcionamento. Se for escolhido utilizar o Windows é aconselhado utilizar a versão10 e em caso de utilizar linux usar a distribuição CentOS 7.

3.4 Preparação do ambiente

Inicialmente o ambiente foi planejado e intalado em um SO linux, mais especificamenteno CentOS 7, com o esforço do orientador Andre Britto, que conseguiu um servidor com umambiente windows, o SO do ambiente de testes foi alterado para o mesmo utilizado no servidor,assim toda a instalação das ferramentas foi refeita.

As soluções Pentaho permitem essa troca de ambiente de forma rapida, segura e pratica,os passos para Instalação do Windows são similares a instalação em Linux possuindo apenasalgumas particularidades do sistema da Microsoft. Nesta seção será explicado os passos para ainstalação nos dois ambientes.

3.4.1 Instalação de Pré Requisitos

O primeiro passo para ter um BI funcionando perfeitamente é preparar o ambiente, paraisso é necessario a instalação dos pré-requisitos que devem ser preenchidos e são fundamentaispara o pleno funcionamento da solução BI. Abaixo foi listado o que é necessario na instalaçãono servidor:

• Java SE Runtime Environment 8 - JDK

• iptables-services se o SO instalado for linux.

• postgresql-9.6

• PGAdmin 4

• SQL Power Architect

Antes de mais nada, é necessário ter instalado no ambiente o Java SE Runtime Environ-ment 8 - JDK (Kit de Desenvolvimento Java), que pode ser de implementação aberta (OpenJDK)ou fechada (como a da Oracle). Cada versão das ferramentas Pentaho tem como pré requisitouma versão especifica do Java, no momento que desenvolvemos este ambiente usamos a versão8 das ferramentas Pentaho que por sua vez exige a versão 1.8 do Java ou superior.

O primeiro passo é realizar o download do arquivo de instalação. Para isso deve-seacessar o site da desenvolvedora e baixar versão do JDK correspondente ao sistema operacionale arquitetura (32 ou 64 bits) utilizada.

Depois de ter instalado o Java, você deve configurar a variável de ambiente JAVA_HOMEpara apontar para o diretório de instalação Java. A variável JAVA_HOME é basicamente o “lar

Page 41: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 40

do java”, é onde o JDK encontra-se instalado, normalmente fica Java, podendo variar o nome deacordo com a versão instalada. A Figura 14 detalha a configuração da variavel.

Figura 14 – Configuração da variável JAVA_HOME

Após configurar o JAVA_HOME, devemos configurar o PATH para que as ferramentasde desenvolvimento do JDK estejam disponíveis para uso, para isso vamos colocar a pasta “bin”do JAVA_HOME na variável PATH. A Figura 15 como é feita a edição da variavel "Path".

Figura 15 – Configuração da variável path

A variável CLASSPATH é opcional, mas é aconselhado a configuração, ela é umavariável usada para personalizar onde o carregador de classes do Java irá procurar as classes paracompilar ou executar um programa e você deve usá-la somente se realmente for necessário, poistodos os programas Java irão percorrer as classes referenciadas nessa variável.

Para configurá-la, basta fazer assim como foi feito para criar a variável JAVA_HOME,porém, deve-se colocar o nome da variável como CLASSPATH e colocar o conteúdo desejado.

Page 42: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 41

Para entender quando deve-se usar essa variável, indico ser feito a leitura do post que explicapara que serve cada uma das variáveis.

Os proximos passos serão a instalação do banco de dados PostegreSQL-9.6 e SQL PowerArchitect. Os arquivos de instalação estão disponiveis no site de cada desenvolvedora, nosambientes linux e windows e as instalaçãos é simples, sem nenhum tipo de configuração extra.

3.4.2 Instalando o pacote BI

O ambiente BI escolhido utilizará o conjunto de ferramentas disponibilizadas gratuita-mente pela Pentaho, a pentaho fornece um pacote de ferramentas completo para soluções BI.Para este trabalho foi necessaria a instalação das seguintes ferramentas:

• Pentaho Business Analytics Platform

• Pentaho Data Integration

• pentaho schema workbench

Antes de realizar o download das ferramentas, a Pentaho orienta a criação de umapasta com o nome "pentaho"que deve está localizada na partição principal do disco, onde estáinstalado o sistema operacional, por default ficá no disco C em caso de maquinas com o sistemaoperacional windows, já em linux é orientada a criação da pasta dentro do diretorio /opt.

Com a pasta criada, será necessario o download das ferramentas. A Pentaho forneceo download gratuito de todas as ferramentas no repositorio Sourceforge. Para instalar bastaapenas descompactá-lo na pasta "pentaho"criada anteriormente. Os arquivos rodam por meio descripts *.bat em sistemas operacionais windows e *.sh em linux através do Terminal. No linux énecessário liberar acesso de leitura na pasta e sub-pastas utilizando o comando chmod na pastaraiz "pentaho".

3.4.3 Configuração das ferramentas

Após a instação de todas as ferramentas, é necessário configurar para que elas funcionemsem problemas e se comuniquem entre si. Esta atividade requer muito cuidado e atenção, poisalém das configurações de autorização de leitura de pastas, são necessários vários ajustes emarquivos de configuração do banco de dados e das ferramentas Pentaho.

Os primeiros passos são a liberação do Firewall para acesso permanente as portas 8080,pois será utilizada pelo servidor WEB do apache TomCat como porta padrão. Feita a liberação doFirewall, agora é necessario a configuração no banco de dados PostgreSQL que já está instalado,criando usuario e senha para acesso, é importante anotar estes dados de acessos, pois serãonecessarios nos proximos passos.

Page 43: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 42

Em seguida, e muito importante, é a configuração das ferramentas pentaho, que sãoextensas e minunciosa, por envolver muitos arquivos que estão espalhados por diversas pastas.O primeiro passo é ajustar a alocação maxima de memoria de acordo com as especificaçõesdo servidor ou maquina virtual no qual o Pentaho Business Analytics Platform e Pentaho DataIntegration estarão sendo executados. O ajuste é para evitar um estouro de alocação, assimpodendo não iniciar as ferramentas, travamentos ou até mesmo o travamento total do servidor.

Ao acessar o diretorio "pentaho", deve-se acessar o diretorio de cada ferramenta erealizar a alocação nos seus respectivos arquivos executaveis, no caso do Pentaho BusinessAnalytics Platform é feita no arquivo "start.bat"(windows) ou "start.sh"(linux). Já no pentahodata integration o ajusto é feito no arquivo spoon.bat (windows) ou "spoon.sh"(linux). A Figura16 mostra o "spoon.bat"em um sistema windows.

Figura 16 – Configuração do Spoon

Ao abrir os arquivos indicados em seu editor de texto, no caso deste trabalho foi usado ovisual studio code, procure pela linha que contém a variavel "PENTAHO_DI_JAVA_OPTIONS",nela você encontrará os parâmetros: Xms, Xmx e MaxPermSize. Explicando os parametros elessão:

• Xms – Define a quantidade inicial de memória dinâmica alocada no início pela JVM;

• Xmx – Define a quantidade máxima de memória dinâmica alocada pela JVM para armazenainstâncias de objetos, variáveis, etc;

• MaxPermSize – Define a quantidade máxima de memória permanente alocada pela JVM.

Os ajustes nesses parâmetros dependem das configurações de hardware da maquinaque será implantado e do tamanho do seu projeto. Neste trabalho, como explicado na subseçãoanterior, utilizaremos uma máquina com 4 gb de memória RAM. Definido isto, as configuraçõesforam alocadas seguindo a limitação de memoria, ficando da seguinte maneira:

• Xms – 1024m;

Page 44: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 43

• Xmx – 3096m;

• MaxPermSize – 512m.

Essa configuração indica que as ferramentas partirão de 1 Gb inicial de memória para aJVM e terá no máximo 3 Gb disponíveis e 512 Mb de memória fixa para instancias de objetos evariáveis. Com esse configuração consegue-se desenvolver trabalhos de médio porte sem causarproblemas ou ter dificuldades.

Para finalizar, é necessario ajustar alguns arquivos em formato XML no pentaho server,eles já possuem configurações pré-definidas para diversos tipo de bancos de dados. Para configu-rar, basta descomentar a configuração correspondente ao banco de dado que vai ser utilizado,no caso deste trabalho foi utilizado o banco PostgreSQL. A seguir está uma lista de todos osarquivos que precisam de ajustes:

• \pentaho\tomcat\common\lib

• \pentaho-solutions\system\hibernate\hibernate-settings.xml

• \pentaho-solutions\system\jackrabbit\repository.xml

• \pentaho-solutions\system\applicationContext-spring-security-hibernate.properties

• \pentaho-solutions\system\applicationContext-spring-security-jdbc.xml

• \pentaho-solutions\tomcat\webapps\pentaho\META-INF\context.xml

• \pentaho-solutions\system\simple-jndi\jdbc.properties

• \pentaho-solutions\system\hibernate\postgresql.hibernate.cfg.xml

• \pentaho-solutions\tomcat\webapps\pentaho\META-INF\web.xml

Após finalizar a instalação e configuração é necessario realizar testes, para assegurar queestá tudo funcionando bem. Primeiramente abra a pasta onde está o PDI, procure o executavel"spoon.bat"para windows ou "spoon.sh"para linux, e o execute, em alguns minutos o PDI deveráabrir. Para verificar o servidor pentaho é necessario ir para a pasta onde ele está instalado eexecutar o arquivo "start.bat"no windows ou "start.sh"para linux, após iniciar o script, verificarno endereço "http://localhost:8080/pentaho"para constatar se o servidor está de fato funcionando.Se isso ocorrer, uma tela de login aparecerá.

Page 45: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 44

3.5 Desenvolvimento

Nesta seção, serão detalhados os passos para o desenvolvimento de todo o data warehouse,processo de ETL e as consultas OLAP para a geração dos relatorios.

O Primeiro passo é a concepção do modelo multidimensional, que tem o objetivo empermitir o melhor desempenho possivel na consulta. Analisando as caracteristicas unicas doproblema citadas no estudo de caso, foi definido o esquema dimensional, que será uma uniãode estruturas estrela e snowflakes. O esquema foi modelado com seis dimenções (veiculo,qualis, periodo de avaliação, programa, categoria e pais) e dois fatos (publicação e desempenhoprograma). A Figura 17 mostra o modelo de dados do Data Warehouse projetado e desenvolvidoneste estudo de caso.

Figura 17 – Modelo multidimensional do Data Warehouse deste estudo de caso.

O modelo de dados acima foi construído na ferramenta SQL Power Architect, que alémda cocepção do modelo, auxilia na geração e execução do script de criação do Data Warehouse,que por sua vez foi projetado na sintaxe do PostgreSQL. O PostgreSQL foi escolhido como oSGBD do Data Warehouse por ser um banco de dados gratuito e robusto. A Figura 18 mostracomo é gerado o script de criação no SQL Power Architect do DW em um banco PostgreSQL.

De acordo com o modelo multidimensional projetado, foi solicitado a coordenaçãodo PROCC, apenas, os dados necessários para a carga do DW referentes as informações dosprogramas de pós-graduação, as publicação em periodicos e em conferencias. Os dados foramdisponibilizados em arquivos no formato Comma-separeted Value(CSV).

Page 46: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 45

Figura 18 – Script gerado pelo SQL Power Architect.

3.5.1 extração, transformação e carga (ETL)

Com o modelo multidimensional projetado, seguimos para a proxima etapa, que é odesenvolvimento de um sistema de extração, transformação e carga (ETL), como detalhado nocapitulo 2 se trata da sistematização do tratamento e limpeza dos dados oriundos dos diversossistemas organizacionais (OLTP) para a inserção, geralmente, em um Data Mart ou no caso donosso trabalho, um DW.

Para o desenvolvimento do ETL será utilizado o Pentaho Data Integration. O PentahoData Integration (PDI) é o componente da suíte Pentaho usado para criar processos de extração,transformação e carga (do inglês Extraction, Transformation and Loading, ETL) que alimentamo banco de dados. O PDI Trata-se da ferramenta mais popular e madura da suíte inteira, comseus mais de 15 anos de existência.

Como visto anteriormente, esse processo possui três etapas. A primeira é a extração(extract), a segunda a transformação (transform) e por fim, a carga (load). Cada uma delas possuigrande importância para o sucesso da transição dos dados dos sistemas de origem para o DW.

A etapa de extração pode ser entendida como a fase onde os dados são extraídos dosOLTPs e conduzidos para a staging area (área de transição ou área temporária), onde são

Page 47: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 46

convertidos para um único formato. A extração dos dados necessarios podem ser feita de duasformas, a primeira através da plataforma sucupira, onde os dados de todos os programas estãodisponiveis ou pela alimentação direta feito pelo o PROCC.

Após realizada a extração, teremos os dados para iniciar a etapa de transformação e lim-peza dos dados. Nessa fase são corrigidos, padronizados e tratados os desvios e inconsistências,transformando os dados de acordo com as regras do negócio definidos no estudo de caso.

A etapa de carga ocorre em sequência com a de transformação. Assim que são efetu-ados os tratamentos necessários nos dados, a carga no DW é iniciada. Essa fase se resume napersistência dos dados na base consolidada.

É importante destacar algumas caracteristicas para a carga do Data Warehouse propostoneste estudo de caso, foram desenvolvidos três scripts de inserção e oito transformações noPDI, equivalentes às seis dimensões e aos dois fatos. Abaixo seguem figuras das transformaçõesutilizadas para a carga do DW.

Figura 19 – Processo ETL da dimensão programa.

Figura 20 – Processo ETL da dimensão Pais.

Page 48: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 47

Figura 21 – Processo ETL da dimensão veiculos con veiculos de conferencias.

Figura 22 – Processo ETL da dimensão veiculos com veiculos de periodicos.

Figura 23 – Processo ETL do fator desempenho de programa com as publicações em conferen-cias.

Page 49: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 48

Figura 24 – Processo ETL do fator desempenho de programa com as publicações em periodicos.

Figura 25 – Processo ETL do fator publicação com as publicações em periodicos.

Figura 26 – Processo ETL do fator publicação com as publicações em conferencias.

A Figura 27 mostra como ficou o resultado final da criação de um Job que executa astransformações e os scripts para a realização da Carga. O job foi criado para facilitar e agilizar oprocesso de ETL, ele por sua vez permite a vizualização de todo o processo de transformação deforma clara e objetiva.

Page 50: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 49

Figura 27 – Job dos ETLs e scripts utilizando o PDI.

3.6 Instalação e Criação lógica dos Cubos OLAP

Agora com a carga do data warehouse finalizada, o próximo passo é a criação dos cubosde dados para realizar as consultas OLAP. A pentaho possibilita a criação dos cubos de duasformas: utilizando a interface WEB fornecida no pacote community, na opção "Gerenciar Fontede Dados"(Manage Data Sources) ou a opção utilizada neste trabalho, que é a utilização doPentaho Schema Workbench (PSW). Vale ressaltar que caso os cubos sejam criados pela aferramenta WEB, o cubo ficará com o tipo "Assistente de Origem de Dados"e só poderá sereditado epenas pela a WEB. No caso deste trabalho que foi criado com o PSW, ficarão com otipo “Análise” e “Metadata” e somente poderão ser editados através do programa, portanto ainterface WEB não conseguirá editar o cubo neste método.

Diante disto, foram criados dois cubos: um para o desempenho dos autores e outro parao desempenho dos programas. Mas como primeiro passo para a criação se faz necessario aconfiguração do PSW para que o mesmo consiga se comunicar com o Pentaho Community.

Para a comunicação entre PSW e o pentaho community é necessario a criação e aconfiguração de conexões, como primeiro passo é necessario criar uma conexão no pentahocommunity do tipo JDBC, que servirá como porta de comunicação com o PSW. A Figura 28mostra a conexão criada com o nome "con".

Page 51: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 50

Figura 28 – Lista de conexões do pentaho community

A Figura 29 mostra o proximo passo, que se resume na configuração e teste da conexãodo pentaho schema workbench com o banco de dados PostgreSQL.

Figura 29 – Lista de conexões do pentaho community

Após a finalização da parte de conexões, já é possivel avançar para a criação logicados cubos no PSW. Utilizando o PSW como interface para a criação do cubo, a modelagemdo se torna mais criativa e simples. Na Figura 30 é possivel verificar que o PSW fornece umaferramenta robusta, mais completa do que a interface WEB fornecida pela a pentaho community.No menu superior é fornecido atalhos para as principais ferramentas utilizadas para a elaboraçãodo cubo, na coluna a direita é feito é feita a modelagem lógica das tabelas e colunas dos dadosfísicos e a direita é feita a configuração as propriedades das medidas e dimensões, tais comofunção de agregação, formatação, funções matematicas e nome para exibição.

Page 52: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 51

Figura 30 – Modelagem de um cubo

A Figura 31 detalha o cubo denominado como Desempenho_Programa, o mesmo repre-senta os dados relacionados aos criterios de avaliação dos programas de pós-graduação comoIGeral, NPGeral, NCGeral, NCRestrito, NPRestrito e mais outras medidas que tenham o foco noprograma. Há também a utilização das dimensões Programa, Categoria, Pais, Veiculo, Qualis,Tipo de publicação, ano de publicação e periodo de avaliação de acordo com o diagrama ER dafigura 16.

Figura 31 – Modelagem do cubo Desempenho programa

Diferentemente do primeiro, o cubo Desempenho_Publicações foca no resultado das pu-blicações apenas. A Figura 32 abaixo mostra medidas mais simples como pontuação, quantidadede publicações e a pontuação utilizando a nova nota Qualis das publicações. Entretanto, possuium maior número de dimensões, o que aumenta o poder de análise ao dispor de informações dediferentes ângulos.

Page 53: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 52

Figura 32 – Modelagem do cubo Desempenho programa

A ultima etapa antes da geração dos relatorios é a publicação dos cubos no pentahocommunity. A publicação se torna algo bem simples depois de feitas as configurações citadasacima desta seção, com os cubos prontos basta ir em "File"e logo após em "Publish". Será abertauma janela para ajustar as configurações.

A Figura 33 detalha os dados necessarios para a publicação, primeiro é necessario ajustaro Server URL onde está localizado o pentaho Community e o usuario e senha cadastrados Logoapós é necessario colocar o JNDI Data Source criado, no caso deste trabalho foi criado com onome "con".

Figura 33 – Publicação dos cubos

Com os ajustes feitos, basta ir em "Publish"e partir para o proximo passo, que é a criaçãodos relatorios.

3.6.1 Ambiente para montagem dos relatórios

Com o ambiente pronto e as ferramentas necessarias devidamente intaladas, seguimospara a penultima etapa, a instação do plugin de consulta. O pacote instalado da Pentaho Commu-

Page 54: Aplicação de business intelligence como instrumento de ...

Capítulo 3. Desenvolvimento 53

nity vem instalado um editor de relatorios padrão, chamado de JPivot View.

O JPivot é uma biblioteca de tags JSP personalizadas que utiliza cubos gerados paraque os usuários executem navegações OLAP típicas como slice and dice, drill-down e roll-up.Ele usa Mondrian como servidor OLAP. JPivot também da a possibilidade de incluir scripts emJavascript no meio do corpo da consulta para fazer processamentos mais complexos. Porém omesmo é necessário ter conhecimento com o motor OLAP Modrian, se tornando assim umaferramenta de dificil manejo para usuarios finais.

O JPivot não esta recebendo mais atualizações então recomenda-se migrar para Pivot4Jou Saiku. Diante disto optou-se por usar o Saiku como ferramenta para a geração das consultasOLAP. O Saiku Analitycs é um cliente web disponível como plug-in para o Pentaho BI Server.Ele utiliza o Mondrian para proporcionar uma forma fácil de usar o recurso de Cubos OLAPatravés de uma experiência simples para usuário final.

A instalação do Saiku é bem simples, basta acessar o Marketplace do Pentaho e procurarpor saiku, e clicar em "install"e pronto a ferramenta será instalada. A Figura 34 mostra como é aapararência do Marketplace e o plugin instalado e atualizado.

Figura 34 – Marketplace do Pentaho

Agora com o Saiku instalado, será necessario realizar um novo teste, ele é importantepara saber se o saiku está se comportando de maneira aceitavel, para realiza-lo basta ir no menu,clicar em “Arquivo”, em seguinda “Novo” e seleciona “Saiku Analytics”. Caso o saiku nãoreconheça a licença community, basta seguir as orientações que aparecerão na tela que vocêconseguirá adicionar uma nova licença valida.

Page 55: Aplicação de business intelligence como instrumento de ...

54

4Aplicação

Agora com o ambiente pronto, seguimos para a ultima etapa deste trabalho, a geração dosrelatorios utilizando o "Saiku Analytics". Como explicado na seção anterior, o "Saiku Analytics"éum cliente web disponível como plug-in para o Pentaho BI Server, que permite operações Drill-down, Roll-up e Slice em tempo de execução. Ele usa o Pentaho Analysis (Mondrian) paraproporcionar uma forma fácil de usar o recurso de Cubos OLAP com uma experiência simplespara usuário final.

No Saiku, o usuário pode selecionar as dimensões do cubo e filtrar os resultados, épossível verificar dados, realizar consultas diversificadas, mostra os resultados de consultasem tabelas, gráficos, serve para pesquisadores realizar consultas complexas sem precisar terconhecimento de linguagens SQL, e principalmente ajuda na tomada de decisões.

A Figura 35, mostra a interface inicial do Saiku, para que os dados sejam carregados, énecessária seleção de um cubo, arrastar as medidas e dimensões para a aba de layout e assimgerar consultas, onde os resultados são gerados em forma de tabela e gráficos. Essa interface écomposta por uma barra de ferramentas com funções de salvar consultas, mostrar o MDX, fazera exportação dos resultados em xls, csv, pdf, png e jpeg.

Page 56: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 55

Figura 35 – Tela inicial do Saiku Analytics

A Figura 36, mostra o resultado de uma consulta realizada no Saiku, para realizar aconsulta foi necessária a seleção de um cubo, depois uma medida e algumas dimensões.

Figura 36 – Tela do Saiku com resultado de uma consulta sendo mostrada em tabela

A Figura 37, mostra um gráfico que é o resultado de uma consulta realizada no Saiku,esse gráfico pode ser alterado o seu tipo, escolhendo outros modelos disponíveis, podem serexportados em diferentes formatos como jpeg, png ou pdf e esse modo exibição dos resultadosem gráficos pode ser alterado para ser exibido em forma de tabela.

Page 57: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 56

Figura 37 – Tela do Saiku com resultado de uma consulta sendo mostrada em gráfico

4.1 Relatórios Obtidos

O uso do plugin possibilitou a criação de "n"possibilidades de relatorio, contendo tabelase graficos. A seguir foram divididos em três seções, Relatorios Programa, Relatorios Discentes eRelatorios Docentes. Cada seção tem uma sequência de figuras que mostram alguns dos relatóriosque foram construídos utilizando o saiku, alem de mostrar que tipo de informação é possívelextrair dos dados obtidos.

4.1.1 Relatórios Programa

Nesta seção, será demonstrado alguns relatorios possiveis de extração, todos os relatoriostem como foco os programas de pôs-graduação, em especial o programa "Ciência da computação(27001016029P4)"gerido pelo o PROCC.

• Notas do programa no quadriênio 2013 a 2016.

O relatório da Figura 38 mostra a pontuação do programa de acordo com os indices deavaliação CAPES.

Figura 38 – Notas do programa no quadriênio 2013 a 2016.

• Pontuacão em conferencia e periodico no quadriênio 2013 a 2016.

Page 58: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 57

O relatório da Figura 39 mostra a pontuação do programa obtida em conferencias e emperiodicos.

Figura 39 – Pontuacão em conferencia e periodico no quadriênio 2013 a 2016

• Pontuação em conferências por ano.

O relatório da Figura 40 mostra a pontuação do programa obtida em conferências separadaspor ano. O relatório segue o quadrienio 2013 a 2016.

Figura 40 – Pontuação em conferências por ano

• Pontuação em Periódicos por ano.

O relatório da Figura 41 mostra a pontuação do programa obtida em periódicos separadaspor ano. O relatório segue o quadrienio 2013 a 2016.

Figura 41 – Pontuação em Periódicos por ano

• Quantidade de publicações em Conferências por ano.

O relatório da Figura 42 mostra a quantidade de publicações em conferências separadaspor ano. O relatório segue o quadrienio 2013 a 2016.

Page 59: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 58

Figura 42 – Quantidade de publicações em Conferências por ano

• Quantidade de publicações em periódicos por ano.

O relatório da Figura 42 mostra a quantidade de publicações em periódicos separadas porano. O relatório segue o quadrienio 2013 a 2016.

Figura 43 – Quantidade de publicações em periódicos por ano

• Porcentagem de publicação de acordo com o qualis em conferências por ano

O relatório da Figura 44 mostra a porcentagem de publicações de acordo com o qualisobtida em conferências separadas por ano. O relatório segue o quadrienio 2013 a 2016.

Page 60: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 59

Figura 44 – Porcentagem de publicação de acordo com o qualis em conferências por ano

• Porcentagem de publicação de acordo com o qualis em periódicos por ano.

O relatório da Figura 45 mostra a porcentagem de publicações de acordo com o qualisobtida em periódicos separadas por ano. O relatório segue o quadrienio 2013 a 2016.

Figura 45 – Porcentagem de publicação de acordo com o qualis em periódicos por ano

• Comparação da pontuação dos programas ativos.

O relatório da Figura 46 mostra a pontuação obtida em periodicos de cada programa depós-graduação separadamente. O relatório segue o quadrienio 2013 a 2016.

Page 61: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 60

Figura 46 – Comparação da pontuação dos programas ativos

• Relatorio de comparação do NPRestrito dos programas ativos.

O relatório da Figura 47 mostra a pontuação obtida no indice NPRestrito de cada programade pós-graduação separadamente. O relatório segue o quadrienio 2013 a 2016.

Figura 47 – Relatorio de comparação do NPRestrito dos programas ativos

• Relatorio de comparação do NPGeral dos programas ativos.

Page 62: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 61

O relatório da Figura 48 mostra a pontuação obtida no indice NPGeral de cada programade pós-graduação separadamente. O relatório segue o quadrienio 2013 a 2016.

Figura 48 – Relatorio de comparação do NPGeral dos programas ativos

4.1.2 Relatórios envolvendo discentes

Nesta seção, será demonstrado alguns relatorios possiveis de extração, todos os relatoriostem como foco os relatorios envolvendo discentes, em especial do programa de "Ciência dacomputação (27001016029P4)"gerido pelo o PROCC.

• Quantidade de publicações de discentes em Conferências por ano.

O relatório da Figura 49 mostra a quantidade de publicações obtidas por discentes emconferências separadas por ano. O relatório segue o quadrienio 2013 a 2016.

Page 63: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 62

Figura 49 – Quantidade de publicações de discentes em Conferências por ano

• Quantidade de publicações de discentes em periódicos por ano.

O relatório da Figura 50 mostra a quantidade de publicações obtidas por discentes emperiódicos separadas por ano. O relatório segue o quadrienio 2013 a 2016.

Figura 50 – Quantidade de publicações de discentes em periódicos por ano

• Porcentagem de publicação dos discentes de acordo com o qualis em conferências por ano

O relatório da Figura 51 mostra a porcentagem de publicações dos discentes de acordocom o qualis obtida em conferências separadas por ano. O relatório segue o quadrienio2013 a 2016.

Page 64: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 63

Figura 51 – Porcentagem de publicação dos discentes de acordo com o qualis em conferênciaspor ano

• Porcentagem de publicação dos discentes de acordo com o qualis em periódicos por ano

O relatório da Figura 52 mostra a porcentagem de publicações dos discentes de acordocom o qualis obtida em periodicos separadas por ano. O relatório segue o quadrienio 2013a 2016.

Figura 52 – Porcentagem de publicação dos discentes de acordo com o qualis em periódicos porano

• Quantidade de publicações de discentes em Conferências por ano.

O relatório da Figura 53 mostra a quantidade de publicações obtidas por discentes emconferências separadas por ano. O relatório segue o quadrienio 2017 a 2020.

Page 65: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 64

Figura 53 – Quantidade de publicações de discentes em Conferências por ano

• Quantidade de publicações de discentes em periódicos por ano.

O relatório da Figura 54 mostra a quantidade de publicações obtidas por discentes emperiódicos separadas por ano. O relatório segue o quadrienio 2017 a 2020.

Figura 54 – Quantidade de publicações de discentes em periódicos por ano

• Porcentagem de publicação dos discentes de acordo com o qualis em conferências por ano

O relatório da Figura 55 mostra a porcentagem de publicações dos discentes de acordocom o qualis obtida em conferências separadas por ano. O relatório segue o quadrienio2017 a 2020.

Page 66: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 65

Figura 55 – Porcentagem de publicação dos discentes de acordo com o qualis em conferênciaspor ano

• Porcentagem de publicação dos discentes de acordo com o qualis em periódicos por ano

O relatório da Figura 56 mostra a porcentagem de publicações dos discentes de acordocom o qualis obtida em periodicos separadas por ano. O relatório segue o quadrienio 2017a 2020.

Figura 56 – Relatório de Resumo das notas do PROCCC

• Pontuação obtida pelos discentes em conferências.

O relatório da Figura 57 mostra a pontuação obtida de publicações em conferências pordiscentes. O relatório segue o quadrienio 2013 a 2016.

Page 67: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 66

Figura 57 – Pontuação obtida pelos discentes em conferências.

• Pontuação obtida pelos discentes em periódicos.

O relatório da Figura 58 mostra a pontuação obtida de publicações em periódicos pordiscentes. O relatório segue o quadrienio 2013 a 2016.

Figura 58 – Relatório de Resumo das notas do PROCCC

• Pontuação obtida pelos discentes em conferências.

O relatório da Figura 59 mostra a pontuação obtida de publicações em conferências pordiscentes. O relatório segue o quadrienio 2017 a 2020.

Figura 59 – Pontuação obtida pelos discentes em conferências

• Pontuação obtida pelos discentes em periódicos.

O relatório da Figura 60 mostra a pontuação obtida de publicações em periódicos pordiscentes. O relatório segue o quadrienio 2017 a 2020.

Page 68: Aplicação de business intelligence como instrumento de ...

Capítulo 4. Aplicação 67

Figura 60 – Pontuação obtida pelos discentes em periódicos

4.1.3 Relatórios envolvendo docentes

Na ultima seção, será demonstrado alguns relatorios possiveis de extração, todos osrelatorios tem como foco os relatorios envolvendo os docentes, em especial do programa de"Ciência dacomputação(27001016029P4)"gerido pelo o PROCC.

Vale ressaltar que por questções de privacidade, as imagens dos relatorios foram removi-das, mas ficará o nome do relatorio e a descrição dos mesmos.

• Publicações dos Docentes em conferências.

O relatório detalha a quantidade de publicações em conferências por docentes. O relatóriosegue o quadrienio 2013 a 2016.

• Publicações dos Docentes em periódicos.

O relatório detalha a quantidade de publicações em periódicos por docentes. O relatóriosegue o quadrienio 2013 a 2016.

• Pontuação dos Docentes em conferências.

O relatório detalha a pontuação obtida de publicações em conferências por docentes. Orelatório segue o quadrienio 2013 a 2016.

• Pontuação dos Docentes em periódicos.

O relatório detalha a pontuação obtida de publicações em periódicos por docentes. Orelatório segue o quadrienio 2013 a 2016.

• Publicações de cada Docente em conferência com detalhamento no qualis.

O relatório detalha a quantidade de publicações de acordo com o qualis em conferência. Orelatório segue o quadrienio 2013 a 2016.

• Publicações de cada Docente em periódicos com detalhamento no qualis.

O relatório detalha a quantidade de publicações de acordo com o qualis em periódicos. Orelatório segue o quadrienio 2013 a 2016.

Page 69: Aplicação de business intelligence como instrumento de ...

68

5Conclusão

A conclusão deste trabalho resultou em uma solução de caráter estratégico para o PROCC,pois proverá informação útil e de qualidade, ajudando em decisões futuras que proporcionemmelhora na qualidade de ensino e aproveitamento otimizado dos recusos.

O objetivo deste trabalho foi desenvolver um ambiente de Bisiness inteligence, atravésdo estudo de caso e seguiu todas as etapas previstas: levantamento de questões de análise,identificação e seleção das fontes de dados, modelagem dimensional e criação do banco de dadose a implementação na plataforma Pentaho BI Suite CE. Com isto, indicadores de avaliação, comoNCA, NCB, NPRestrito, NCRestrito, NPGeral, IRestrito, IGeral, dentre outros, passarão a sermonitorados.

Inicialmente estará funcionando apenas no Departamento de computação (DCOMP), emespecifico a coordenação do programa de pós-graduação em Ciência da Computação (PROCC),mas será fornecido a qualquer departamento da universidade federal de Sergipe, se por assimquiser, utilize está solução para quem também obtenha os beneficios que essas informaçõespodem trazer para a tomada de decisões.

Como trabalho futuro aspira-se a expansão desta solução para as demais coordenadoriasdos programas de pós-graduação da Universidade Federal de Sergipe e, além do OLAP, tambémutilizar Data Mining como ferramenta de interpretação dos dados do Data Warehouse.

Page 70: Aplicação de business intelligence como instrumento de ...

69

Referências

ALMEIDA, R. F. Gestão da Informação na Competitividade das Organizações. [S.l.]: EditoraUniversitária da UFPE, 2002. Citado 2 vezes nas páginas 17 e 18.

ÁREA, I. C. de; PHILIPPE NORBERTO, Z. Documento de área, 2016. Triênio, v. 2016, p. 12,2016. Citado na página 37.

AVALIACAOCAPES. A Avaliação do Sistema Nacional de Pós-Graduação. 2019. Disponívelem: <http://www.capes.gov.br/avaliacao/sobre-a-avaliacao>. Acesso em: 10 Dez. 2019. Citado5 vezes nas páginas 7, 34, 35, 36 e 37.

BIDGOLI, H. Decision support systems: Principles and practice. [S.l.]: West Group, 1989.Citado 2 vezes nas páginas 17 e 18.

CAPES. CAPES. História e Missão. Coordenação de Aperfeiçoamento de Pessoal de NívelSuperior. 2019. Disponível em: <https://www.capes.gov.br/historia-e-missao>. Acesso em: 10Dez. 2019. Citado 2 vezes nas páginas 33 e 34.

CAPESQUALIS. A Avaliação do Sistema Nacional de Pós-Graduação. 2019. Disponível em:<http://avaliacaoquadrienal.capes.gov.br/a-avaliacao>. Acesso em: 12 Dez. 2019. Citado napágina 36.

CARVALHO, B. Arquiteturas de ferramentas olap. SQL Magazine, Rio de Janeiro, v. 9, p.12–16, 2003. Citado 2 vezes nas páginas 24 e 25.

CHAUDHURI, S.; DAYAL, U. An overview of data warehousing and olap technology. ACMSigmod record, ACM New York, NY, USA, v. 26, n. 1, p. 65–74, 1997. Citado na página 18.

ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados. 6a edição. São Paulo: Person.837p, 2011. Citado 3 vezes nas páginas 19, 20 e 22.

INMON, W. H. Como construir o data warehouse. [S.l.]: Campus, 1997. Citado 2 vezes naspáginas 23 e 24.

INMON, W. H. Building the data warehouse. [S.l.]: John wiley & sons, 2005. Citado 3 vezesnas páginas 13, 18 e 19.

KHAN, R. A.; QUADRI, S. Business intelligence: an integrated approach. Business IntelligenceJournal, v. 5, n. 1, p. 64–70, 2012. Citado na página 13.

KIMBALL, R.; ROSS, M. The data warehouse Toolkit. 2002. Citado 5 vezes nas páginas 7, 20,21, 22 e 25.

KIMBALL, R.; ROSS, M. The data warehouse toolkit: the complete guide to dimensionalmodeling. [S.l.]: John Wiley & Sons, 2011. Citado na página 19.

KIMBALL, R. et al. The data warehouse lifecycle toolkit. [S.l.]: John Wiley & Sons, 2008.Citado na página 19.

LAUDON, K. C.; LAUDON, J. P. Management information systems: new approaches toorganization and technology. Upper Saddle River, NJ, 1998. Citado na página 23.

Page 71: Aplicação de business intelligence como instrumento de ...

Referências 70

PASSOS, E.; GOLDSCHMIDT, R. Data mining: um guia prático. Editora Campus, Rio deJaneiro, 2005. Citado na página 22.

QUADRIENAL. A Avaliação do Sistema Nacional de Pós-Graduação. 2019. Disponível em:<http://avaliacaoquadrienal.capes.gov.br/a-avaliacao>. Acesso em: 10 Dez. 2019. Citado 2vezes nas páginas 35 e 36.

SHARMA, N. et al. Getting started with data warehousing. DRAFT), February, 2012. Citado 6vezes nas páginas 7, 18, 19, 21, 25 e 26.

SPRAGUE, J. Rh; watson, hj. Decision Support Systems: putting theory into practice,Prentice-Hall, Inc, 1989. Citado na página 17.

THOMSEN, E. OLAP: Construindo sistemas de informações multidimensionais. [S.l.]: Campus,2002. Citado na página 24.

Page 72: Aplicação de business intelligence como instrumento de ...

Apêndices

Page 73: Aplicação de business intelligence como instrumento de ...

72

APÊNDICE A– Manual de instalação

A Pentaho Corporation gerencia, facilita, suporta e lidera o papel de desenvolvimento doProjeto Pentaho BI - uma iniciativa pioneira da comunidade de desenvolvimento Open Sourcepara proporcionar ferramentas de Business Intelligence (BI) para que as organizações melhoremradicalmente sua performance, eficiência e efetividade na gestão de informações.

A.1 Instalação de Pré-Requisitos

Os Pré-requisitos para instalação em um ambiente windows são:

• Java SE Runtime Environment 8 - JDK;

• postgresql-9.6;

• PGAdmin 4;

• SQL Power Architect.

Os passos para Instalação do Windows são similares a instalação em Linux apenas comalgumas particularidades do sistema da Microsoft.

A.1.1 Instalando Java

Faça o Download de http://www.oracle.com/technetwork/java/javase/downloads/index.htmldo JDK e síga os procedimentos do instalador.

A.1.2 Configurando as variáveis de ambiente Java

O Java se utiliza das seguintes variáveis de Ambiente para execução do Pentaho:

• JAVA_HOME;

• JRE_HOME;

Page 74: Aplicação de business intelligence como instrumento de ...

APÊNDICE A. Manual de instalação 73

• PATH;

• CLASSPATH.

Depois de ter instalado o Java, você deve configurar a variável de ambiente JAVA_HOMEpara apontar para o diretório de instalação Java. A variável JAVA_HOME é basicamente o “lardo java”, é onde o JDK encontra-se instalado, normalmente fica Java, podendo variar o nome deacordo com a versão instalada. A Figura 61 detalha a configuração da variavel.

Figura 61 – Configuração da variável JAVA_HOME

Após configurar o JAVA_HOME, é necessario configurar o PATH para que as ferramentasde desenvolvimento do JDK estejam disponíveis para uso, para isso vamos colocar a pasta “bin”do JAVA_HOME na variável PATH. A Figura 62 como é feita a edição da variavel "Path".

Figura 62 – Configuração da variável path

Page 75: Aplicação de business intelligence como instrumento de ...

APÊNDICE A. Manual de instalação 74

A variável CLASSPATH é opcional, mas é aconselhado a configuração, ela é umavariável usada para personalizar onde o carregador de classes do Java irá procurar as classes paracompilar ou executar um programa e você deve usá-la somente se realmente for necessário, poistodos os programas Java irão percorrer as classes referenciadas nessa variável.

Para configurá-la, basta fazer assim como foi feito para criar a variável JAVA_HOME,porém, deve-se colocar o nome da variável como CLASSPATH e colocar o conteúdo desejado.Para entender quando deve-se usar essa variável, indico ser feito a leitura do post que explicapara que serve cada uma das variáveis.

A.1.3 Instalando o PostgreSQL

Os proximos passos serão a instalação do banco de dados PostegreSQL-9.6 e SQLPower Architect. Os arquivos de instalação estão disponiveis no site de cada desenvolvedora(https://www.postgresql.org/).

A instalação é bem simples, com o arquivo baixado basta clicar duas vezes no arquivo eseguir a instalação.

A.1.4 instalando o PGAdmin4

O PGAdmin4 vem no pacote de instalação do PostgreSQL, então ele será instalado juntocom o banco de dados.

A.1.5 Instalando o SQL Power Architect

A instalação do SQL Power Architect é simples, basta realizar o donwload do arquivo deinstalação no site da desenvolvedora (http://www.bestofbi.com/page/architect_download_os) eclicar duas vezes no arquivo de instalação e avançar os passos da instalação.

A.2 Instalando o pacote BI

Para realizar a instalação do pacote das ferramentas da pentaho é necessário realizar odownload atravez do sourceforge da pentaho (https://sourceforge.net/projects/pentaho)

As ferramentas necessárias são:

• Pentaho Business Analytics Platform

• Pentaho Data Integration

• pentaho schema workbench

Page 76: Aplicação de business intelligence como instrumento de ...

APÊNDICE A. Manual de instalação 75

Após realizar o download, a Pentaho orienta a criação de uma pasta com o nome "Pen-taho"que deve ficar localizada na partição C: do disco. Para instalar basta apenas descompactá-lona pasta "pentaho"criada anteriormente. Os arquivos rodam por meio de scripts *.bat em sistemasoperacionais windows e *.sh em linux através do Terminal. No linux é necessário liberar acessode leitura na pasta e sub-pastas utilizando o comando chmod na pasta raiz "pentaho".

A.2.1 Configuração das ferramentas

É necessário ajustar a alocação maxima de memoria de acordo com as especificaçõesdo servidor ou maquina virtual no qual o Pentaho Business Analytics Platform e Pentaho DataIntegration estarão sendo executados. O ajuste é para evitar um estouro de alocação, assimpodendo não iniciar as ferramentas, travamentos ou até mesmo o travamento total do servidor.

Ao acessar o diretorio "pentaho", deve-se acessar o diretorio de cada ferramenta erealizar a alocação nos seus respectivos arquivos executaveis, no caso do Pentaho BusinessAnalytics Platform é feita no arquivo "start.bat"(windows) ou "start.sh"(linux). Já no pentahodata integration o ajusto é feito no arquivo spoon.bat (windows) ou "spoon.sh"(linux). A Figura63 mostra o "spoon.bat"em um sistema windows.

Figura 63 – Configuração do Spoon

Ao abrir os arquivos indicados em seu editor de texto, no caso deste trabalho foi usado ovisual studio code, procure pela linha que contém a variavel "PENTAHO_DI_JAVA_OPTIONS",nela você encontrará os parâmetros: Xms, Xmx e MaxPermSize. Explicando os parametros elessão:

• Xms – Define a quantidade inicial de memória dinâmica alocada no início pela JVM;

• Xmx – Define a quantidade máxima de memória dinâmica alocada pela JVM para armazenainstâncias de objetos, variáveis, etc;

• MaxPermSize – Define a quantidade máxima de memória permanente alocada pela JVM.

Page 77: Aplicação de business intelligence como instrumento de ...

APÊNDICE A. Manual de instalação 76

Os ajustes nesses parâmetros dependem das configurações de hardware da maquinaque será implantado e do tamanho do seu projeto. Neste trabalho, como explicado na subseçãoanterior, utilizaremos uma máquina com 4 gb de memória RAM. Definido isto, as configuraçõesforam alocadas seguindo a limitação de memoria, ficando da seguinte maneira:

• Xms – 1024m;

• Xmx – 3096m;

• MaxPermSize – 512m.

Essa configuração indica que as ferramentas partirão de 1 Gb inicial de memória para aJVM e terá no máximo 3 Gb disponíveis e 512 Mb de memória fixa para instancias de objetos evariáveis. Com esse configuração consegue-se desenvolver trabalhos de médio porte sem causarproblemas ou ter dificuldades.