Análisis, preparación y visualización de datos usando herramientas Open Source

38
Workshop “Análisis, preparación y visualización de datos usando herramientas Open Source” 05 - Marzo - 2016 Open Data Day - UIO

Transcript of Análisis, preparación y visualización de datos usando herramientas Open Source

Page 1: Análisis, preparación y visualización de datos usando herramientas Open Source

Workshop

“Análisis, preparación y visualización de datos usando herramientas Open Source”

05 - Marzo - 2016

Open Data Day - UIO

Page 2: Análisis, preparación y visualización de datos usando herramientas Open Source

OPEN DATA

Page 3: Análisis, preparación y visualización de datos usando herramientas Open Source

¿QUÉ ES OPEN DATA?

❏ Poner a disposición de la sociedad los datos gestionados por la administración pública

❏ Sin restricciones de derecho de autor

❏ Los datos son abiertos cuando:

➔ Accedidos➔ Usados➔ Modificados➔ Compartidos

Page 4: Análisis, preparación y visualización de datos usando herramientas Open Source

HISTORIA

❏ El 17 de noviembre de 2003, la Directiva del Parlamento Europeo, presentaba un Tratado sobre el acceso de los datos

❏ En el año 2009 el gobierno de Estados Unidos comunicaba su iniciativa de liberar los datos

❏ El 30 de Noviembre de 2010 el Reino Unido liberó una licencia gubernamental

Page 5: Análisis, preparación y visualización de datos usando herramientas Open Source

PRINCIPIOS DEL OPEN DATA

❏ Los datos deben ser:

➔ Públicos➔ Detallados➔ Actualizados➔ Accesibles➔ Automatizados➔ Sin Registro➔ Abiertos➔ Libres

Page 6: Análisis, preparación y visualización de datos usando herramientas Open Source

BENEFICIOS DEL OPEN DATA

❏ Construir nuevo conocimiento

❏ Más eficiencia en los servicios gubernamentales

y la administración pública

❏ Genera nuevos indicadores económicos y

sociales

❏ Mide el impacto de las políticas públicas

Page 7: Análisis, preparación y visualización de datos usando herramientas Open Source

OPEN DATA Y POLITICA

Page 8: Análisis, preparación y visualización de datos usando herramientas Open Source

FUNDACIÓN CIUDADANO INTELIGENTE

Page 9: Análisis, preparación y visualización de datos usando herramientas Open Source

PROYECTOS

Page 10: Análisis, preparación y visualización de datos usando herramientas Open Source

OBSERVATORIO ANTICORRUPCION

Page 11: Análisis, preparación y visualización de datos usando herramientas Open Source
Page 12: Análisis, preparación y visualización de datos usando herramientas Open Source

ENFOQUE DE SOLUCIÓN

Page 13: Análisis, preparación y visualización de datos usando herramientas Open Source

PROCEDIMIENTO

1 Preguntas a responder

2 Obtener losDatos

3 Explorar losDatos

4Modelar losDatos

Comunicar y Visualizar

Resultados5

Page 14: Análisis, preparación y visualización de datos usando herramientas Open Source

ALGUNAS FUENTES DE DATOS

❏ Archivos➔ Formatos Abiertos: CSV, XML, JSON➔ Formatos Propietarios: Excel, SPSS

❏ Bases de Datos➔ PostgreSQL, MySQL, Oracle

❏ APIs➔ Servicios Web SOAP: XML➔ Servicios REST: XML/JSON

❏ Documentos (PDFs, páginas web, etc.)

❏ Redes Sociales

Page 15: Análisis, preparación y visualización de datos usando herramientas Open Source

FORMATOS ABIERTOS - CSV

Cabecera (Header) Separador (, ; |)

Enclosure (")

Registros (Rows)

Page 16: Análisis, preparación y visualización de datos usando herramientas Open Source

FORMATOS ABIERTOS - XML

Etiquetas (Tags)

<tag>...</tag>

Codificación

Page 17: Análisis, preparación y visualización de datos usando herramientas Open Source

FORMATOS ABIERTOS - JSON

Valor

Atributo

Arreglo

[ ]

Objeto

{ }

Page 18: Análisis, preparación y visualización de datos usando herramientas Open Source

APIs - OPEN DATA BANCO MUNDIAL

http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.CD?date=2010:2015&format=xml

❏ Invocación para obtener XML

http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.CD?date=2010:2015&format=json

❏ Invocación para obtener JSON

http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.CD?date=2010:2015&format=csv

❏ Invocación para obtener CSV

Page 19: Análisis, preparación y visualización de datos usando herramientas Open Source

ARQUITECTURA DE LA SOLUCIÓN

Page 20: Análisis, preparación y visualización de datos usando herramientas Open Source

ARQUITECTURA

DATA_MODEL

(DIMENSIONAL)CSV

ETLsCSV

CUBO DE

DATOS

ANÁLISIS

Y

VISUALIZACIÓN

SQL POWER

ARCHITECT

PENTAHO DATA

INTEGRATION

PENTAHO SCHEMA

WORKBENCH

PENTAHO BI SERVER

SAIKU ANALYTICS

Page 21: Análisis, preparación y visualización de datos usando herramientas Open Source

SOFTWARE OPEN SOURCE A USAR

❏ Procesamiento de Datos➔ Pentaho Data Integration CE v5.4

❏ Entrega de Información➔ Pentaho Schema Workbench v5.4➔ Pentaho BI Server CE v5.4, Saiku Analytics

➔ PostgreSQL v9.3

➔ SQL Power Architect v1.0.8❏ Modelamiento

➔ Oracle JDK v1.7 (Java) ❏ Base de Datos

❏ Software Base

Page 22: Análisis, preparación y visualización de datos usando herramientas Open Source

MODELAMIENTO DIMENSIONAL

Page 23: Análisis, preparación y visualización de datos usando herramientas Open Source

CONCEPTOS

❏ Consiste en modelar hechos y dimensiones para llegar a lo que se conoce como Modelo Estrella

DIMENSIÓN 1

DIMENSIÓN 2

...

DIMENSIÓN N

HECHOS

Page 24: Análisis, preparación y visualización de datos usando herramientas Open Source

CONCEPTOS

DIMENSIONES❏ Datos Cualitativos❏ Representan información de una entidad. Ej.

País, Región, Sucursal, Producto

HECHOS❏ Datos Cuantitativos❏ Representan un indicador o medida. Ej. ventas,

deuda externa, comisiones❏ Los indicadores pueden ser agregados (sum,

avg, max, min, count)

Page 25: Análisis, preparación y visualización de datos usando herramientas Open Source

EJEMPLO

FECHA

CLIENTE PRODUCTO

LOCAL

VENDEDOR

HECHOS

VENTAS

1..*

Page 26: Análisis, preparación y visualización de datos usando herramientas Open Source

POSTGRESQL

❏ Abrir Terminal y abrir pgAdmin III

❏ Ir a File > Add Server

❏ Crear la base de datos data_model

Page 27: Análisis, preparación y visualización de datos usando herramientas Open Source

SQL POWER ARCHITECT

❏ Abrir Files

❏ Ir al siguiente directorio

Computer > /opt/pentaho/architect-1.0.8

❏ Iniciar la aplicación architect.jar

❏ Conexión: Connections > Add Source Connection > New Connection

❏ Creación del modelo: Tools > Forward Engineer

Page 28: Análisis, preparación y visualización de datos usando herramientas Open Source

PROCESAMIENTO DE DATOS

Page 29: Análisis, preparación y visualización de datos usando herramientas Open Source

PENTAHO DATA INTEGRATION

❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en el directorio src_data y descomprimir

❏ Crear el directorio src_data en ➔ /home/vagrant/Documents/workshop

../workshop/src_data/DeudaExterna

catalogo_indicadores.csv

catalogo_paises.csv

deuda_externa.csv

Page 30: Análisis, preparación y visualización de datos usando herramientas Open Source

PENTAHO DATA INTEGRATION

❏ Abrir Terminal

❏ Ejecutar los siguientes comandos:

➔ cd /opt/pentaho/data-integration

➔ ./spoon.sh

❏ Seleccionar el repositorio workshop

❏ Conexión: Tools > Repository > Connections > data_model

Page 31: Análisis, preparación y visualización de datos usando herramientas Open Source

CUBOS DE DATOS

Page 32: Análisis, preparación y visualización de datos usando herramientas Open Source

CONCEPTOS

❏ Un cubo es una colección de múltiples dimensiones y medidas

FECHA TABLET

VENDEDO

R

2013

2014

PRODU

CTOPC

2015

SMARTP

HONE

JUAN

PEDRO

ANDREA

MEDIDAS

- VENTAS

- COMISIONES

- CANTIDAD

DIMENSIONES

Page 33: Análisis, preparación y visualización de datos usando herramientas Open Source

CUBOS, DIMENSIONES Y MEDIDAS

Analogía❏ Las dimensiones del cubo son a las

dimensiones del modelo dimensional❏ Las medidas del cubo son a los hechos del

modelo dimensional

Visualización❏ Un cubo se lo visualiza como una tabla

cruzada o tabla pivot

Page 34: Análisis, preparación y visualización de datos usando herramientas Open Source

VISUALIZACIÓN DE UN CUBO

FECHA TABLET

VENDEDO

R

2013

2014

PRODU

CTOPC

2015

SMARTP

HONE

JUAN

PEDRO

ANDREA

TABLET PC SMARTPHONE

2013 2014 2015 2013 2014 2015 2013 2014 2015

JUAN 12 8 14 - - - - - -

PEDRO - - - 22 45 16 - - -

ANDREA - - - - - - 134 122 245

TABLA PIVOT / CRUZADA

Page 35: Análisis, preparación y visualización de datos usando herramientas Open Source

PENTAHO SCHEMA WORKBENCH

❏ Conexión: Options > Connection > data_model

❏ Publicación del Cubo: File > PublishAdmin|password|data_model

❏ Abrir Terminal

❏ Ejecutar los siguientes comandos:

➔ cd /opt/pentaho/schema-workbench

➔ ./workbench.sh

Page 36: Análisis, preparación y visualización de datos usando herramientas Open Source

PENTAHO BI-SERVER

❏ Abrir Firefox: http://localhost:8080

❏ Abrir Terminal

❏ Ejecutar los siguientes comandos:

➔ cd /opt/pentaho/biserver-ce

➔ ./start-pentaho.sh

➔ sudo su - pentaho

❏ Conexión: Manage Data Sources > New Connection > data_model

Page 38: Análisis, preparación y visualización de datos usando herramientas Open Source

MUCHAS GRACIASPara preguntas o sugerencias:

Gabriela Chasifan | [email protected]

Byron Torres | [email protected]

Mauricio Murillo | [email protected]

Carlos Fuentes | [email protected]