La Herramienta de Pentaho Tiene Dos Opciones de Uso

10
Fernanda Cadme – Miguel Jarama Gerencia Informática Informe del Proyecto Final Construcción de un Data Warehouse Objetivos - Conseguir dos fuentes diferentes de datos. - Construir un Almacén de datos y realizar dos reportes desde el mismo. Justificación de la Solución La herramienta escogida para la elaboración del data Warehouse es Pentaho Community, ya que es una de las más potentes para Bussiness Intelligence, que con todos sus complementos incluidos nos permite realizar el ETL, los Cubos OLAP y los reportes de los mismos para mejor visión global del negocio de una determinada área a analizar convirtiéndose por ende en una herramienta elemental para el apoyo en la toma de decisiones de gerentes ya que se pueden observar las cifras de la empresa de forma más clara en gráficos. El diseño para el data warehouse a seguir fue el de Bill Inmonn ya que teníamos la información en ¨bruto¨, para construir nuestro datamarts en copos de nieve, y utilizarlos para ir realizando de una mejor organización las dimensiones del Cubo OLAP. Diseño del Data Warehouse Reportes a Realizar - Mostrar las cantidades de ventas por cuidad para identificar mercados potenciales. - Mostrar la expectativa de vida en cada cuidad para identificar las edades a las cuales van dirigidas los productos.

Transcript of La Herramienta de Pentaho Tiene Dos Opciones de Uso

Page 1: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

Informe del Proyecto Final

Construcción de un Data Warehouse

Objetivos - Conseguir dos fuentes diferentes de datos. - Construir un Almacén de datos y realizar dos reportes desde el mismo.

Justificación de la Solución La herramienta escogida para la elaboración del data Warehouse es Pentaho Community, ya que es una de las más potentes para Bussiness Intelligence, que con todos sus complementos incluidos nos permite realizar el ETL, los Cubos OLAP y los reportes de los mismos para mejor visión global del negocio de una determinada área a analizar convirtiéndose por ende en una herramienta elemental para el apoyo en la toma de decisiones de gerentes ya que se pueden observar las cifras de la empresa de forma más clara en gráficos. El diseño para el data warehouse a seguir fue el de Bill Inmonn ya que teníamos la información en ¨bruto¨, para construir nuestro datamarts en copos de nieve, y utilizarlos para ir realizando de una mejor organización las dimensiones del Cubo OLAP. Diseño del Data Warehouse

Reportes a Realizar

- Mostrar las cantidades de ventas por cuidad para identificar mercados potenciales. - Mostrar la expectativa de vida en cada cuidad para identificar las edades a las cuales van

dirigidas los productos.

Page 2: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

Manual de Instalación

La herramienta de Pentaho tiene dos opciones de uso, la primera de pago y la segunda libre, para nuestro caso usaremos Pentaho Community (libre), que incluye todas sus herramientas en diferentes paquetes, lo cual se realiza algunas configuraciones para poner iniciar la aplicación. Antes de realizar especifiquemos cuales son los requerimientos mínimos para su correcto funcionamiento. Requisitos De Instalación

1. Hardware: a. Procesador:

i. Apple Macintosh Dual-Core ii. Intel o AMD64 Dual-Core

b. Memoria RAM: i. 2 a 3 Gb

c. Espacio en Disco: i. Aproximadamente 3 Gb

d. Sistema Operativo de 32bit o 64 bit: i. Apple Mac OS 10.7 & 10.8

ii. Microsoft Windows 7 iii. Ubuntu Server 10.X and 12.X

2. Software:

a. Base de Datos para el repositorio i. MySql Server

b. Conectores de las bases de datos a utilizar: i. Sqljdbc4.jar (Sql Server 2012)

ii. postgresql-9.1-901.jdbc4.jar (Postgres Sql 9.1) iii. mysql-conector-java-5.0.8-bin.jar (MySql Server)

c. Máquina virtual de Java i. Oracle Java 1.6 o posterior Java Runtime Environment (JRE)

ii. Oracle Java 1.6 o posterior Development Kit (JDK). d. Paquetes del Pentaho Comunity, página de descarga

(http://community.pentaho.com) i. Pentaho BI Suite 4.8 Stable.

ii. Pentaho Data Integration-Kettle 4.4.0 stable. iii. Pentaho Reporting engine and SDK 3.9.1 Stable.

e. Web Browsers No hay mucho problema en ello, ya que Pentaho soporta la mayoría de navegadores para sus herramientas y reportes.

Configuración de los requisitos de Software Todos los requisitos como: Bases de Datos, Máquina Virtual de Java y los Navegadores, ya sabemos cómo normalmente se instalan, luego de eso debemos configurar los conectores a las bases de datos, que es importante para que interactúe Pentaho con cada una de ellas.

Page 3: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

1. Copiar los JDBC’s en las rutas donde se encuentra los archivos de Pentaho, en mi caso sería:

a. /run/media/Danny/Mis Documentos/pentaho/pdi-ce-4.4.0-stable/data-

integration/libext/JDBC/

b. /run/media/Danny/Mis Documentos/pentaho/prd-ce-3.9.1-GA/report-

designer/lib/jdbc/

c. /run/media/Danny/Mis Documentos/pentaho/biserver-ce-4.8.0-stable/administration-

console/jdbc/

d. /run/media/Danny/Mis Documentos/pentaho/biserver-ce-4.8.0-stable/biserver-

ce/tomcat/lib/

Los JDBC’s sirven para la comunicación entre la Base de Datos a utilizar y cualquier aplicación Java. Ejecución para realizar el ETL, cargar en el repositorio del Almacén de Datos Debemos tener en cuenta que en el repositorio del Almacén de Datos ya deben estar creadas, para cargar los datos relevantes que vamos a analizar.

1. Ir a la siguiente ruta desde la terminal:

2. Ejecutar la siguiente línea, para iniciar la aplicación, esperamos un momento:

Page 4: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

3. Después de inicializar el programa nos saldrá la siguiente ventana, para que el repositorio a

utilizar sea nuestra base de datos creada, debemos crear una nueva, Click en el icono verde de

“más”.

4. Debemos realizar las conexiones a todas las bases de datos que vamos a utilizar, Seleccionamos

Kettle database repository, Click en Vale.

5. Click en nuevo y llenamos los campos correspondientes de nuestra base de datos, click en Probar.

Page 5: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

Fuente 1 (Sql Server)

Fuente 2 (PostgreSql) Repositorio Almacen de Datos (MySql)

6. La siguiente pantalla, nos pedirá ingresar el ID y Nombre, lo podemos de acuerdo a nuestra base

de datos, Click en Vale.

7. Nos saldrá la siguiente pantalla, para comenzar a diseñar nuestro Almacén de datos con el ETL.

Page 6: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

8. En ella escogemos “Entrada Tabla”, y arrastramos hasta nuestra área de trabajo.

9. Doble Click encima del icono, esto nos ayuda a extraer los datos para transformar, con la

ayuda de consultas SQL, podremos identificar las columnas necesarias, Click en visualizar para ver todos los datos a extraer. Esto lo realizamos con todas las tablas que deseamos obtener la información.

Page 7: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

10. Cuando necesitamos, unir las tablas lo realizamos con “Unión pro Clave”, esto nos ayuda para tener relación las dos tablas, lo podemos realizar por medio de los campos que son iguales en las dos tablas.

Page 8: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

11. De igual forma doble click sobre el icono, y llenamos los campos.

12. Ya para empezar a realizar las dimensiones del cubo, buscamos “Búsqueda/Actualización en

combinación”.

Page 9: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

13. Doble Click para llenar los campos, lo cual pondremos solo los campos que serán necesarios para nuestro Almacén de Datos.

14. Al Final en la tabla que tendremos nuestro hechos, es decir los que vamos a medir, lo pondremos los campos.

Page 10: La Herramienta de Pentaho Tiene Dos Opciones de Uso

Fernanda Cadme – Miguel Jarama Gerencia Informática

15. Al tener ya todo correctamente, vamos a ejecutar al final nos saldrá que ha escrito en la

Conclusiones

- Pentaho Community en su versión libre, tiene una gran potencialidad para realizar las pruebas del proceso y el objetivo del Almacén de Datos, que para finalidad de educación no pide mucho favor a la pagada.

- Al tener demasiados datos en las bases de datos, en el momento de la construcción del Almacén de Datos, como nuestras computadoras no tenían los suficientes recursos para el proceso, su finalización era fracasada, es decir no terminaba de realizar todo el almacenamiento de los datos.

- Se requiere de tiempo y especial atención al momento de crear el diseño de un almacén de datos ya que si en una de las consultas u operaciones del proceso ETL se realizase de manera incorrecta podrían resultar en un desbordamiento de la memoria y por ende en algunos casos hasta que la computadora se apague repentinamente de manera que se recomienda realizar las pruebas previas a la ejecución del diseño y también tener una idea de lo que vamos a obtener.

- El diseño de un data Warehouse se basa en primera instancia en los requerimientos de lo que vamos a obtener o deseamos analizar y conocer.