Capítulo I - Lindley

22
Capítulo I: Fundamento Teórico Corporación Lindley S.A. Sistemas de Información Estratégicos 1.1. Inteligencia de Negocios El término inteligencia de negocios se refiere al uso de datos en una empresa para facilitar la toma de decisiones. Abarca la comprensión del funcionamiento actual de la empresa, bien como la anticipación de acontecimientos futuros, con el objetivo de ofrecer conocimientos para respaldar las decisiones empresariales. Las herramientas de inteligencia se basan en la utilización de un sistema de información de inteligencia que se forma con distintos datos extraídos de los datos de producción, con información relacionada con la empresa o sus ámbitos y con datos económicos. Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos. La vida o el periodo de éxito de un software de inteligencia de negocios dependerá únicamente del nivel de éxito del cual haga en beneficio de la empresa que lo usa, si esta empresa es capaz de incrementar su nivel financiero, administrativo y sus decisiones mejoran el accionar de la empresa, la inteligencia de negocios usada estará presente por mucho tiempo, de lo contrario será sustituido por otro que aporte mejores resultados y más precisos. Por último, las herramientas de inteligencia analítica posibilitan el modelado de las representaciones con base en consultas para crear un cuadro de mando integral que sirve de base para la presentación de informes. 1.2. ¿Qué es Inteligencia de Negocios (Business Intelligence - BI)? La Inteligencia de Negocios o se puede definir como el proceso de analizar los bienes o datos acumulados en una empresa y extraer una cierta inteligencia o conocimiento de ellos. 1.2.1.- Propósito de la Inteligencia de Negocios BI apoya a los tomadores de decisiones con la información correcta, en el momento y lugar correcto, lo que les permite tomar mejores decisiones de negocios. La información adecuada en el lugar y momento adecuado incrementa efectividad de cualquier empresa. 1

Transcript of Capítulo I - Lindley

Page 1: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

1.1. Inteligencia de Negocios

El término inteligencia de negocios se refiere al uso de datos en una empresa para facilitar la toma de decisiones. Abarca la comprensión del funcionamiento actual de la empresa, bien como la anticipación de acontecimientos futuros, con el objetivo de ofrecer conocimientos para respaldar las decisiones empresariales.

Las herramientas de inteligencia se basan en la utilización de un sistema de información de inteligencia que se forma con distintos datos extraídos de los datos de producción, con información relacionada con la empresa o sus ámbitos y con datos económicos.Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos.

La vida o el periodo de éxito de un software de inteligencia de negocios dependerá únicamente del nivel de éxito del cual haga en beneficio de la empresa que lo usa, si esta empresa es capaz de incrementar su nivel financiero, administrativo y sus decisiones mejoran el accionar de la empresa, la inteligencia de negocios usada estará presente por mucho tiempo, de lo contrario será sustituido por otro que aporte mejores resultados y más precisos.Por último, las herramientas de inteligencia analítica posibilitan el modelado de las representaciones con base en consultas para crear un cuadro de mando integral que sirve de base para la presentación de informes.

1.2. ¿Qué es Inteligencia de Negocios (Business Intelligence - BI)?

La Inteligencia de Negocios o se puede definir como el proceso de analizar los bienes o datos acumulados en una empresa y extraer una cierta inteligencia o conocimiento de ellos.

1.2.1.- Propósito de la Inteligencia de Negocios

BI apoya a los tomadores de decisiones con la información correcta, en el momento y lugar correcto, lo que les permite tomar mejores decisiones de negocios. La información adecuada en el lugar y momento adecuado incrementa efectividad de cualquier empresa.

1.2.2.- Componentes De Business Intelligence

1.2.2.1.- Multidimensionalidad.1.2.2.2. - Data Mining.1.2.2.3. - Agentes.1.2.3.4. - Data Warehouse.

1.2.2.1- Multidimensionalidad. La información multidimensional se puede encontrar en hojas de cálculo, bases de datos, etc.

1.2.2.2.- Data Mining. Las empresas suelen generar grandes cantidades de

Información sobre sus procesos productivos, desempeño operacional, mercados y clientes.Las aplicaciones de data Mining pueden identificar tendencias y comportamientos, no sólo para extraer información, sino también para descubrir

1

Page 2: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

las relaciones en bases de datos que pueden identificar comportamientos que no son muy evidentes.

1.2.2.3.- Agentes. Los agentes son programas que piensan. Ellos pueden realizar tareas

a un nivel muy básico sin necesidad de intervención humana. 1.2.2.4.- Data Warehouse. Es la respuesta de la tecnología de información a la

descentralización en la toma de decisiones. Repositorio de datos organizacional.

1.2.3.- Metodología Para la Implementación del Data Mart

1.2.3.1.- Metodología Ralph Kimball.

La metodología de Ralph Kimball se enfoca principalmente en el diseño de la base de datos que almacenará la información para la toma de decisiones.El diseño se basa en la creación de tablas de hechos, es decir, tablas que contengan la información numérica de los indicadores a analizar, o sea la información cuantitativa de la información para la toma de decisiones.Las tablas anteriores se relacionan con tablas de dimensiones, las cuales contienen la información cualitativa, de los indicadores, es decir, toda aquella información que clasifique la información requerida.A este modelo de datos se le conoce como diseño estrella, existen variaciones de éste llamados copo de nieve y diseño "flat". Todos estos diseños tienen la característica de preparar la información de acuerdo a la necesidad de tomar decisiones y no a los argumentos técnicos de espacio de almacenamiento.

2

Page 3: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

1.2.3.2.- Fases Metodología Ralph Kimball.

1. Planificación del Proyecto

La planificación busca identificar la definición y el alcance del proyecto de DWH, incluyendo las justificaciones del negocio y las evaluaciones de factibilidad. Esta etapa se concentra sobre la definición del proyecto. Según sentencia Kimball:

“Antes de comenzar un proyecto de data warehouse o data mart, hay que estar seguro si existe la demanda y de dónde proviene. Si no se tiene un usuario sólido, posponga el proyecto”. Como metodología, en esta etapa propone identificar el alcance preliminar basándose en los requerimientos del negocio y no en fechas límites, construyendo la justificación del proyecto en términos del negocio. A nivel de planificación del proyecto se establece la identidad del mismo, el personal (los usuarios, gerentes del proyecto, equipo del proyecto), desarrollo del plan del proyecto, el seguimiento y la monitorización.

2. Definición de los Requerimientos del Negocio

Un factor determinante en el éxito de un proceso de DWH es la interpretación correcta de los diferentes niveles de requerimientos expresados por los distintos grupos de usuarios. La técnica utilizada para revelar los requerimientos de los analistas del negocio difiere de los enfoques tradicionales guiados por los datos. Los diseñadores de los DWH deben entender los factores claves que guían el negocio para determinar efectivamente los requerimientos y traducirlos en consideraciones de diseño apropiadas. Los usuarios finales y sus requerimientos impactan siempre en la implementación de un DWH. Según la perspectiva de Kimball, los requerimientos del negocio se posicionan en el centro del “universo del Data Warehouse”. Como destaca siempre el autor, los requerimientos del negocio deben determinar el alcance del DWH (qué datos debe contener, cómo deben estar organizados, cada cuánto tiempo debe actualizarse, quiénes y desde dónde accederán, etc.).

3

Page 4: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

3. Modelado Dimensional

La definición de los requerimientos del negocio determina los datos necesarios para cumplir los requerimientos analíticos de los usuarios. Diseñar los modelos de datos para soportar estos análisis requiere un enfoque diferente al usado en los sistemas operacionales. Básicamente, se comienza con una matriz donde se determina la dimensionalidad de cada indicador y luego se especifican los diferentes grados de detalle dentro de cada concepto del negocio, así como la granularidad de cada indicador y las diferentes jerarquías que dan forma al modelo dimensional del negocio (MDN) o mapa dimensional.

4. Diseño Físico

El diseño físico de la base de datos se focaliza sobre la selección de las estructuras necesarias para soportar el diseño lógico. Un elemento principal de este proceso es la definición de estándares del entorno de la base de datos. La indexación y las estrategias de particionamiento se determinan también en esta etapa. En la estrategia de particionamiento o agregación, el DWH tiene, y debe tener, todo el detalle de información en su nivel atómico. Así, por poner algún ejemplo, en los sectores de telecomunicaciones o banca es habitual encontrarse con DWH con miles de millones de registros. Sin embargo, la mayoría de consultas no necesitan acceder a un nivel de detalle demasiado profundo. Un jefe de producto puede estar interesado en los totales de venta de sus productos mes a mes, mientras que el jefe de área consulta habitualmente la evolución de ventas de sus zonas. Incluso con el uso de índices, la compresión de las tablas, o con una inversión millonaria en hardware, estas consultas habituales deberían leer, agrupar y sumar decenas de millones de registros, lo que repercutiría directamente en el tiempo de respuesta y en el descontento de los usuarios. Por tanto, muchas veces lo más complicado será realizar la correcta elección de las tablas agregadas necesarias. De nada sirve crear muchos agregados si estos no se utilizan, por lo que es necesario conocer las consultas habituales de los usuarios para hacer la selección de las tablas agregadas. La solución ante estas situaciones pasa siempre por la preparación de tablas agregadas. Estas tablas deben ser versiones reducidas de las dimensiones asociadas con la granularidad de la tabla de hechos y añaden los indicadores de las tablas de detalle aun nivel superior. Por ejemplo, las ventas podrían pre calcularse a nivel mensual, o por cliente, o por producto. De esta manera, las consultas típicas del jefe de producto o del jefe de área podrían ejecutarse en pocos segundos, sin necesidad de acceder a la tabla de ventas detalladas. La existencia de estas tablas agregadas debe ser completamente transparente para el usuario de negocio. Es decir, tanto el jefe de área como el jefe de producto trabajarán con el indicador "Ventas", y la herramienta de BI hará el resto. Por otro lado, en la estrategia de indexación los índices son estructuras opcionales optimizadas y orientadas a conjuntos de operaciones. Según Ralph Kimball, las tablas de dimensión deben tener un único índice sobre las claves primarias y sería recomendable que el índice estuviera compuesto de un único atributo. Además recomienda el uso de índices de tipo árbol-B en atributos de alta cardinalidad y aplicarlos índices de mapas de bits en atributos de cardinalidad media o baja. La clave principal de la tabla de hechos es casi siempre un subconjunto de las claves externas, de manera que se elegirá un índice concatenado de las principales dimensiones de la tabla de hechos y dado que muchas consultas tienen relación con la dimensión fecha, ésta debería liderar el índice definido. Además, el atributo fecha en la primera posición permitirá aumentar la velocidad de los procesos de carga de datos que se agrupan por fecha y, dado que la mayoría de los optimizadores de consulta de los sistemas de gestión de bases de datos permiten que se utilice más de un

4

Page 5: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

índice a la hora de resolver una consulta, es posible construir diferentes índices en las demás claves ajenas de la tabla de hechos.

5. Diseño y Desarrollo de la Presentación de Datos

Esta etapa es típicamente la más subestimada de las tareas en un proyecto de DWH. Las principales actividades de esta fase del ciclo de vida son: la extracción, la transformación y la carga (ETL process). Se definen como procesos de extracción aquellos requeridos para obtener los datos que permitirán efectuar la carga del Modelo Físico diseñado. Así mismo, se definen como procesos de transformación los procesos para convertir o recodificar los datos fuente a fin de poder efectuar la carga efectiva del Modelo Físico. Por otra parte, los procesos de carga de datos son los procesos requeridos para poblar el DWH. Todas estas tareas son altamente críticas pues tienen que ver con la materia prima del DWH: los datos. La desconfianza y pérdida de credibilidad del DWH provocará efectos inmediatos e inevitables si el usuario se encuentra con información inconsistente. Es por ello que la calidad de los datos es un factor determinante en el éxito de un proyecto de DWH. Es en esta etapa donde deben sanearse todos los inconvenientes relacionados con la calidad de los datos fuente. Para cumplir con estas premisas es necesario tener en cuenta ciertos parámetros a la hora de desarrollar las tablas de dimensión y la tabla de hechos.

6. Diseño de la Arquitectura Técnica

Los entornos de DWH requieren la integración de numerosas tecnologías. Se deben tener en cuenta tres factores: los requerimientos del negocio, los actuales entornos técnicos y las directrices técnicas y estratégicas futuras planificadas por la compañía para poder establecer el diseño de la arquitectura técnica del entorno de DWH.

Algunos equipos de trabajo no entienden las ventajas de una arquitectura y tienen la sensación de que las tareas son demasiado opacas, por lo que entienden su diseño como una distracción y un obstáculo para el progreso del DWH, así que optan por omitir el diseño de la arquitectura. Sin embargo, hay otros equipos de trabajo que dedican un tiempo demasiado grande para el diseño arquitectónico. El autor Ralph Kimball recomienda no irse a ninguno de los dos extremos para hacerlo de una manera intermedia. Para ello propone un proceso de 8 pasos para asegurar un correcto diseño arquitectónico sin extenderse demasiado en el tiempo.

• Establecer un Grupo de Trabajo de Arquitectura:

Es muy útil disponer de un pequeño grupo de trabajo de dos a tres personas que se centren en el diseño de la arquitectura. Por lo general, es el arquitecto técnico, trabajando con los datos de diseño, el que estará al frente de este grupo de trabajo. Este grupo necesita establecer sus estatutos y la línea de prestaciones en el tiempo. También es necesario educar al resto del equipo sobre la importancia de una arquitectura.

• Requisitos relacionados con la arquitectura

La arquitectura se crea para apoyar las necesidades del negocio, la intención no es comprar más productos. En consecuencia, el elemento fundamental para el proceso de diseño de la arquitectura proviene de los requerimientos de negocio obtenidos en esa fase de definición. El enfoque principal es descubrir las implicaciones arquitectónicas asociadas a las necesidades críticas del negocio, por lo que además de aprovechar la definición de los requisitos del proceso de negocio, también se llevan a cabo entrevistas

5

Page 6: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

adicionales dentro de la organización para comprender la normativa vigente dentro del marco tecnológico, instrucciones técnicas previstas y los límites no negociables.

• Documento de requisitos arquitectónicos

Una vez definidos los requerimientos de negocio y llevado a cabo las entrevistas suplementarias es momento de documentar las conclusiones. La forma de hacerlo ha de ser sencilla pues el objetivo es tener una lista con cada requisito de negocio que tiene impacto en la arquitectura.

• Desarrollo de un modelo arquitectónico de alto nivel

Una vez que los requisitos de la arquitectura se han documentado es hora de empezar a formular modelos para apoyar las necesidades identificadas. Para ello se dividen los equipos de trabajo según los componentes principales, como el acceso a datos, metadatos y la infraestructura. A partir de aquí, los equipos definen y refinan el modelo arquitectónico de alto nivel.

• Diseño y especificación de los subsistemas

Una vez llegados a este punto es momento de hacer un diseño detallado de los subsistemas. Para cada componente, el grupo de trabajo diseña una lista con las capacidades necesarias de dicho componente. Por otro lado se tienen en cuenta las necesidades de seguridad, así como la infraestructura física y las necesidades de configuración. En algunos casos, las opciones de infraestructura, tales como el hardware del servidor y el software de base de datos, están predeterminados por la propia empresa. El tamaño, escalabilidad, rendimiento y flexibilidad son factores clave a considerar al determinar el papel de los cubos OLAP en el conjunto de la arquitectura técnica.

• Determinar las fases de aplicación de la Arquitectura

Es probable que no se puedan poner en práctica todos los aspectos de la arquitectura técnica a la vez. Algunos no son negociables, mientras que otros se pueden aplazar a una fecha posterior; éstos, son los requisitos de negocios para establecer las prioridades de la arquitectura.

• Documento de la Arquitectura Técnica

Se debe de documentar la arquitectura técnica, incluyendo las fases de la implementación prevista. El documento de arquitectura incluirá información adecuada de manera que los profesionales cualificados puedan proceder con la construcción del sistema.

• Revisar y finalizar la Arquitectura Técnica El plan de la arquitectura se debe comunicar con diferentes niveles de detalle: equipo de proyecto, sponsor y director del proyecto. Tras la revisión, la documentación debe ser actualizada y utilizada inmediatamente en el proceso de selección del producto.

7. Selección de Productos e Instalación

6

Page 7: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

Utilizando el diseño de arquitectura técnica como marco es necesario evaluar y seleccionar los componentes específicos de la arquitectura, como la plataforma de hardware, el motor de base de datos, la herramienta de ETL, las herramientas de acceso, etc. Una vez evaluados y seleccionados los componentes determinados se procede con la instalación y prueba de los mismos en un ambiente integrado de DWH. Para ello es necesario tener en cuenta una serie de premisas que recomienda el autor de esta metodología:

• Comprender el proceso de compras corporativas.El primer paso antes de seleccionar nuevos productos es entender el hardware y el software interno, así como los procesos de aprobación de compras por parte de la empresa. Los gastos deben ser aprobados por el departamento correspondiente de la empresa.

• Elaborar una matriz de evaluación del producto. Con el plan de la arquitectura como punto de partida se desarrolla una matriz de evaluación empleando, por ejemplo, hojas de cálculo en donde se identificarán los criterios de evaluación, junto con factores de ponderación para indicar su importancia. Cuanto más específico sea el criterio, mejor. Estos criterios podrían incluir la funcionalidad, arquitectura técnica, características del software, impacto en las infraestructuras y viabilidad de los proveedores.

• Realizar investigación de mercados.

Los compradores deben estar informados cuando van a seleccionar los productos. Esto significa realizar una amplia investigación del mercado para entender mejor a los vendedores y sus ofertas. La solicitud de información es una herramienta clásica de evaluación de productos.

• Filtrar opciones y realizar evaluaciones más detalladas. A pesar de la gran cantidad de productos disponibles en el mercado, sólo un pequeño número de los proveedores pueden satisfacer tanto nuestras necesidad es técnicas como de funcionalidad. Mediante la comparación de resultados preliminares de la matriz de evaluación, debemos agrupar en una lista los proveedores sobre los que tomaremos la decisión. Con la lista de proveedores seleccionados se debe realizar un proceso de evaluación detallada, incluyendo si son posibles otras instalaciones de tamaño similar sobre las que poder comparar a la hora de tomar una decisión.

• Manejo de un prototipo.

Después de realizar la evaluación detallada, a veces hay un software ganador, a menudo basado en experiencias previas o relaciones con personal que provee el software. En muchas ocasiones, también puede surgir un producto debido a compromisos existentes con alguna de las empresas que oferta van. En cualquier caso, cuando un candidato único aparece como la mejor opción, podemos evitar el uso de un prototipo con el consiguiente ahorro de tiempo y dinero. Si, por el contrario no existe una elección clara una vez que se llega a este momento, se debería llevar a cabo un prototipo con no más de dos productos, solicitando a los proveedores de software que proporcionen una solución con un pequeño conjunto de datos de muestra.

• Selección del producto, instalación y negociación.

7

Page 8: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

A la hora de seleccionar un producto en lugar de firmar inmediatamente con el proveedor, es necesario un periodo período de prueba en el que se ha de tener la oportunidad de utilizar el producto en su entorno real. A medida que la prueba llega a su fin se tiene la oportunidad de negociar una compra beneficiosa para todas las partes implicadas.

8. Especificación de Aplicaciones para Usuarios Finales

No todos los usuarios del DWH necesitan el mismo nivel de análisis. Es por ello que en esta etapa se identifican los roles o perfiles de usuarios para los diferentes tipos de aplicaciones necesarias en base al alcance de los perfiles detectados (gerencial, analista del negocio, vendedor, etc.)

9. Desarrollo de Aplicaciones para Usuarios Finales

A continuación de la especificación de las aplicaciones para usuarios finales, el desarrollo de las aplicaciones de los usuarios finales involucra configuraciones de los metadatos y construcción de reportes específicos.Los usuarios acceden al DWH por medio de herramientas de productividad basadas en GUI (Graphical User Interface). De hecho existen multitud de estas herramientas con las que proveer a los usuarios. Las herramientas pueden incluir software de consultas, generadores de reportes, procesamiento analítico en línea o herramientas de Datamining dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo, una sola herramienta puede no satisfacer todos los requerimientos, por lo que quizás sea necesario la integración de herramientas hechas bajo petición expresa de los usuarios para satisfacer sus necesidades de consulta sobre el DWH.

10. Implementación

La implementación representa la convergencia de la tecnología, los datos y las aplicaciones de usuarios finales accesibles para el usuario del negocio. Hay varios factores extras que aseguran el correcto funcionamiento de todos estos elementos, entre ellos se encuentran la capacitación, el soporte técnico, la comunicación y las estrategias de feedback. Todas estas tareas deben tenerse en cuenta antes de que cualquier usuario pueda tener acceso al DWH.

11. Mantenimiento y crecimiento

Como se remarca siempre, la creación de un DWH es un proceso (de etapas bien definidas, con comienzo y fin, pero de naturaleza espiral) que acompaña a la evolución de la organización durante toda su historia. Se necesita continuar con las actualizaciones de forma constante para poder seguir la evolución de las metas por conseguir. Al contrario de los sistemas tradicionales, los cambios en el desarrollo deben ser vistos como signos de éxito. Es importante establecer las prioridades para poder manejar los nuevos requerimientos de los usuarios y de esa forma poder evolucionar y crecer. Una vez que se ha construido e implantado el DWH no hay tiempo para el descanso, rápidamente debemos estar preparados para administrar el mantenimiento y crecimiento del mismo. Si bien las tareas pueden llegar a parecer similares a las tratadas en otras etapas del ciclo de vida, existe una diferencia clave:Los usuarios están ahora accediendo al DWH.12. Gestión del ProyectoLa gestión del proyecto asegura que las actividades del ciclo de vida se lleven a cabo de manera sincronizada. Como se indica en la figura 5, la gestión del proyecto acompaña

8

Page 9: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

todo el ciclo de vida. Entre sus actividades principales se encuentra la monitorización del estado del proyecto y el acoplamiento entre los requerimientos del negocio y las restricciones de los sistemas de información para poder manejar correctamente las expectativas en ambos sentidos.

1.3.- Herramientas

1.3.1.- Pentaho BI

Pentaho BI Suite es un conjunto de programas libres para generar inteligencia empresarial (Business Intelligence). Incluye herramientas integradas para generar informes, minería de datos, ETL, etc. Estas soluciones al igual que su ambiente de implantación están basados en JAVA, haciéndolo flexible en cubrir amplias necesidades empresariales.

Las soluciones que Pentaho pretende ofrecer se componen fundamentalmente de una infraestructura de herramientas de análisis e informes integrados con un motor de workflow de procesos de negocio. La plataforma será capaz de ejecutar las reglas de negocio necesarias, expresadas en forma de procesos y actividades y de presentar y entregar la información adecuada en el momento adecuado.

En su web presenta una organización por productos: Reporting, Análisis, Dahsboards y Data Mining, acompañado por dos introducciones: a la plataforma y a los productos. En dichas introducciones se hace mención específica al workflow como una de las capacidades BI claves de la plataforma.

Reporting Un módulo de los informes ofrece la solución adecuada a las necesidades de los usuarios. Pentaho Reporting es una solución basada en el proyecto JFreeReport y permite generar informes ágil y de gran capacidad. Pentaho Reporting permite la distribución de los resultados del análisis en múltiples formatos - todos los informes incluyen la opción de imprimir o exportar a formato PDF, XLS, HTML y texto. Los reportes Pentaho permiten también programación de tareas y ejecución automática de informes con una determinada periodicidad.

Análisis Pentaho Análisis suministra a los usuarios un sistema avanzado de análisis de información. Con uso de las tablas dinámicas (pivot tables, crosstabs), generadas por Mondrian y JPivot, el usuario puede navegar por los datos, ajustando la visión de los datos, los filtros de visualización, añadiendo o quitando los campos de agregación. Los datos pueden ser representados en una forma de SVG o Flash, los dashboards widgets, o también integrados con los sistemas de minería de datos y los portales web (portlets). Además, con el Microsoft Excel Analysis Services, se puede analizar los datos dinámicos en Microsoft Excel (usando la conexión a OLAP server Mondrian).

Integración de Datos Se realiza con una herramienta ETL (Pentaho Data Integration) que permite implementar los procesos ETL. Últimamente Pentaho lanzó una nueva versión - PDI 3.0 – que marcó

9

Page 10: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

un gran paso adelante en OSBI ETL y que hizo Pentaho Data Integration una alternativa interesante para las herramientas comerciales.

1.3.2.- Schema Mondrian Workbench.

La Mesa de trabajo de Mondrian del esquema es una interfaz de diseño que le permite crear y probar esquemas de cubo OLAP Mondrian visualmente. El motor de Mondrian procesa las solicitudes de MDX con los ROLAP (Relational OLAP) esquemas. Estos archivos de esquema XML de metadatos son los modelos que se crean en una estructura específica utilizada por el motor de Mondrian. Estos modelos XML puede ser considerado como el cubo de las estructuras que utilizan HECHO existente y tablas de dimensiones que se encuentran en su RDBMS. No se requiere que un cubo de física real se construye o mantiene, sólo que el modelo de metadatos se crea.

Como en todas las herramientas de Pentaho, en primer lugar hemos de definir las conexiones a base de datos como paso previo a la configuración de los esquemas. Además, hemos de colocar el driver jdbc en el directorio drivers que cuelga de la instalación de PSW. En nuestro caso, hemos configurado la conexión con Oracle de la siguiente manera:

En primer lugar, procederemos a crear el Esquema. Un esquema es un contenedor de cubos (tendrá un único fichero XML), donde podremos crear tantos cubos como deseemos. Las propiedades que se pueden indicar al crear un esquema son un nombre, la descripción, un nombre para la dimensión que agrupara a las medidas y un rol por defecto para utilizar en las conexiones de base de datos. Como ayuda en este momento y en la creación del resto de elementos, podemos poner el ratón en el nombre del atributo a definir, y nos aparecerá un texto explicativo de este (tal y como veis en la imagen siguiente).

10

Page 11: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

Una vez creado el esquema, procederemos a la creación de los Cubos, aunque previamente hemos de hacer una consideración. En cada cubo, podemos definir la estructura de tabla de hechos, medidas, miembros calculados y dimensiones. La dimensiones y sus jerarquías podemos definirlas dentro de cada cubo, o crearlas de una forma general dentro del esquema, y luego utilizarlas en los cubos que nos interesen. Esto nos evita tener que definir varias veces lo mismo para cada uno de los cubos, así como reutilizar elementos ya definidos que se tratan en varios cubos. Esta será mi elección de diseño. Por tanto, antes de crear los cubos vamos a crear las dimensiones compartidas con sus correspondientes jerarquías.

Creación de dimensiones compartidas.

Para añadir las dimensiones, seleccionaremos el esquema y pulsaremos la opción Add Dimension. Le daremos un nombre significativo a la dimensión, y seleccionaremos su tipo (TimeDimension en este caso) y una descripción.

11

Page 12: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

A continuación, iremos creando las diferentes jerarquías que tenga la dimensión. Por ejemplo, en nuestra dimensión tiempo tenemos la jerarquías: Año – Mes – Día, Semana – Día, Año – Trimestre – Mes – Día, etc. Como veis, podemos tener tantas jerarquías como deseemos. Las jerarquías son los niveles de análisis y detalle de la información de nuestro modelo dimensional, que luego nos permitirán realizar el análisis y la navegación por los datos utilizando Mondrian. En cada jerarquía, indicaremos una serie de parámetros (importantes el hasAll, si queremos que haya un agrupador de todos los valores de la jerarquía, y su descripción en el caso de que este marcado (allMemberName)). Igualmente importante la clave de la jerarquía y una descripción que luego nos aparecerá al configurar la ejecución del cubo.

Para cada jerarquía, indicaremos una tabla de la dimensión, y a continuación iremos creando los diferentes Niveles (levels) que componen la jerarquía. Para cada nivel, iremos indicando la columna de la base de datos que la describe, el tipo de datos, el tipo de nivel, la columna que contiene la descripción, etc. Esto lo realizaremos para cada uno de los niveles de la jerarquía. El orden con el que vamos creándolos determina la estructura de la jerarquía.

12

Page 13: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

Podemos tener tantas jerarquías como sea necesario dentro de la dimensión. Luego podremos utilizar la que deseemos a la hora de realizar los análisis (la primera será la jerarquía por defecto). Una vez concluido el diseño de todas las dimensiones con sus correspondientes jerarquías, ya podemos proceder a la creación de los cubos.

Creación de Cubos.

Al crear el Cubo, le indicaremos un nombre y una descripción, pudiendo marcar además las opciones cache (para que Mondrian trabaje con cache en este cubo) y la opción enabled (para que el cubo sea visible. Sino está marcado este flag, el cubo no aparecerá).

13

Page 14: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

A continuación, seleccionaremos la Tabla de Hechos del cubo (a partir de la cual podremos calcular las medidas o indicadores). Antes de proceder a crear las medidas, seleccionaremos las dimensiones que queremos incluir en el cubo, con la opción Add Dimension Usage. Incluiremos todas las dimensiones necesarias (de las compartidas que hemos creado antes). El cubo hereda todas las características que hayamos incluido en la dimensión, incluyendo todas las jerarquías y sus correspondientes atributos.

Como último paso en la creación del cubo, nos tocará definir las Medidas, que van a ser los valores de análisis. Tenemos aquellas que se calculan directamente con campos de la base de datos, y los Miembros Calculados, que son formulas en las que utilizamos otras medidas. Los atributos que podemos indicar para las Medidas son su nombre, descripción, función de agregación (suma, media, valor máximo, valor mínimo, contador, etc.), la columna que genera la medida, si es visible o no (puede interesar que campos intermedios que se utilizan para otras medidas no se vean), tipo de datos, formato y caption (nombre que aparecerá cuando lo utilicemos).

1.3.3.- MySql

14

Page 15: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

MySql es una base de datos muy rápida en la lectura cuando utiliza el motor no transaccional Misan, pero puede provocar problemas de integridad en entornos de alta concurrencia en la modificación. En aplicaciones web hay baja concurrencia en la modificación de datos y en cambio el entorno es intensivo en lectura de datos, lo que hace a MySql ideal para este tipo de aplicaciones. Sea cual sea el entorno en el que va a utilizar MySql, es importante monitorizar de antemano el rendimiento para detectar y corregir errores tanto de SQL como de programación.

Misal funciona sobre múltiples plataformas, incluyendo: AIX, BSD, Fresad, HP-UX, Kurisu O, GNU/Linux, Mac OS X, NetBSD, Novell Netware, OpenBSD, OS/2 Warp, QNX, SGI IRIX, Solaris, SunOS, SCO OpenServer, SCO UnixWare, Tru64, eBD, Windows 95, Windows 98, Windows NT, Windows 2000, Windows XP, Windows Vista, Windows 7 y Windows Server (2000, 2003 y 2008), OpenVMS10.

Características

Inicialmente, MySQL carecía de elementos considerados esenciales en las bases de datos relacionales, tales como integridad referencial y transacciones. A pesar de ello, atrajo a los desarrolladores de páginas web con contenido dinámico, justamente por su simplicidad.

Poco a poco los elementos de los que carecía MySQL están siendo incorporados tanto por desarrollos internos, como por desarrolladores de software libre. Entre las características disponibles en las últimas versiones se puede destacar:

● Amplio subconjunto del lenguaje SQL. Algunas extensiones son incluidas igualmente.

● Disponibilidad en gran cantidad de plataformas y sistemas.● Posibilidad de selección de mecanismos de almacenamiento que ofrecen

diferente velocidad de operación, soporte físico, capacidad, distribución geográfica, transacciones...

● Transacciones y claves foráneas.● Conectividad segura.● Replicación.● Búsqueda e indexación de campos de texto.

MySQL es un sistema de administración de bases de datos. Una base de datos es una colección estructurada de tablas que contienen datos. Esta puede ser desde una simple lista de compras a una galería de pinturas o el vasto volumen de información en una red corporativa. Para agregar, acceder a y procesar datos guardados en un computador, usted necesita un administrador como MySQL Server. Dado que los computadores son muy buenos manejando grandes cantidades de información, los administradores de bases de datos juegan un papel central en computación, como aplicaciones independientes o como parte de otras aplicaciones.

MySQL es un sistema de administración relacional de bases de datos. Una base de datos relacional archiva datos en tablas separadas en vez de colocar todos los datos en un gran archivo. Esto permite velocidad y flexibilidad. Las tablas están conectadas por relaciones definidas que hacen posible combinar datos de diferentes tablas sobre pedido.

15

Page 16: Capítulo I - Lindley

Capítulo I: Fundamento TeóricoCorporación Lindley S.A.Sistemas de Información Estratégicos

MySQL es software de fuente abierta. Fuente abierta significa que es posible para cualquier persona usarlo y modificarlo. Cualquier persona puede bajar el código fuente de MySQL y usarlo sin pagar. Cualquier interesado puede estudiar el código fuente y ajustarlo a sus necesidades. MySQL usa el GPL (GNU General Public License) para definir qué puede hacer y que no puede hacer con el software en diferentes situaciones. Si usted no se ajusta al GPL o requiere introducir código MySQL en aplicaciones comerciales, usted puede comprar una versión comercial licenciada

1.3.4.- QlikView

QlikTech es el proveedor de QlikView, una solución de inteligencia de negocios que ofrece la empresa de análisis y búsqueda. Su tecnología de búsqueda asociativa realiza cálculos en tiempo real, permitiendo a los profesionales de negocios, ganar la penetración a través de exploraciones intuitivas de datos. QlikView pueden ser desplegadas en las instalaciones, en la nube, o en un ordenador portátil o dispositivo móvil de un usuario único hasta una empresa global de gran tamaño.

QlikView le permite entender a fondo su negocio de una manera completamente nueva:

● Consolidando datos útiles procedentes de múltiples fuentes en una sola aplicación● Explorando las asociaciones entre los datos● Permitiendo una toma de decisiones social a través de una colaboración segura y en

tiempo real● Visualizando los datos con unos gráficos atractivos y tecnológicamente avanzados● Buscando en la totalidad de datos, de forma directa e indirecta● Interactuando con aplicaciones, cuadros de mando y análisis interactivos● Accediendo, analizando y capturando datos de dispositivos móviles

16