Modelo Dimensional Mg. Samuel Oporto Díaz. Mapa del Curso Inteligencia de Negocios Metodología...
-
Upload
agata-tadeo -
Category
Documents
-
view
34 -
download
5
Transcript of Modelo Dimensional Mg. Samuel Oporto Díaz. Mapa del Curso Inteligencia de Negocios Metodología...
Modelo Dimensional
Mg. Samuel Oporto Díaz
Mapa del Curso
Inteligencia de Negocios
Metodología Kimball
Planeamiento del Proyecto
Modelo del
Negocio
Modelado Dimensional
Modelado Físico
ETL
Reportes
Minería de Datos
Tabla de Contenido
• Información y Conocimiento• Sistemas transaccionales y sistemas analíticos• Inteligencia de negocios• Almacenes de datos.
Objetivos
1. Describir el rol de la Inteligencia de Negocios (BI) y del Datawarehouse en el actual mercado.
2. Describir porque un Sistema de Procesamiento Transaccional en Línea (OLTP) no se ajusta a un reporte analítico.
3. Describir como se procesa las consultas de soporte a las decisiones en un DW .
4. Explicar porque los negocios se orientan a manejar tecnología de Datawarehouse.
MODELOS RELACIONALES Y DIMENSIONALES
Modelo E-R– Entidades– Atributos– Relaciones
Modelo dimensional– Hechos– Dimensiones– Medidas
Dos técnicas
E-R - Modelo dimensional
• El modelo dimensional puede verse como un caso particular del modelo relacional.
• Foreing keys Dimensión• Hecho Entidad
• Eficiencia
• Soportado por múltiples RDBMS
• Análisis de datos de menor complejidad, debido a la de-normalización
Modelo Estrella
• Mayor normalización, es decir, los niveles de las jerarquías se normalizan.
• Mayor flexibilidad
• Mayor dificultad de mantenimiento
• Joins más costosos
• Menos registros en las dimensiones.
Modelo Copo de Nieve
MODELADO DIMENSIONAL
Modelado Dimensional
• Es una adaptación del modelo relacional.• Consiste de tablas de hechos que se caracterizan usando
dimensiones y medidas.
• La información sobre un hecho (actividad) se representa mediante indicadores (medidas o atributos de hecho).
• La información de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
• Una dimensión es el contexto de un hecho, tienden a ser discretas y jerárquicas.
• Un indicador es una cantidad que describe el hecho, debe ser agregables.
Conceptos básicos
1. Hecho. Evento, actividad, item transacción del negocio.
2. Medida. Atributo o medida de hechos, métricas del negocio
3. Dimensión. Característica de un hecho.
4. Jerarquía. Relaciones padre-hijo dentro de una dimensión
5. Tabla de hechos: Almacena eventos y las métricas.
6. Tabla de dimensión. Almacenan las dimensiones.
Hechos
• Representan un evento o actividad específica, tiene dimensiones y medidas.
• Representan un item de negocio, una transacción o un evento que tiene significancia para el negocio.
• Corresponden a una colección de items de datos y datos de contexto.
• Son aquellos datos que residen en una tabla de hechos y que son utilizados para crear indicadores, a través de sumarizaciones preestablecidas.
• Un hecho debe estar relacionado al menos con una dimensión: “El tiempo”.
1
Medidas – Métricas - Hechos
• Es un atributo numérico de un hecho que representa la performance o comportamiento del negocio relativo a la dimensión
• Ejemplos:– Ventas en $$– Cantidad de productos– Total de transacciones– Cantidad de pacientes admitidos– Llamadas efectuadas.– ImporteTotal = precioProducto * cantidadVendida– Rentabilidad = utilidad / PN– CantidadVentas = cantidad– PromedioGeneral = AVG(notasFinales)
2
Hechos o medidas
• Representan los valores que son analizados.
• Características de las medidas:– Deben ser numéricas. Porque estos valores son las
bases de las cuales el usuario puede realizar cálculos.– Cruzan todas las dimensiones en todos los niveles.
• Si la medida es no numérica debemos codificarla a un valor numérico y cuando tengamos que exponerla decodificarla para mostrarla con el valor original.
2
Hechos o medidas
• Las medidas pueden clasificarse en:Naturales. – Son aquellas que se obtiene por agregación de los
datos originales.• Suma: suma los valores de las columnas• Cuenta: conteo de los valores• Mínima: valor mínimo• Máxima: valor máximo• Cuenta de Distintos: valores diferentes
Calculadas– Si se derivan de una medida natural.
• Cálculos Matemáticos• Expresiones condicionales• Alertas
2
Dimensiones
• Es una característica de un hecho que permite su análisis posterior, en el proceso de toma de decisiones.
• Determina el contexto del hecho (quién participó, cuándo y donde pasó y su tipo).
• Es una entidad de negocios respecto de la cual se deben calcular las métricas (clientes, productos, tiempo)
• Tienden a ser discretas y jerárquicas <país, región, departamento, provincia, distrito>.
• Es una colección de miembros o unidades o individuos del mismo tipo que permite categorizar un hecho.
3
Dimensiones
• Se utilizan como parámetros para los análisis OLAP
• Las dimensiones habituales son:
Dimensión MiembroTiempo Meses, Trimestre, AñosGeografía País, Región, CiudadCliente Id ClienteVendedor Id Vendedor
3
Designing Summary Tables
Units Sales(€) Store
Product ATotal
Product BTotal
Product CTotal
• Average• Maximum
• Total• Percentage
Summary Tables Example
SALES FACTSSales Region Month10,000 North Jan 9912,000 South Feb 9911,000 North Jan 9915,000 West Mar 9918,000 South Feb 9920,000 North Jan 9910,000 East Jan 992,000 West Mar 99
SALES BY MONTH/REGIONMonth Region Tot_Sales$Jan 99 North 41,000Jan 99 East 10,000Feb 99 South 40,000Mar 99 West 17,000
SALES BY MONTHMonth Tot_SalesJan 99 51,000Feb 99 40,000Mar 99 17,000
Summary Management in Oracle8i
ProductProduct
RegionRegion
TimeTime
SalesSalessummarysummary
CityCity
SalesSales
StateState
Summary Summary usageusage
Summary advisor
Space Space requirementsrequirements Summary Summary
recommendationsrecommendations
The Time Dimension
How and where should it be stored?
Timedimension
Sales fact
• Time is critical to the data warehouse.• A consistent representation of time is required for
extensibility.
Jerarquía de las dimensiones
• Una jerarquía representa una relación lógica entre los datos de una dimensión.
• Estos datos poseen una relación “padre-hijo”.
4
Jerarquía de las dimensiones
• Tienen las siguientes características:– Se presentan al interior de una
dimensión.– Pueden existir varios niveles (dos o
más)– Relación “1-n” o “padre-hijo” entre
atributos consecutivos de un nivel superior y uno inferior.
• Se pueden identificar cuando existen relaciones “1-n” o “padre-hijo” en la dimensión.
4
Origen de las Jerarquías
• Entre los atributos de una dimensión se definen jerarquías.
tipo
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
4
Granularidad
• La granularidad es el nivel de detalle en que se almacena la información.
• Por ejemplo: – Datos de ventas o compras de una empresa, pueden registrarse día a día– Datos pertinentes a pagos de sueldos o cuotas de socios, podrán almacenarse a nivel de mes.
• A mayor nivel de detalle, mayor posibilidad analítica, ya que los mismos podrán ser resumidos o sumarizados.
• Los datos con granularidad fina (nivel de detalle) podrán ser resumidos hasta obtener una granularidad media o gruesa. No sucede lo mismo en sentido contrario.
4
Tablas de Hechos
• Las tablas de hechos contienen las dimensiones y las medidas de los hechos.
• Los hechos o medidas son los valores de datos que se analizan (son numéricos).
• La tabla de hechos tiene una clave primaria compuesta por las claves primarias de las tablas de dimensiones relacionadas a este.
Medidas o hechos
Dimensiones
5
Tabla de dimensiones
• Definen la organización lógica de los datos.
• Tiene una PK (única) y columnas de referencia:– Clave principal (PK) o identificador único.– Clave foráneas.– Datos de referencia primarios (identifican la dimensión)– Datos de referencia secundarios (complementan la descripción).
• No siempre la PK del OLTP, corresponde con la PK de la tabla de dimensión relacionada.
6
EJERCICIO
Ejercicio
• Etapas en la construcción de un modelo dimensional:
Construcción de las
Dimensiones
Armado de la Tabla de Hechos
Definición de las Medidas
0
2
1
Requerimientos del usuario
Decidir la granularidad
3 4
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Requerimientos del usuario 0
Decidir la granularidad
• La granularidad:– Es el nivel de detalle al que se desea almacenar información sobre
la actividad a modelar.– Define el nivel atómico de datos en el almacén de datos.– Determina el significado de las tuplas de la tabla de hechos.– Determina las dimensiones básicas del esquema.
• Por ejemplo en la dimensión Sucursal:
1
Decidir la granularidad
• Ejemplo de la dimensión fecha. Se desea los datos por:– Información anual– Información semestral– Información trimestral– Información mensual. ....– Información semanal– Información diaria– Transacción en el OLTP
1
+ granularidad+ detalle
Construcción de las dimensiones
• Identificar las dimensiones que caracterizan el proceso al nivel de detalle (gránulo) que se ha elegido.
• De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.
• Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)
– Tiempo. Cuándo se produce la actividad– Sucursal. Donde está ubicado el almacén– Vendedor. Quién ha vendido– Cliente. Quién es el destinatario de la
actividad– Producto. Cuál es el objeto de la actividad
2
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Dimensión Tiempo
* Año ** Semestre *** Trimestre **** Mes ***** Día
Dimensión Sucursal
* Sucursal ** Tipo Sucursal *** País **** Provincia ***** Ciudad
Dimensión Vendedor
* Sucursal ** Sección *** Vendedor
Dimensión Cliente
* País ** Provincia *** Ciudad **** Razón Social
2
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
2
Dimensiones
Medidas Tiempo Sucursal Vendedor Cliente Producto
Ventas_Importe X X X X X
Ventas_Costo X X X X X
Ventas_Unidades X X X X X
Ventas_ImporteTotal X X X X X
Ventas_Ganancia X X X X X
Ventas_Promedio X X X X X
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
Tabla de Hechos 3
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
Medidas
Definición de las medidas 4
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo Ventas_Unidades
Dimensión Tiempo
* Año ** Semestre *** Trimestre **** Mes ***** Día
Dimensión Sucursal
* Sucursal ** Tipo Sucursal *** País **** Provincia ***** Ciudad
Dimensión Vendedor
* Sucursal ** Sección *** Vendedor
Dimensión Cliente
* País ** Provincia *** Ciudad **** Razón Social
Fact_Ventas
ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo Ventas_Unidades
Fact_Ventas
ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal
ROLAP, MOLAP, HOLAP
Tipos de OLAP.
• OLAP Relacional (ROLAP)• OLAP Multidimensional (MOLAP)• OLAP Híbrida (HOLAP)
Esquema Físico• Existe tres formas de almacenar los datos:
.
Base de Datos Relacional
Vista de Usuario
Base de Datos Multidimensional
DATOS AGREGACIONES
Base de Datos Relacional
Vista de Usuario
Base de Datos Multidimensional
DATOS AGREGACIONES
Base de Datos Relacional
Vista de Usuario
Base de Datos Multidimensional
AGREGACIONES Y DATOS
Base de Datos Relacional
Vista de Usuario
Base de Datos Multidimensional
AGREGACIONES Y DATOS
Base de Datos Relacional
Vista de Usuario
Base de Datos Multidimensional
AGREGACIONES Y DATOS
Base de Datos Relacional
Vista de Usuario
Base de Datos Multidimensional
AGREGACIONES Y DATOS
ROLAP - Relacional OLAP. HOLAP - OLAP híbrido
MOLAP - Multidimensional OLAP.
MOLAP
• En un sistema MOLAP (OLAP multidimensional) los datos se encuentran almacenados en una estructura multidimensional.
• Para optimizar los tiempos de respuesta, el resumen de la información es usualmente calculado por adelantado. Estos valores pre-calculados o agregaciones son la base de las ganancias de desempeño de este sistema.
• Algunos sistemas utilizan técnicas de compresión de datos para disminuir el espacio de almacenamiento en disco debido a los valores pre-calculados.
ROLAP
• ROLAP (OLAP Relacional) es un sistema en el cual los datos se encuentran almacenados en una base de datos relacional.
• Típicamente, los datos son detallados, evitando las agregaciones y las tablas se encuentran normalizadas.
HOLAP
• Un sistema HOLAP (OLAP Híbrido) mantiene los registros detallados en la base de datos relacional, mientras que los datos resumidos o agregados se almacenan en una base de datos multidimensional separada.
• Este método de almacenamiento es una combinación de los dos anteriores e intenta rescatar lo mejor de cada uno.
PREGUNTAS