Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos....

42
Sistemas de Información Gerencial Tema 6: Inteligencia de Negocios: Modelo Dimensional 1 Ing. Francisco Rodríguez Novoa

Transcript of Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos....

Page 1: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Sistemas de Información Gerencial

Tema 6: Inteligencia de Negocios: Modelo Dimensional

1

Ing. Francisco Rodríguez Novoa

Page 2: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

2

INDICE

• OLTP. OLAP

• Modelo Estrella. Modelo Copa de Nieve

• Modelo Dimensional

Page 3: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Mapa de Inteligencia de Negocios

Inteligencia

de Negocios

Metodología

Kimball

Planeamiento

del Proyecto

Modelo

del

Negocio

Modelado

Dimensional

Modelado

FísicoETL

Reportes

Minería de

Datos

Page 4: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

MODELOS RELACIONALES Y DIMENSIONALES

Page 5: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Modelo E-R

– Entidades

– Atributos

– Relaciones

Modelo dimensional

– Hechos

– Dimensiones

– Medidas

Dos técnicas

Page 6: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

OLTP (On Line Transactional Process)

• Son sistemas de información operacionales que tienen

transacciones en línea y de esa manera se van añadiendo

datos.

• Gran detalle de cada operación.

Page 7: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

El Diseño Transaccional es:

• Orientado a aplicaciones con

movimientos constantes.

• Datos normalizados. Se

busca ahorrar espacio de

almacenamiento.

• Datos volátiles

• No existe sumarización de

datos.

• Grandes niveles de detalle.

Lógica

Page 8: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

OLAP (Online Analytical Process)

• Tecnología que permite laexplotación de datos en

diferentes niveles

organizacionales yperiodos de tiempo

Page 9: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

El Data Warehouse esta:

• Orientado a áreas de la

organización

• Integrado

• Los datos no son volátiles

• Diversos niveles de detalle

con sumarizaciónes.

• Se disminuye la cantidad de

ligas con modelos tipo

estrella o copo de nieve.

Lógica

Page 10: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

10

Conceptos Generales

Transacciones

Fundamentos.

Registrar y Controlar (OLTP)

VentasInventarios

ContabilidadRecursos Humanos

Etc-

Velocidad de TransacciónIntegridad de Información

Evitar Redundancias“3ª Forma Normal”

On-Line TransactionProcessing

Analizar y Evaluar (OLAP)

Velocidad de ConsultasApoyo Toma de Decisiones

“Desnormalizado”

On-Line AnalyticalProcessing

Page 11: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Como operan las B.D. Relacionales

Los datos se almacenan en tablas

Cantidad

25000

15000

5000

27000

20000

6000

2700

8000

19000

54700

23000

6100

1800

7600

1200

2000

Variable

Sales

Expenses

Cost of goods

Sales

Expenses

Cost of goods

Sales

Expenses

Cost of goods

Sales

Sales

Expenses

Cost of goods

Sales

Expenses

Cost of goods

Meses

January

January

January

February

February

February

March

March

March

Qtr1

April

April

April

May

May

May

Productos

Large

Large

Large

Large

Large

Large

Large

Large

Large

Large

Medium

Medium

Medium

Medium

Medium

Medium

Page 12: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Amount

2500015000500027000200006000270080001900054700 2300061001800760012002000

Variable

SalesExpensesCost of goodsSalesExpensesCost of goodsSalesExpensesCost of goodsSalesSalesExpensesCost of goodsSalesExpensesCost of goods

Months

JanuaryJanuaryJanuaryFebruaryFebruaryFebruaryMarchMarch MarchQtr1AprilAprilAprilMayMayMay

Product

LargeLargeLargeLargeLarge LargeLargeLargeLargeLargeMediumMediumMediumMediumMediumMedium

Variable January February March April May June

Sales 25000 27000 24000 28000 30000 29000

Expenses 15000 20000 15000 17000 19000 14000

Cost of goods 5000 6000 5000 7000 7000 6000

de esta estructura

a esta

se necesita …

Lógica

Page 13: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Vista Multidimensional

Poder observar los datos desde distintas perspectivas.

Jan

Feb

Mar

Apr

TV

VCR

East

West

Total

South

East

West

Total

South

Actual BudgetSales SalesMargin Margin

position only

Cogs

Margin

Total Exp

Profit

TV

VCR

Jan

Feb

Qtr 1

Mar

East WestActual ActualBudget Budget

Jan

Feb

Qtr 1

Mar

Jan

Feb

Mar

Apr

East

West

Actual

Budget

Variance

Forecast

Sales MarginTV TVVCR VCR

Actual

Budget

Variance

Forecast

position only

West

SF

LA

Denver

Sales

Margin

Camera

TV

Audio

VCR

February MarchActual ActualBudget Budget

Camera

TV

Audio

VCR

Accounts by Product

Regions by ScenarioProducts by Region

Products by Time

OLAP

Page 14: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

14

Conceptos Generales

Características de un DataWarehouse

Orientado a Temas

Integrado

Variantes en el Tiempo

Los datos se organizan y estructuran de acuerdo a las áreastemáticas que son de interés para los directivos de la empresa yno en función de procesos operacionales específicos. Todos losdatos relativos a una misma “entidad” quedarán en una tabla.

Debido a que la información procede desde distintos sistemas,es tarea del DW integrar las diversas fuentes y normalizar losdatos.

Un DW se organiza como una sucesión de “fotografías” de laorganización o empresa, cada una asociada a un periodo o puntoespecífico del tiempo, lo que permite realizar análisis en funcióndel tiempo, con la finalidad de realizar pronósticos y análisis detendencias.

No Volátil No se realizan actualización o eliminaciones de los datos, losdatos se insertan como nuevos registros y por tanto nosobrescriben los existentes.

Page 15: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Conceptos Generales

Componentes del Cubo

Tabla de Hechos

Tabla de Dimensiones

Almacena los indicadores del negocio (datos numéricos),tanto básicos como elementos calculados.

Almacena los datos descriptivos, por lo general son tablascon un porcentaje muy bajo de filas en relación a las tablasde Hechos, pero pueden contener muchas más columnas.

Una correcta y completa definición de campos en la tabla dedimensiones puede ayudar a realizar análisis robusto sobrelos datos.

Page 16: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

16

Conceptos Generales

Topología

Estrella

Copo de Nieve

Las dimensiones se relacionan directamente con la tabla de hechos.

Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información y/o cuando existe un proceso robusto de administración de Información (por ejemplo EIAD).

Las dimensiones se pueden relacionar con las tablas de hechos, o con otras dimensiones.

Esta estrategia es mejor para la administración directa en el modelo de DW.

Page 17: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

• Eficiencia

• Soportado por múltiples RDBMS

• Análisis de datos de menor complejidad, debido a la de-normalización

Modelo Estrella

Page 18: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

• Mayor normalización, es decir, los niveles de las jerarquías se normalizan.

• Mayor flexibilidad

• Mayor dificultad de mantenimiento

• Joins más costosos

• Menos registros en las dimensiones.

Modelo Copo de Nieve

Page 19: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Modelado Dimensional

• Es una adaptación del modelo relacional.

• Consiste de tablas de hechos que se caracterizan usando

dimensiones y medidas.

• La información sobre un hecho (actividad) se representa

mediante indicadores (medidas o atributos de hecho).

• La información de cada dimensión se representa por un

conjunto de atributos (atributos de dimensión).

• Una dimensión es el contexto de un hecho, tienden a ser

discretas y jerárquicas.

• Un indicador es una cantidad que describe el hecho, debe ser

agregables.

Page 20: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Conceptos básicos

1. Hecho. Evento, actividad, item transacción del negocio.

2. Medida. Atributo o medida de hechos, métricas del negocio

3. Dimensión. Característica de un hecho.

4. Jerarquía. Relaciones padre-hijo dentro de una dimensión

5. Tabla de hechos: Almacena eventos y las métricas.

6. Tabla de dimensión. Almacenan las dimensiones.

Page 21: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Hechos

• Representan un evento o actividad específica, tiene

dimensiones y medidas.

• Representan un item de negocio, una transacción o un evento

que tiene significancia para el negocio.

• Corresponden a una colección de items de datos y datos de

contexto.

• Son aquellos datos que residen en una tabla de hechos y que

son utilizados para crear indicadores, a través de

sumarizaciones preestablecidas.

• Un hecho debe estar relacionado al menos con una

dimensión: “El tiempo”.

Page 22: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Medidas – Métricas - Hechos

• Es un atributo numérico de un hecho que representa laperformance o comportamiento del negocio relativo a ladimensión

• Ejemplos:– Ventas en $$– Cantidad de productos– Total de transacciones– Cantidad de pacientes admitidos– Llamadas efectuadas.– ImporteTotal = precioProducto * cantidadVendida– Rentabilidad = utilidad / PN– CantidadVentas = cantidad– PromedioGeneral = AVG(notasFinales)

Page 23: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Hechos o medidas

• Representan los valores que son analizados.

• Características de las medidas:– Deben ser numéricas. Porque estos valores son las bases de

las cuales el usuario puede realizar cálculos.– Cruzan todas las dimensiones en todos los niveles.

• Si la medida es no numérica debemos codificarla a un valor numérico y cuando tengamos que exponerla decodificarla para mostrarla con el valor original.

Page 24: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Hechos o medidas

• Las medidas pueden clasificarse en:Naturales. – Son aquellas que se obtiene por agregación de los datos

originales.• Suma: suma los valores de las columnas• Cuenta: conteo de los valores• Mínima: valor mínimo• Máxima: valor máximo• Cuenta de Distintos: valores diferentes

Calculadas– Si se derivan de una medida natural.

• Cálculos Matemáticos• Expresiones condicionales• Alertas

Page 25: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Dimensiones

• Es una característica de un hecho que permite su análisis posterior, en el proceso de toma de decisiones.

• Determina el contexto del hecho (quién participó, cuándo y donde pasó y su tipo).

• Es una entidad de negocios respecto de la cual se deben calcular las métricas (clientes, productos, tiempo)

• Tienden a ser discretas y jerárquicas <país, región, departamento, provincia, distrito>.

• Es una colección de miembros o unidades o individuos del mismo tipo que permite categorizar un hecho.

Page 26: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Dimensiones

• Se utilizan como parámetros para los análisis OLAP

• Las dimensiones habituales son:

Dimensión Miembro

Tiempo Meses, Trimestre, Años

Geografía País, Región, Ciudad

Cliente Id Cliente

Vendedor Id Vendedor

3

Page 27: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Ejemplo

Page 28: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Ejemplo

Page 29: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

The Time Dimension

How and where should it be stored?

Timedimension

Sales fact

• Time is critical to the data warehouse.• A consistent representation of time is required for

extensibility.

Page 30: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Granularidad

• La granularidad es el nivel de detalle en que se almacena la información.

• Por ejemplo: – Datos de ventas o compras de una

empresa, pueden registrarse día a día– Datos pertinentes a pagos de sueldos o

cuotas de socios, podrán almacenarsea nivel de mes.

• A mayor nivel de detalle, mayor posibilidad analítica, ya quelos mismos podrán ser resumidos o sumarizados.

• Los datos con granularidad fina (nivel de detalle) podrán serresumidos hasta obtener una granularidad media o gruesa.No sucede lo mismo en sentido contrario.

Page 31: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Tablas de Hechos

• Las tablas de hechos contienenlas dimensiones y las medidasde los hechos.

• Los hechos o medidas son losvalores de datos que seanalizan (son numéricos).

• La tabla de hechos tiene unacompuesta por las clavesprimarias de las tablas dedimensiones relacionadas aeste.

Medidas o

hechos

Dimensiones

Clave primaria

Page 32: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Tabla de dimensiones

• Definen la organización lógica de los datos.

• Tiene una PK (única) y columnas de referencia:

– Clave principal (PK) o identificador único.

– Clave foráneas.

– Datos de referencia primarios (identifican la dimensión)

– Datos de referencia secundarios (complementan la descripción).

• No siempre la PK del OLTP, corresponde con la PK de la tabla

de dimensión relacionada.

6

Page 33: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Ejercicio

• Etapas en la construcción de un modelo dimensional:

Construcción

de las

Dimensiones

Armado de la

Tabla de

Hechos

Definición de

las Medidas

0

2

1

Requerimientos

del usuario

Decidir la

granularidad

3 4

Page 34: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X

Ventas_Costo X X X X X

Ventas_Unidades X X X X X

Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X

Ventas_Promedio X X X X X

Requerimientos del usuario

Page 35: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Decidir la granularidad

• La granularidad:– Es el nivel de detalle al que se desea almacenar

información sobre la actividad a modelar.– Define el nivel atómico de datos en el almacén de datos.– Determina el significado de las tuplas de la tabla de

hechos.– Determina las dimensiones básicas del esquema.

• Por ejemplo en la dimensión Sucursal:

Page 36: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Decidir la granularidad

• Ejemplo de la dimensión fecha. Se desea los datos por:– Información anual– Información semestral– Información trimestral– Información mensual. ....– Información semanal– Información diaria– Transacción en el OLTP

+ granularidad

+ detalle

Page 37: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Construcción de las dimensiones

• Identificar las dimensiones que caracterizan el proceso al nivel de detalle (gránulo) que se ha elegido.

• De cada dimensión se debe decidir los atributos (propiedades) relevantes para el análisis de la actividad.

• Entre los atributos de una dimensión existen jerarquías naturales que deben ser identificadas (día-mes-año)

– Tiempo. Cuándo se produce la actividad– Sucursal.Donde está ubicado el almacén– Vendedor. Quién ha vendido– Cliente. Quién es el destinatario de la actividad– Producto. Cuál es el objeto de la actividad

Page 38: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X

Ventas_Costo X X X X X

Ventas_Unidades X X X X X

Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X

Ventas_Promedio X X X X X

Dimensión Tiempo

* Año ** Semestre *** Trimestre **** Mes ***** Día

Dimensión Sucursal

* Sucursal

** Tipo Sucursal *** País **** Provincia ***** Ciudad

Dimensión Vendedor

* Sucursal

** Sección *** Vendedor

Dimensión Cliente

* País

** Provincia *** Ciudad **** Razón Social

Page 39: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X

Ventas_Costo X X X X X

Ventas_Unidades X X X X X

Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X

Ventas_Promedio X X X X X

Page 40: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Dimensiones

Medidas Tiempo Sucursal Vendedor Cliente Producto

Ventas_Importe X X X X X

Ventas_Costo X X X X X

Ventas_Unidades X X X X X

Ventas_ImporteTotal X X X X X

Ventas_Ganancia X X X X X

Ventas_Promedio X X X X X

Fact_Ventas

ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal

Tabla de Hechos 3

Page 41: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

Fact_Ventas

ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal

Medidas

Definición de las medidas

Fact_Ventas

ID_Tiempo ID_Producto ID_Cliente ID_Vendedor ID_Sucursal

Fact_Ventas

ID_Fecha ID_Producto ID_Cliente ID_Vendedor Ventas_Importe Ventas_Costo

Ventas_Unidades

Page 42: Sistemas de Información GerencialLas dimensiones se relacionan directamente con la tabla de hechos. Por lo general esta estrategia es utilizada cuando hay grandes volúmenes de información

42

FIN