DW-II almacenamiento de datos
-
Upload
edson-ugarte-laura -
Category
Documents
-
view
217 -
download
0
Transcript of DW-II almacenamiento de datos
-
7/25/2019 DW-II almacenamiento de datos
1/125
PARTE II:ALMACENES DE DATOS
Wilson Andrs Castillo Rojas
Magster en Ciencias de la Ingeniera, Mencin Computacin
Pontificia Universidad Catlica de Chile
rea Computacin e Informtica
Facultad de Ingeniera y Arquitectura
Universidad Arturo Prat
-
7/25/2019 DW-II almacenamiento de datos
2/125
2
Temario
1. Introduccin1.1. Finalidades y Evolucin de los Sistemas de Informacin.
1.2. Herramientas para la Toma de Decisiones: diferencias e interrelacin.1.3. Almacenes de Datos, OLAP y Minera de Datos: definicin e interrelacin.
2. Almacenes de Datos2.1. Introduccin a los Modelos MM y Almacenes de Datos.
2.2. Arquitectura de un Sistema de Almacn de Datos.2.3. Explotacin de un Almacn de Datos: Herramientas OLAP.
2.4. Sistemas ROLAP y MOLAP.
2.5. Carga y Mantenimiento de un Almacn de Datos.2.6. Diseo de un almacn de Datos.
2.7. Lneas de Investigacin Abiertas.3. Minera de Datos3.1. Introduccin a la Minera de Datos (DM)3.2. El proceso de KDD
3.3. Tcnicas de Minera de Datos
3.4. Web Mining
3.5. Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
3/125
3
Objetivos Parte II
Conocer las ventajas y casos donde es aconsejablerecopilar informacin interna y externa en un Almacn de
Datos.
Conocer el modelo multidimensional de los almacenes de
datos y los operadores de refinamiento asociados: drill,roll, slice & dice, pivot.
Conocer la arquitectura y diferentes implementaciones(ROLAP, MOLAP) de Almacenes de Datos.
Reconocer pautas para el diseo y mantenimiento de ADs.
-
7/25/2019 DW-II almacenamiento de datos
4/125
4
Introduccin a los Almacenes de Datos
Generalmente, la informacinque se quiereinvestigar sobre un cierto dominio de la organizacin
se encuentra en bases de datos y otras fuentesmuy diversas, tanto internas como externas.
Muchas de estas fuentes son las que se utilizan
para el trabajo diario (bases de datosoperacionales).
OBJETIVO:Anlisis de Datos para el Soporte en
la Toma de Decisiones.
-
7/25/2019 DW-II almacenamiento de datos
5/125
5
Introduccin a los Almacenes de Datos
Sobre estas mismas bases de datos de trabajo ya se puede
extraer conocimiento (visin tradicional).
Uso de la base de datos transaccional para varios cometidos:
Se mantiene el trabajo transaccional diario de los sistemas de
informacin originales (conocido como OLTP, On-LineTransactional Processing).
Se hace anlisis de los datos en tiempo real sobre la misma base dedatos (conocido como OLAP, On-Line Analytical Processing).
-
7/25/2019 DW-II almacenamiento de datos
6/125
6
Introduccin a los Almacenes de Datos
Uso de la base de datos transaccional para varios cometidos:
PROBLEMAS:
perturba el trabajo transaccional diario de los sistemas de
informacin originales (killer queries). Se debe hacer
por la noche o en fines de semana.
la base de datos est diseada para el trabajotransaccional, no para el anlisis de los datos.
Generalmente no puede ser en tiempo real (era AP pero
no OLAP).
-
7/25/2019 DW-II almacenamiento de datos
7/125
7
Introduccin a los Almacenes de Datos
Se desea operar eficientemente con esos datos...
los costes de almacenamiento masivo y conectividad se han
reducido drsticamente en los ltimos aos,
parece razonable recoger los datos (informacinhistrica) en un sistema separado y especfico.
Data warehouses(Almacenes o Bodegas de Datos)
NACE EL DATA-WAREHOUSING
-
7/25/2019 DW-II almacenamiento de datos
8/125
8
Introduccin a los Almacenes de Datos
Almacenes de Datos (AD) (data warehouse)
disponer de Sistemas deInformacin de apoyo a la
toma de decisiones*
disponer debases de datosque permitanextraer conocimientodela informacin histrica almacenada en la organizacin
motivacin
anlisis de laorganizacin
previsiones deevolucin
diseo deestrategias
objetivos
* DSS: Decision Support Systems
-
7/25/2019 DW-II almacenamiento de datos
9/125
9
Introduccin a los Almacenes de Datos
Almacenes de datos
Base de Datos diseada con un objetivo deexplotacin distinto que el de las bases de
datos de los sistemas operacionales.
Sistema Operacional
(OLTP)
Sistema de Almacnde Datos
(DW)
BD orientada alproceso
BD orientada alanlisis
-
7/25/2019 DW-II almacenamiento de datos
10/125
10
Introduccin a los Almacenes de Datos
Almacenes de Datos
coleccin de datos diseada
para dar apoyo a los procesosde toma de decisiones
orientada haciala informacin*
relevante de laorganizacin
integrada variable en eltiempo no voltil
caractersticas
* subject oriented, not process oriented
definicin
-
7/25/2019 DW-II almacenamiento de datos
11/125
11
Introduccin a los Almacenes de Datos
AD: Orientado hacia la
informacin relevante
de la organizacin
se disea para consultar eficientemente
informacin relativa a las actividades
(ventas, compras, produccin, ...) bsicas
de la organizacin, no para soportar los
procesos que se realizan en ella (gestin
de pedidos, facturacin, etc).
InformacinNecesaria
PRODUCTO
...
GAMA...
VENTA
...
PAS...
Base de DatosTransaccional
CURSO
...
REUNION
...PROTOTIPO
...
-
7/25/2019 DW-II almacenamiento de datos
12/125
12
Introduccin a los Almacenes de Datos
Base de Datos
Transaccional 1
Fuente deDatos 1
FuentesExternas
Fuentes
Internas
Fuente deDatos 2
Fuente deDatos 3
HTML
Almacnde Datos
texto
Base de Datos
Transaccional 2
AD: Integradointegra datos recogidos de
diferentes sistemas operacionales
de la organizacin (y/o fuentes
externas).
-
7/25/2019 DW-II almacenamiento de datos
13/125
13
Introduccin a los Almacenes de Datos
Los datos son almacenados como fotos (snapshots)correspondientes a periodos de tiempo.
DatosTiempo
01/2003
02/2003
03/2003
Datos de Enero
Datos de Febrero
Datos de Marzo
AD: Variable
en el tiempo
los datos son relativos a un periodo detiempo y deben ser incrementados
peridicamente.
-
7/25/2019 DW-II almacenamiento de datos
14/125
14
Introduccin a los Almacenes de Datos
READ
Carga
INSERT READ
UPDATE
DELETE
Bases de datos operacionales Almacn de Datos
AD: No voltillos datos almacenados no sonactualizados, slo son incrementados.
El periodo de tiempo cubierto por un AD vara
entre 2 y 10 aos.
-
7/25/2019 DW-II almacenamiento de datos
15/125
15
Introduccin a los Almacenes de Datos
Almacenes de Datosventajas para las
organizaciones
rentabilidad de las
inversiones
realizadas para sucreacin
aumento de la
competitividad
en el mercado
aumento de la
productividad de
los tcnicos dedireccin
-
7/25/2019 DW-II almacenamiento de datos
16/125
16
Introduccin a los Almacenes de Datos
Almacenes de Datos
problemas
infravaloracin de losrecursos necesarios
para la captura, carga
y almacenamiento de
los datos
incremento
continuo de losrequisitos de los
usuarios
privacidad delos datos
infravaloracin delesfuerzo necesario para
su diseo y creacin
-
7/25/2019 DW-II almacenamiento de datos
17/125
17
Introduccin a los Almacenes de Datos
Sistema Operacional (OLTP) Almacn de datos (DW)
- almacena datos actuales - almacena datos histricos
- almacena datos de detalle - almacena datos de detalle
y datos agregados a distintos niveles
-bases de datos medianas - bases de datos grandes
(100Mb-1Gb) (100Gb-1Tb)
- los datos son dinmicos (actualizables) - los datos son estticos
- los procesos (transacciones) son repetitivos - los procesos no son previsibles
- el nmero de transacciones es elevado - el nmero de transacciones es
bajo o medio
- tiempo de respuesta pequeo (segundos) - tiempo de respuesta variable
(segundos-horas)
- dedicado al procesamiento de transacciones - dedicado al anlisis de datos
- orientado a los procesos de la organizacin - orientado a la informacin relevante
- soporta decisiones diarias - soporta decisiones estratgicas
- sirve a muchos usuarios (administrativos) - sirve a tcnicos de direccin
-
7/25/2019 DW-II almacenamiento de datos
18/125
18
Arquitectura de un Almacn de Datos
La Arquitectura de un AD viene determinada por susituacin central como fuente de informacin para
las herramientas de anlisis.
Base de Datos
Transaccional
Fuentes
Internas
Fuentes
Externas
Fuente deDatos
Fuente deDatos 3
HTML
Fuente deDatos 1
texto
Almacn
de Datos
ETL Interfaz yOperadores
Herramientasde consultas e
informes
HerramientasEIS
HerramientasOLAP
Herramientas deMinera de Datos
Copias deSeguridad
-
7/25/2019 DW-II almacenamiento de datos
19/125
19
Arquitectura de un Almacn de Datos
Componentes:
Sistema ETL (Extraction, Transformation, Load): realiza las
funciones de extraccinde las fuentes de datos
(transaccionales o externas), transformacin(limpieza,
consolidacin, ...) y la cargadel AD, realizando: extraccin de los datos. filtrado de los datos: limpieza, consolidacin, etc. carga inicial del almacn: ordenacin, agregaciones, etc. refresco del almacn: operacin peridica que propaga los
cambios de las fuentes externas al almacn de datos
Repositorio Propio de Datos: informacin relevante, metadatos.
Interfaces y Gestores de Consulta: permiten acceder a los
datos ys sobre ellos se conectan herramientas ms
sofisticadas (OLAP, EIS, minera de datos).
Sistemas de Integridad y Seguridad: se encargan de un
mantenimiento global, copias de seguridad, ...
-
7/25/2019 DW-II almacenamiento de datos
20/125
20
Arquitectura de un Almacn de Datos
Organizacin (Externa) de Los Datos!
Las herramientas de explotacin de los
almacenes de datos han adoptado un
modelo multidimensional de datos.
Se ofrece al usuario una visin multidimensional
de los datos que son objeto de anlisis.
-
7/25/2019 DW-II almacenamiento de datos
21/125
21
Arquitectura de un Almacn de Datos
EJEMPLO
Organizacin:Cadena de supermercados.
Actividad objeto de anlisis:ventas de productos.
Informacin registrada sobre una venta:del productoTauritn33cl se han vendido en el almacnAlmacn nro.1 el da17/7/2003, 5unidadespor un importede 103,19 euros.
Para hacer el anlisis no interesa la venta individual (ticket)realizada a un cliente sino las ventas diarias de productos en
los distintos almacenes de la cadena.
-
7/25/2019 DW-II almacenamiento de datos
22/125
22
Arquitectura de un Almacn de Datos
importe
unidades
Almacn
Almacn
Ciudad
Regin
Tipo
Pro
ducto
Departamento
Nro_producto
Categora
Marca
Tipo
Descripcin
Tiempo
Da
Mes
Semana
Ao
Trimestre
-
7/25/2019 DW-II almacenamiento de datos
23/125
23
Arquitectura de un Almacn de Datos
importe
unidades
Departamento
Nro_producto
Categora
Marca
Tipo
Da
Mes
Semana
Almacn
Ciudad
Regin
Tipo
Ao
Descripcin
Actividad que es objeto deanlisis con los indicadores
que interesa analizar
Dimensiones (puntos devista) desde los que se
puede analizar la actividad.
Pro
ducto
Tiempo
Almacn
Trimestre
-
7/25/2019 DW-II almacenamiento de datos
24/125
24
Arquitectura de un Almacn de Datos
Modelo multidimensional:
!
en un esquema multidimensional se representa una actividad
que es objeto de anlisis (hecho)y las dimensiones que
caracterizan la actividad (dimensiones).
!la informacin relevante sobre el hecho(actividad) se
representa por un conjunto de indicadores (medidas o atributos de
hecho).
!
la informacin descriptiva de cada dimensinse representa porun conjunto de atributos (atributos de dimensin).
-
7/25/2019 DW-II almacenamiento de datos
25/125
25
Arquitectura de un Almacn de Datos
importe
unidades
Almacn
Almacn
Ciudad
Regin
Tipo
Pr
oducto
Departamento
Nro_producto
Categora
Marca
Tipo
Descripcin
hecho
medidasdimensin
atributos
Tiempo
Da
Mes
Semana
Ao
Trimestre
-
7/25/2019 DW-II almacenamiento de datos
26/125
26
Arquitectura de un Almacn de Datos
Entre los atributos de una dimensin se definenjerarquas
departamento
almacn
ciudad regin
tipo
da mes ao
Producto
Almacn
Tiempo
nro. producto categora
trimestre
semana
-
7/25/2019 DW-II almacenamiento de datos
27/125
27
Arquitectura de un Almacn de Datos
Este esquema multidimensional recibe varios nombres:
estrella: si la jerarqua de dimensiones es lineal
estrella jerrquica o copo de nieve: si la jerarqua no es lineal.
PERSONAL
VENTAS
tiempo
tiempo
producto
lugar
proyecto
equipo
-
7/25/2019 DW-II almacenamiento de datos
28/125
28
Arquitectura de un Almacn de Datos
Zumo Pia 1l.Cola 33cl.
Leche Entera Cabra 1lTauritn 33cl
Cerveza Kiel 20 cl
Jabn Salitre
1 23 4 1 2
TIEMPO:trimestre
MadridBarcelona
ValenciaZaragozaAlicante
Murcia
175793
512
Ventas enmiles de
EurosJerarqua de dimensiones:
Categora
|
Gama Prov.
\ /
Artculo
Pas
|
Ciudad
|
Supermercado
Ao
/ \
Trimestre \
/ \
Mes Semana
\ /
Da
|
Hora
PRODUCTO:artculo
LUGAR:ciudad
PRODUCTO LUGAR TIEMPO
2004 2005
22
Se pueden obtener hechos a diferentes niveles deagregacin:
obtencin de medidassobre los hechosparametrizadas por
atributos de las dimensionesy restringidas por condiciones
impuestas sobre las dimensiones
Un nivel de agregacin para un conjunto de
dimensiones se denomina cubo.
HECHO: El primer
trimestrede 2004 la
empresa vendi enValenciapor un importe
de 22.000 euros del
productotauritn 33 cl.
-
7/25/2019 DW-II almacenamiento de datos
29/125
29
Arquitectura de un Almacn de Datos
Se puede recopilar toda la informacin necesaria enun nico esquema estrella o copo de nieve?
NO : necesidad de varios esquemas.
Cada uno de estos esquemas se denomina datamart.
VENTAS
PERSONAL
PRODUCCIN
CAMPAA
tiempo
tiempo
tiempo
producto
producto
lugar
proyectoequipo
productoproveedor
lugar
lugar
tiempo
Almacnformado por
4 datamarts.
-
7/25/2019 DW-II almacenamiento de datos
30/125
30
Arquitectura de un Almacn de Datos
El almacn de datos puede estar formado por variosdatamarts y, opcionalmente, por tablas adicionales.
Data mart
!
se definen para satisfacer las necesidades
de un departamento o seccin de laorganizacin.
!
contiene menos informacin de detalle y
ms informacin agregada.
subconjunto de un almacn de
datos, generalmente en forma deestrella o copo de nieve.
-
7/25/2019 DW-II almacenamiento de datos
31/125
31
Herramientas OLAP
!Las herramientas de OLAP presentan al usuario unavisin multidimensional de los datos (esquema
multidimensional) para cada actividad que es objeto
de anlisis.
!El usuario formula consultas a la herramienta OLAP
seleccionando atributos de este esquema
multidimensional sin conocer la estructura interna
(esquema fsico) del almacn de datos.!
La herramienta OLAP genera la correspondiente
consulta y la enva al gestor de consultas delsistema (p.ej. mediante una sentencia SELECT).
-
7/25/2019 DW-II almacenamiento de datos
32/125
32
Herramientas OLAP
una consulta a un almacn de datos consiste generalmente
en la obtencin de medidassobre los hechosparametrizadas
por atributos de las dimensionesy restringidas por
condicionesimpuestas sobre las dimensiones
Importetotal de las ventasdurante este aode los productosdel departamento Bebidas, por trimestrey por categora ?.
Restricciones: productos del departamento Bebidas, ventas durante este ao
medida hecho
Parmetros de la consulta:por categora de producto y por trimestre
-
7/25/2019 DW-II almacenamiento de datos
33/125
33
Herramientas OLAP
2002
Bebidas
Producto
Tiempo
Almacn
importe
unidades
Departamento
Nro_producto
Categora
Marca
Tipo
Da
Mes
Da de lasemana
Almacn
Ciudad
Regin
Tipo
Ao
Importe total de ventas en
este ao, del departamento
de Bebidas, por categora y
trimestre
Trimestre
-
7/25/2019 DW-II almacenamiento de datos
34/125
34
Herramientas OLAP
trimestre categora importe
-
7/25/2019 DW-II almacenamiento de datos
35/125
35
Herramientas OLAP
Presentacin tabular
(relacional) de los
datos seleccionados
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Se asumen dos categoras en
el departamento de Bebidas:
Refrescos y Zumos.
-
7/25/2019 DW-II almacenamiento de datos
36/125
36
Herramientas OLAP
T4T3T2T1
Zumos
Refrescos
categora
trimestre Presentacin matricial
(multidimensional) de los
datos seleccionados
Los parmetros de la consulta (por trimestre y por categora)determinan los criterios de agrupacin de los datos seleccionados
(ventas de productos del departamento Bebidasdurante este ao).
La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo).
2000000 1000000 3000000 2000000
1000000 1500000 8000000 2400000
-
7/25/2019 DW-II almacenamiento de datos
37/125
37
Herramientas OLAP
Lo interesante no es poder realizar consultas que, encierto modo, se pueden hacer con selecciones,
proyecciones, concatenaciones y agrupamientos
tradicionales.
Lo realmente interesante de las herramientas OLAP
son sus operadores de refinamiento o manipulacinde consultas.
DRILL
ROLL
SLICE & DICE
PIVOT
-
7/25/2019 DW-II almacenamiento de datos
38/125
38
Herramientas OLAP
El carcter agregado de las consultas en el Anlisisde Datos, aconseja la definicin de nuevos
operadores que faciliten la agregacin (consolidacin)
y la disgregacin (divisin) de los datos:
!
agregacin (roll): permite eliminar un criterio deagrupacin en el anlisis, agregando los grupos
actuales.
! disgregacin (drill): permite introducir un nuevo
criterio de agrupacin en el anlisis, disgregandolos grupos actuales.
-
7/25/2019 DW-II almacenamiento de datos
39/125
39
Herramientas OLAP
Si se desea introducir la dimensinAlmacnen el anlisis
anterior e incluir un nuevo criterio de agrupacin sobre la
ciudad del almacn:
Importe total de las ventas durante este aode losproductos del departamento Bebidas, por trimestre, porcategorasyporciudad del almacn ?.
Restricciones: productos del departamento Bebidas, ventas durante este ao
Parmetros de la consulta:por categora de producto, por trimestre y porciudad del almacn.
-
7/25/2019 DW-II almacenamiento de datos
40/125
40
Herramientas OLAP
2002
Bebidas
Producto
Tiempo
Almacn
importe
unidades
Departamento
Nro_producto
Categora
Marca
TipoDa
Mes
Da de lasemana
Almacn
Ciudad
Regin
Tipo
Ao
Importe total de ventas en
este ao, del departamento
de Bebidas, por categora,
trimestre y ciudad
Trimestre
-
7/25/2019 DW-II almacenamiento de datos
41/125
41
Herramientas OLAP
trimestre categoraimporte
la operacin de DRILL
se realiza sobre elinforme original !
-
7/25/2019 DW-II almacenamiento de datos
42/125
42
Herramientas OLAP
Categora Trimestre VentasCiudad
T2
T1
400000
T2 700000
Refrescos T1
Valencia
drill-acr o
ss
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Len
Refrescos
Refrescos
Refrescos
Valencia
Len
1000000
1000000
* Se asumen dos ciudades: Valencia y Len.
Cada grupo (categora-trimestre) de la
consulta original se disgrega en dos
nuevos grupos (categora-trimestre-ciudad) para las ciudades de Len y
Valencia.
-
7/25/2019 DW-II almacenamiento de datos
43/125
43
Herramientas OLAP
T1 T2 T3 T4
Valencia
Zumos
Re
fres
cos
1000000
300000
400000
500000
100000
200000
500000
2000000
Presentacin matricial de
los datos seleccionados.
-
7/25/2019 DW-II almacenamiento de datos
44/125
44
Herramientas OLAP
Si se desea eliminar el criterio de agrupacin sobre la
dimensin Tiempoen la consulta original:
Importe total de las ventas durante este aode losproductos del departamento Bebidas, por categoras ?
-
7/25/2019 DW-II almacenamiento de datos
45/125
45
Herramientas OLAP
2002
Bebidas
Producto
Tiempo
Almacn
importe
unidades
Departamento
Nro_producto
Categora
Marca
TipoDa
Mes
Da de lasemana
Almacn
Ciudad
Regin
Tipo
Ao
Importe total de ventas en
este ao, del departamento
de Bebidas, por categoras
Trimestre
-
7/25/2019 DW-II almacenamiento de datos
46/125
46
Herramientas OLAP
trimestre categora importe
la operacin de ROLLse realiza sobre el
informe original !
-
7/25/2019 DW-II almacenamiento de datos
47/125
47
Herramientas OLAP
Categora Ventas
Refrescos 8000000
Zumos 12900000
r o
l l- a
cross
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T11000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
-
7/25/2019 DW-II almacenamiento de datos
48/125
48
Herramientas OLAP
Las operaciones de agregacin (DRILL) y disgregacin (ROLL)
se pueden hacer sobre:
!
atributos de una dimensin sobre los que se ha definido
una jerarqua: DRILL-DOWN, ROLL-UP
departamento categora - producto (Producto)
ao - trimestre mes - da (Tiempo)
!
sobre dimensiones independientes: DRILL-ACROSS,
ROLL-ACROSS
Producto Almacn -Tiempo
-
7/25/2019 DW-II almacenamiento de datos
49/125
49
Herramientas OLAP
trimestre categora importe
la operacin de DRILL
se realiza sobre el
informe original !
-
7/25/2019 DW-II almacenamiento de datos
50/125
50
Herramientas OLAP
Categora Trimestre VentasMes
T1
T1
500000
Refrescos T1
Enero
dr il l- d
ow
n
Categora Trimestre Ventas
T4
T2
T3
T1
T3
2000000
3000000
1500000
2400000
8000000
T1 1000000
T4
T2 1000000
Refrescos
Refrescos
Refrescos
Refrescos
Zumos
Zumos
Zumos
Zumos
2000000
Febrero
Refrescos
Refrescos Marzo
1000000
500000
Cada grupo (categora-trimestre) de la
consulta original se disgrega en dos
nuevos grupos (categora-trimestre-mes).
-
7/25/2019 DW-II almacenamiento de datos
51/125
51
Herramientas OLAP
Otras operaciones de OLAP:
!SLICE & DICE: seleccionar y proyectar
datos en el informe.
!PIVOT: reorientacin de las dimensiones
en el informe.
-
7/25/2019 DW-II almacenamiento de datos
52/125
52
Herramientas OLAP
Ventas
ElectronicsToys
ClothingCosmetics
Q1
$5,2$1,9
$2,3$1,1
ElectronicsToys
ClothingCosmetics
Q
2
$8,9$0,75
$4,6$1,5
Productos Store1 Store2
$5,6$1,4
$2,6$1,1
$7,2$0,4
$4,6$0,5
Ventas
ElectronicsToys
ClothingCosmetics
Store1 $5,2
$1,9
$2,3$1,1
ElectronicsToys
ClothingCosmetics
Store2
$5,6$1,4
$2,6$1,1
Productos Q1 Q2
$8,9$0,75
$4,6$1,5
$7,2$0,4
$4,6$0,5
PIVOT
-
7/25/2019 DW-II almacenamiento de datos
53/125
53
Herramientas OLAP
Ventas
ElectronicsToys
ClothingCosmetics
Q1
$5,2$1,9
$2,3$1,1
ElectronicsToys
ClothingCosmetics
Q
2
$8,9$0,75
$4,6$1,5
Productos Store1 Store2
$5,6$1,4
$2,6$1,1
$7,2$0,4
$4,6$0,5
Ventas
ElectronicsToysQ
1 $5,2$1,9
Productos Store1
Electronics
ToysQ2 $8,9
$0,75
SLICE& DICE
-
7/25/2019 DW-II almacenamiento de datos
54/125
54
Herramientas OLAP
Las herramientas de OLAP se caracterizan* por:
! ofrecer una visin multidimensional de los datos (matricial).
! no imponer restricciones sobre el nmero de dimensiones.
! ofrecer simetra para las dimensiones.
! permitir definir de forma flexible (sin limitaciones) sobre las
dimensiones: restricciones, agregaciones y jerarquas entre
ellas.
! ofrecer operadores intuitivos de manipulacin: drill-down, roll-
up, slice-and-dice, pivot.
! ser transparentes al tipo de tecnologa que soporta el almacn
de datos (ROLAP o MOLAP).
*Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.
-
7/25/2019 DW-II almacenamiento de datos
55/125
55
ROLAP y MOLAP
El Almacn de Datos y las herramientas OLAP sepueden basar fsicamenteen varias organizaciones:
Sistemas MOLAP
!
disponen de estructuras de almacenamiento especficas(arrays) y tcnicas de compactacin de datos quefavorecen el rendimiento del almacn.
Sistemas ROLAP
!
se implementan sobre tecnologa relacional, pero
disponen de algunas facilidades para mejorar elrendimiento (ndices de mapas de bits, ndices de JOIN).
Sistemas HOLAP
!sistemas hbridos entre ambos.
-
7/25/2019 DW-II almacenamiento de datos
56/125
56
ROLAP y MOLAP
Sistemas ROLAP:
! El almacn de datos se construye sobre un
SGBD Relacional.
! Los fabricantes de SGBD relacionales
ofrecen extensiones y herramientas para
poder utilizar el SGBDR como un Sistema
Gestor de Almacenes de Datos.
-
7/25/2019 DW-II almacenamiento de datos
57/125
57
ROLAP y MOLAP
Sistemas ROLAP:
Extensiones de los SGBD relacionales:
!
ndices de mapa de bits
!ndices de JOIN
!tcnicas de particionamiento de los datos
!
optimizadores de consultas
!
extensiones del SQL (operador CUBE, roll-up)
-
7/25/2019 DW-II almacenamiento de datos
58/125
58
ROLAP y MOLAP
Sistemas MOLAP.
Sistema de propsito especfico:
!
estructuras de datos (arrays)
! tcnicas de compactacin.
El objetivo de los sistemas MOLAP es almacenar fsicamentelos datos en estructuras multidimensionales de forma que la
representacin externa y la representacin interna coincidan.
-
7/25/2019 DW-II almacenamiento de datos
59/125
59
ROLAP y MOLAP
Warehouse
ServidorMOLAP
El servidor MOLAP
construye y almacena datos
en estructuras
multidimensionales.
La herramienta de OLAP
presenta estas estructuras
multidimensionales.
Herramienta
OLAP
Estructurasmultidimensionales
-
7/25/2019 DW-II almacenamiento de datos
60/125
60
ROLAP y MOLAP
MOLAP:
Datos
Arrays
Extrados del almacn de datos
almacenamiento y procesos
eficientes
la complejidad de la BD se
oculta a los usuarios
el anlisis se hace sobre datos
agregados y mtricas o
indicadores precalculados.
Warehouse
ServidorMOLAP
Herramienta
OLAP
Estructuras
multidimensionales
-
7/25/2019 DW-II almacenamiento de datos
61/125
61
ROLAP y MOLAP
HerramientaOLAP
HerramientaOLAP
ServidorRelacional
Desktop
ServidorMultidimensional
Warehouse
MOLAPROLAP
C l i
en te
S e
rvid
or
-
7/25/2019 DW-II almacenamiento de datos
62/125
62
ROLAP y MOLAP
ROLAP/MOLAP: Ventajas e Inconvenientes:
ROLAP
!
pueden aprovechar la tecnologa relacional.
!pueden utilizarse sistemas relacionales genricos (msbaratos o incluso gratuitos).
!
el diseo lgico corresponde al fsico si se utiliza el
diseo de Kimball.
MOLAP:! generalmente ms eficientes que los ROLAP.
!
el coste de los cambios en la visin de los datos.
! la construccin de las estructuras multidimensionales.
-
7/25/2019 DW-II almacenamiento de datos
63/125
Algunas Herramientas OLAP
63
-
7/25/2019 DW-II almacenamiento de datos
64/125
64
Carga y Mantenimiento de un A.D.
El sistema encargado del mantenimiento del almacn de datos eselSistema E.T.T*(Extraccin - Transformacin -Transporte)
La construccin del Sistema E.T.T es responsabilidad del equipo
de desarrollo del almacn de datos.
El Sistema E.T.T es construido especficamente para cada
almacn de datos. Aproximadamente 50% del esfuerzo.
En la construccin del E.T.T se pueden utilizar herramientas delmercado o programas diseados especficamente.
Funciones del Sistema E.T.T:
Carga inicial. (initial load)
Mantenimiento o refrescoperidico: inmediato, diario, semanal,mensual,... (refreshment)
* Conocido tambin por E.T.L: Extraccin Transformacin Load (carga)
-
7/25/2019 DW-II almacenamiento de datos
65/125
65
Carga y Mantenimiento de un A.D.
Correspondencia
Bases de datosoperacionales
Almacenamientointermedio
Almacn dedatos
Transformacin
Extraccin Transporte
El Almacenamiento intermedio permite:
Realizar transformaciones sin paralizar las bases dedatos operacionales y el almacn de datos.
Almacenar metadatos.
Facilitar la integracin de fuentes externas.
FuentesExternas
E.T.T.
-
7/25/2019 DW-II almacenamiento de datos
66/125
66
Carga y Mantenimiento de un A.D.
E.T.T. Correspondencia
Transformacin
Extraccin Transporte
!Identificacin de losdatos que han cambiado
!Extraccin (lectura) de
datos.
!Obtencin de agregados
!Mantenimiento de
metadata
!Limpieza y transformacinde datos
!
Integracin de datos
(clculo de datos derivados)
!Creacin de claves
!Obtencin de agregados
!Mantenimiento de
metadata
!Carga
! Indizacin
!Obtencin de datos
agregados.
! Realizacin de pruebas
de calidad de la carga.
!Gestin de errores.
!Mantenimiento de
metadata
-
7/25/2019 DW-II almacenamiento de datos
67/125
67
Carga y Mantenimiento de un A.D.
Definir una estrategia de calidad:
actuacin sobre los sistemas operacionales: modificarlas reglas de integridad, los disparadores y las
aplicaciones de los sistemas operacionales.
documentacin de las fuentes de datos.
definicin de un proceso de transformacin.
nombramiento de un responsable de calidad del sistema(Data Quality Manager).
La calidad de los datos es la clave del
xito de un almacn de datos.
-
7/25/2019 DW-II almacenamiento de datos
68/125
68
Carga y Mantenimiento de un A.D.
Extraccin.
Programas diseados para extraer los datos de las fuentes.
Herramientas: data migration tools, wrappers, ...
Correspondencia
Bases de datosoperacionales
Almacenamientointermedio
Almacn dedatos
Extraccin
-
7/25/2019 DW-II almacenamiento de datos
69/125
69
Carga y Mantenimiento de un A.D.
Ejecucin de la extraccin:
a) si los datos operacionales estn mantenidos en un SGBDR, la
extraccinde datos se puede reducir a consultas en SQLo
rutinas programadas.
b) si los datos operacionales estn en un sistema propietario(no se conoce el formato de los datos) oen fuentes externas
textuales, hipertextuales u hojas de clculo, la extraccin puede
ser muy difcily puede tener que realizarse a partir de informes
o volcados de datos proporcionados por los propietarios que
debern ser procesados posteriormente.
Extraccin:lectura de datos del sistema operacional.
a) durante la carga inicial .
b) mantenimiento del AD
-
7/25/2019 DW-II almacenamiento de datos
70/125
70
Carga y Mantenimiento de un A.D.
Identificacin de Cambios.
Identificar los datos operacionales (relevantes) que han sufrido
una modificacin desde la fecha del ltimo mantenimiento.
Mtodos
Carga total: cada vez se empieza de cero.
Comparacin de instancias de la base de datos operacional.
Uso de marcas de tiempo (time stamping) en los registros delsistema operacional.
Uso de disparadores en el sistema operacional.
Uso del fichero de log(gestin de transacciones) del sistema
operacional.
Uso de tcnicas mixtas.
Extraccin:en el mantenimiento/refresco del AD. Antes derealizar la extraccin es preciso Identificar los Cambios.
-
7/25/2019 DW-II almacenamiento de datos
71/125
71
Carga y Mantenimiento de un A.D.
Transformacin.
-
Transformar los datos extrados de las fuentes operacionales:
limpieza, estandarizacin. (cleansing)
-
Calcular los datos derivados: aplicar las leyes de derivacin.
(integration)
Correspondencia
Bases de datos
operacionales
Almacenamiento
intermedio
Almacn de
datos
Transformacin
-
7/25/2019 DW-II almacenamiento de datos
72/125
72
Carga y Mantenimiento de un A.D.
Transformacin.
En los datos operacionales existen anomalas: desarrollos
independientes a lo largo del tiempo, fuentes heterogneas, ..
Eliminar anomalas:
Limpieza de datos: eliminar datos, corregir y completar datos,
eliminar duplicados, ...
Estandarizacin: codificacin, formatos, unidades de medida, ...
12M65431
12-m-65421
12m65421
12m65421
12M65431
12M65431
12-m-65421
12m65421
12m65421
12M65431
12
12
12
M
m
m
65431
65421
65421
12
12
M
M
65431
65421
-
7/25/2019 DW-II almacenamiento de datos
73/125
73
Carga y Mantenimiento de un A.D.
Transformacin.
Claves con estructura:descomponer en valores atmicos
cdigodel pas
zona deventas
nmero deproducto
cdigo devendedor
Cdigo de producto = 12M65431345
-
7/25/2019 DW-II almacenamiento de datos
74/125
74
Carga y Mantenimiento de un A.D.
Transformacin.
Unificar codificaciones: existencia de codificaciones mltiples.
Deben detectarse los valores errneos.
v , h
1 , 0
varn, hembra
v, h
-
7/25/2019 DW-II almacenamiento de datos
75/125
75
Carga y Mantenimiento de un A.D.
Transformacin.
Unificar estndares:unidades de medida, unidades de
tiempo,moneda,...
cm
inches
cm
DD/MM/YY
MM/DD/YYDD-Mon-YY
1,000 GBP
FF 9,990
USD 600
-
7/25/2019 DW-II almacenamiento de datos
76/125
76
Carga y Mantenimiento de un A.D.
Transformacin.
Valores duplicados: deben ser eliminados.
SQL
restricciones en el SGBDR
ACME Inc
ACME Inc
ACME Inc ACME Inc
-
7/25/2019 DW-II almacenamiento de datos
77/125
77
Carga y Mantenimiento de un A.D.
Transformacin.
Integridad referencial: debe reconstruirse.
Departamento1020
3040
Emp Nombre Departamento1099 Smith 101289 Jones 20
1234 Doe 506786 Harris 60
-
7/25/2019 DW-II almacenamiento de datos
78/125
78
Carga y Mantenimiento de un A.D.
Transformacin.Creacin de claves.
#1 Venta 1/2/98 12:00:01 Ham Pizza $10.00
#2 Venta 1/2/98 12:00:02 Cheese Pizza $15.00
#3 Venta 1/2/98 12:00:02 Anchovy Pizza $12.00
#5 Venta 1/2/98 12:00:04 Sausage Pizza $11.00
#4 Devolucin 1/2/98 12:00:03 Anchovy Pizza - $12.00
#dw1 Venta 1/2/98 12:00:01 Ham Pizza $10.00
#dw2 Venta 1/2/98 12:00:02 Cheese Pizza $15.00
#dw3 Venta 1/2/98 12:00:04 Sausage Pizza $11.00
Claves sin significado
-
7/25/2019 DW-II almacenamiento de datos
79/125
79
Carga y Mantenimiento de un A.D.
Transporte. (carga)
La fase de Transporteconsiste en mover los datos desde las
fuentes operacionales o el almacenamiento intermedio hasta el
almacn de datos y cargar los datos en las correspondientesestructuras de datos.
La carga puede consumir mucho tiempo.
En la carga inicial del AD se mueven grandes volmenes de
datos.
En los mantenimientos peridicos del AD se mueven pequeosvolmenes de datos.
La frecuencia del mantenimiento peridico est determinada
por el grnulo del AD y los requisitos de los usuarios.
-
7/25/2019 DW-II almacenamiento de datos
80/125
80
Carga y Mantenimiento de un A.D.
Transporte.Creacin y mantenimiento de un AD.
Crear el AD (base de datos)
En intervalos de tiempo fijos aadir cambios al AD. Sedeben determinar las ventanas de carga ms convenientes
para no saturar la base de datos operacional.
Ocasionalmente archivar o eliminar datos obsoletos que ya
no interesan para el anlisis.
T1 T2 T3
Base de datosoperacional
-
7/25/2019 DW-II almacenamiento de datos
81/125
81
Carga y Mantenimiento de un A.D.
Procesos posteriores a la carga: indizacin.
Durante la carga:
"
carga con el ndice habilitado
" proceso tupla a tupla. (lento)
Despus de la carga:"
carga con el ndice deshabilitado
" creacin del ndice (total o parcial). (rpido)
Index
Almacn
de datos
Base de datos
operacional
-
7/25/2019 DW-II almacenamiento de datos
82/125
82
Carga y Mantenimiento de un A.D.
Procesos posteriores a la carga: obtencin de agregados.
Durante la extraccin.
Despus de la carga (transporte).
Base de datosoperacional
Almacenamientointermedio
Almacn dedatos
TransporteExtraccin
-
7/25/2019 DW-II almacenamiento de datos
83/125
Herramientas ETL?
83
-
7/25/2019 DW-II almacenamiento de datos
84/125
84
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico especfico
Implementacin
Diseo conceptual
Recogida y anlisis derequisitos
-
7/25/2019 DW-II almacenamiento de datos
85/125
85
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis derequisitos Anlisis
Discernimiento de lasfuentes necesarias
del sistema de
informacin de la
organizacin (OLTP)
y externas
Requisitos deusuario
(consultas deanlisis
necesarias,nivel de
agregacin,!
)
p.ej. Entidad-Relacin
DiseoConceptual
-
7/25/2019 DW-II almacenamiento de datos
86/125
86
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis derequisitos Diseo
Lgico
Modeladomultidimensional (MR)
Esquemas
estrella
-
7/25/2019 DW-II almacenamiento de datos
87/125
87
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis derequisitos
Definicin del esquemaROLAP o MOLAP
DiseoFsico
Diseo del ETL
-
7/25/2019 DW-II almacenamiento de datos
88/125
88
Diseo de un Almacn de Datos
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis derequisitos
Implementacin
Carga del AD (ETL)
Preparacin de lasvistas de usuario
(herramienta OLAP)
-
7/25/2019 DW-II almacenamiento de datos
89/125
89
Diseo de un Almacn de Datos
Detallemos ms ahora el Diseo Lgico...
La visin multidimensionalseguida por
las herramientas de explotacin de
almacenes de datos (OLAP) ha
inspirado los modelos y metodologasde diseo de este tipo de sistemas.
En la literatura se habla de Bases de Datos
Multidimensionalesy de Diseo Multidimensional
Diseo fsico
Diseo lgico
Implementacin
Diseo conceptual
Recogida y anlisis derequisitos
-
7/25/2019 DW-II almacenamiento de datos
90/125
90
Diseo de un Almacn de Datos
Modelado multidimensional:
!
en un esquema multidimensional se representa una
actividad que es objeto de anlisis (hecho)y las
dimensiones que caracterizan la actividad
(dimensiones).
! la informacin relevante sobre el hecho(actividad)
se representa por un conjunto de indicadores
(medidas o atributos de hecho).
!
la informacin descriptiva de cada dimensinse
representa por un conjunto de atributos (atributosde dimensin).
-
7/25/2019 DW-II almacenamiento de datos
91/125
91
Diseo de un Almacn de Datos
Modelado multidimensional:
! el modelado multidimensional se puede aplicar
utilizando distintos modelos de datos(conceptuales o lgicos).
! la representacin grfica del esquema
multidimensional depender del modelo de datos
utilizado (relacional, ER, UML, OO, ...).
-
7/25/2019 DW-II almacenamiento de datos
92/125
92
Diseo de un Almacn de Datos
El desarrollo de la tecnologa de almacenes dedatos se ha caracterizado por:
- un temprano desarrollo industrial provocado por
las demandas de los usuarios.
- el uso de metodologas de diseocentradas
principalmente en los niveles lgico e interno. (laatencin se ha centrado en mejorar la eficiencia en la ejecucin deconsultas)
Metodologa de diseo basada en el modelo
relacional: Modelo multidimensional de Kimball
No es muy congruente usar modelos
para diseo conceptual!.
-
7/25/2019 DW-II almacenamiento de datos
93/125
93
Diseo de un Almacn de Datos
Pasos en el diseo del almacn de datos:
Paso 1. Elegir un proceso de la organizacin para
modelar.
Paso 2. Decidir el grnulo (nivel de detalle) de
representacin del proceso.
Paso 3. Identificar las dimensiones que
caracterizan el proceso.
Paso 4. Decidir la informacin a almacenar sobre elproceso.
i A
-
7/25/2019 DW-II almacenamiento de datos
94/125
94
Diseo de un Almacn de Datos
Paso 1. Elegir un procesode la organizacin paramodelar.
Proceso: actividad de la organizacin soportada por un
OLTP del cual se puede extraer informacin con el
propsito de construir el almacn de datos.
Pedidos (de clientes)
Compras (a suministradores)
Facturacin
EnvosVentas
Inventario
!
Di d Al d D
-
7/25/2019 DW-II almacenamiento de datos
95/125
95
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
Cadena de supermercados con 300 almacenes en la
que se expenden unos 30.000 productos distintos.
Actividad:Ventas.
La actividad a modelar son las ventas de productos
en los almacenes de la cadena.
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
96/125
96
Diseo de un Almacn de Datos
Paso 2. Decidir el grnulo (nivel de detalle) derepresentacin.
Grnulo: es el nivel de detalle al que se desea almacenar
informacin sobre la actividad a modelar.
!El grnulodefine el nivel atmico de datos en el almacnde datos.
!El grnulodetermina el significado de las tuplas de la tabla
de hechos.
!El grnulodetermina las dimensiones bsicasdel esquema
transaccin en el OLTP
informacin diaria
informacin semanal
informacin mensual. ....
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
97/125
97
Diseo de un Almacn de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)
tabla de
hechostabla
Dimensin 3
tabla
Dimensin 1
tabla
Dimensin 2 tabla
Dimensin n
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
98/125
98
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas
diariasde cadaproducto en cada almacnde la cadena.
Grnulo:
!
define el significado de las tuplas de la tabla de hechos.!
determina las dimensiones bsicas del esquema.
producto
da
almacn
ventas
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
99/125
99
Diseo de un Almacn de Datos
Grnulo inferior:no se almacena informacin a nivel de
lnea de ticketporque no se puede identificar siempre al
cliente de la venta lo que permitira hacer anlisis del
comportamiento (hbitos de compra) del cliente.
Grnulo superior:no se almacena informacin a nivel
semanalo mensualporque se perderan opciones de
anlisis interesantes: ventas en das previos a vacaciones,
ventas en fin de semana, ventas en fin de mes, ....
En un almacn de datos se almacena informacin
a un nivel de detalle (grnulo) fino no porque se
vaya a interrogar el almacn a ese nivel sino
porque ello permite clasificar y estudiar (analizar)
la informacin desde muchos puntos de vista.
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
100/125
100
Diseo de un Almacn de Datos
producto
da
almacn
ventas
id_producto
id_fecha
id_almacn.....
.....
......
tabla dehechos
la clave primaria* estformada por los
identificadores de las
dimensiones bsicas.
datos (medidas) sobre lasventas diarias de un
producto en un almacn.
* pueden existir excepciones a esta regla general
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
101/125
101
Diseo de un Almacn de Datos
Paso 3. Identificar las dimensiones que caracterizan elproceso.
!
Dimensiones: dimensiones que caracterizan la actividad al
nivel de detalle (grnulo) que se ha elegido.
Tiempo (dimensin temporal: cundo se produce la actividad?)
Producto (dimensin cul es el objeto de la actividad?)
Almacn (dimensin geogrfica: dnde se produce la actividad?)
Cliente (dimensin quin es el destinatario de la actividad?)
!
De cada dimensinse debe decidir los atributos(propiedades) relevantes para el anlisis de la actividad.
!
Entre los atributos de una dimensin existen jerarquas
naturales que deben ser identificadas (da-mes-ao)
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
102/125
102
Diseo de un Almacn de Datos
id_dim1
....
tabla
Dimensin 1
Di d Al d D t
-
7/25/2019 DW-II almacenamiento de datos
103/125
103
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
definicin degrnulo
dimensionesbsicas
tiempo
producto
establecimiento
Nota: En las aplicaciones reales el nmero de dimensionessuele variar entre 3 y 15 dimensiones.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
104/125
104
Diseo de un Almacn de Datos
Dimensin Tiempo:
! dimensin presente en todo AD porque el AD contieneinformacin histrica sobre la organizacin.
! aunque el lenguaje SQL ofrece funciones de tipo DATE, una
dimensin Tiempo permite representar otros atributostemporales no calculables en SQL.
! se puede calcular de antemano
! atributos frecuentes:
nro. de da, nro. de semana, nro. de ao: valores absolutos del
calendario juliano que permiten hacer ciertos clculos aritmticos.
da de la semana (lunes, martes, mircoles,...): permite hacer
anlisis sobre das de la semana concretos (ej. ventas en sbado,
ventas en lunes,..).
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
105/125
105
Diseo de un Almacn de Datos
Dimensin Tiempo:! atributos frecuentes:
- da del mes (1..31): permite hacer comparaciones sobre el mismo
da en meses distintos (ventas el 1 de mes).
- marca de fin de mes, marca de fin de semana : permite hacer
comparaciones sobre el ltimo da del mes o das de fin de semanaen distintos meses.
- trimestre del ao (1..4): permite hacer anlisis sobre un trimestre
concreto en distintos aos.
- marca de da festivo: permite hacer anlisis sobre los das contiguos
a un da festivo.
-
estacin (primavera, verano..)
- evento especial: permite marcar das de eventos especiales (final defutbol, elecciones...)
!jerarqua natural:
da - mes - trimestre -ao
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
106/125
106
Diseo de un Almacn de Datos
Dimensin Producto:
! la dimensin Producto se define a partir del fichero maestro deproductos del sistema OLTP.
! las actualizaciones del fichero maestro de productos deben
reflejarse en la dimensin Producto (cmo?).
! la dimensin Producto debe contener el mayor nmero posible
de atributos descriptivos que permitan un anlisis flexible. Un
nmero frecuente es de 50 atributos.
! atributos frecuentes: identificador (cdigo estndar),
descripcin, tamao del envase, marca, categora,departamento, tipo de envase, producto diettico, peso,
unidades de peso, unidades por envase, frmula, ...
! jerarquas: producto-categora-departamento
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
107/125
107
Diseo de un Almacn de Datos
Dimensin Establecimiento (store) :
! la dimensin Almacn representa la informacin geogrfica bsica.
! esta dimensin suele ser creada explcitamente recopilando
informacin externaque slo tiene sentido en el A.D y que no latiene en un OLTP (nmero de habitantes de la ciudad del
establecimiento, caracterizacin del tipo de poblacin del distrito, ...)! atributos frecuentes: identificador (cdigo interno), nombre,
direccin, distrito, regin, ciudad, pas, director, telfono, fax, tipo dealmacn, superficie, fecha de apertura, fecha de la ltima
remodelacin, superficie para congelados, superficie para productos
frescos, datos de la poblacin del distrito, zona de ventas, ...
!jerarquas:
establecimiento - distrito - ciudad - regin - pas (jerarqua
geogrfica)
establecimiento - zona_ventas - regin_ventas (jerarqua de
ventas)
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
108/125
108
Diseo de un Almacn de Datos
id_establec
nro_establec
nombre
direccin
distritociudad
pas
tlfno
fax
superficietipo_almacn
...
Establecimientoid_fecha
da
semana
mes
aoda_semana
da_mes
trimestre
festivo
....
Tiempoid_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
Producto
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
109/125
109
Diseo de un Almacn de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
direccin
distritociudad
pas
tlfno
fax
superficietipo_almacn
...
id_producto
nro_productodescripcin
marca
subcategora
categora
departamentopeso
unidades_peso
tipo_envase
diettico
...
Establecimiento
Producto
id_fecha
da
semana
mes
ao
da_semana
da_mes
trimestre
festivo
....
Tiempo
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
110/125
110
Diseo de un Almacn de Datos
Paso 4. Decidir la informacin a almacenar sobre elproceso.
Hechos: informacin (sobre la actividad) que se desea almacenar
en cada tupla de la tabla de hechos y que ser el objeto del
anlisis.Precio
Unidades
Importe
....
Nota: algunos datos que en el OLTP coincidiran con valores deatributos de dimensiones, en el almacn de datos pueden
representar hechos. (Ejemplo: el precio de venta de un producto).
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
111/125
111
Diseo de un Almacn de Datos
Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas
diariasde cadaproductoen cada establecimientode la cadena.
importe total de las ventas del producto en el da
nmero total de unidades vendidas del producto en el da
nmero total de clientes distintos que han comprado elproducto en el da.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
112/125
112
Diseo de un Almacn de Datos
id_fecha
id_producto
id_establec
importe
unidades
nro_clientes
Ventas
id_establec
nro_establec
nombre
direccin
distrito
ciudad
pas
tlfno
fax
superficie
tipo_almacn
...
id_producto
nro_producto
descripcin
marca
subcategora
categora
departamento
peso
unidades_peso
tipo_envase
diettico
...
Establecimiento
Producto
id_fecha
da
semana
mes
ao
da_semana
da_mes
trimestre
festivo
....
Tiempo
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
113/125
113
Diseo de un Almacn de Datos
Otras orientaciones de diseo:
!
usar claves sin significado:
! evitar normalizar.
!
incluir la dimensin Tiempo.
! dimensiones que cambian.
!
definicin de agregados.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
114/125
114
Diseo de un Almacn de Datos
Otras orientaciones de diseo:!
uso de claves sin significado.
en un almacn de datos debe evitarse el uso de las clavesdel sistema operacional.
las claves de las dimensiones deben ser generadasartificialmente: claves de tipo entero (4 bytes) son suficiente
para dimensiones de cualquier tamao (232valores distintos).
la dimensin TIEMPO debe tener tambin una clave artificial.
Inconvenientes del uso de las claves del sistema operacional:
! en el OLTP se puede decidir reutilizar valores de la clave no
utilizados actualmente.
! en el OLTP se puede decidir cambiar la codificacin de las
claves.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
115/125
115
Diseo de un Almacn de Datos
Otras Orientaciones de diseo:
!
evitar normalizar.
Si se define una tabla de dimensin para cada dimensin
identificada en el anlisis, es frecuente que entre el conjunto de
atributos de la tabla aparezcan dependencias funcionales que
hacen que la tabla no est en 3 F.N.
Evitar normalizar:
! el ahorro de espacio no es significativo
!se multiplican los JOIN durante las consultas.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
116/125
116
Diseo de un Almacn de Datos
En un almacn de Datos muchas consultas son
restringidas y parametrizadas por criterios relativos a
periodos de tiempo (ltimo mes, este ao, ...).
Otras Orientaciones de diseo:
!
siempre introducir la dimensin Tiempo.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
117/125
117
Diseo de un Almacn de Datos
Otras orientaciones de diseo:
!
dimensiones que cambian.
Ejemplo:En un A.D existe la dimensin CLIENTE. En la tabla correspondiente
un registro representa la informacin sobre el cliente Mara Garca cuyo
estado civil cambia el 15-01-1994 de solteraa casada. El estado civil del
cliente es utilizado con frecuencia en el anlisis de la informacin.
Se considera relevante el caso en que, en el mundo real, para unvalor de una dimensin, cambia el valor de un atributo que es
significativo para el anlisis sin cambiar el valor de su clave.
Existen tres estrategias para el tratamiento de los cambios enlas dimensiones:
Tipo 1: Realizar la modificacin.
Tipo 2: Crear un nuevo registro.
Tipo 3: Crear un nuevo atributo.
Diseo de un Almacn de Datos
-
7/25/2019 DW-II almacenamiento de datos
118/125
118
Diseo de un Almacn de Datos
Otras orientaciones de diseo:
!
definicin de agregados.
En un almacn de datos es usual consultarinformacin agregada!
El almacenamiento de datos agregados por distintos criterios deagregacin en la tabla de hechos mejora la eficiencia del AD.
Estrategias de almacenamiento de datos agregados:
!Estrategia 1:definir nuevas tablas de hechos (resp. dedimensiones) para almacenar la informacin agregada (resp. ladescripcin de los niveles de agregacin).
! Estrategia 2:insertar en la tabla de hechos (resp. dimensiones)
tuplas que representan la informacin agregada (resp. losniveles de agregacin).
Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
119/125
119
Lneas de Investigacin Abiertas
Resmenes:! Widom, J. Research problems in data warehousing
Actas de la International Conference on Information and Knowledge
Management (CIKM95), ACM Press. 1995
! Chaudhuri, S., Dayal, U.An overview of data warehousing and OLAP
technology.
SIGMOD Records. 26(1), pp. 65-74, 1997.
! Wu, Ch., Buchmann, P. Research issues in data warehousing
Datebanksysteme in Bro, Technik und Wissenchaft (BTW),
Informatik Aktuell, pp. 61-62. Springer, 1997
Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
120/125
120
Lneas de Investigacin Abiertas
Resmenes:! Samtani, S., Kumar, V., Kambayashi, Y.
Recent advances and research problems in data warehousing.
Actas de la International Conference on Conceptual Modeling (ER)
LNCS 1507,Springer, 1998
! Gardner, S.R.
Building the data warehouse.
Communications of the ACM 41(9), pp. 52-60, 1998.
! Dinter, B., Sapia, C. Hlfing, G., Blaschka, M.
OLAP market and research: initiating the cooperation.
Journal of Computer Science and Information Management, 2(3), 1999
Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
121/125
121
Lneas de Investigacin Abiertas
Conferencias especializadas en DW:
! International Worshop on Data Warehousing and OLAP. (DOLAP)
!
International Workshop on Data Warehouse and Data Mining. (DWDM)
! Interantional Workshop on Design and Management of Data
Warehouses. (DMDW)
! International Conference on Data Warehousing and Knowledege
Discovery. (DaWaK)
Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
122/125
122
Lneas de Investigacin Abiertas
Conferencias especializadas en BD:
! International Conference of Very Large Databases. (VLDB)
!
International Conference on Data Engineering. (ICDE)
! Interantional Conference on Conceptual Modeling. (ER)
! International Conference on Extending Database Technology (EDBT).
! International Conference on Database Theory (ICDT).
Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
123/125
123
Lneas de Investigacin Abiertas
Direcciones de inters:
http://www.cs.toronto.edu/~mendel/dwbib.html
http://www.olapcouncil.org/research/
http://www.ceur-ws.org/
http://www.cis.drexel.edu/faculty/song/dolap.html
http://www-db.stanford.edu/warehousing/
Lneas de Investigacin Abiertas
-
7/25/2019 DW-II almacenamiento de datos
124/125
124
Lneas de Investigacin Abiertas
!
Diseo de Almacenes de Datos: modelos conceptuales,metodogas de diseo.
! Carga y ETL: recuperacin de fallos durante la carga.
Planificacin de cargas y refrescos.
!
Limpieza y Transformacin! Mantenimiento de Almacenes de Datos: mantenimiento de
vistas materializadas.
!
Implementacin de Almacenes de Datos.
!
Diseo Fsico, optimizaciones para ROLAP, estructuraspara MOLAP.
! Reparticin de tareas OLAP entre el cliente y el servidor.
-
7/25/2019 DW-II almacenamiento de datos
125/125
PARTE II:ALMACENES DE DATOS
Wilson Andrs Castillo RojasMagster en Ciencias de la Ingeniera, Mencin Computacin
Pontificia Universidad Catlica de Chile
rea Computacin e Informtica