DW-II almacenamiento de datos

download DW-II almacenamiento de datos

of 125

Transcript of DW-II almacenamiento de datos

  • 7/25/2019 DW-II almacenamiento de datos

    1/125

    PARTE II:ALMACENES DE DATOS

    Wilson Andrs Castillo Rojas

    Magster en Ciencias de la Ingeniera, Mencin Computacin

    Pontificia Universidad Catlica de Chile

    [email protected]

    rea Computacin e Informtica

    Facultad de Ingeniera y Arquitectura

    Universidad Arturo Prat

  • 7/25/2019 DW-II almacenamiento de datos

    2/125

    2

    Temario

    1. Introduccin1.1. Finalidades y Evolucin de los Sistemas de Informacin.

    1.2. Herramientas para la Toma de Decisiones: diferencias e interrelacin.1.3. Almacenes de Datos, OLAP y Minera de Datos: definicin e interrelacin.

    2. Almacenes de Datos2.1. Introduccin a los Modelos MM y Almacenes de Datos.

    2.2. Arquitectura de un Sistema de Almacn de Datos.2.3. Explotacin de un Almacn de Datos: Herramientas OLAP.

    2.4. Sistemas ROLAP y MOLAP.

    2.5. Carga y Mantenimiento de un Almacn de Datos.2.6. Diseo de un almacn de Datos.

    2.7. Lneas de Investigacin Abiertas.3. Minera de Datos3.1. Introduccin a la Minera de Datos (DM)3.2. El proceso de KDD

    3.3. Tcnicas de Minera de Datos

    3.4. Web Mining

    3.5. Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    3/125

    3

    Objetivos Parte II

    Conocer las ventajas y casos donde es aconsejablerecopilar informacin interna y externa en un Almacn de

    Datos.

    Conocer el modelo multidimensional de los almacenes de

    datos y los operadores de refinamiento asociados: drill,roll, slice & dice, pivot.

    Conocer la arquitectura y diferentes implementaciones(ROLAP, MOLAP) de Almacenes de Datos.

    Reconocer pautas para el diseo y mantenimiento de ADs.

  • 7/25/2019 DW-II almacenamiento de datos

    4/125

    4

    Introduccin a los Almacenes de Datos

    Generalmente, la informacinque se quiereinvestigar sobre un cierto dominio de la organizacin

    se encuentra en bases de datos y otras fuentesmuy diversas, tanto internas como externas.

    Muchas de estas fuentes son las que se utilizan

    para el trabajo diario (bases de datosoperacionales).

    OBJETIVO:Anlisis de Datos para el Soporte en

    la Toma de Decisiones.

  • 7/25/2019 DW-II almacenamiento de datos

    5/125

    5

    Introduccin a los Almacenes de Datos

    Sobre estas mismas bases de datos de trabajo ya se puede

    extraer conocimiento (visin tradicional).

    Uso de la base de datos transaccional para varios cometidos:

    Se mantiene el trabajo transaccional diario de los sistemas de

    informacin originales (conocido como OLTP, On-LineTransactional Processing).

    Se hace anlisis de los datos en tiempo real sobre la misma base dedatos (conocido como OLAP, On-Line Analytical Processing).

  • 7/25/2019 DW-II almacenamiento de datos

    6/125

    6

    Introduccin a los Almacenes de Datos

    Uso de la base de datos transaccional para varios cometidos:

    PROBLEMAS:

    perturba el trabajo transaccional diario de los sistemas de

    informacin originales (killer queries). Se debe hacer

    por la noche o en fines de semana.

    la base de datos est diseada para el trabajotransaccional, no para el anlisis de los datos.

    Generalmente no puede ser en tiempo real (era AP pero

    no OLAP).

  • 7/25/2019 DW-II almacenamiento de datos

    7/125

    7

    Introduccin a los Almacenes de Datos

    Se desea operar eficientemente con esos datos...

    los costes de almacenamiento masivo y conectividad se han

    reducido drsticamente en los ltimos aos,

    parece razonable recoger los datos (informacinhistrica) en un sistema separado y especfico.

    Data warehouses(Almacenes o Bodegas de Datos)

    NACE EL DATA-WAREHOUSING

  • 7/25/2019 DW-II almacenamiento de datos

    8/125

    8

    Introduccin a los Almacenes de Datos

    Almacenes de Datos (AD) (data warehouse)

    disponer de Sistemas deInformacin de apoyo a la

    toma de decisiones*

    disponer debases de datosque permitanextraer conocimientodela informacin histrica almacenada en la organizacin

    motivacin

    anlisis de laorganizacin

    previsiones deevolucin

    diseo deestrategias

    objetivos

    * DSS: Decision Support Systems

  • 7/25/2019 DW-II almacenamiento de datos

    9/125

    9

    Introduccin a los Almacenes de Datos

    Almacenes de datos

    Base de Datos diseada con un objetivo deexplotacin distinto que el de las bases de

    datos de los sistemas operacionales.

    Sistema Operacional

    (OLTP)

    Sistema de Almacnde Datos

    (DW)

    BD orientada alproceso

    BD orientada alanlisis

  • 7/25/2019 DW-II almacenamiento de datos

    10/125

    10

    Introduccin a los Almacenes de Datos

    Almacenes de Datos

    coleccin de datos diseada

    para dar apoyo a los procesosde toma de decisiones

    orientada haciala informacin*

    relevante de laorganizacin

    integrada variable en eltiempo no voltil

    caractersticas

    * subject oriented, not process oriented

    definicin

  • 7/25/2019 DW-II almacenamiento de datos

    11/125

    11

    Introduccin a los Almacenes de Datos

    AD: Orientado hacia la

    informacin relevante

    de la organizacin

    se disea para consultar eficientemente

    informacin relativa a las actividades

    (ventas, compras, produccin, ...) bsicas

    de la organizacin, no para soportar los

    procesos que se realizan en ella (gestin

    de pedidos, facturacin, etc).

    InformacinNecesaria

    PRODUCTO

    ...

    GAMA...

    VENTA

    ...

    PAS...

    Base de DatosTransaccional

    CURSO

    ...

    REUNION

    ...PROTOTIPO

    ...

  • 7/25/2019 DW-II almacenamiento de datos

    12/125

    12

    Introduccin a los Almacenes de Datos

    Base de Datos

    Transaccional 1

    Fuente deDatos 1

    FuentesExternas

    Fuentes

    Internas

    Fuente deDatos 2

    Fuente deDatos 3

    HTML

    Almacnde Datos

    texto

    Base de Datos

    Transaccional 2

    AD: Integradointegra datos recogidos de

    diferentes sistemas operacionales

    de la organizacin (y/o fuentes

    externas).

  • 7/25/2019 DW-II almacenamiento de datos

    13/125

    13

    Introduccin a los Almacenes de Datos

    Los datos son almacenados como fotos (snapshots)correspondientes a periodos de tiempo.

    DatosTiempo

    01/2003

    02/2003

    03/2003

    Datos de Enero

    Datos de Febrero

    Datos de Marzo

    AD: Variable

    en el tiempo

    los datos son relativos a un periodo detiempo y deben ser incrementados

    peridicamente.

  • 7/25/2019 DW-II almacenamiento de datos

    14/125

    14

    Introduccin a los Almacenes de Datos

    READ

    Carga

    INSERT READ

    UPDATE

    DELETE

    Bases de datos operacionales Almacn de Datos

    AD: No voltillos datos almacenados no sonactualizados, slo son incrementados.

    El periodo de tiempo cubierto por un AD vara

    entre 2 y 10 aos.

  • 7/25/2019 DW-II almacenamiento de datos

    15/125

    15

    Introduccin a los Almacenes de Datos

    Almacenes de Datosventajas para las

    organizaciones

    rentabilidad de las

    inversiones

    realizadas para sucreacin

    aumento de la

    competitividad

    en el mercado

    aumento de la

    productividad de

    los tcnicos dedireccin

  • 7/25/2019 DW-II almacenamiento de datos

    16/125

    16

    Introduccin a los Almacenes de Datos

    Almacenes de Datos

    problemas

    infravaloracin de losrecursos necesarios

    para la captura, carga

    y almacenamiento de

    los datos

    incremento

    continuo de losrequisitos de los

    usuarios

    privacidad delos datos

    infravaloracin delesfuerzo necesario para

    su diseo y creacin

  • 7/25/2019 DW-II almacenamiento de datos

    17/125

    17

    Introduccin a los Almacenes de Datos

    Sistema Operacional (OLTP) Almacn de datos (DW)

    - almacena datos actuales - almacena datos histricos

    - almacena datos de detalle - almacena datos de detalle

    y datos agregados a distintos niveles

    -bases de datos medianas - bases de datos grandes

    (100Mb-1Gb) (100Gb-1Tb)

    - los datos son dinmicos (actualizables) - los datos son estticos

    - los procesos (transacciones) son repetitivos - los procesos no son previsibles

    - el nmero de transacciones es elevado - el nmero de transacciones es

    bajo o medio

    - tiempo de respuesta pequeo (segundos) - tiempo de respuesta variable

    (segundos-horas)

    - dedicado al procesamiento de transacciones - dedicado al anlisis de datos

    - orientado a los procesos de la organizacin - orientado a la informacin relevante

    - soporta decisiones diarias - soporta decisiones estratgicas

    - sirve a muchos usuarios (administrativos) - sirve a tcnicos de direccin

  • 7/25/2019 DW-II almacenamiento de datos

    18/125

    18

    Arquitectura de un Almacn de Datos

    La Arquitectura de un AD viene determinada por susituacin central como fuente de informacin para

    las herramientas de anlisis.

    Base de Datos

    Transaccional

    Fuentes

    Internas

    Fuentes

    Externas

    Fuente deDatos

    Fuente deDatos 3

    HTML

    Fuente deDatos 1

    texto

    Almacn

    de Datos

    ETL Interfaz yOperadores

    Herramientasde consultas e

    informes

    HerramientasEIS

    HerramientasOLAP

    Herramientas deMinera de Datos

    Copias deSeguridad

  • 7/25/2019 DW-II almacenamiento de datos

    19/125

    19

    Arquitectura de un Almacn de Datos

    Componentes:

    Sistema ETL (Extraction, Transformation, Load): realiza las

    funciones de extraccinde las fuentes de datos

    (transaccionales o externas), transformacin(limpieza,

    consolidacin, ...) y la cargadel AD, realizando: extraccin de los datos. filtrado de los datos: limpieza, consolidacin, etc. carga inicial del almacn: ordenacin, agregaciones, etc. refresco del almacn: operacin peridica que propaga los

    cambios de las fuentes externas al almacn de datos

    Repositorio Propio de Datos: informacin relevante, metadatos.

    Interfaces y Gestores de Consulta: permiten acceder a los

    datos ys sobre ellos se conectan herramientas ms

    sofisticadas (OLAP, EIS, minera de datos).

    Sistemas de Integridad y Seguridad: se encargan de un

    mantenimiento global, copias de seguridad, ...

  • 7/25/2019 DW-II almacenamiento de datos

    20/125

    20

    Arquitectura de un Almacn de Datos

    Organizacin (Externa) de Los Datos!

    Las herramientas de explotacin de los

    almacenes de datos han adoptado un

    modelo multidimensional de datos.

    Se ofrece al usuario una visin multidimensional

    de los datos que son objeto de anlisis.

  • 7/25/2019 DW-II almacenamiento de datos

    21/125

    21

    Arquitectura de un Almacn de Datos

    EJEMPLO

    Organizacin:Cadena de supermercados.

    Actividad objeto de anlisis:ventas de productos.

    Informacin registrada sobre una venta:del productoTauritn33cl se han vendido en el almacnAlmacn nro.1 el da17/7/2003, 5unidadespor un importede 103,19 euros.

    Para hacer el anlisis no interesa la venta individual (ticket)realizada a un cliente sino las ventas diarias de productos en

    los distintos almacenes de la cadena.

  • 7/25/2019 DW-II almacenamiento de datos

    22/125

    22

    Arquitectura de un Almacn de Datos

    importe

    unidades

    Almacn

    Almacn

    Ciudad

    Regin

    Tipo

    Pro

    ducto

    Departamento

    Nro_producto

    Categora

    Marca

    Tipo

    Descripcin

    Tiempo

    Da

    Mes

    Semana

    Ao

    Trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    23/125

    23

    Arquitectura de un Almacn de Datos

    importe

    unidades

    Departamento

    Nro_producto

    Categora

    Marca

    Tipo

    Da

    Mes

    Semana

    Almacn

    Ciudad

    Regin

    Tipo

    Ao

    Descripcin

    Actividad que es objeto deanlisis con los indicadores

    que interesa analizar

    Dimensiones (puntos devista) desde los que se

    puede analizar la actividad.

    Pro

    ducto

    Tiempo

    Almacn

    Trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    24/125

    24

    Arquitectura de un Almacn de Datos

    Modelo multidimensional:

    !

    en un esquema multidimensional se representa una actividad

    que es objeto de anlisis (hecho)y las dimensiones que

    caracterizan la actividad (dimensiones).

    !la informacin relevante sobre el hecho(actividad) se

    representa por un conjunto de indicadores (medidas o atributos de

    hecho).

    !

    la informacin descriptiva de cada dimensinse representa porun conjunto de atributos (atributos de dimensin).

  • 7/25/2019 DW-II almacenamiento de datos

    25/125

    25

    Arquitectura de un Almacn de Datos

    importe

    unidades

    Almacn

    Almacn

    Ciudad

    Regin

    Tipo

    Pr

    oducto

    Departamento

    Nro_producto

    Categora

    Marca

    Tipo

    Descripcin

    hecho

    medidasdimensin

    atributos

    Tiempo

    Da

    Mes

    Semana

    Ao

    Trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    26/125

    26

    Arquitectura de un Almacn de Datos

    Entre los atributos de una dimensin se definenjerarquas

    departamento

    almacn

    ciudad regin

    tipo

    da mes ao

    Producto

    Almacn

    Tiempo

    nro. producto categora

    trimestre

    semana

  • 7/25/2019 DW-II almacenamiento de datos

    27/125

    27

    Arquitectura de un Almacn de Datos

    Este esquema multidimensional recibe varios nombres:

    estrella: si la jerarqua de dimensiones es lineal

    estrella jerrquica o copo de nieve: si la jerarqua no es lineal.

    PERSONAL

    VENTAS

    tiempo

    tiempo

    producto

    lugar

    proyecto

    equipo

  • 7/25/2019 DW-II almacenamiento de datos

    28/125

    28

    Arquitectura de un Almacn de Datos

    Zumo Pia 1l.Cola 33cl.

    Leche Entera Cabra 1lTauritn 33cl

    Cerveza Kiel 20 cl

    Jabn Salitre

    1 23 4 1 2

    TIEMPO:trimestre

    MadridBarcelona

    ValenciaZaragozaAlicante

    Murcia

    175793

    512

    Ventas enmiles de

    EurosJerarqua de dimensiones:

    Categora

    |

    Gama Prov.

    \ /

    Artculo

    Pas

    |

    Ciudad

    |

    Supermercado

    Ao

    / \

    Trimestre \

    / \

    Mes Semana

    \ /

    Da

    |

    Hora

    PRODUCTO:artculo

    LUGAR:ciudad

    PRODUCTO LUGAR TIEMPO

    2004 2005

    22

    Se pueden obtener hechos a diferentes niveles deagregacin:

    obtencin de medidassobre los hechosparametrizadas por

    atributos de las dimensionesy restringidas por condiciones

    impuestas sobre las dimensiones

    Un nivel de agregacin para un conjunto de

    dimensiones se denomina cubo.

    HECHO: El primer

    trimestrede 2004 la

    empresa vendi enValenciapor un importe

    de 22.000 euros del

    productotauritn 33 cl.

  • 7/25/2019 DW-II almacenamiento de datos

    29/125

    29

    Arquitectura de un Almacn de Datos

    Se puede recopilar toda la informacin necesaria enun nico esquema estrella o copo de nieve?

    NO : necesidad de varios esquemas.

    Cada uno de estos esquemas se denomina datamart.

    VENTAS

    PERSONAL

    PRODUCCIN

    CAMPAA

    tiempo

    tiempo

    tiempo

    producto

    producto

    lugar

    proyectoequipo

    productoproveedor

    lugar

    lugar

    tiempo

    Almacnformado por

    4 datamarts.

  • 7/25/2019 DW-II almacenamiento de datos

    30/125

    30

    Arquitectura de un Almacn de Datos

    El almacn de datos puede estar formado por variosdatamarts y, opcionalmente, por tablas adicionales.

    Data mart

    !

    se definen para satisfacer las necesidades

    de un departamento o seccin de laorganizacin.

    !

    contiene menos informacin de detalle y

    ms informacin agregada.

    subconjunto de un almacn de

    datos, generalmente en forma deestrella o copo de nieve.

  • 7/25/2019 DW-II almacenamiento de datos

    31/125

    31

    Herramientas OLAP

    !Las herramientas de OLAP presentan al usuario unavisin multidimensional de los datos (esquema

    multidimensional) para cada actividad que es objeto

    de anlisis.

    !El usuario formula consultas a la herramienta OLAP

    seleccionando atributos de este esquema

    multidimensional sin conocer la estructura interna

    (esquema fsico) del almacn de datos.!

    La herramienta OLAP genera la correspondiente

    consulta y la enva al gestor de consultas delsistema (p.ej. mediante una sentencia SELECT).

  • 7/25/2019 DW-II almacenamiento de datos

    32/125

    32

    Herramientas OLAP

    una consulta a un almacn de datos consiste generalmente

    en la obtencin de medidassobre los hechosparametrizadas

    por atributos de las dimensionesy restringidas por

    condicionesimpuestas sobre las dimensiones

    Importetotal de las ventasdurante este aode los productosdel departamento Bebidas, por trimestrey por categora ?.

    Restricciones: productos del departamento Bebidas, ventas durante este ao

    medida hecho

    Parmetros de la consulta:por categora de producto y por trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    33/125

    33

    Herramientas OLAP

    2002

    Bebidas

    Producto

    Tiempo

    Almacn

    importe

    unidades

    Departamento

    Nro_producto

    Categora

    Marca

    Tipo

    Da

    Mes

    Da de lasemana

    Almacn

    Ciudad

    Regin

    Tipo

    Ao

    Importe total de ventas en

    este ao, del departamento

    de Bebidas, por categora y

    trimestre

    Trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    34/125

    34

    Herramientas OLAP

    trimestre categora importe

  • 7/25/2019 DW-II almacenamiento de datos

    35/125

    35

    Herramientas OLAP

    Presentacin tabular

    (relacional) de los

    datos seleccionados

    Categora Trimestre Ventas

    T4

    T2

    T3

    T1

    T3

    2000000

    3000000

    1500000

    2400000

    8000000

    T1 1000000

    T4

    T2 1000000

    Refrescos

    Refrescos

    Refrescos

    Refrescos

    Zumos

    Zumos

    Zumos

    Zumos

    2000000

    Se asumen dos categoras en

    el departamento de Bebidas:

    Refrescos y Zumos.

  • 7/25/2019 DW-II almacenamiento de datos

    36/125

    36

    Herramientas OLAP

    T4T3T2T1

    Zumos

    Refrescos

    categora

    trimestre Presentacin matricial

    (multidimensional) de los

    datos seleccionados

    Los parmetros de la consulta (por trimestre y por categora)determinan los criterios de agrupacin de los datos seleccionados

    (ventas de productos del departamento Bebidasdurante este ao).

    La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo).

    2000000 1000000 3000000 2000000

    1000000 1500000 8000000 2400000

  • 7/25/2019 DW-II almacenamiento de datos

    37/125

    37

    Herramientas OLAP

    Lo interesante no es poder realizar consultas que, encierto modo, se pueden hacer con selecciones,

    proyecciones, concatenaciones y agrupamientos

    tradicionales.

    Lo realmente interesante de las herramientas OLAP

    son sus operadores de refinamiento o manipulacinde consultas.

    DRILL

    ROLL

    SLICE & DICE

    PIVOT

  • 7/25/2019 DW-II almacenamiento de datos

    38/125

    38

    Herramientas OLAP

    El carcter agregado de las consultas en el Anlisisde Datos, aconseja la definicin de nuevos

    operadores que faciliten la agregacin (consolidacin)

    y la disgregacin (divisin) de los datos:

    !

    agregacin (roll): permite eliminar un criterio deagrupacin en el anlisis, agregando los grupos

    actuales.

    ! disgregacin (drill): permite introducir un nuevo

    criterio de agrupacin en el anlisis, disgregandolos grupos actuales.

  • 7/25/2019 DW-II almacenamiento de datos

    39/125

    39

    Herramientas OLAP

    Si se desea introducir la dimensinAlmacnen el anlisis

    anterior e incluir un nuevo criterio de agrupacin sobre la

    ciudad del almacn:

    Importe total de las ventas durante este aode losproductos del departamento Bebidas, por trimestre, porcategorasyporciudad del almacn ?.

    Restricciones: productos del departamento Bebidas, ventas durante este ao

    Parmetros de la consulta:por categora de producto, por trimestre y porciudad del almacn.

  • 7/25/2019 DW-II almacenamiento de datos

    40/125

    40

    Herramientas OLAP

    2002

    Bebidas

    Producto

    Tiempo

    Almacn

    importe

    unidades

    Departamento

    Nro_producto

    Categora

    Marca

    TipoDa

    Mes

    Da de lasemana

    Almacn

    Ciudad

    Regin

    Tipo

    Ao

    Importe total de ventas en

    este ao, del departamento

    de Bebidas, por categora,

    trimestre y ciudad

    Trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    41/125

    41

    Herramientas OLAP

    trimestre categoraimporte

    la operacin de DRILL

    se realiza sobre elinforme original !

  • 7/25/2019 DW-II almacenamiento de datos

    42/125

    42

    Herramientas OLAP

    Categora Trimestre VentasCiudad

    T2

    T1

    400000

    T2 700000

    Refrescos T1

    Valencia

    drill-acr o

    ss

    Categora Trimestre Ventas

    T4

    T2

    T3

    T1

    T3

    2000000

    3000000

    1500000

    2400000

    8000000

    T1 1000000

    T4

    T2 1000000

    Refrescos

    Refrescos

    Refrescos

    Refrescos

    Zumos

    Zumos

    Zumos

    Zumos

    2000000

    Len

    Refrescos

    Refrescos

    Refrescos

    Valencia

    Len

    1000000

    1000000

    * Se asumen dos ciudades: Valencia y Len.

    Cada grupo (categora-trimestre) de la

    consulta original se disgrega en dos

    nuevos grupos (categora-trimestre-ciudad) para las ciudades de Len y

    Valencia.

  • 7/25/2019 DW-II almacenamiento de datos

    43/125

    43

    Herramientas OLAP

    T1 T2 T3 T4

    Valencia

    Zumos

    Re

    fres

    cos

    1000000

    300000

    400000

    500000

    100000

    200000

    500000

    2000000

    Presentacin matricial de

    los datos seleccionados.

  • 7/25/2019 DW-II almacenamiento de datos

    44/125

    44

    Herramientas OLAP

    Si se desea eliminar el criterio de agrupacin sobre la

    dimensin Tiempoen la consulta original:

    Importe total de las ventas durante este aode losproductos del departamento Bebidas, por categoras ?

  • 7/25/2019 DW-II almacenamiento de datos

    45/125

    45

    Herramientas OLAP

    2002

    Bebidas

    Producto

    Tiempo

    Almacn

    importe

    unidades

    Departamento

    Nro_producto

    Categora

    Marca

    TipoDa

    Mes

    Da de lasemana

    Almacn

    Ciudad

    Regin

    Tipo

    Ao

    Importe total de ventas en

    este ao, del departamento

    de Bebidas, por categoras

    Trimestre

  • 7/25/2019 DW-II almacenamiento de datos

    46/125

    46

    Herramientas OLAP

    trimestre categora importe

    la operacin de ROLLse realiza sobre el

    informe original !

  • 7/25/2019 DW-II almacenamiento de datos

    47/125

    47

    Herramientas OLAP

    Categora Ventas

    Refrescos 8000000

    Zumos 12900000

    r o

    l l- a

    cross

    Categora Trimestre Ventas

    T4

    T2

    T3

    T1

    T3

    2000000

    3000000

    1500000

    2400000

    8000000

    T11000000

    T4

    T2 1000000

    Refrescos

    Refrescos

    Refrescos

    Refrescos

    Zumos

    Zumos

    Zumos

    Zumos

    2000000

  • 7/25/2019 DW-II almacenamiento de datos

    48/125

    48

    Herramientas OLAP

    Las operaciones de agregacin (DRILL) y disgregacin (ROLL)

    se pueden hacer sobre:

    !

    atributos de una dimensin sobre los que se ha definido

    una jerarqua: DRILL-DOWN, ROLL-UP

    departamento categora - producto (Producto)

    ao - trimestre mes - da (Tiempo)

    !

    sobre dimensiones independientes: DRILL-ACROSS,

    ROLL-ACROSS

    Producto Almacn -Tiempo

  • 7/25/2019 DW-II almacenamiento de datos

    49/125

    49

    Herramientas OLAP

    trimestre categora importe

    la operacin de DRILL

    se realiza sobre el

    informe original !

  • 7/25/2019 DW-II almacenamiento de datos

    50/125

    50

    Herramientas OLAP

    Categora Trimestre VentasMes

    T1

    T1

    500000

    Refrescos T1

    Enero

    dr il l- d

    ow

    n

    Categora Trimestre Ventas

    T4

    T2

    T3

    T1

    T3

    2000000

    3000000

    1500000

    2400000

    8000000

    T1 1000000

    T4

    T2 1000000

    Refrescos

    Refrescos

    Refrescos

    Refrescos

    Zumos

    Zumos

    Zumos

    Zumos

    2000000

    Febrero

    Refrescos

    Refrescos Marzo

    1000000

    500000

    Cada grupo (categora-trimestre) de la

    consulta original se disgrega en dos

    nuevos grupos (categora-trimestre-mes).

  • 7/25/2019 DW-II almacenamiento de datos

    51/125

    51

    Herramientas OLAP

    Otras operaciones de OLAP:

    !SLICE & DICE: seleccionar y proyectar

    datos en el informe.

    !PIVOT: reorientacin de las dimensiones

    en el informe.

  • 7/25/2019 DW-II almacenamiento de datos

    52/125

    52

    Herramientas OLAP

    Ventas

    ElectronicsToys

    ClothingCosmetics

    Q1

    $5,2$1,9

    $2,3$1,1

    ElectronicsToys

    ClothingCosmetics

    Q

    2

    $8,9$0,75

    $4,6$1,5

    Productos Store1 Store2

    $5,6$1,4

    $2,6$1,1

    $7,2$0,4

    $4,6$0,5

    Ventas

    ElectronicsToys

    ClothingCosmetics

    Store1 $5,2

    $1,9

    $2,3$1,1

    ElectronicsToys

    ClothingCosmetics

    Store2

    $5,6$1,4

    $2,6$1,1

    Productos Q1 Q2

    $8,9$0,75

    $4,6$1,5

    $7,2$0,4

    $4,6$0,5

    PIVOT

  • 7/25/2019 DW-II almacenamiento de datos

    53/125

    53

    Herramientas OLAP

    Ventas

    ElectronicsToys

    ClothingCosmetics

    Q1

    $5,2$1,9

    $2,3$1,1

    ElectronicsToys

    ClothingCosmetics

    Q

    2

    $8,9$0,75

    $4,6$1,5

    Productos Store1 Store2

    $5,6$1,4

    $2,6$1,1

    $7,2$0,4

    $4,6$0,5

    Ventas

    ElectronicsToysQ

    1 $5,2$1,9

    Productos Store1

    Electronics

    ToysQ2 $8,9

    $0,75

    SLICE& DICE

  • 7/25/2019 DW-II almacenamiento de datos

    54/125

    54

    Herramientas OLAP

    Las herramientas de OLAP se caracterizan* por:

    ! ofrecer una visin multidimensional de los datos (matricial).

    ! no imponer restricciones sobre el nmero de dimensiones.

    ! ofrecer simetra para las dimensiones.

    ! permitir definir de forma flexible (sin limitaciones) sobre las

    dimensiones: restricciones, agregaciones y jerarquas entre

    ellas.

    ! ofrecer operadores intuitivos de manipulacin: drill-down, roll-

    up, slice-and-dice, pivot.

    ! ser transparentes al tipo de tecnologa que soporta el almacn

    de datos (ROLAP o MOLAP).

    *Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.

  • 7/25/2019 DW-II almacenamiento de datos

    55/125

    55

    ROLAP y MOLAP

    El Almacn de Datos y las herramientas OLAP sepueden basar fsicamenteen varias organizaciones:

    Sistemas MOLAP

    !

    disponen de estructuras de almacenamiento especficas(arrays) y tcnicas de compactacin de datos quefavorecen el rendimiento del almacn.

    Sistemas ROLAP

    !

    se implementan sobre tecnologa relacional, pero

    disponen de algunas facilidades para mejorar elrendimiento (ndices de mapas de bits, ndices de JOIN).

    Sistemas HOLAP

    !sistemas hbridos entre ambos.

  • 7/25/2019 DW-II almacenamiento de datos

    56/125

    56

    ROLAP y MOLAP

    Sistemas ROLAP:

    ! El almacn de datos se construye sobre un

    SGBD Relacional.

    ! Los fabricantes de SGBD relacionales

    ofrecen extensiones y herramientas para

    poder utilizar el SGBDR como un Sistema

    Gestor de Almacenes de Datos.

  • 7/25/2019 DW-II almacenamiento de datos

    57/125

    57

    ROLAP y MOLAP

    Sistemas ROLAP:

    Extensiones de los SGBD relacionales:

    !

    ndices de mapa de bits

    !ndices de JOIN

    !tcnicas de particionamiento de los datos

    !

    optimizadores de consultas

    !

    extensiones del SQL (operador CUBE, roll-up)

  • 7/25/2019 DW-II almacenamiento de datos

    58/125

    58

    ROLAP y MOLAP

    Sistemas MOLAP.

    Sistema de propsito especfico:

    !

    estructuras de datos (arrays)

    ! tcnicas de compactacin.

    El objetivo de los sistemas MOLAP es almacenar fsicamentelos datos en estructuras multidimensionales de forma que la

    representacin externa y la representacin interna coincidan.

  • 7/25/2019 DW-II almacenamiento de datos

    59/125

    59

    ROLAP y MOLAP

    Warehouse

    ServidorMOLAP

    El servidor MOLAP

    construye y almacena datos

    en estructuras

    multidimensionales.

    La herramienta de OLAP

    presenta estas estructuras

    multidimensionales.

    Herramienta

    OLAP

    Estructurasmultidimensionales

  • 7/25/2019 DW-II almacenamiento de datos

    60/125

    60

    ROLAP y MOLAP

    MOLAP:

    Datos

    Arrays

    Extrados del almacn de datos

    almacenamiento y procesos

    eficientes

    la complejidad de la BD se

    oculta a los usuarios

    el anlisis se hace sobre datos

    agregados y mtricas o

    indicadores precalculados.

    Warehouse

    ServidorMOLAP

    Herramienta

    OLAP

    Estructuras

    multidimensionales

  • 7/25/2019 DW-II almacenamiento de datos

    61/125

    61

    ROLAP y MOLAP

    HerramientaOLAP

    HerramientaOLAP

    ServidorRelacional

    Desktop

    ServidorMultidimensional

    Warehouse

    MOLAPROLAP

    C l i

    en te

    S e

    rvid

    or

  • 7/25/2019 DW-II almacenamiento de datos

    62/125

    62

    ROLAP y MOLAP

    ROLAP/MOLAP: Ventajas e Inconvenientes:

    ROLAP

    !

    pueden aprovechar la tecnologa relacional.

    !pueden utilizarse sistemas relacionales genricos (msbaratos o incluso gratuitos).

    !

    el diseo lgico corresponde al fsico si se utiliza el

    diseo de Kimball.

    MOLAP:! generalmente ms eficientes que los ROLAP.

    !

    el coste de los cambios en la visin de los datos.

    ! la construccin de las estructuras multidimensionales.

  • 7/25/2019 DW-II almacenamiento de datos

    63/125

    Algunas Herramientas OLAP

    63

  • 7/25/2019 DW-II almacenamiento de datos

    64/125

    64

    Carga y Mantenimiento de un A.D.

    El sistema encargado del mantenimiento del almacn de datos eselSistema E.T.T*(Extraccin - Transformacin -Transporte)

    La construccin del Sistema E.T.T es responsabilidad del equipo

    de desarrollo del almacn de datos.

    El Sistema E.T.T es construido especficamente para cada

    almacn de datos. Aproximadamente 50% del esfuerzo.

    En la construccin del E.T.T se pueden utilizar herramientas delmercado o programas diseados especficamente.

    Funciones del Sistema E.T.T:

    Carga inicial. (initial load)

    Mantenimiento o refrescoperidico: inmediato, diario, semanal,mensual,... (refreshment)

    * Conocido tambin por E.T.L: Extraccin Transformacin Load (carga)

  • 7/25/2019 DW-II almacenamiento de datos

    65/125

    65

    Carga y Mantenimiento de un A.D.

    Correspondencia

    Bases de datosoperacionales

    Almacenamientointermedio

    Almacn dedatos

    Transformacin

    Extraccin Transporte

    El Almacenamiento intermedio permite:

    Realizar transformaciones sin paralizar las bases dedatos operacionales y el almacn de datos.

    Almacenar metadatos.

    Facilitar la integracin de fuentes externas.

    FuentesExternas

    E.T.T.

  • 7/25/2019 DW-II almacenamiento de datos

    66/125

    66

    Carga y Mantenimiento de un A.D.

    E.T.T. Correspondencia

    Transformacin

    Extraccin Transporte

    !Identificacin de losdatos que han cambiado

    !Extraccin (lectura) de

    datos.

    !Obtencin de agregados

    !Mantenimiento de

    metadata

    !Limpieza y transformacinde datos

    !

    Integracin de datos

    (clculo de datos derivados)

    !Creacin de claves

    !Obtencin de agregados

    !Mantenimiento de

    metadata

    !Carga

    ! Indizacin

    !Obtencin de datos

    agregados.

    ! Realizacin de pruebas

    de calidad de la carga.

    !Gestin de errores.

    !Mantenimiento de

    metadata

  • 7/25/2019 DW-II almacenamiento de datos

    67/125

    67

    Carga y Mantenimiento de un A.D.

    Definir una estrategia de calidad:

    actuacin sobre los sistemas operacionales: modificarlas reglas de integridad, los disparadores y las

    aplicaciones de los sistemas operacionales.

    documentacin de las fuentes de datos.

    definicin de un proceso de transformacin.

    nombramiento de un responsable de calidad del sistema(Data Quality Manager).

    La calidad de los datos es la clave del

    xito de un almacn de datos.

  • 7/25/2019 DW-II almacenamiento de datos

    68/125

    68

    Carga y Mantenimiento de un A.D.

    Extraccin.

    Programas diseados para extraer los datos de las fuentes.

    Herramientas: data migration tools, wrappers, ...

    Correspondencia

    Bases de datosoperacionales

    Almacenamientointermedio

    Almacn dedatos

    Extraccin

  • 7/25/2019 DW-II almacenamiento de datos

    69/125

    69

    Carga y Mantenimiento de un A.D.

    Ejecucin de la extraccin:

    a) si los datos operacionales estn mantenidos en un SGBDR, la

    extraccinde datos se puede reducir a consultas en SQLo

    rutinas programadas.

    b) si los datos operacionales estn en un sistema propietario(no se conoce el formato de los datos) oen fuentes externas

    textuales, hipertextuales u hojas de clculo, la extraccin puede

    ser muy difcily puede tener que realizarse a partir de informes

    o volcados de datos proporcionados por los propietarios que

    debern ser procesados posteriormente.

    Extraccin:lectura de datos del sistema operacional.

    a) durante la carga inicial .

    b) mantenimiento del AD

  • 7/25/2019 DW-II almacenamiento de datos

    70/125

    70

    Carga y Mantenimiento de un A.D.

    Identificacin de Cambios.

    Identificar los datos operacionales (relevantes) que han sufrido

    una modificacin desde la fecha del ltimo mantenimiento.

    Mtodos

    Carga total: cada vez se empieza de cero.

    Comparacin de instancias de la base de datos operacional.

    Uso de marcas de tiempo (time stamping) en los registros delsistema operacional.

    Uso de disparadores en el sistema operacional.

    Uso del fichero de log(gestin de transacciones) del sistema

    operacional.

    Uso de tcnicas mixtas.

    Extraccin:en el mantenimiento/refresco del AD. Antes derealizar la extraccin es preciso Identificar los Cambios.

  • 7/25/2019 DW-II almacenamiento de datos

    71/125

    71

    Carga y Mantenimiento de un A.D.

    Transformacin.

    -

    Transformar los datos extrados de las fuentes operacionales:

    limpieza, estandarizacin. (cleansing)

    -

    Calcular los datos derivados: aplicar las leyes de derivacin.

    (integration)

    Correspondencia

    Bases de datos

    operacionales

    Almacenamiento

    intermedio

    Almacn de

    datos

    Transformacin

  • 7/25/2019 DW-II almacenamiento de datos

    72/125

    72

    Carga y Mantenimiento de un A.D.

    Transformacin.

    En los datos operacionales existen anomalas: desarrollos

    independientes a lo largo del tiempo, fuentes heterogneas, ..

    Eliminar anomalas:

    Limpieza de datos: eliminar datos, corregir y completar datos,

    eliminar duplicados, ...

    Estandarizacin: codificacin, formatos, unidades de medida, ...

    12M65431

    12-m-65421

    12m65421

    12m65421

    12M65431

    12M65431

    12-m-65421

    12m65421

    12m65421

    12M65431

    12

    12

    12

    M

    m

    m

    65431

    65421

    65421

    12

    12

    M

    M

    65431

    65421

  • 7/25/2019 DW-II almacenamiento de datos

    73/125

    73

    Carga y Mantenimiento de un A.D.

    Transformacin.

    Claves con estructura:descomponer en valores atmicos

    cdigodel pas

    zona deventas

    nmero deproducto

    cdigo devendedor

    Cdigo de producto = 12M65431345

  • 7/25/2019 DW-II almacenamiento de datos

    74/125

    74

    Carga y Mantenimiento de un A.D.

    Transformacin.

    Unificar codificaciones: existencia de codificaciones mltiples.

    Deben detectarse los valores errneos.

    v , h

    1 , 0

    varn, hembra

    v, h

  • 7/25/2019 DW-II almacenamiento de datos

    75/125

    75

    Carga y Mantenimiento de un A.D.

    Transformacin.

    Unificar estndares:unidades de medida, unidades de

    tiempo,moneda,...

    cm

    inches

    cm

    DD/MM/YY

    MM/DD/YYDD-Mon-YY

    1,000 GBP

    FF 9,990

    USD 600

  • 7/25/2019 DW-II almacenamiento de datos

    76/125

    76

    Carga y Mantenimiento de un A.D.

    Transformacin.

    Valores duplicados: deben ser eliminados.

    SQL

    restricciones en el SGBDR

    ACME Inc

    ACME Inc

    ACME Inc ACME Inc

  • 7/25/2019 DW-II almacenamiento de datos

    77/125

    77

    Carga y Mantenimiento de un A.D.

    Transformacin.

    Integridad referencial: debe reconstruirse.

    Departamento1020

    3040

    Emp Nombre Departamento1099 Smith 101289 Jones 20

    1234 Doe 506786 Harris 60

  • 7/25/2019 DW-II almacenamiento de datos

    78/125

    78

    Carga y Mantenimiento de un A.D.

    Transformacin.Creacin de claves.

    #1 Venta 1/2/98 12:00:01 Ham Pizza $10.00

    #2 Venta 1/2/98 12:00:02 Cheese Pizza $15.00

    #3 Venta 1/2/98 12:00:02 Anchovy Pizza $12.00

    #5 Venta 1/2/98 12:00:04 Sausage Pizza $11.00

    #4 Devolucin 1/2/98 12:00:03 Anchovy Pizza - $12.00

    #dw1 Venta 1/2/98 12:00:01 Ham Pizza $10.00

    #dw2 Venta 1/2/98 12:00:02 Cheese Pizza $15.00

    #dw3 Venta 1/2/98 12:00:04 Sausage Pizza $11.00

    Claves sin significado

  • 7/25/2019 DW-II almacenamiento de datos

    79/125

    79

    Carga y Mantenimiento de un A.D.

    Transporte. (carga)

    La fase de Transporteconsiste en mover los datos desde las

    fuentes operacionales o el almacenamiento intermedio hasta el

    almacn de datos y cargar los datos en las correspondientesestructuras de datos.

    La carga puede consumir mucho tiempo.

    En la carga inicial del AD se mueven grandes volmenes de

    datos.

    En los mantenimientos peridicos del AD se mueven pequeosvolmenes de datos.

    La frecuencia del mantenimiento peridico est determinada

    por el grnulo del AD y los requisitos de los usuarios.

  • 7/25/2019 DW-II almacenamiento de datos

    80/125

    80

    Carga y Mantenimiento de un A.D.

    Transporte.Creacin y mantenimiento de un AD.

    Crear el AD (base de datos)

    En intervalos de tiempo fijos aadir cambios al AD. Sedeben determinar las ventanas de carga ms convenientes

    para no saturar la base de datos operacional.

    Ocasionalmente archivar o eliminar datos obsoletos que ya

    no interesan para el anlisis.

    T1 T2 T3

    Base de datosoperacional

  • 7/25/2019 DW-II almacenamiento de datos

    81/125

    81

    Carga y Mantenimiento de un A.D.

    Procesos posteriores a la carga: indizacin.

    Durante la carga:

    "

    carga con el ndice habilitado

    " proceso tupla a tupla. (lento)

    Despus de la carga:"

    carga con el ndice deshabilitado

    " creacin del ndice (total o parcial). (rpido)

    Index

    Almacn

    de datos

    Base de datos

    operacional

  • 7/25/2019 DW-II almacenamiento de datos

    82/125

    82

    Carga y Mantenimiento de un A.D.

    Procesos posteriores a la carga: obtencin de agregados.

    Durante la extraccin.

    Despus de la carga (transporte).

    Base de datosoperacional

    Almacenamientointermedio

    Almacn dedatos

    TransporteExtraccin

  • 7/25/2019 DW-II almacenamiento de datos

    83/125

    Herramientas ETL?

    83

  • 7/25/2019 DW-II almacenamiento de datos

    84/125

    84

    Diseo de un Almacn de Datos

    Diseo fsico

    Diseo lgico especfico

    Implementacin

    Diseo conceptual

    Recogida y anlisis derequisitos

  • 7/25/2019 DW-II almacenamiento de datos

    85/125

    85

    Diseo de un Almacn de Datos

    Diseo fsico

    Diseo lgico

    Implementacin

    Diseo conceptual

    Recogida y anlisis derequisitos Anlisis

    Discernimiento de lasfuentes necesarias

    del sistema de

    informacin de la

    organizacin (OLTP)

    y externas

    Requisitos deusuario

    (consultas deanlisis

    necesarias,nivel de

    agregacin,!

    )

    p.ej. Entidad-Relacin

    DiseoConceptual

  • 7/25/2019 DW-II almacenamiento de datos

    86/125

    86

    Diseo de un Almacn de Datos

    Diseo fsico

    Diseo lgico

    Implementacin

    Diseo conceptual

    Recogida y anlisis derequisitos Diseo

    Lgico

    Modeladomultidimensional (MR)

    Esquemas

    estrella

  • 7/25/2019 DW-II almacenamiento de datos

    87/125

    87

    Diseo de un Almacn de Datos

    Diseo fsico

    Diseo lgico

    Implementacin

    Diseo conceptual

    Recogida y anlisis derequisitos

    Definicin del esquemaROLAP o MOLAP

    DiseoFsico

    Diseo del ETL

  • 7/25/2019 DW-II almacenamiento de datos

    88/125

    88

    Diseo de un Almacn de Datos

    Diseo fsico

    Diseo lgico

    Implementacin

    Diseo conceptual

    Recogida y anlisis derequisitos

    Implementacin

    Carga del AD (ETL)

    Preparacin de lasvistas de usuario

    (herramienta OLAP)

  • 7/25/2019 DW-II almacenamiento de datos

    89/125

    89

    Diseo de un Almacn de Datos

    Detallemos ms ahora el Diseo Lgico...

    La visin multidimensionalseguida por

    las herramientas de explotacin de

    almacenes de datos (OLAP) ha

    inspirado los modelos y metodologasde diseo de este tipo de sistemas.

    En la literatura se habla de Bases de Datos

    Multidimensionalesy de Diseo Multidimensional

    Diseo fsico

    Diseo lgico

    Implementacin

    Diseo conceptual

    Recogida y anlisis derequisitos

  • 7/25/2019 DW-II almacenamiento de datos

    90/125

    90

    Diseo de un Almacn de Datos

    Modelado multidimensional:

    !

    en un esquema multidimensional se representa una

    actividad que es objeto de anlisis (hecho)y las

    dimensiones que caracterizan la actividad

    (dimensiones).

    ! la informacin relevante sobre el hecho(actividad)

    se representa por un conjunto de indicadores

    (medidas o atributos de hecho).

    !

    la informacin descriptiva de cada dimensinse

    representa por un conjunto de atributos (atributosde dimensin).

  • 7/25/2019 DW-II almacenamiento de datos

    91/125

    91

    Diseo de un Almacn de Datos

    Modelado multidimensional:

    ! el modelado multidimensional se puede aplicar

    utilizando distintos modelos de datos(conceptuales o lgicos).

    ! la representacin grfica del esquema

    multidimensional depender del modelo de datos

    utilizado (relacional, ER, UML, OO, ...).

  • 7/25/2019 DW-II almacenamiento de datos

    92/125

    92

    Diseo de un Almacn de Datos

    El desarrollo de la tecnologa de almacenes dedatos se ha caracterizado por:

    - un temprano desarrollo industrial provocado por

    las demandas de los usuarios.

    - el uso de metodologas de diseocentradas

    principalmente en los niveles lgico e interno. (laatencin se ha centrado en mejorar la eficiencia en la ejecucin deconsultas)

    Metodologa de diseo basada en el modelo

    relacional: Modelo multidimensional de Kimball

    No es muy congruente usar modelos

    para diseo conceptual!.

  • 7/25/2019 DW-II almacenamiento de datos

    93/125

    93

    Diseo de un Almacn de Datos

    Pasos en el diseo del almacn de datos:

    Paso 1. Elegir un proceso de la organizacin para

    modelar.

    Paso 2. Decidir el grnulo (nivel de detalle) de

    representacin del proceso.

    Paso 3. Identificar las dimensiones que

    caracterizan el proceso.

    Paso 4. Decidir la informacin a almacenar sobre elproceso.

    i A

  • 7/25/2019 DW-II almacenamiento de datos

    94/125

    94

    Diseo de un Almacn de Datos

    Paso 1. Elegir un procesode la organizacin paramodelar.

    Proceso: actividad de la organizacin soportada por un

    OLTP del cual se puede extraer informacin con el

    propsito de construir el almacn de datos.

    Pedidos (de clientes)

    Compras (a suministradores)

    Facturacin

    EnvosVentas

    Inventario

    !

    Di d Al d D

  • 7/25/2019 DW-II almacenamiento de datos

    95/125

    95

    Diseo de un Almacn de Datos

    Ejemplo: Cadena de supermercados.

    Cadena de supermercados con 300 almacenes en la

    que se expenden unos 30.000 productos distintos.

    Actividad:Ventas.

    La actividad a modelar son las ventas de productos

    en los almacenes de la cadena.

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    96/125

    96

    Diseo de un Almacn de Datos

    Paso 2. Decidir el grnulo (nivel de detalle) derepresentacin.

    Grnulo: es el nivel de detalle al que se desea almacenar

    informacin sobre la actividad a modelar.

    !El grnulodefine el nivel atmico de datos en el almacnde datos.

    !El grnulodetermina el significado de las tuplas de la tabla

    de hechos.

    !El grnulodetermina las dimensiones bsicasdel esquema

    transaccin en el OLTP

    informacin diaria

    informacin semanal

    informacin mensual. ....

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    97/125

    97

    Diseo de un Almacn de Datos

    id_dim1

    id_dim2

    id_dim3

    ...

    id_dim n

    ....

    (hechos)

    tabla de

    hechostabla

    Dimensin 3

    tabla

    Dimensin 1

    tabla

    Dimensin 2 tabla

    Dimensin n

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    98/125

    98

    Diseo de un Almacn de Datos

    Ejemplo: Cadena de supermercados.

    Grnulo: se desea almacenar informacin sobre las ventas

    diariasde cadaproducto en cada almacnde la cadena.

    Grnulo:

    !

    define el significado de las tuplas de la tabla de hechos.!

    determina las dimensiones bsicas del esquema.

    producto

    da

    almacn

    ventas

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    99/125

    99

    Diseo de un Almacn de Datos

    Grnulo inferior:no se almacena informacin a nivel de

    lnea de ticketporque no se puede identificar siempre al

    cliente de la venta lo que permitira hacer anlisis del

    comportamiento (hbitos de compra) del cliente.

    Grnulo superior:no se almacena informacin a nivel

    semanalo mensualporque se perderan opciones de

    anlisis interesantes: ventas en das previos a vacaciones,

    ventas en fin de semana, ventas en fin de mes, ....

    En un almacn de datos se almacena informacin

    a un nivel de detalle (grnulo) fino no porque se

    vaya a interrogar el almacn a ese nivel sino

    porque ello permite clasificar y estudiar (analizar)

    la informacin desde muchos puntos de vista.

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    100/125

    100

    Diseo de un Almacn de Datos

    producto

    da

    almacn

    ventas

    id_producto

    id_fecha

    id_almacn.....

    .....

    ......

    tabla dehechos

    la clave primaria* estformada por los

    identificadores de las

    dimensiones bsicas.

    datos (medidas) sobre lasventas diarias de un

    producto en un almacn.

    * pueden existir excepciones a esta regla general

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    101/125

    101

    Diseo de un Almacn de Datos

    Paso 3. Identificar las dimensiones que caracterizan elproceso.

    !

    Dimensiones: dimensiones que caracterizan la actividad al

    nivel de detalle (grnulo) que se ha elegido.

    Tiempo (dimensin temporal: cundo se produce la actividad?)

    Producto (dimensin cul es el objeto de la actividad?)

    Almacn (dimensin geogrfica: dnde se produce la actividad?)

    Cliente (dimensin quin es el destinatario de la actividad?)

    !

    De cada dimensinse debe decidir los atributos(propiedades) relevantes para el anlisis de la actividad.

    !

    Entre los atributos de una dimensin existen jerarquas

    naturales que deben ser identificadas (da-mes-ao)

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    102/125

    102

    Diseo de un Almacn de Datos

    id_dim1

    ....

    tabla

    Dimensin 1

    Di d Al d D t

  • 7/25/2019 DW-II almacenamiento de datos

    103/125

    103

    Diseo de un Almacn de Datos

    Ejemplo: Cadena de supermercados.

    definicin degrnulo

    dimensionesbsicas

    tiempo

    producto

    establecimiento

    Nota: En las aplicaciones reales el nmero de dimensionessuele variar entre 3 y 15 dimensiones.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    104/125

    104

    Diseo de un Almacn de Datos

    Dimensin Tiempo:

    ! dimensin presente en todo AD porque el AD contieneinformacin histrica sobre la organizacin.

    ! aunque el lenguaje SQL ofrece funciones de tipo DATE, una

    dimensin Tiempo permite representar otros atributostemporales no calculables en SQL.

    ! se puede calcular de antemano

    ! atributos frecuentes:

    nro. de da, nro. de semana, nro. de ao: valores absolutos del

    calendario juliano que permiten hacer ciertos clculos aritmticos.

    da de la semana (lunes, martes, mircoles,...): permite hacer

    anlisis sobre das de la semana concretos (ej. ventas en sbado,

    ventas en lunes,..).

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    105/125

    105

    Diseo de un Almacn de Datos

    Dimensin Tiempo:! atributos frecuentes:

    - da del mes (1..31): permite hacer comparaciones sobre el mismo

    da en meses distintos (ventas el 1 de mes).

    - marca de fin de mes, marca de fin de semana : permite hacer

    comparaciones sobre el ltimo da del mes o das de fin de semanaen distintos meses.

    - trimestre del ao (1..4): permite hacer anlisis sobre un trimestre

    concreto en distintos aos.

    - marca de da festivo: permite hacer anlisis sobre los das contiguos

    a un da festivo.

    -

    estacin (primavera, verano..)

    - evento especial: permite marcar das de eventos especiales (final defutbol, elecciones...)

    !jerarqua natural:

    da - mes - trimestre -ao

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    106/125

    106

    Diseo de un Almacn de Datos

    Dimensin Producto:

    ! la dimensin Producto se define a partir del fichero maestro deproductos del sistema OLTP.

    ! las actualizaciones del fichero maestro de productos deben

    reflejarse en la dimensin Producto (cmo?).

    ! la dimensin Producto debe contener el mayor nmero posible

    de atributos descriptivos que permitan un anlisis flexible. Un

    nmero frecuente es de 50 atributos.

    ! atributos frecuentes: identificador (cdigo estndar),

    descripcin, tamao del envase, marca, categora,departamento, tipo de envase, producto diettico, peso,

    unidades de peso, unidades por envase, frmula, ...

    ! jerarquas: producto-categora-departamento

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    107/125

    107

    Diseo de un Almacn de Datos

    Dimensin Establecimiento (store) :

    ! la dimensin Almacn representa la informacin geogrfica bsica.

    ! esta dimensin suele ser creada explcitamente recopilando

    informacin externaque slo tiene sentido en el A.D y que no latiene en un OLTP (nmero de habitantes de la ciudad del

    establecimiento, caracterizacin del tipo de poblacin del distrito, ...)! atributos frecuentes: identificador (cdigo interno), nombre,

    direccin, distrito, regin, ciudad, pas, director, telfono, fax, tipo dealmacn, superficie, fecha de apertura, fecha de la ltima

    remodelacin, superficie para congelados, superficie para productos

    frescos, datos de la poblacin del distrito, zona de ventas, ...

    !jerarquas:

    establecimiento - distrito - ciudad - regin - pas (jerarqua

    geogrfica)

    establecimiento - zona_ventas - regin_ventas (jerarqua de

    ventas)

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    108/125

    108

    Diseo de un Almacn de Datos

    id_establec

    nro_establec

    nombre

    direccin

    distritociudad

    pas

    tlfno

    fax

    superficietipo_almacn

    ...

    Establecimientoid_fecha

    da

    semana

    mes

    aoda_semana

    da_mes

    trimestre

    festivo

    ....

    Tiempoid_producto

    nro_producto

    descripcin

    marca

    subcategora

    categora

    departamento

    peso

    unidades_peso

    tipo_envase

    diettico

    ...

    Producto

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    109/125

    109

    Diseo de un Almacn de Datos

    id_fecha

    id_producto

    id_establec

    ...

    ...

    ...

    Ventas

    id_establec

    nro_establec

    nombre

    direccin

    distritociudad

    pas

    tlfno

    fax

    superficietipo_almacn

    ...

    id_producto

    nro_productodescripcin

    marca

    subcategora

    categora

    departamentopeso

    unidades_peso

    tipo_envase

    diettico

    ...

    Establecimiento

    Producto

    id_fecha

    da

    semana

    mes

    ao

    da_semana

    da_mes

    trimestre

    festivo

    ....

    Tiempo

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    110/125

    110

    Diseo de un Almacn de Datos

    Paso 4. Decidir la informacin a almacenar sobre elproceso.

    Hechos: informacin (sobre la actividad) que se desea almacenar

    en cada tupla de la tabla de hechos y que ser el objeto del

    anlisis.Precio

    Unidades

    Importe

    ....

    Nota: algunos datos que en el OLTP coincidiran con valores deatributos de dimensiones, en el almacn de datos pueden

    representar hechos. (Ejemplo: el precio de venta de un producto).

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    111/125

    111

    Diseo de un Almacn de Datos

    Ejemplo: Cadena de supermercados.

    Grnulo: se desea almacenar informacin sobre las ventas

    diariasde cadaproductoen cada establecimientode la cadena.

    importe total de las ventas del producto en el da

    nmero total de unidades vendidas del producto en el da

    nmero total de clientes distintos que han comprado elproducto en el da.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    112/125

    112

    Diseo de un Almacn de Datos

    id_fecha

    id_producto

    id_establec

    importe

    unidades

    nro_clientes

    Ventas

    id_establec

    nro_establec

    nombre

    direccin

    distrito

    ciudad

    pas

    tlfno

    fax

    superficie

    tipo_almacn

    ...

    id_producto

    nro_producto

    descripcin

    marca

    subcategora

    categora

    departamento

    peso

    unidades_peso

    tipo_envase

    diettico

    ...

    Establecimiento

    Producto

    id_fecha

    da

    semana

    mes

    ao

    da_semana

    da_mes

    trimestre

    festivo

    ....

    Tiempo

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    113/125

    113

    Diseo de un Almacn de Datos

    Otras orientaciones de diseo:

    !

    usar claves sin significado:

    ! evitar normalizar.

    !

    incluir la dimensin Tiempo.

    ! dimensiones que cambian.

    !

    definicin de agregados.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    114/125

    114

    Diseo de un Almacn de Datos

    Otras orientaciones de diseo:!

    uso de claves sin significado.

    en un almacn de datos debe evitarse el uso de las clavesdel sistema operacional.

    las claves de las dimensiones deben ser generadasartificialmente: claves de tipo entero (4 bytes) son suficiente

    para dimensiones de cualquier tamao (232valores distintos).

    la dimensin TIEMPO debe tener tambin una clave artificial.

    Inconvenientes del uso de las claves del sistema operacional:

    ! en el OLTP se puede decidir reutilizar valores de la clave no

    utilizados actualmente.

    ! en el OLTP se puede decidir cambiar la codificacin de las

    claves.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    115/125

    115

    Diseo de un Almacn de Datos

    Otras Orientaciones de diseo:

    !

    evitar normalizar.

    Si se define una tabla de dimensin para cada dimensin

    identificada en el anlisis, es frecuente que entre el conjunto de

    atributos de la tabla aparezcan dependencias funcionales que

    hacen que la tabla no est en 3 F.N.

    Evitar normalizar:

    ! el ahorro de espacio no es significativo

    !se multiplican los JOIN durante las consultas.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    116/125

    116

    Diseo de un Almacn de Datos

    En un almacn de Datos muchas consultas son

    restringidas y parametrizadas por criterios relativos a

    periodos de tiempo (ltimo mes, este ao, ...).

    Otras Orientaciones de diseo:

    !

    siempre introducir la dimensin Tiempo.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    117/125

    117

    Diseo de un Almacn de Datos

    Otras orientaciones de diseo:

    !

    dimensiones que cambian.

    Ejemplo:En un A.D existe la dimensin CLIENTE. En la tabla correspondiente

    un registro representa la informacin sobre el cliente Mara Garca cuyo

    estado civil cambia el 15-01-1994 de solteraa casada. El estado civil del

    cliente es utilizado con frecuencia en el anlisis de la informacin.

    Se considera relevante el caso en que, en el mundo real, para unvalor de una dimensin, cambia el valor de un atributo que es

    significativo para el anlisis sin cambiar el valor de su clave.

    Existen tres estrategias para el tratamiento de los cambios enlas dimensiones:

    Tipo 1: Realizar la modificacin.

    Tipo 2: Crear un nuevo registro.

    Tipo 3: Crear un nuevo atributo.

    Diseo de un Almacn de Datos

  • 7/25/2019 DW-II almacenamiento de datos

    118/125

    118

    Diseo de un Almacn de Datos

    Otras orientaciones de diseo:

    !

    definicin de agregados.

    En un almacn de datos es usual consultarinformacin agregada!

    El almacenamiento de datos agregados por distintos criterios deagregacin en la tabla de hechos mejora la eficiencia del AD.

    Estrategias de almacenamiento de datos agregados:

    !Estrategia 1:definir nuevas tablas de hechos (resp. dedimensiones) para almacenar la informacin agregada (resp. ladescripcin de los niveles de agregacin).

    ! Estrategia 2:insertar en la tabla de hechos (resp. dimensiones)

    tuplas que representan la informacin agregada (resp. losniveles de agregacin).

    Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    119/125

    119

    Lneas de Investigacin Abiertas

    Resmenes:! Widom, J. Research problems in data warehousing

    Actas de la International Conference on Information and Knowledge

    Management (CIKM95), ACM Press. 1995

    ! Chaudhuri, S., Dayal, U.An overview of data warehousing and OLAP

    technology.

    SIGMOD Records. 26(1), pp. 65-74, 1997.

    ! Wu, Ch., Buchmann, P. Research issues in data warehousing

    Datebanksysteme in Bro, Technik und Wissenchaft (BTW),

    Informatik Aktuell, pp. 61-62. Springer, 1997

    Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    120/125

    120

    Lneas de Investigacin Abiertas

    Resmenes:! Samtani, S., Kumar, V., Kambayashi, Y.

    Recent advances and research problems in data warehousing.

    Actas de la International Conference on Conceptual Modeling (ER)

    LNCS 1507,Springer, 1998

    ! Gardner, S.R.

    Building the data warehouse.

    Communications of the ACM 41(9), pp. 52-60, 1998.

    ! Dinter, B., Sapia, C. Hlfing, G., Blaschka, M.

    OLAP market and research: initiating the cooperation.

    Journal of Computer Science and Information Management, 2(3), 1999

    Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    121/125

    121

    Lneas de Investigacin Abiertas

    Conferencias especializadas en DW:

    ! International Worshop on Data Warehousing and OLAP. (DOLAP)

    !

    International Workshop on Data Warehouse and Data Mining. (DWDM)

    ! Interantional Workshop on Design and Management of Data

    Warehouses. (DMDW)

    ! International Conference on Data Warehousing and Knowledege

    Discovery. (DaWaK)

    Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    122/125

    122

    Lneas de Investigacin Abiertas

    Conferencias especializadas en BD:

    ! International Conference of Very Large Databases. (VLDB)

    !

    International Conference on Data Engineering. (ICDE)

    ! Interantional Conference on Conceptual Modeling. (ER)

    ! International Conference on Extending Database Technology (EDBT).

    ! International Conference on Database Theory (ICDT).

    Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    123/125

    123

    Lneas de Investigacin Abiertas

    Direcciones de inters:

    http://www.cs.toronto.edu/~mendel/dwbib.html

    http://www.olapcouncil.org/research/

    http://www.ceur-ws.org/

    http://www.cis.drexel.edu/faculty/song/dolap.html

    http://www-db.stanford.edu/warehousing/

    Lneas de Investigacin Abiertas

  • 7/25/2019 DW-II almacenamiento de datos

    124/125

    124

    Lneas de Investigacin Abiertas

    !

    Diseo de Almacenes de Datos: modelos conceptuales,metodogas de diseo.

    ! Carga y ETL: recuperacin de fallos durante la carga.

    Planificacin de cargas y refrescos.

    !

    Limpieza y Transformacin! Mantenimiento de Almacenes de Datos: mantenimiento de

    vistas materializadas.

    !

    Implementacin de Almacenes de Datos.

    !

    Diseo Fsico, optimizaciones para ROLAP, estructuraspara MOLAP.

    ! Reparticin de tareas OLAP entre el cliente y el servidor.

  • 7/25/2019 DW-II almacenamiento de datos

    125/125

    PARTE II:ALMACENES DE DATOS

    Wilson Andrs Castillo RojasMagster en Ciencias de la Ingeniera, Mencin Computacin

    Pontificia Universidad Catlica de Chile

    [email protected]

    rea Computacin e Informtica