M2 Procesos ETL

download M2 Procesos ETL

of 16

Transcript of M2 Procesos ETL

  • 8/19/2019 M2 Procesos ETL

    1/16

    Procesos ETL

    Jordi Conesa i Caralt

    Isabel Guitart Hormigo

  • 8/19/2019 M2 Procesos ETL

    2/16

     Componentes del proceso ETL

     Obtención de datos

     Transformación, depuración e integración de datos

     Carga de datos Herramientas ETL

     Ejemplo

    Índice

  • 8/19/2019 M2 Procesos ETL

    3/16

    Componentes del Proceso ETL 

    ETL = Extract / Transform / Load

    La misión de los componentes de integración y transformación es obtener losdatos para los diferentes almacenes de datos de la organización.

  • 8/19/2019 M2 Procesos ETL

    4/16

    Proceso: Obtención de datos 

    • El primer paso consiste en determinar, de entre todas lasfuentes de datos posibles, cual es la más adecuada para cadauno de los datos requeridos.

    • En la obtención de los datos se distinguen dos fases:a) Obtención de los datos para la imagen inicial.b) Obtención de los datos para las actualizaciones.

     Clasificación de los datos:a) Datos estructuradosb) Datos semiestructuradosc) Datos no estructurados

  • 8/19/2019 M2 Procesos ETL

    5/16

    Proceso : Transformación,

    Depuración e Integración • Cambiar formato o tipo de datos(ejemplo formato fecha).

      Reestructurar campos (fusionaro dividir campos).

    • Cambiar las unidades o códigosde transformación (cambios demoneda).

    •  Cambiar el grado de agregación

    (calcular las vendas mensuales apartir de las diarias).

    • Añadir información temporal(período validez de los datos).

    TRANSFORMACIÓN DEPURACIÓN

    • Detectar y corregir valoresinconsistentes.

      Añadir valores por defecto a loscampos con valores no definidos

    • Detectar y corregir informaciónduplicada.

    INTEGRACION

    • El proceso de integracióndependerá si realizamos la cargainicial del almacén de datos o una

    actualización.

    • Principal problema: Detectardatos que representan el mismoconcepto.

    • Se transforman los datos parahomogeneizar la representación y

    eliminar la información duplicada.

  • 8/19/2019 M2 Procesos ETL

    6/16

    Proceso: Carga de datos 

    El proceso ETL también se encarga de transportar losdatos entre las diferentes plataformas y cargarlas en

    las bases de datos correspondientes.

  • 8/19/2019 M2 Procesos ETL

    7/16

    Herramientas ETL • Control y automatización de la extracción de los datos, disminuyendo eltiempo empleado en el descubrimiento de procesos no documentados,

    minimizando el margen de error y permitiendo mayor flexibilidad.

    •  Acceso a diferentes tecnologías, haciendo un uso efectivo delhardware, software, datos y recursos humanos existentes.

    • Proporcionar la gestión integrada del Data Warehouse y los Data Martsexistentes, integrando la extracción, transformación y carga  para laconstrucción del Data Warehouse corporativo y de los Data Marts.

    •  Uso de la arquitectura de metadatos, facilitando la definición de losobjetos de negocio y las reglas de consolidación.

    • Acceso a una gran variedad de fuentes de datos diferentes.

    • Manejo de excepciones.

    •  Planificación, logs, interfaces a schedulers de terceros, que nospermitirán llevan una gestión de la planificación de todos los procesosnecesarios para la carga del DW.

    • Interfaz independiente de hardware.

    • Soporte en la explotación del Data Warehouse.

  • 8/19/2019 M2 Procesos ETL

    8/16

    EJEMPLO ETL:

    Basado en … 

  • 8/19/2019 M2 Procesos ETL

    9/16

    EJEMPLO ETL:

    Sistema de análisis de estadísticasWeb 

    Recopilar la información de loslogs de la web de la empresa

    en un único repositorio de

    datos que permita el análisisde las visitas web.

  • 8/19/2019 M2 Procesos ETL

    10/16

    Kettle – Pentaho Data Integration 

    Basado en el desarrollo de dos tiposde objetos:

    •Transformaciones: permitendefinir las operaciones de

    transformación de datos.

    •Trabajos: permiten gestionar yadministrar procesos ETL a altonivel.

  • 8/19/2019 M2 Procesos ETL

    11/16

    Kettle – Pentaho Data Integration 

    Formado por cuatro componentes:•Spoon: entorno gráfico para el desarrollo detransformaciones y trabajos.

    •Pan: permite ejecutar transformaciones.

    •Kitchen: permite ejecutar trabajos.

    •Carte: es un servidor remoto que permite laejecución de transformaciones y trabajos.

  • 8/19/2019 M2 Procesos ETL

    12/16

    Caso Práctico – Datos de Origen 

    El archivo log contiene los siguientes campos:

    •  IP desde la que se accede•  RFC 1413: identificador de la máquina en la red•  Usuario remoto: identificador del usuario.•  Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].•  Recurso: aquello a lo que se accede.•  Resultado.•

      Tiempo: segundos que se tarda en acceder al recurso.•  Referente: desde donde se accede al recurso.•  User-agent: información del sistema operativo y delnavegador usados para acceder al recurso.

  • 8/19/2019 M2 Procesos ETL

    13/16

    Caso Práctico – Datos de Origen 

    El archivo log contiene los siguientes campos:• IP desde la que se accede

    • RFC 1413: identificador de la máquina en la red• Usuario remoto: identificador del usuario.• Fecha: formato [dd/MM/yyyy:HH:mm:ss -XXXX].• Recurso: aquello a lo que se accede.• Resultado.• Tiempo: segundos que se tarda en acceder al recurso.

    • Referente: desde donde se accede al recurso.• User-agent: información del sistema operativo y delnavegador usados para acceder al recurso.

  • 8/19/2019 M2 Procesos ETL

    14/16

    Caso Práctico – Más Datos de Origen 

    Se han preparado otros ficheros coninformación adicional:

    •  access.log: contiene la información de acceso anuestra aplicación web.

    • navegador.csv: contiene un listado de avegadores base.• protocolo.csv: contiene los protocolos de accesoestándar.• resultado.csv: contiene el resultado que puedeproporcionar el servidor a un acceso.• so.cv: contiene un listado de sistemas operativos base.

  • 8/19/2019 M2 Procesos ETL

    15/16

    Planificación de Procesos ETL 

    La estrategia que se seguirá será:1. Cargar las dimensiones navegador, protocolo,

    resultado y so a partir de los ficherosanteriores.

    2. Alimentar la tabla de hecho de visitas.

    3. Crear un trabajo para lanzar todas lastransformaciones de una manera única.

  • 8/19/2019 M2 Procesos ETL

    16/16

    Procesos ETL: Vídeo