Limpieza y transformación de datos (ETL)

16
Carlos Lobo Valerio Alexander Jiménez Palacios Limpieza y Transformación de los Datos

Transcript of Limpieza y transformación de datos (ETL)

Page 1: Limpieza y transformación de datos (ETL)

Carlos Lobo Valerio

Alexander Jiménez Palacios

Limpieza y Transformación de los

Datos

Page 2: Limpieza y transformación de datos (ETL)

Introducción

Generalmente es necesario realizar alguna transformación a los

datos para obtener materia prima adecuada.

El éxito de un proceso de minería de datos depende de tener

datos íntegros, completos y consistentes.

Eliminar información incorrecta o inconsistente.

Page 3: Limpieza y transformación de datos (ETL)

Integración y limpieza

La integración generalmente se realiza durante el proceso de

recopilación o carga de datos.

La limpieza de datos puede detectar y solucionar problemas de

datos no resueltos durante la integración.

Evita problemas como datos faltantes, valores duplicados y datos

incorrectos.

Page 4: Limpieza y transformación de datos (ETL)

Integración

Se puede dar de dos maneras:

Unificar dos o más objetos.

Separar un objeto en dos o más.

Ejemplos:

Separar personas por número de cédula nacional, extranjera y

pasaporte.

Unificar formatos: sexo, estado civil, fechas.

Page 5: Limpieza y transformación de datos (ETL)

Reconocimiento

Consiste en realizar un resumen de las características y observar

el modelo para verificar errores.

Algunos aspectos pueden salir a simple vista

Cinco valores para el sexo.

Otros aspectos son más difíciles de encontrar, para ellos se usan

otras herramientas:

Histogramas

Gráficas de dispersión

Page 6: Limpieza y transformación de datos (ETL)

Valores faltantes

Causas:

Faltan valores relevantes porque no se pudieron obtener.

No existen los valores.

Datos incompletos (varios orígenes).

Tratamiento

Ignorarlos.

Eliminar toda la columna.

Remplazar el valor.

Segmentar

Page 7: Limpieza y transformación de datos (ETL)

Valores erróneos

Algunas veces no es un proceso trivial, clasificar y agrupar

pueden ayudar.

Tratamiento:

Ignorar.

Eliminar.

Filtrar.

Remplazar.

Discretizar.

Page 8: Limpieza y transformación de datos (ETL)

Transformación

Es cualquier proceso que modifique la forma de los datos.

Crear nuevos atributos derivados

Cambiar el tipo de un atributo

Cambiar total o parcial una tabla.

Page 9: Limpieza y transformación de datos (ETL)

Discretización

Conversión de un valor numérico en un valor nominal

ordenado.

Ejemplo: convertir un nota de 0 a 100 en aprobado y

reprobado.

Se realiza cuando el error en la medida puede ser grande o

existen ciertos umbrales significativos.

Page 10: Limpieza y transformación de datos (ETL)

Numerización

Conversión de un valor nominal en un valor numérico.

Ejemplo: el nivel de estudio de una persona (sin estudio,

primaria, secundaria, universidad) se puede convertir en 0, 1, 2,

4.

Page 11: Limpieza y transformación de datos (ETL)

Normalización de rango

Transformar todos los datos respetando un mismo rango.

Se define un mínimo y un máximo y todos los valores deben

respetarlo.

Ejemplo:

Normalizar las distancias recorridas entre ciudades.

Page 12: Limpieza y transformación de datos (ETL)

Sistema ETL

Proceso de extracción, transformación y carga.

Permiten extraer datos de algún origen, transformarlo si es

necesario y cargarlo en un destino.

Cada organización debe crear su propio sistema ETL.

Existen herramientas que facilitan la creación de procesos

ETL.

Page 13: Limpieza y transformación de datos (ETL)

Tareas ETL

Lectura de datos transaccionales mediante consultas SQL.

Incorporación de datos externos como hojas de cálculo,

archivos de texto y XML.

Integración de los datos de diversas fuentes

Limpieza y transformación de los datos.

Crear metadatos que describan el proceso ETL

Page 14: Limpieza y transformación de datos (ETL)

Tareas ETL

Identificación de cambios en el origen para actualizar el

destino.

Planificar la carga y mantenimiento, respetar restricciones de

integridad, no saturar las BD

Crear índices y llaves primarias sobre datos relevantes o

únicos.

Realizar pruebas de calidad en los datos almacenados.

Page 15: Limpieza y transformación de datos (ETL)

Diagrama ETL

Page 16: Limpieza y transformación de datos (ETL)

Herramientas ETL

Microsoft Integratios Services

XMLoader

Pentaho Data Integration

Benetl

MySQL MigrationToolkit

Oracle Warehouse Builder

Scriptella ETL