Limpieza y transformación de datos (ETL)

Post on 29-Nov-2015

78 views 0 download

Transcript of Limpieza y transformación de datos (ETL)

Carlos Lobo Valerio

Alexander Jiménez Palacios

Limpieza y Transformación de los

Datos

Introducción

Generalmente es necesario realizar alguna transformación a los

datos para obtener materia prima adecuada.

El éxito de un proceso de minería de datos depende de tener

datos íntegros, completos y consistentes.

Eliminar información incorrecta o inconsistente.

Integración y limpieza

La integración generalmente se realiza durante el proceso de

recopilación o carga de datos.

La limpieza de datos puede detectar y solucionar problemas de

datos no resueltos durante la integración.

Evita problemas como datos faltantes, valores duplicados y datos

incorrectos.

Integración

Se puede dar de dos maneras:

Unificar dos o más objetos.

Separar un objeto en dos o más.

Ejemplos:

Separar personas por número de cédula nacional, extranjera y

pasaporte.

Unificar formatos: sexo, estado civil, fechas.

Reconocimiento

Consiste en realizar un resumen de las características y observar

el modelo para verificar errores.

Algunos aspectos pueden salir a simple vista

Cinco valores para el sexo.

Otros aspectos son más difíciles de encontrar, para ellos se usan

otras herramientas:

Histogramas

Gráficas de dispersión

Valores faltantes

Causas:

Faltan valores relevantes porque no se pudieron obtener.

No existen los valores.

Datos incompletos (varios orígenes).

Tratamiento

Ignorarlos.

Eliminar toda la columna.

Remplazar el valor.

Segmentar

Valores erróneos

Algunas veces no es un proceso trivial, clasificar y agrupar

pueden ayudar.

Tratamiento:

Ignorar.

Eliminar.

Filtrar.

Remplazar.

Discretizar.

Transformación

Es cualquier proceso que modifique la forma de los datos.

Crear nuevos atributos derivados

Cambiar el tipo de un atributo

Cambiar total o parcial una tabla.

Discretización

Conversión de un valor numérico en un valor nominal

ordenado.

Ejemplo: convertir un nota de 0 a 100 en aprobado y

reprobado.

Se realiza cuando el error en la medida puede ser grande o

existen ciertos umbrales significativos.

Numerización

Conversión de un valor nominal en un valor numérico.

Ejemplo: el nivel de estudio de una persona (sin estudio,

primaria, secundaria, universidad) se puede convertir en 0, 1, 2,

4.

Normalización de rango

Transformar todos los datos respetando un mismo rango.

Se define un mínimo y un máximo y todos los valores deben

respetarlo.

Ejemplo:

Normalizar las distancias recorridas entre ciudades.

Sistema ETL

Proceso de extracción, transformación y carga.

Permiten extraer datos de algún origen, transformarlo si es

necesario y cargarlo en un destino.

Cada organización debe crear su propio sistema ETL.

Existen herramientas que facilitan la creación de procesos

ETL.

Tareas ETL

Lectura de datos transaccionales mediante consultas SQL.

Incorporación de datos externos como hojas de cálculo,

archivos de texto y XML.

Integración de los datos de diversas fuentes

Limpieza y transformación de los datos.

Crear metadatos que describan el proceso ETL

Tareas ETL

Identificación de cambios en el origen para actualizar el

destino.

Planificar la carga y mantenimiento, respetar restricciones de

integridad, no saturar las BD

Crear índices y llaves primarias sobre datos relevantes o

únicos.

Realizar pruebas de calidad en los datos almacenados.

Diagrama ETL

Herramientas ETL

Microsoft Integratios Services

XMLoader

Pentaho Data Integration

Benetl

MySQL MigrationToolkit

Oracle Warehouse Builder

Scriptella ETL