Post on 29-Nov-2015
Carlos Lobo Valerio
Alexander Jiménez Palacios
Limpieza y Transformación de los
Datos
Introducción
Generalmente es necesario realizar alguna transformación a los
datos para obtener materia prima adecuada.
El éxito de un proceso de minería de datos depende de tener
datos íntegros, completos y consistentes.
Eliminar información incorrecta o inconsistente.
Integración y limpieza
La integración generalmente se realiza durante el proceso de
recopilación o carga de datos.
La limpieza de datos puede detectar y solucionar problemas de
datos no resueltos durante la integración.
Evita problemas como datos faltantes, valores duplicados y datos
incorrectos.
Integración
Se puede dar de dos maneras:
Unificar dos o más objetos.
Separar un objeto en dos o más.
Ejemplos:
Separar personas por número de cédula nacional, extranjera y
pasaporte.
Unificar formatos: sexo, estado civil, fechas.
Reconocimiento
Consiste en realizar un resumen de las características y observar
el modelo para verificar errores.
Algunos aspectos pueden salir a simple vista
Cinco valores para el sexo.
Otros aspectos son más difíciles de encontrar, para ellos se usan
otras herramientas:
Histogramas
Gráficas de dispersión
Valores faltantes
Causas:
Faltan valores relevantes porque no se pudieron obtener.
No existen los valores.
Datos incompletos (varios orígenes).
Tratamiento
Ignorarlos.
Eliminar toda la columna.
Remplazar el valor.
Segmentar
Valores erróneos
Algunas veces no es un proceso trivial, clasificar y agrupar
pueden ayudar.
Tratamiento:
Ignorar.
Eliminar.
Filtrar.
Remplazar.
Discretizar.
Transformación
Es cualquier proceso que modifique la forma de los datos.
Crear nuevos atributos derivados
Cambiar el tipo de un atributo
Cambiar total o parcial una tabla.
Discretización
Conversión de un valor numérico en un valor nominal
ordenado.
Ejemplo: convertir un nota de 0 a 100 en aprobado y
reprobado.
Se realiza cuando el error en la medida puede ser grande o
existen ciertos umbrales significativos.
Numerización
Conversión de un valor nominal en un valor numérico.
Ejemplo: el nivel de estudio de una persona (sin estudio,
primaria, secundaria, universidad) se puede convertir en 0, 1, 2,
4.
Normalización de rango
Transformar todos los datos respetando un mismo rango.
Se define un mínimo y un máximo y todos los valores deben
respetarlo.
Ejemplo:
Normalizar las distancias recorridas entre ciudades.
Sistema ETL
Proceso de extracción, transformación y carga.
Permiten extraer datos de algún origen, transformarlo si es
necesario y cargarlo en un destino.
Cada organización debe crear su propio sistema ETL.
Existen herramientas que facilitan la creación de procesos
ETL.
Tareas ETL
Lectura de datos transaccionales mediante consultas SQL.
Incorporación de datos externos como hojas de cálculo,
archivos de texto y XML.
Integración de los datos de diversas fuentes
Limpieza y transformación de los datos.
Crear metadatos que describan el proceso ETL
Tareas ETL
Identificación de cambios en el origen para actualizar el
destino.
Planificar la carga y mantenimiento, respetar restricciones de
integridad, no saturar las BD
Crear índices y llaves primarias sobre datos relevantes o
únicos.
Realizar pruebas de calidad en los datos almacenados.
Diagrama ETL
Herramientas ETL
Microsoft Integratios Services
XMLoader
Pentaho Data Integration
Benetl
MySQL MigrationToolkit
Oracle Warehouse Builder
Scriptella ETL