Limpieza y transformación de datos (ETL)
-
Upload
byron3varela3mora -
Category
Documents
-
view
78 -
download
0
Transcript of Limpieza y transformación de datos (ETL)
![Page 1: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/1.jpg)
Carlos Lobo Valerio
Alexander Jiménez Palacios
Limpieza y Transformación de los
Datos
![Page 2: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/2.jpg)
Introducción
Generalmente es necesario realizar alguna transformación a los
datos para obtener materia prima adecuada.
El éxito de un proceso de minería de datos depende de tener
datos íntegros, completos y consistentes.
Eliminar información incorrecta o inconsistente.
![Page 3: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/3.jpg)
Integración y limpieza
La integración generalmente se realiza durante el proceso de
recopilación o carga de datos.
La limpieza de datos puede detectar y solucionar problemas de
datos no resueltos durante la integración.
Evita problemas como datos faltantes, valores duplicados y datos
incorrectos.
![Page 4: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/4.jpg)
Integración
Se puede dar de dos maneras:
Unificar dos o más objetos.
Separar un objeto en dos o más.
Ejemplos:
Separar personas por número de cédula nacional, extranjera y
pasaporte.
Unificar formatos: sexo, estado civil, fechas.
![Page 5: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/5.jpg)
Reconocimiento
Consiste en realizar un resumen de las características y observar
el modelo para verificar errores.
Algunos aspectos pueden salir a simple vista
Cinco valores para el sexo.
Otros aspectos son más difíciles de encontrar, para ellos se usan
otras herramientas:
Histogramas
Gráficas de dispersión
![Page 6: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/6.jpg)
Valores faltantes
Causas:
Faltan valores relevantes porque no se pudieron obtener.
No existen los valores.
Datos incompletos (varios orígenes).
Tratamiento
Ignorarlos.
Eliminar toda la columna.
Remplazar el valor.
Segmentar
![Page 7: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/7.jpg)
Valores erróneos
Algunas veces no es un proceso trivial, clasificar y agrupar
pueden ayudar.
Tratamiento:
Ignorar.
Eliminar.
Filtrar.
Remplazar.
Discretizar.
![Page 8: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/8.jpg)
Transformación
Es cualquier proceso que modifique la forma de los datos.
Crear nuevos atributos derivados
Cambiar el tipo de un atributo
Cambiar total o parcial una tabla.
![Page 9: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/9.jpg)
Discretización
Conversión de un valor numérico en un valor nominal
ordenado.
Ejemplo: convertir un nota de 0 a 100 en aprobado y
reprobado.
Se realiza cuando el error en la medida puede ser grande o
existen ciertos umbrales significativos.
![Page 10: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/10.jpg)
Numerización
Conversión de un valor nominal en un valor numérico.
Ejemplo: el nivel de estudio de una persona (sin estudio,
primaria, secundaria, universidad) se puede convertir en 0, 1, 2,
4.
![Page 11: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/11.jpg)
Normalización de rango
Transformar todos los datos respetando un mismo rango.
Se define un mínimo y un máximo y todos los valores deben
respetarlo.
Ejemplo:
Normalizar las distancias recorridas entre ciudades.
![Page 12: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/12.jpg)
Sistema ETL
Proceso de extracción, transformación y carga.
Permiten extraer datos de algún origen, transformarlo si es
necesario y cargarlo en un destino.
Cada organización debe crear su propio sistema ETL.
Existen herramientas que facilitan la creación de procesos
ETL.
![Page 13: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/13.jpg)
Tareas ETL
Lectura de datos transaccionales mediante consultas SQL.
Incorporación de datos externos como hojas de cálculo,
archivos de texto y XML.
Integración de los datos de diversas fuentes
Limpieza y transformación de los datos.
Crear metadatos que describan el proceso ETL
![Page 14: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/14.jpg)
Tareas ETL
Identificación de cambios en el origen para actualizar el
destino.
Planificar la carga y mantenimiento, respetar restricciones de
integridad, no saturar las BD
Crear índices y llaves primarias sobre datos relevantes o
únicos.
Realizar pruebas de calidad en los datos almacenados.
![Page 15: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/15.jpg)
Diagrama ETL
![Page 16: Limpieza y transformación de datos (ETL)](https://reader036.fdocuments.ec/reader036/viewer/2022072114/55cf9b40550346d033a54f28/html5/thumbnails/16.jpg)
Herramientas ETL
Microsoft Integratios Services
XMLoader
Pentaho Data Integration
Benetl
MySQL MigrationToolkit
Oracle Warehouse Builder
Scriptella ETL