Resolviendo problemas de calidad de datos con Data Quality Services
Data Quality
-
Upload
powerdatagrupo -
Category
Documents
-
view
491 -
download
0
Transcript of Data Quality
“Soluciones de Gestión de Datos”
Luis Rodriguez
Lima, jueves, 13 de abril de 2023
CALIDAD
DE
DATOS
Calidad de Datos
• Los datos son ACTIVOS de las empresas, pero no se administran con el mismo rigor que los activos tradicionales.
• Lograr y mantener un adecuado nivel de Calidad de Datos requiere un esfuerzo planeado y permanente que cuesta tiempo, dedicación y dinero.
• Los datos, en la mayoría de las organizaciones, son deficientes encalidad.
Calidad de Datos
• Los problemas de Calidad de Datos son universales – existen en toda organización.
• Por lo general estos problemas ocurren, no por una mala administración, sino por la ejecución normal de los procesos de negocio en las organizaciones.
• Un pequeño error en algún sistema transaccional se puede convertir en un problema grave para la toma de decisiones.
Calidad de Datos
• Factores que afectan a la calidad de datos
Procesos Externos• Migración• Consolidación• Entrada Manual• Cargas Masivas• Interfaces
Procesos Internos• Procesamiento• Limpieza• Depuración
Deterioro Natural• Nuevo uso de los datos• Cambios no registrados• Actualización de Sistemas• Pérdida de conocimientos• Automatización de los procesos
BASES DE DATOS
Calidad de Datos
• Beneficios del manejo adecuado de la Calidad de Datos
– Mayor confianza en los sistemas de toma de decisiones (76%).
– Mejor tiempo para cuadres de información (70%).
– Única visión de la verdad (69%).
– Satisfacción del cliente (57%).
– Reducción de costos (56%).
– Aumento en los ingresos (30%).
Fuente: The Data Warehousing Institute (TDWI)
Calidad de Datos
• Datos propensos a problemas de Calidad de datos
• Los datos de los clientes 74%.
• Datos de los productos 43%.
• Los datos financieros 36%.
• Datos de contacto de ventas 27%.
• Datos de los sistemas ERP 25%.
Fuente: The Data Warehousing Institute (TDWI)
Calidad de Datos
• Procesos de Calidad de Datos
Perfilamiento de Datos
Limpieza de Datos
Monitoreo de Calidad de
Datos
Calidad de Datos
• Perfilamiento de datos (Data Profiling)
- Proceso de reconstruir el conjunto de rasgos particulares que caracterizan los datos.
- Consiste en la aplicación de técnicas analíticas a los datos para determinar:
* Contenido
* Estructura
* Calidad
Calidad de Datos
• Perfilamiento de datos (Data Profiling)
- Se utilizan dos métodos:
* Descubrimiento: Se revelas las características de los datos a partir de los mismos.
* Pruebas asertivas: Se formulan condiciones verdaderas (Reglas) y se prueban sobre los datos.
Calidad de Datos
• Pasos para el análisis de los datos
Análisis de las propiedades de las columnas
Análisis de la estructura
Análisis de reglas de datos simples
Análisis de reglas de datos compuestas
Análisis estadístico de los valores
Valores no validos
Combinaciones válidas de valores no validos
Resultados ilógicos
DATOS
INEXACTOS
No detectables con técnicas analíticas
Calidad de Datos
• ¿Cuándo hacer un Perfilamiento de Datos?
– Proyectos de evaluación o mejoramiento de calidad de datos.
– Proyectos de TI que trasladan datos a otras estructuras, migran o consolidan datos.
– Las bases de datos importantes de la organización se deben “Perfilar” periódicamente.
Calidad de Datos
• Limpieza de datos (Data Cleansing)
– Implementación de una metodología confiable de calidad de datos que soluciona desde problemas técnicos a esquemas complejos de negocios.
• Normalización.
• Desduplicación.
• Parsing y estandarización.
• Enriquecimiento de los datos.
LA PLATAFORMA DE INFORMATICA
¿Por qué INFORMATICA?
• Liderazgo tecnológico comprobado.
• Amplia trayectoria de innovación continua.
• El socio confiable más neutral.
• Larga historia de éxitos de clientes.
date, we’ve seen a return on our investment from this program over 2,000 percent”.
“… complete, accurate and timely data is a fundamental requirement for optimal performance”
Enfoque singular en la Integración de Datos.
• Plataforma de Integración de datos líder según Gartner (Octubre 2012).
¿Por qué INFORMATICA?
• Plataforma de Calidad de datos líder según Gartner (Agosto 2012).
¿Por qué INFORMATICA?
• Plataforma de ETL Empresarial líder según Forrester (Q1, 2012).
¿Por qué INFORMATICA?
• Plataforma de Calidad de datos líder según Forrester (Q1, 2012).
¿Por qué INFORMATICA?
Entrega información oportuna a la empresa- Dar soporte durante todo el ciclo de vida de integración de los datos
- Permite el desarrollo de cualquier proyecto de integración de datos
- Entrega de información en cualquier latencia
Maximiza la productividad- Colaboración basada en roles y perfiles
- Servicios compartidos
- Interfaces uniformes
Agnóstica en integración con aplicaciones heterogéneas- Acceso a datos desde cualquier fuente
- Mitiga los riesgos de trabajar con tecnologías actuales y de futuro
Enfoque económico de Integración de Datos- Reduce el costo total de propiedad (TCO), Hacer más con menos.
- Rápido retorno de la inversión (ROI)
Integral
Unificada
Económica
Abierta
¿Por qué INFORMATICA?
Data Quality Assessment
Data Loader
Data Synchronization
Data Replication Cloud EditionGlobal Address
VerificationCloud Edition
Data Transformation
Data Exchange
Standard Edition
Data Archive
Data Subset
Data Privacy
RulePoint
RuleCast
Real-TimeAlert Manager
Real-time Edition
Advanced Edition
PowerExchange
Data Explorer
Data Quality
IdentityResolution
AddressDoctorBusiness Director
Multi-domain Hub
Latency Buster Messaging (LBM)
Ultra Messaging (UME)
La Plataforma de Informatica
Análisis y perfilado de los datos
Parsingy
Standardization
Validación de direcciones
Matching y desduplicación
Monitoreo &
Reporting
Data Quality
Data Quality
• Seis Dimensiones de Data Quality
Completitud Qué datos se pierden o son inservibles?
Conformidad Qué datos se almacenan en un formato no estandar?
Consistencia Qué valores de datos dan información inconsistente?
Precisión Qué datos son incorrectos o fuera de fecha?
Duplicidad Qué datos o atributos están repetidos?
Integridad Qué datos se pierden o no son referenciados?
Análisis de Datos
Datos extraídos
Entrada de Archivode datos
Análisis
Depuración de los datos
Alta calidadde datos
Qualityreports
Evaluar la integridad de los datos, su conformidad y consistencia
MatchingEvaluar la duplicación dedatos, integridad, yexactitud
Estandarización Mejoramiento de la integridad de los datos, conformidad y consistencia
ConsolidaciónEliminar datos duplicadosMejorar la integridadReemplazar los datosinexactos
d
Análisis de salida
Informatica Data Quality enfoca los datos del ciclo de vida a través de cuatro módulos flexibles:
Baja calidadde datos Salida de
Archivo de datos
Data Quality
• Enfoque Modular
Data Quality
1. Perfilar
2. Establecer métricas y objetivos
3. Definir reglas de negocio
4. Implementar servicios de DQ
6. Monitoreo de las metricas
5. Revisar Excepciones
Usuario deNegocio
UsuarioTI
AnalistaDe
Datos
Scorecards
Browser-based tool
Data Quality para TI y el negocio
Data Quality
Data Quality
• Descubrir - Perfilar: Comprensión Sencilla de los Datos
Incremento productividad y eficiencia al habilitar al negocio a tomar responsabilidad de la calidad de los datos de manera proactiva y así
reducir su dependencia de IT.
• Rápido análisis de datos en múltiples orígenes.
• Catálogo de los detalles de cada dato en repositorio.
• Tablas, columnas, dominios, estructura de datos (Inferido y Documentado).
• Redundancia y completitud de Datos.
• Estado y incidentes de DQ a alto nivel.
• Marcar datos y documentar instrucciones para desarrollos de procesos.
Aplicar reglas dentro del perfilamiento desde el origen de datos.
Seleccionar reglas pre-definidas o crear propias.
Informatica Delivered Rules
Custom Developer Created Rules
Data Quality
• Descubrir - Perfilar: Aplicación de Reglas de Negocio
Aplicar las reglas en el perfilado.
Ejecutar el perfilado para ver los resultados.
Opcionalmente ejecutar solo una regla y no todo el perfilado.
Data Quality
• Descubrir - Perfilar: Aplicación de Reglas de Negocio
• Creación de Métricas de seguimiento para todos los datos
• Ver la calidad de los datos y poder moverse entre ellos
• Monitorear tendencias
• Compartir cuadros de mando con el resto de usuarios
Todos los usuarios de negocio tienen una vista única y compartida de la calidad de los datos, así participan en su governance
Data Quality
• Usuario de negocio: Herramienta web sencilla
Data Quality
• Análisis de Join
Condiciones de Join
Resultados
Drill Down de los datos
Exportar
Data Quality
• Matching y consolidación
Selección de campos
Consolidación
Previsualización de resultados
Filtro por incidencia
Filtro por columna
Auditoria
Manejo de filtros para la vista
Flag de acción para los registros: “Accepted”, “Rejected”, o “Reprocessed”
Data Quality
• Revisión de excepciones
Funcion de Cluster y Master
Auditoria
Manejo de filtros para la vista
Flag de acción: “Cluster” records o“Extract” records de un cluster para crear uno nuevo
Observaciones o comentarios
Edición de valores
Data Quality
• Revisión de duplicados
Creación de grupos por reglas
e.g. Completeness, Conformity...Conformity,
Consistency
Data Quality
• Monitoreo y reporting
Data Quality
• Monitoreo y reporting
Data Quality
• Monitoreo y reporting
Data Quality
• Monitoreo y reporting
Gracias por su atención.
LATINOAMÉRICA [email protected]
Chile
Av. Presidente Errázuriz Nº 2999 - Oficina 202
Las Condes, Santiago CP 7550357
Tel: (+56) 2 892 0362
Colombia
Calle 100 No. 8A-55 Torre C. Of. 718
Bogotá
Tel: (+57 1) 616 77 96
México
Insurgentes Sur Nº 600 Of. 301 y 302,
Col. del Valle, Benito Juarez
Distrito Federal, México, 03100
Tel: (+52 55) 1107-0812
Perú
Calle Los Zorzales Nº 160, piso 9
San Isidro, Lima
Tel: (+51) 1634 4901
Argentina
Avenida Leandro N Alem 530, Piso 4
CD C100 1AAN Ciudad Autónoma de Buenos Aires
Tel: (+54) 11 4314 1370
www.powerdataam.com
Barcelona
C/ Frederic Mompou, 4B 1º, 3º
08960 Sant Just Desvern
T (+34) 934 45 60 01
Valencia
Edificio Europa - 5º I Avda, Aragón, 30
46021 Valencia
T (+34) 960 91 60 25
Madrid
C/ Miguel Yuste, 17, 4º C
28037 Madrid
T (+34) 911 29 72 97
[email protected] www.powerdata.esESPAÑA