Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

11
INTRODUCCIÓN A LA CALIDAD DE DATOS APLICADO A LA VINCULACION DE LA INFORMACION Septiembre de 2012

description

Muestra resumen de la calidad

Transcript of Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Page 1: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

INTRODUCCIÓN A LA CALIDAD DE

DATOS APLICADO A LA

VINCULACION DE LA INFORMACION

CATASTRAL Y REGISTRAL

Septiembre de 2012

Page 2: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 2

Presentación

Las organizaciones, ya sean públicas o privadas, se preocupan cada vez de de la calidad de los datos de los que disponen, pues saben que de datos con niveles adecuados de calidad se puede obtener información útil para los procesos de negocio. Una situación en la que las organizaciones utilizan datos con niveles inadecuados de calidad, lleva a un desperdicio de recursos, así como a otros perjuicios significativos en el cumplimiento de la legislación vigente. Un elemento fundamental que afecta a este proceso de vinculación es la diversidad de las fuentes de información (registral y catastral), por lo cual es necesaria la aplicación de un proceso de calidad de datos a cada una de las fuentes. Lo que a la vez nos permitirá dar cumplimiento a lo establecido en la Ley Orgánica del instituto Nacional de Estadística y Geografía, la cual establece es su Artículo 27.- “Son atribuciones específicas de la Dirección General Adjunta de Información Catastral y Registral, las siguientes: IV. Coordinar y concertar con las Unidades del Estado, acciones de organización, modernización y vinculación de los catastros y registros públicos de la propiedad para la generación, higiene, estandarización, cruce e integración de información catastral y registral de los bienes inmuebles, en bases de datos compartidas bajo el principio de confidencialidad y seguridad informática;” El presente documento describe la aplicación del proceso de calidad de datos a la vinculación de la información catastral y registral.

Page 3: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 3

Contenido

Contenido ............................................................................................................................................ 3

Introducción a la Calidad de Datos ..................................................................................................... 4

Proceso de Vinculación de la Información Catastral y Registral ......................................................... 5

Page 4: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 4

Introducción a la Calidad de Datos

La Calidad de Datos o Data Quality en ingles, es un concepto muy amplio del que se pueden encontrar múltiples definiciones, pero se podría resumir como la ciencia de mantener la información de las organizaciones completa, precisa, consistente, actualizada, única y, lo más importante, válida para el fin que se creó.

El término DQ surgió hace apenas 10 ó 12 años, aunque hoy en día forma parte de los conceptos fundamentales de los sistemas de información, como ya lo eran otros como la integridad o la seguridad de los datos.

El interés creciente por este tema es debido a que, para una gran mayoría de las organizaciones, los datos constituyen su principal activo y, por otro lado, el manejo de datos de mala calidad suele ser muy costoso en tiempo y en dinero además de una toma de decisiones equivocadas.

Es importante definir 2 de los principales conceptos que se involucran en un proceso de calidad de datos:

Perfilado de Datos (Data Profiling)

El perfilado de datos es una de las primeras tareas que se suelen abordar en procesos Calidad de Datos, y consiste en realizar un primer análisis sobre los datos de origen, recopilar estadísticas e información sobre los mismos normalmente sobre tablas, con el objetivo de empezar a conocer su estructura, formato y nivel de calidad.

Limpieza de datos (Data Cleansing)

La limpieza de datos es el proceso de detectar o descubrir y corregir datos corruptos, incoherentes o erróneos de un conjunto de datos. Después del proceso la información será consistente con otros conjuntos similares de datos.

Este proceso permite detectar entradas duplicadas, incompletas y establecer reglas para corregirlas. El objetivo no es borrar información sino mejorar la calidad de los datos construyendo un proceso de mejora continua.

Page 5: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 5

Proceso de Vinculación de la Información Catastral y Registral

Para la aplicación de la calidad de datos al proceso de vinculación de la información catastral y registral se ha definido un modelo el cual contiene un conjunto de procesos.

Este se define como un modelo iterativo e incremental dependiendo de la calidad requerida, a continuación se presenta el diagrama del modelo de calidad de datos definido para el proceso de vinculación.

Cada una de estas etapas se describe a continuación:

A. Etapa de Análisis de la información.

La fase de análisis, es el proceso de recopilación de estadísticas y otra información sobre los datos existentes en nuestros orígenes de información.

Esta información será utilizada en el diseño de los procesos de Higiene, estandarización y estructuración. Dentro del análisis se establecen cuales son los datos y su estado actual, recopilando estadísticas sobre los datos existentes en una columna individual.

La información deberá permanecer siempre sin alteración alguna, por lo tanto, las operaciones que requieran cualquier tipo de modificación deberán realizarse en campos alternos.

Básicamente esta etapa nos proporciona información como:

Page 6: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 6

Numero de valores distintos: Cuantas entradas únicas contiene una determinada columna.

Numero de patrones: Cantidad de formas (patrones) distintas como se representa el dato.

Numero de valores nulos o vacios en la columna: Identificar registros cuyos datos están incompletos.

Valores mínimos y máximos en el campo, no solo a nivel numérico, sino también a nivel de texto.

Longitud de los campos y patrones de cadenas: El control de la longitud de los valores de la columna y los diferentes patrones que adoptan los valores.

Numero de palabras, numero de caracteres en mayúsculas y minúsculas.

Algunos ejemplos del resultante de esta fase serian los siguientes:

Patrones encontrados del campo fecha

Patrón del Datos Frecuencia

NNNN-NN-NN 346,289

NN-NN-NNNN 234

NN/NN/NN 65

Valores distintos encontrados en el campo Municipio

Valores encontrados Frecuencia

001 85,245

002 12,221

003 115

004 1,850

005 1

Page 7: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 7

B. Etapa Higiene de la información.

La fase de Higiene es el proceso de corregir o remover información incorrecta, con formato inapropiado en las fuentes de entrada de información. Las operaciones básicas para esta etapa serian las siguientes:

Eliminación de caracteres no alfanuméricos.

Expansión de abreviaturas.

Sustitución de caracteres no válidos por su correspondiente validado

Estas acciones de transformación serán regidas por una serie de reglas de higienización, las cuales serán definidas dentro de esta fase. Las reglas de higienización especifican los nuevos estándares de datos para la limpieza y transformación.

Algunos ejemplos de los datos resultantes de esta etapa así como de las reglas de higienización se muestran a continuación:

Ejemplo de transformación de datos:

Dato Original Dato Higienizado

JUAN LOPEZ CASTA#EDA JUAN LOPEZ CASTAÑEDA AV. MORELOS MMANZ V LT. 27 CERCA DE LA TIENADA DE DO#A CHONITA

AV MORELOS MANZ V LT 27 CERCA DE LA TIENDA DE DOÑA CHONITA

1232-123-342-34 123212334234 10- enero-2000 10/01/00

Page 8: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 8

Ejemplo de reglas generales de Higienización:

Campo Regla Descripción

Nombre Propietario 1 Transformar a mayúsculas.

2 Eliminar caracteres no alfanuméricos.

3 Sustituir caracteres no alfanuméricos por los

numéricos equivalentes.

4 Eliminar caracteres no numéricos extra.

6 Eliminar los caracteres no alfanuméricos.

7 No utilizar siglas ni abreviaturas.

8 Eliminar información de dirección o palabras que

no correspondan a una persona institución o

empresa.

9 Estandarizar nombres de empresas.

10 Se hará expansión de abreviaturas sólo con fines

de cruce (vinculación) no se modificarán nombres

de personas.

11 Segmentar en hasta 3 nombres y apellidos.

12 Eliminar valores numéricos.

13 Eliminar espacios no necesarios

Page 9: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 9

C. Estandarización y Estructuración.

La estandarización de datos se refiere a todas las operaciones necesarias para estructurar información semi-estructurada, es decir, distribuir, estructurar y ubicar a cada elemento de datos en su campo correspondiente para poder ser identificado y categorizado de acuerdo a su contenido.

Las acciones realizadas en esta etapa se basan en la definición de un conjunto de reglas de estandarización como se ejemplifica a continuación:

Campo Palabras a Sustituir Sustitución

Nombre TEQUESQUITENGO S A TEQUESQUITENGO SA

Nombre TQUESQUITENGO S A TEQUESQUITENGO SA

Nombre TEQUESQUTENGO S A TEQUESQUITENGO SA

Domicilio CALLE SN CALLE SIN NOMBRE

Domicilio C SN CALLE SIN NOMBRE

Domicilio C S NOMBRE CALLE SIN NOMBRE

Domicilio S N S/N

Domicilio SN S/N

Domicilio S N S/N

Superficie NNNNNNNN NNNNNNNN.00

Superficie NNNNNN.N NNNNNN.N0

Superficie NNNNNNN NNNNNNN.00

Superficie NNNNN.N NNNNN.N0

UnidadSup M2

Domclio A LOPEZ MATEO ADOLFO LOPEZ MATEOS

Page 10: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 10

Algunos ejemplos de los resultantes de esta etapa se muestran enseguida: Dato Nombre

Dato Original Dato Estandarizado

Nombre(s) Paterno Materno Nombre(s)

JUAN ARTURO DÍAZ DE LEÓN CASTA#EDA

DÍAZ DE LEÓN CASTAÑEDA JUAN ARTURO

Dato Domicilio

Dato Original

Domicilio Plaza Cristal 2do nivel 204, Avenida López Mateos 1501, manzana 24 lote 1 Colonia Héroes 20230

Dato Estandarizado

Tipo de vía

pública

Nombre de calle

Número exterior

Manzana Lote Edificio Nivel Número interior

Colonia Código postal Tipo Nombre

Avenida López Mateos

1501 24 1 Plaza Cristal

2 204 Colonia Héroes 20230

Page 11: Intruducción a La Calidad de Datos Aplicado a La Vinculación de La Información

Calidad de Datos Aplicado al Proceso de Vinculación de la Información Catastral y Registral

Instituto Nacional de Estadística y Geografía 11

D. Vinculación.

El subproceso de Vinculación se refiere a la utilización de diferentes algoritmos y ponderaciones para identificar y relacionar cada registro que pertenece a la fuente catastral con otro registro que pertenece a la fuente registral siendo el objetivo principal de este proyecto.

Para este ejercicio de vinculación se deberán considerar los campos que nos proporcionen un mayor grado de certeza en la identificación de estos registros, como pudiera ser clave catastral, nombre, domicilio.

La construcción de diferentes escenarios con combinaciones de campos nos podrá dar aun un mayor grado confiabilidad en el proceso de vinculación, el número de escenarios y combinaciones dependerá de la información.

Por ejemplo:

Escenario Campos Involucrados

Clave catastral

2 Clave catastral, Nombre

3 Clave catastral, Nombre, Dirección

4 Nombre, Domicilio, Superficie

E. Validación.

Este es el subproceso que permitirá medir la calidad de los resultados y determinar el porcentaje de error del proceso, ello permitirá aceptar o rechazar el trabajo realizado durante los diferentes procesos (análisis, higiene, estandarización, vinculacion) y en lo general aceptar o rechazar el trabajo de vinculación. Este proceso se realizará mediante la verificación puntual de una muestra de registros vinculados.

Para la validación se deben definir algunos elementos como son:

Criterios para seleccionar la muestra

- Reglas de validación

- Patrones aplicados en las reglas de validación

- Procedimiento empleado para la verificación