DESCUBRIMIENTO DE CONOCIMIENTO EN
BASES DE DATOS
KDDKNOWLEDGE DISCOVERY ON
DATABASES
SINÓNIMOS
� Arqueología de datos
Minería de datos.� Minería de datos.
� Extracción de conocimiento.
� Reconocimiento de patrones.
OPERACIÓN DEL NEGOCIO
BASES DE DATOS ACTUALES
TRANSACCIONES COTIDIANAS
• Pago de nómina
• Gestión financiera
• Facturación
• Historial clínico
Otros sectores y
BASES DE DATOS OPERATIVAS
Sector comercialOtros sectores y
centros de
Investigación
ANTECEDENTES
� Algunas compañías han acumuladodurante décadas grandes volúmenesde datos acerca de sus clientes,proveedores, productos o servicios.proveedores, productos o servicios.
� El acelerado crecimiento de la redInternet permite a las organizacionesotro mecanismo de acumular grandescantidades de datos.
El Proceso de KDD
6
TOMA DE DECISIONES
¿A qué responde el KDD?
Comprensión de un domino
• ¿Han aumentado significativamente las ventas, con la promoción?
• ¿Qué día de la semana es el más ocupado en el hospital?
• ¿Cuáles clientes de la sucursal B, no están participando de una cuenta
especial?
� La descripción o caracterización de fenómenos.
� El descubrimiento de patrones y tendencias en los datos.
KKD es usado para:
tendencias en los datos.� Análisis de grupos o conglomerados.� Respuestas a preguntas espontáneas y formuladas de manera no estructurada.
� Realizar inferencias y predicciones.
EL PROCESO DE KDD
• Especificación del dominio de la aplicación.
• Estrategia de adquisición de los datos.
• Recolección de la información.
• Depuración.
• Minería de los datos.
• Visualización e interpretación de resultados.
El Proceso de KDD
Integración
de datos
Limpieza
de datos
Enriquecimiento
de datos
Transformación
Minería
de Datos
Bodega de datos
Conocimiento
Interpretación
Integración de datos
Base de Datos X
Base de Datos Y
IntegraciónBodega
de Datos
Problemas:
� Formatos de las fuentes de datos.
� Necesidad de filtros y transformaciones (de unidades de medida, de formatos de las fechas, entre otras).
Fuente de datos
Z
Limpieza de datosPrecisión y Exactitud
Actualidad
Consistencia
Completitud
Relevancia¿Información
confiable?
Relevancia
Bodega de Datos
Técnicas de detección de errores
� Valores admisibles. Por ej, ‘h’ y ‘m’ para sexo.
� Valores faltantes. Convenciones
� Valores extremos. Se hacen “Imputaciones” (medidas correctivas) a los datos.
� Violación de reglas o restricciones. Se hace uso de “Edicts” o reglas de inferencia
� Inconsistencias o redundancia.
� Obsolescencia de los datos.
Enriquecimiento de datos
Necesidad de complementar
la bodega con informaciónsobre los datos almacenados(metadatos) para poder
limpiezarealizar la limpieza de losmismos. Esto también ayudaen la selección ymanipulación de los datospara un análisis.
Descubrimiento de Patrones
� El número de niños que permanecen largo
tiempo son los que llegan ya mayorcitos al
Sistema de Adopción.Sistema de Adopción.
• Sólo el 10% de los estudiantes culminan sus
estudios sin perder una sola materia.
• Los que sufren el mal de Hodkgin son en su
mayoría hombres, de raza blanca.
El objetivo básico de la discriminación esreconocer las diferencias entre grupos deobjetos y poder describirlas en forma
Discriminación o análisis de grupos
objetos y poder describirlas en formagráfica o algebraica para lograr un mejorentendimiento de un determinado dominio
¿Tienen algo en común?
¿ En qué se diferencian?
Árboles de Decisión (1/2)
Árboles de Decisión (2/2)
Tendencias o cambios de
comportamiento
Descubrimiento de Asociaciones (1/3)
Si Si
La empresa es “grande” e invierte un “buen” porcentaje de sus utilidades en I+D
Entonces
Es “altamente” innovadora.
Descubrimiento de Asociaciones (2/3)
NACELERACIÓPESOPOTENCIAORENDIMIENT 002.0006.005.06.45 +⋅−−=
Regresión Múltiple
Descubrimiento de Asociaciones (3/3)
Metadatos en la Minería de DatosMetadatos en la Minería de Datos
Top Related