Minería de Datos - tamps.cinvestav.mxhmarin/Mineria/EC1.pdf · Cómo hacer el mejor uso de los...
Transcript of Minería de Datos - tamps.cinvestav.mxhmarin/Mineria/EC1.pdf · Cómo hacer el mejor uso de los...
2
• El aumento del volumen y variedad de información que seencuentra informatizada en bases de datos digitales ha crecidoespectacularmente en la última década.
• Gran parte de esta información es histórica, es decir,representa transacciones o situaciones que se han producido.
• Aparte de su función de “memoria de la organización”, lainformación histórica es útil para predecir la informaciónfutura.
MotivaciónNuevas Necesidades del Análisis de
Grandes Volúmenes de Datos
3
• La mayoría de decisiones de empresas, organizaciones einstituciones se basan también en información de experienciaspasadas extraídas de fuentes muy diversas.
• las decisiones colectivas suelen tener consecuencias muchomás graves, especialmente económicas, y, recientemente, sedeben basar en volúmenes de datos que desbordan lacapacidad humana.
Motivación
El área de la extracción (semi-)automática de conocimiento de bases de datos ha adquirido recientemente una importancia científica y
económica inusual
4
• Tamaño de datos poco habitual para algoritmos clásicos:• número de registros (ejemplos) muy largo (108-1012 bytes).• datos altamente dimensionales (nº de columnas/atributos):
102-104.• El usuario final no es un experto en aprendizaje automático ni
en estadística.• El usuario no puede perder más tiempo analizando los datos:
• industria: ventajas competitivas, decisiones más efectivas.• ciencia: datos nunca analizados, bancos no cruzados, etc.• personal: “information overload”...
Los sistemas clásicos de estadística son difíciles de usar y no escalan al número de datos típicos en bases de datos.
Motivación
5
Qué es la minería de datos?Witten y Frank 2000 Es el proceso de extraer conocimiento útil (patrones
útiles) y comprensible, previamente desconocido desde grandes cantidades de datos almacenados en distintas fuentes (bases de datos, textos, la web, imágenes) y formatos.
La minería de datos es también llamada Descubrimiento del Conocimiento (KDD)
Nombres alternativos Descubrimiento de conocimiento
(minando) en bases de datos (KDD), extracción de conocimiento, análisis de datos/patrones, arqueología de datos, recolección de información, inteligencia de negocios, etc.
Qué no es minería de datos? Procesamiento de consultas. Sistemas expertos o pequeños programas estadisticos
6
7
Minería de datos vs. consulta de datosConsulta de datos: e.g.
Una lista de todos los clientes quienes usan una tarjeta de crédito para comprar una PC
Una lista de todos los estudiantes que tienen un promediofinal de 7.5 o más alto y han estudiado 4 o menos semestres
Problemas de Minería de Datos: e.g. ¿Cuál es la probabilidad de que un cliente compre una PC
con tarjeta de crédito? Dadas las características de los estudiantes predecir su
promedio final ¿Cuáles son las características de los estudiantes que no se
gradúan?
Ejemplos: Qué no es minería de datos?
Qué no es minería de datos?
– Buscar un número telefónico en el directorio telefónico
–Consultar un motor de busqueda web por información acerca de “Amazon”
Qué es la minería de datos?
– Ciertos nombres tienden a prevalecer más en ciertas locaciones de USA (O’Brien, O’Rurke, O’Reilly… in Boston area)– Agrupar documentos similares obtenidos por el motor de búsqueda de acuerdo a su contexto (e.g. Amazon rainforest, Amazon.com,)
9
Ejemplo de patrones descubiertos
Reglas de asociación:“80% de los clientes que compra queso y
leche también compra pan, y el 5% de los clientes que compra los 3 articulos juntos
Queso, leche Pan [sup =5%, confid=80%]
Campo multidiciplinario Es un campo multidisciplinario de las ciencias de la
computación que puede ayudarse de los sistemas de bases de datos para el manejo de grandes volúmenes de datos, el apoyo de métodos estadísticos para el diseño de hipótesis y modelos matemáticos que con la ayuda de algunas técnicas de la inteligencia artificial, llevan a cabo la generación y refinamiento de tales modelos.
10
¿Qué es la minería de datos?
11
Minería de datosDr. Francisco J. Mata
Campos relacionados
Minería de datos
InteligenciaArtificial(“MachineLearning”)
Estadística
Bases deDatos
Graficación yvisualización
Ciencias dela información
Otrasdisciplinas
13
Minería de datosDr. Francisco J. Mata
Principales tareas de la minería de datos
Problemas de minería de datos pueden clasificarse en las siguientes categorías Clasificación Estimación Pronóstico Asociación Agrupación o segmentación
14
Principales tareas de la minería de datos
Clasificación:Patrones de minería que puedan clasificar
futuros datos en clases conocidas.
Reglas de asociaciónEn minería cualquier reglas de la forma X
Y, donde X y Y son conjuntos de elementos (datos).
Clustering o agrupaciónIdentificando un conjunto de grupos
similares en los datos
15
Principales tareas de la minería de datos
Patrones secuenciales en minería:Una regla secuencias: A B, establece que el
evento A será inmediantemante seguido por el evento B con cierta confianza
Detección de desviación o estimación: Descubrimiento de los cambios más significativos en
los datos
Visualización de datos: Usando metodos gráficos para mostrar patrones en los datos.
16
Clasificación
Examinar las características de un nuevo objeto y asignarle una clase o categoría de acuerdo a un conjunto de tales objetos previamente definido
Ejemplos: Clasificar clientes como bueno y malo Detectar reclamos fraudulentos de seguros
17
Estimación
Relacionado con clasificación Mientras clasificación asigna un valor
discreto, estimación produce un valor continuo
Ejemplos: Estimar el precio de una vivienda Estimar el ingreso total de una familia
18
Pronóstico
Predecir un valor futuro con base a valores pasados
Ejemplos: Predecir cuánto efectivo requerirá un
cajero automático en un fin de semana
19
Asociación
Determinar cosas u objetos que van juntos
Ejemplo: Determinar que productos se adquieren
conjuntamente en un supermercado
20
Agrupación o segmentación
Dividir una población en un número de grupos más homogéneos
No depende de clases pre-definidas a diferencia de clasificación
Ejemplo: Dividir la base de clientes de acuerdo con
los hábitos de consumo
21
¿Porqué la minería de datos es importante?
Las empresas producen gran cantidad de datos y necesitan de sistemas de computarización rápida
Cómo hacer el mejor uso de los datos? Una creciente toma de conciencia: el
descubrimiento de conocimiento a partir de datos se puede utilizar para obtener una ventaja competitiva
22
¿Porqué la minería de datos es necesaria?
Hay una gran brecha entre los datos almacenados y el conocimiento; y la transición no se produce de forma automática.
Muchas cosas interesantes que se desean encontrar no se puede encontrar usando consultas de bases de datos “¿Qué personas que podrían comprar mis productos ? " "¿Quiénes son propensos a responder a mi promoción ? "
¿Qué motivó a la minería de datos?
Coleccion de datos y disponibilidad de datos
Herramientas de coleccion de datos automatizadas, sistemas de bases de datos, la Web, la sociedadcomputarizada
Fuentes principals de datos abundantes
Negocios: Web, e-commerce, transacciones, …
Ciencia: Remote sensing, bioinformatics, scientific simulation, …
Society and everyone: news, digital cameras, YouTube
23
¿Qué motivó a la minería de datos?
Nos estamos ahogando en datos, pero estamos hambrientos de conocimiento!
24
25
¿Porqué aplicar la minería de datos?
Los datos se encuentran disponibles Los datos son almacenados El poder de computo es cada vez
menos costoso Las presiones competitivas son enormes Software para minería de datos se
encuentra disponible
Aplicaciones de la minería de datos
Marketing, perfiles y retención de clientes, identificación de clientes potenciales, segmentación del mercado.
Detección de fraudes Identificación de fraude de tarjetas de
crédito, detección de intrusos Texto y minería web Análisis de datos científicos Cualquier aplicación que implica una
gran cantidad de datos 26
AplicacionesEjemplo 1: Análisis de créditos bancariosUn banco desea obtener reglas para predecir cuales de sus nuevos clientes que solicitan un crédito tienen mayor probabilidad de devolverlo con la finalidad de reducir sus perdidas. Para ello se desea construir un modelo a partir de la historia crediticia de sus clientes anteriores.
27
Una técnica de minería de datos podría generar algunas reglas, por ejemplo:
El banco podría entonces determinar las acciones a realizar en el trámite de los créditos: si se concede o no el crédito solicitado
28
AplicacionesEjemplo 2: Análisis de la cesta de la compra En un supermercado se desea ubicar a los productos
tal que los clientes puedan ubicar en zonas cercanas los productos que generalmente compran en conjunto. Se cuenta con una tabla que contiene como campos a los productos principales y registros si el cliente i-esimo compro o no tal producto.
29
Un modelo de minería de datos podría encontrar que siempre que se compran pañales también se compra leche, lo mismo con el vino y sodas, por lo que esos productos podrían ubicarse cerca, pero pueden estar lejos del aceite, el huevo y la mantequilla, otros productos que se acostumbran comprar juntos. 30
AplicacionesEjemplo 3: Determinar ventas de un productoEn una tienda de electrodomésticos se desea optimizar el funcionamiento de su almacén para satisfacer a los clientes, sin generar costos extras por el almacenaje innecesario de productos, es decir se desea tener los productos solo en el momento adecuado. Para ello se cuenta con el registro de ventas mensuales de cada producto de los últimos doce meses.
31
Un modelo de minería de datos podría determinar que en diciembre de cada año las ventas se incrementan.
También podría encontrar que cuando comienza el año las ventas bajan, con excepcion del iPod Touch, que posiblemente es causa de que es un regalo común para los jóvenes el de reyes.
Del mismo modo se incrementan conforme el mes de mayo se acerca por motivo del día de las madres.
Un modelo de regresión permitiría realizar un estimado adecuado de la cantidad de productos a almacenar por mes. 32
33
Ejemplo 4: Determinar grupos diferenciados de empleados•Una empresa desea categorizar a sus empleados en distintos grupos con el objetivo de entender mejor su comportamiento y tratarlos de manera adecuada•Tenemos estos datos de los empleados:
#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo1 10000 Sí No 0 Alquiler No 7 15 H2 20000 No Sí 1 Alquiler Sí 3 3 M3 15000 Sí Sí 2 Prop Sí 5 10 H4 30000 Sí Sí 1 Alquiler No 15 7 M5 10000 Sí Sí 0 Prop Sí 1 6 H6 40000 No Sí 0 Alquiler Sí 3 16 M7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M9 20000 Sí Sí 3 Prop No 7 5 H10 30000 Sí Sí 2 Prop No 1 20 H11 50000 No No 0 Alquiler No 2 12 M12 8000 Sí Sí 2 Prop No 3 1 H13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H15 8000 No Sí 0 Alquiler No 3 2 H
34
Un modelo de minería de datos podría obtener tres grupos con la siguiente descripción:
cluster 1: 5 examplesSueldo : 22600Casado : No -> 0.8
Sí -> 0.2Coche : No -> 0.8
Sí -> 0.2Hijos : 0Alq/Prop : Alquiler -> 1.0Sindic. : No -> 0.8
Sí -> 0.2Bajas/Año : 8Antigüedad : 8Sexo : H -> 0.6
M -> 0.4
cluster 2: 4 examplesSueldo : 22500Casado : No -> 1.0Coche : Sí -> 1.0Hijos : 0Alq/Prop : Alquiler -> 0.75
Prop -> 0.25Sindic. : Sí -> 1.0Bajas/Año : 2Antigüedad : 8Sexo : H -> 0.25
M -> 0.75
cluster 3: 6 examplesSueldo : 18833Casado : Sí -> 1.0Coche : Sí -> 1.0Hijos : 2Alq/Prop : Alquiler -> 0.17
Prop -> 0.83Sindic. : No -> 0.67
Sí -> 0.33Bajas/Año : 5Antigüedad : 8Sexo : H -> 0.83
M -> 0.17
• GRUPO 1: Sin hijos y de alquiler. Poco sindicados. Muchas bajas.• GRUPO 2: Sin hijos y con coche. Muy sindicados. Pocas bajas. Normalmente de alquiler y mujeres.
• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.
Ejercicio
Equipos: 3 personas máximo Objetivos:
Identificar situaciones concretas para utilizar la minería de datos (10 minutos)
Reportar a la clase verbalmente (3 minutos) Las situaciones identificadas Tipo de aplicación o problema de minería de
datos relacionado Los beneficios esperados de aplicar la minería
de datos35
36
Comercio/Marketing: - Identificar patrones de compra de los clientes.- Buscar asociaciones entre clientes y características demográficas. - Predecir respuesta a campañas de mailing.- Análisis de cestas de la compra.
Banca: - Detectar patrones de uso fraudulento de tarjetas de crédito. - Identificar clientes leales.- Predecir clientes con probabilidad de cambiar su afiliación. - Determinar gasto en tarjeta de crédito por grupos.- Encontrar correlaciones entre indicadores financieros.- Identificar reglas de mercado de valores a partir de históricos.
Seguros y Salud Privada: - Análisis de procedimientos médicos solicitados conjuntamente. - Predecir qué clientes compran nuevas pólizas.- Identificar patrones de comportamiento para clientes con riesgo. - Identificar comportamiento fraudulento.
Transportes: - Determinar la planificación de la distribución entre tiendas.- Analizar patrones de carga.
Áreas de Aplicación. Problemas Tipo.KDD para toma de decisiones (Dilly 96)
37
Medicina:- Identificación de terapias médicas satisfactorias para diferentes enfermedades.- Asociación de síntomas y clasificación diferencial de patologías.- Estudio de factores (genéticos, precedentes, hábitos, alimenticios, etc.) de
riesgo/salud en distintas patologías.- Segmentación de pacientes para una atención más inteligente según su grupo.- Predicciones temporales de los centros asistenciales para el mejor uso de
recursos, consultas, salas y habitaciones.- Estudios epidemiológicos, análisis de rendimientos de campañas de
información, prevención, sustitución de fármacos, etc.
Áreas de Aplicación. Problemas Tipo.KDD para toma de decisión
38
- Extracción de modelos sobre comportamiento de compuestos.- Detección de piezas con trabas.- Predicción de fallos- Modelos de calidad.- Estimación de composiciones óptimas en mezclas.- Extracción de modelos de coste.- Extracción de modelos de producción.- Simulación costes/beneficios según niveles de calidad
Áreas de Aplicación. Problemas Tipo.KDD para Procesos Industriales