Data Mining

28
Lic. Ernesto Mislej [email protected] - @fetnelio AETTI 2012 Agosto 2012 – Tucumán – Argentina 7puentes.com Data Mining @AETTI 2012

Transcript of Data Mining

Page 1: Data Mining

Lic. Ernesto [email protected] - @fetnelio AETTI 2012Agosto 2012 – Tucumán –Argentina 7puentes.com

Data Mining@AETTI 2012

Page 2: Data Mining

Motivaciones

Muchos datos (digitales y disponibles) - Web data (contenido y uso) - comercio electrónico, transacciones bancarias- Sensores, satélites, telescópios, simulaciones - Bioinformática- Social media- Mobile

Computadoras/procesamiento baratas- procesamiento en la nube (PASS)- poder de cómputo en una desktop

Empresas cuyo valor reside en el uso inteligente de los datos generados por sus clientes. Amazon, Facebook, Google, Linkedin, Netflix

7puentes.com Data Mining

Page 3: Data Mining

Data Science & Big Data

7puentes.com Data Mining

Nueva generación de problemas- Web & Social media- Mobile- Sistemas de Recomendación

El Científico de Datos (data scientist)- Formación en IA, estadísticas, algoritmos, base de datos, gestión proyectos, arquitecturas distribuidas, visualización de datos.- Maestrías de DM en Argentina- Cursos online de 1er nivel. Stanford, MIT, Udacity

Competitions- Netflix prize- Kaggle & Infochimps

Page 4: Data Mining

Maestría en Explotación de Datos y

Descubrimiento del Conocimiento

7puentes.com Data Mining

Objetivos:- Formación Carrera de Especialización y Maestría- Investigación : Proyectos- Consultoría: Cooperación y complementación- Jornadas de DM: +250 inscriptos x año

Títulos- Carrera de especialización: 1 AñoEspecialista una vez aprobadas las seis asignaturas del primer año.- - Maestría: 1 Año AdicionalMagister aprobadas las seis asignaturas de segundo año y la defensa de una Tesis- Matrícula: +50 inscriptos anuales

Page 5: Data Mining

Maestría en Explotación de Datos y

Descubrimiento del Conocimiento

7puentes.com Data Mining

Admisión:- Graduados de la UBA con titulo de grado de carreras de cuatro años de duración y graduados de otras instituciones con títulos equivalentes,- Graduados de carreras de duración menor luego de aprobar prerrequisitos o cursos de nivelación- Importante :Vocación interdisciplinaria de la Maestría.

Dictado:- Presencial- Clases Teórico-Prácticas- Asistencia no- obligatoria- Apoyo mediante la Web y prácticas de Laboratorio- Alumnos regulares y vocacionales

Page 6: Data Mining

Pipeline KDD

7puentes.com Sistemas de Recomendación

[KNOWLEDGE]

Page 7: Data Mining

Orígenes

7puentes.com Data Mining

Page 8: Data Mining

Tareas

Modelos descriptivos- Reconocer patrones subyacentes en los datos y darles una explicación en español.- Cuáles son las variables que mejor explican el fenómeno

Modelos predictivos- Utilizar la evidencia para inferir comportamiento en el futuro (Lógica inductiva)- Utilizar variables conocidas para inferir el valor de las que no se conocen

7puentes.com Data Mining

Page 9: Data Mining

Tareas

Modelos descriptivos- Clustering- Association Rule(*)- Sequential Pattern(*)

Modelos predictivos- Clasificación- Regresión- Sistemas de Recomendación

7puentes.com Data Mining

Page 10: Data Mining

Modelo de Aprendizaje

7puentes.com Data Mining

Page 11: Data Mining

Modelo de Aprendizaje

Aprendizaje = Mejorar la ejecución de una tarea utilizando la experiencia

-Mejorar la tarea T,

-Con la performance medida a través de las métricas P,

-Basándonos en la experiencia E.

7puentes.com Data Mining

Page 12: Data Mining

Lógica inductiva

7puentes.com Data Mining

Page 13: Data Mining

Clasificación / Regresión

7puentes.com Data Mining

Page 14: Data Mining

Clasificación / Regresión: Ejemplo 1

Direct Marketing- Targeting: Reconocer dentro de una población los más propensos a comprar un producto- Utilizar historia de consumo- Modelo de clasificación {buy, not-buy}- Selección de variables - Modelo de scoring

7puentes.com Data Mining

Page 15: Data Mining

Clasificación / Regresión: Ejemplo 2

Detección de Fraude- Reconocer casos de fraude o comportamiento sospechoso en patrones de consumo.- Tarjetas de crédito, consumos médicos, etc.- Etiquetar patrones en el pasado caracterizados como fraude- Inferir patrones de conducta similar- Modelos online. Monitoreo. Tablero de control

7puentes.com Data Mining

Page 16: Data Mining

Clasificación / Regresión: Ejemplo 3

Customer Attrition/Churn- Reconocer la población propensa a abandonar el servicio abonado.- Empresas de servicios, CRM.- Cómo se comportaron aquellos que abandonaron el servicio? - Frecuencia de llamadas al call-center, consumos claves, poco consumo vs. altísimo consumo.- Detección de divorcios

7puentes.com Data Mining

Page 17: Data Mining

Clasificación / Regresión: Ejemplo 4

Credit scoring- Clasificar y asignar puntaje a los abonados al servicio.- (Re)Asignación de créditos - Historia crediticia- Indicadores demográficos- Estimación de valor de cuota, mora, repago y demás indicadores

7puentes.com Data Mining

Page 18: Data Mining

Clasificación / Regresión: Ejemplo 5

Clasificación de emails- Categorizar correos entrantes / buzones de sugerencia.- Asignación automática de responsables - Pregunta-Respuesta

7puentes.com Data Mining

Page 19: Data Mining

Clasificación / Regresión: Ejemplo 6

Análisis de sentimiento- Clasificar documentos según su orientación subjetiva.- Minado de opiniones- Buzz monitoring en redes sociales

7puentes.com Data Mining

Page 20: Data Mining

Clustering

7puentes.com Data Mining

Page 21: Data Mining

Clustering: Ejemplo 1

Market Segmentation- Dividir a una población en subconjuntos con características similares- Similaridad en cuanto a patrones de consumo vs. características demográficas.- Campañas más enfocadas- Describir/Explicar los clusters - Armado de planes de telefonía celula- Clusters de sucursales o puntos de venta

7puentes.com Data Mining

Page 22: Data Mining

Clustering: Ejemplo 2

Clustering de documentos- Dividir a un corpus en colecciones de documentos similares- Resultados de un motor de búsqueda más explicativos- Communities managers tools- Eliminación duplicados (near-duplicates)- News aggregators

7puentes.com Data Mining

Page 23: Data Mining

Association Rule / Sequential Pattern

7puentes.com Data Mining

Page 24: Data Mining

Rules: Ejemplo 1

Marketing & Sales- Descubir patrones de consumos asociados y construir promociones a partir de eso- Productos similares (restaurantes, libros, discos)- Productos complementarios (accesorios para el celular / consola de videojuegos)- Ciclos de vidaBásico -> deportivo -> 4 puertas -> familiar -> de lujo -> deportivo -> básico

7puentes.com Data Mining

Page 25: Data Mining

Rules: Ejemplo 2

Mantenimiento- Descubir patrones de necesidad de productos/servicios asociados al mantenimiento- Cambio de aceite, neumáticos, cambio de correa de distribución…- Adelantarse a la necesidad de productos de mantenimiento

7puentes.com Data Mining

Page 26: Data Mining

Rules: Ejemplo 3

Publicidad personalizada- Presentar ADs personalizados para cada cliente.- Detectar dentro de las ofertas de publicidad, la más adecuada para el usuario- Y en el contexto de consumo: a la noche, dese un dispositivo móvil, desde su casa o lugar de trabajo

7puentes.com Data Mining

Page 27: Data Mining

Desafíos actuales

Big DataEscalabilidadArquitecturas elásticasDB & file systems distribuidos en el cloud

PrivacidadConfidenciabilidadPermisos y uso

ComplejidadDimensionalidadStreamingCalidadMúltiples fuentes

7puentes.com Data Mining

Page 28: Data Mining

Gracias por vuestra atención

7puentes.com

Lic. Ernesto [email protected] - @fetnelio