Data Mining

Post on 12-Jun-2015

534 views 2 download

Transcript of Data Mining

Lic. Ernesto Mislejernesto@7puentes.com - @fetnelio AETTI 2012Agosto 2012 – Tucumán –Argentina 7puentes.com

Data Mining@AETTI 2012

Motivaciones

Muchos datos (digitales y disponibles) - Web data (contenido y uso) - comercio electrónico, transacciones bancarias- Sensores, satélites, telescópios, simulaciones - Bioinformática- Social media- Mobile

Computadoras/procesamiento baratas- procesamiento en la nube (PASS)- poder de cómputo en una desktop

Empresas cuyo valor reside en el uso inteligente de los datos generados por sus clientes. Amazon, Facebook, Google, Linkedin, Netflix

7puentes.com Data Mining

Data Science & Big Data

7puentes.com Data Mining

Nueva generación de problemas- Web & Social media- Mobile- Sistemas de Recomendación

El Científico de Datos (data scientist)- Formación en IA, estadísticas, algoritmos, base de datos, gestión proyectos, arquitecturas distribuidas, visualización de datos.- Maestrías de DM en Argentina- Cursos online de 1er nivel. Stanford, MIT, Udacity

Competitions- Netflix prize- Kaggle & Infochimps

Maestría en Explotación de Datos y

Descubrimiento del Conocimiento

7puentes.com Data Mining

Objetivos:- Formación Carrera de Especialización y Maestría- Investigación : Proyectos- Consultoría: Cooperación y complementación- Jornadas de DM: +250 inscriptos x año

Títulos- Carrera de especialización: 1 AñoEspecialista una vez aprobadas las seis asignaturas del primer año.- - Maestría: 1 Año AdicionalMagister aprobadas las seis asignaturas de segundo año y la defensa de una Tesis- Matrícula: +50 inscriptos anuales

Maestría en Explotación de Datos y

Descubrimiento del Conocimiento

7puentes.com Data Mining

Admisión:- Graduados de la UBA con titulo de grado de carreras de cuatro años de duración y graduados de otras instituciones con títulos equivalentes,- Graduados de carreras de duración menor luego de aprobar prerrequisitos o cursos de nivelación- Importante :Vocación interdisciplinaria de la Maestría.

Dictado:- Presencial- Clases Teórico-Prácticas- Asistencia no- obligatoria- Apoyo mediante la Web y prácticas de Laboratorio- Alumnos regulares y vocacionales

Pipeline KDD

7puentes.com Sistemas de Recomendación

[KNOWLEDGE]

Orígenes

7puentes.com Data Mining

Tareas

Modelos descriptivos- Reconocer patrones subyacentes en los datos y darles una explicación en español.- Cuáles son las variables que mejor explican el fenómeno

Modelos predictivos- Utilizar la evidencia para inferir comportamiento en el futuro (Lógica inductiva)- Utilizar variables conocidas para inferir el valor de las que no se conocen

7puentes.com Data Mining

Tareas

Modelos descriptivos- Clustering- Association Rule(*)- Sequential Pattern(*)

Modelos predictivos- Clasificación- Regresión- Sistemas de Recomendación

7puentes.com Data Mining

Modelo de Aprendizaje

7puentes.com Data Mining

Modelo de Aprendizaje

Aprendizaje = Mejorar la ejecución de una tarea utilizando la experiencia

-Mejorar la tarea T,

-Con la performance medida a través de las métricas P,

-Basándonos en la experiencia E.

7puentes.com Data Mining

Lógica inductiva

7puentes.com Data Mining

Clasificación / Regresión

7puentes.com Data Mining

Clasificación / Regresión: Ejemplo 1

Direct Marketing- Targeting: Reconocer dentro de una población los más propensos a comprar un producto- Utilizar historia de consumo- Modelo de clasificación {buy, not-buy}- Selección de variables - Modelo de scoring

7puentes.com Data Mining

Clasificación / Regresión: Ejemplo 2

Detección de Fraude- Reconocer casos de fraude o comportamiento sospechoso en patrones de consumo.- Tarjetas de crédito, consumos médicos, etc.- Etiquetar patrones en el pasado caracterizados como fraude- Inferir patrones de conducta similar- Modelos online. Monitoreo. Tablero de control

7puentes.com Data Mining

Clasificación / Regresión: Ejemplo 3

Customer Attrition/Churn- Reconocer la población propensa a abandonar el servicio abonado.- Empresas de servicios, CRM.- Cómo se comportaron aquellos que abandonaron el servicio? - Frecuencia de llamadas al call-center, consumos claves, poco consumo vs. altísimo consumo.- Detección de divorcios

7puentes.com Data Mining

Clasificación / Regresión: Ejemplo 4

Credit scoring- Clasificar y asignar puntaje a los abonados al servicio.- (Re)Asignación de créditos - Historia crediticia- Indicadores demográficos- Estimación de valor de cuota, mora, repago y demás indicadores

7puentes.com Data Mining

Clasificación / Regresión: Ejemplo 5

Clasificación de emails- Categorizar correos entrantes / buzones de sugerencia.- Asignación automática de responsables - Pregunta-Respuesta

7puentes.com Data Mining

Clasificación / Regresión: Ejemplo 6

Análisis de sentimiento- Clasificar documentos según su orientación subjetiva.- Minado de opiniones- Buzz monitoring en redes sociales

7puentes.com Data Mining

Clustering

7puentes.com Data Mining

Clustering: Ejemplo 1

Market Segmentation- Dividir a una población en subconjuntos con características similares- Similaridad en cuanto a patrones de consumo vs. características demográficas.- Campañas más enfocadas- Describir/Explicar los clusters - Armado de planes de telefonía celula- Clusters de sucursales o puntos de venta

7puentes.com Data Mining

Clustering: Ejemplo 2

Clustering de documentos- Dividir a un corpus en colecciones de documentos similares- Resultados de un motor de búsqueda más explicativos- Communities managers tools- Eliminación duplicados (near-duplicates)- News aggregators

7puentes.com Data Mining

Association Rule / Sequential Pattern

7puentes.com Data Mining

Rules: Ejemplo 1

Marketing & Sales- Descubir patrones de consumos asociados y construir promociones a partir de eso- Productos similares (restaurantes, libros, discos)- Productos complementarios (accesorios para el celular / consola de videojuegos)- Ciclos de vidaBásico -> deportivo -> 4 puertas -> familiar -> de lujo -> deportivo -> básico

7puentes.com Data Mining

Rules: Ejemplo 2

Mantenimiento- Descubir patrones de necesidad de productos/servicios asociados al mantenimiento- Cambio de aceite, neumáticos, cambio de correa de distribución…- Adelantarse a la necesidad de productos de mantenimiento

7puentes.com Data Mining

Rules: Ejemplo 3

Publicidad personalizada- Presentar ADs personalizados para cada cliente.- Detectar dentro de las ofertas de publicidad, la más adecuada para el usuario- Y en el contexto de consumo: a la noche, dese un dispositivo móvil, desde su casa o lugar de trabajo

7puentes.com Data Mining

Desafíos actuales

Big DataEscalabilidadArquitecturas elásticasDB & file systems distribuidos en el cloud

PrivacidadConfidenciabilidadPermisos y uso

ComplejidadDimensionalidadStreamingCalidadMúltiples fuentes

7puentes.com Data Mining

Gracias por vuestra atención

7puentes.com

Lic. Ernesto Mislejernesto@7puentes.com - @fetnelio