Sesión 2 [Modo de...

36
Fundamentos y Aplicaciones Prácticas del Descubrimiento de Conocimiento en Bases de Datos - Sesión 2 - Juan Alfonso Lara Torralbo 1 2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Transcript of Sesión 2 [Modo de...

Page 1: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Fundamentos y Aplicaciones Prácticas

del Descubrimiento de Conocimiento

en Bases de Datos

- Sesión 2 -

Juan Alfonso Lara Torralbo1

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 2: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Índice de contenidos (I)• Introducción a Data Mining

• Actividad. Tipos de datos

• Tipos de datos desde la perspectiva de Data

Mining

• Actividad. Relación de Data Mining con otras

áreas

• Relación de Data Mining con otras áreas

• Ejemplos preliminares de aplicación 2

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 3: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Índice de contenidos (II)

• Actividad. Dominios de aplicación

• Aplicaciones de Data Mining

• Recopilación de datos

• Selección, limpieza y transformación de datos

• Actividad. Técnicas de selección

• Selección de datos

• Actividad. Técnicas de limpieza

• Limpieza de datos 3

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 4: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Introducción a Data Mining (I)

• Dato: representación, mediante algún símbolo (número, letra, etc.), de un atributo de una determinada entidad

• Minería: arte que nada tiene que ver con la informática y que existe mucho antes que ésta

• ¿Minería de datos?

• Disciplina de la informática que estudia el análisis de grandes cantidades de datos con el objetivo de obtener conocimiento a partir de ellos 4

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 5: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Introducción a Data Mining (II)

5

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 6: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Introducción a Data Mining (III)

• 1960s• Data fishing

• Data dredging

• 1990s• Data Mining

• ¿Por qué en 1990 experimentó su gran auge?

6

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 7: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Introducción a Data Mining (IV)

• Gran cantidad de datos históricos de la operativa diaria de empresas e instituciones

• Cambio de visión

• ¿Por qué no sacar partido de esos datos? ¿Es posible obtener algo provechoso de ellos?

7

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 8: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Introducción a Data Mining (V)

• Otros factores:• Gran volumen de negocio y, por tanto, de

datos, en las empresas

• Gran cantidad de datos en las disciplinas científicas: biología, medicina, astronomía, etc.

• Aparición de Internet

• Gran capacidad de cómputo y almacenamiento a precio razonable 8

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 9: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Introducción a Data Mining (VI)

• No perdamos de vista:• DM es una fase del proceso de KDD (quizá la

más conocida, por lo que da su nombre a la disciplina)

• Fase posterior a la preparación de datos

• Genera como resultado los modelos de data mining

• Esos modelos han de ser evaluados, interpretados y, luego, utilizados 9

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 10: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Actividad. Tipo de Datos

Pensar en los diferentes tipos de datos que existen, en grupo y sin Internet

Puesta en común

10

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 11: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Tipos de datos (según Data Mining) (I)

• Los tipos de datos varían según la visión tomada:

• Booleano, string, entero, float, � Programación de alto nivel

• Data Mining establece tipos de datos según lo que representan y la forma en la que han de ser tratados en función de eso:

• Magnitudes � Cuantitativos

• Categorías � Cualitativos11

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 12: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Tipos de datos (según Data Mining) (II)

• Cuantitativos:• Discretos: Aquellos que pueden tomar un

número limitado de valores diferentes. Por ejemplo, el número de estudiantes de una clase.

• Continuos: Aquellos para los que se cumple que, para cualquier par de valores, siempre se puede encontrar un valor intermedio. Por ejemplo, el peso de una persona.

12

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 13: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Tipos de datos (según Data Mining) (III)

• Cualitativos:• Nominales: Aquellos para los cuales existe

una asignación puramente arbitraria de números o símbolos para cada una de las categorías. Por ejemplo, el color de una prenda de ropa.

• Ordinales: Aquellos para los cuales existe una relación de orden entre las categorías. Por ejemplo, el número de cita de cada paciente en la consulta de un médico. 13

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 14: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Tipos de datos (según Data Mining) (IV)

• ¿Otros datos no univaluados?

• Series temporales

• Documentos

• Datos espaciales

• Datos multimedia: sonidos, imágenes, vídeos, etc.

• Datos procedentes de la Web14

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 15: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Actividad. Relación con otras áreas

Pensar en posibles áreas y disciplinas del saber con las que Data Mining está relacionada, en grupo y sin Internet

Puesta en común

15

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 16: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Relación de Data Mining con otras áreas (I)

16

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 17: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Relación de Data Mining con otras áreas (II)

• Estadística . Muchas de las técnicas que se aplican en la minería de datos son o tienen su raíz en la estadística. De alguna manera, se podría decir que la estadística es la “madre” de la minería de datos, dado que muchos de los conceptos y técnicas de la estadística se aplican en minería de datos.

• Bases de datos . El proceso de KDD parte de datos que, habitualmente, se encuentran almacenados en bases de datos. Como se ha comentado anteriormente, dichos datos son preparados para su posterior análisis.

17

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 18: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Relación de Data Mining con otras áreas (III)

• Visualización. El objetivo final de la minería de datos es obtener conocimiento que sea útil. Para lograrlo, es un requisito fundamental que ese conocimiento pueda ser visualizado por los expertos de cada dominio. De ahí la importancia de las técnicas de visualización (diagramas, gráficos, resúmenes, etc.) en el campo de la minería de datos.

• Aprendizaje Automático. El aprendizaje automático se encuentra profundamente ligado con la minería de datos, ya que ambos, de alguna manera, persiguen la obtención de modelos por medio de mecanismos automáticos. 18

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 19: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Relación de Data Mining con otras áreas (IV)

• Otras . Además de las anteriores, la minería de datos también está relacionada con otras áreas como, por ejemplo:• Los sistemas de apoyo a la decisión

• La recuperación de información

• El tratamiento y procesamiento de señales

• …19

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 20: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (I)

• Ejemplo 1

20

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 21: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (II)

• Ejemplo 1

• Posible resultado:• Grupo 1: Hombres, jóvenes (28 años de media) sin hijos, con

un salario de unos 1200 euros, y con un consumo bajo (38,9 euros de media).

• Grupo 2: Hombres, de edad media (47 años de media) con hijos, con un salario de unos 1775 euros, y con un consumo alto (99,1 euros de media).

• Grupo 3: Mujeres, jóvenes (33 años de media) con un hijo, con un salario de unos 1250 euros, y con un consumo moderado (54,8 euros de media).

21

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 22: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (III)

• Ejemplo 2

22

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 23: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (IV)

• Ejemplo 2

• Posible resultado:• Si (Ingresos<1000) y (Edad=joven) y (Sexo=H) �

Devuelve_Préstamo = NO

23

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 24: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (V)

• Ejemplo 3

24

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 25: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (VI)

• Ejemplo 3

• Posible resultado:• Pan, Azúcar � Leche

25

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 26: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Ejemplos preliminares de aplicación (VII)

• Ejemplo 1 � Clústering

• Ejemplo 2 � Clasificación

• Ejemplo 3 � Asociación

26

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 27: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Actividad. Dominios de aplicación

Pensar en posibles dominios de aplicación de Data Mining y problemas concretos que puede resolver dentro de ellos (en grupo y sin Internet)

Puesta en común

27

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 28: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Aplicaciones de Data Mining (I)Dominio Problemas abordados con minería de datos

Negocios

− Fidelización de clientes.

− Publicidad personalizada.

− Captación de nuevos clientes.

− Aumento del volumen de ventas.

− Estudio de las tipologías de clientes.

Banca y finanzas

− Detección del uso fraudulento de tarjetas de crédito.

− Estudio de la concesión de créditos a clientes.

− Predicción de la evolución de un valor bursátil.

Compañías de seguros

− Detección de fraudes y simulaciones.

− Estudio de la concesión de coberturas a los clientes en

función de sus características.

Supermercados

− Análisis de la cesta de la compra (identificar productos que

se compran juntos).

− Ubicación de productos dentro del supermercado.

− Campañas de publicidad dirigidas.

28

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 29: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Aplicaciones de Data Mining (II)

Dominio Problemas abordados con minería de datos

Educación − Predicción de la calificación de los estudiantes.

− Mejora del proceso de enseñanza-aprendizaje.

Medicina

− Ayuda al diagnóstico de enfermedades.

− Estudio de la evolución de pacientes.

− Estudio de la efectividad de un tratamiento.

Biología, genética y otras ciencias

− Estudio de las secuencias de genes en busca de patrones

significativos.

− Predicción de catástrofes naturales.

− Predicción meteorológica.

Internet

− Análisis del comportamiento de los usuarios en la Web.

− Estudio del contenido y estructura de los sitios web.

− Detección de correo basura (spam).

− Identificación de comportamientos fraudulentos en

comercio electrónico.

29

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 30: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Recopilación de datos

• Seleccionar datos de diferentes fuentes e integrarlos en algún “lugar” que permita el análisis

• ¿Qué lugar?

• Data warehouse

• Proceso ETL

• Modelo multidimensional

• Posible esquema desnormalizado

• Los veremos más adelante … 30

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 31: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Selección, limpieza y transformación

• Una vez integrados los datos que constituyen el núcleo a analizar hay que ….

• Elegir cuáles de ellos sirven exactamente para cada tarea de data mining a abordar (Selección)

• Eliminar o minimizar el ruido o errores que puedan contener (Limpieza)

• Adaptar los datos a los algoritmos que vayamos a utilizar en la tarea de data mining a abordar (Transformación)

31

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 32: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Actividad. Técnicas de selección

Pensar en posibles técnicas o estrategias de selección de datos (en grupo y sin Internet)

Puesta en común

32

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 33: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Selección de datos (I)• Filtrado de atributos . Es posible que algunos de los

atributos de los datos a analizar no sean de interés. Por ejemplo, si se tiene información acerca de los clientes de una compañía y uno de los atributos es el DNI, es más que probable que dicho atributo deba ser filtrado ya que, de cara a un posible análisis de datos, ese atributo no aporta nada.

• Filtrado de registros . En ocasiones, el objetivo puede ser eliminar algunos de los registros almacenados. Por ejemplo, es posible que la empresa anterior sólo esté interesada, en este momento, en los clientes cuya edad es mayor que un cierto umbral.

33

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 34: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Selección de datos (II)

• Una de las razones para querer filtrar registros es trabajar con un subconjunto representativo más manejable � MUESTRA

• Tipos de Muestreo:• Muestreo aleatorio simple . En este caso, todos los elementos del

conjunto completo de datos tienen igual probabilidad de ser extraídos en la muestra.

• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que todos los grupos o estratos que conforman el conjunto de datos completo, estén representados de forma equilibrada en la muestra.

• Muestreo de grupos. En este caso, solamente se seleccionan registros pertenecientes a un grupo determinado, por ejemplo, aquellos clientes de una compañía que consuman más de 200 euros mensuales en sus productos. 34

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 35: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Actividad. Técnicas de limpieza

Pensar en posibles técnicas o estrategias de limpieza de datos (en grupo y sin Internet)

Puesta en común

35

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.

Page 36: Sesión 2 [Modo de compatibilidad]repositorio.cedia.org.ec/bitstream/123456789/965/3/Sesión_02.pdf• Muestreo aleatorio estratificado. El objetivo de este tipo de muestreo es que

Limpieza de datos• Dos motivos principales:

• Tratamiento de valores erróneos : código postal inexistente, edad en un rango absurdo, etc. � Son propios de una mala gestión de errores en la aplicación para introducir los datos

• Tratamiento de valores faltantes (missing values): atributos de los que no se tiene su valor (datos personales) � Son propios de los esquemas relacionales con atributos opcionales o, a veces, tienen significado: estado civil que no se desea desvelar, segundo apellido no existe en ciertos países, etc.

36

2014 Juan Alfonso Lara Torralbo. Todos los derechos reservados.