BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web...

13
José Hernández Orallo [email protected] Mª. José Ramírez Quintana [email protected] Cèsar Ferri Ramírez [email protected] (profesor responsable) Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información. http://www.dsic.upv.es/~jorallo/docent/master/index.html

Transcript of BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web...

Page 1: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

José Hernández Orallo [email protected]

Mª. José Ramírez Quintana [email protected]

Cèsar Ferri Ramírez [email protected] (profesor responsable)

• Máster en Ingeniería del Software, Métodos Formales y Sistemas de Información.

http://www.dsic.upv.es/~jorallo/docent/master/index.html

Page 2: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

2

Es el tercer sábado

consecutivo en el que

se desplaza a Paterna

a las 10:30

¿desea crear un

evento periódico en su

agenda?

Sí No

Información Valenbisi:

No existen bicicletas disponibles en:

UPV rectorado

Pero nuestros modelos estiman que en 30’

la probabilidad de que haya al menos una

bicicleta es del 95%.

Nuestros modelos de datos sugieren que los valores que

acaba de introducir para los campos (edad=8) y

(patología=“presbicia”) conjuntamente son anómalos.

¿Desea revisar los datos introducidos?

Revisar Continuar

Alta de paciente

Catalogue

Main Page

Our customers

Purchase

0.25

0.15

0.45

0.05

Page 3: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

3

En el contexto de IS y SI:

• Diseñar software e interfaces más inteligentes y adaptativos

• Convertir la información de la base de datos en conocimiento

• Generar reglas de negocio y ontologías automáticamente

• Analizar la web y las redes sociales

• Programar dispositivos (e.g., móviles) que aprendan del usuario

• Programar a partir de ejemplos

• Automatizar tareas que no están bien especificadas inicialmente

• ...

¿Qué tienen en común?

Page 4: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

4

• Presentar el problema del análisis inteligente y automático de la

información para el descubrimiento de conocimiento.

• Presentar las técnicas de aprendizaje automático más habituales y

conocer la idoneidad de cada una para diferentes problemas, con

especial interés en aquellas que generan modelos en formas de

reglas o de patrones comprensible.

• Reconocer la existencia de técnicas inductivas de alto nivel,

especialmente las declarativas, que permiten obtener modelos

complejos (estructurales, relacionales y/o recursivos) pero

comprensibles, a partir de los datos y de conocimiento previo.

Page 5: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

5

• Particularizar las técnicas vistas para las necesidades

específicas de la extracción de conocimiento en bases de datos

(KDD), y, en concreto, para la minería de datos (data-mining).

• Conocer las técnicas para la combinación e integración de

modelos, a través de la evaluación y adaptación de modelos

(combinación, análisis ROC, calibración, etc.)

• Adaptar la extracción automática de conocimiento a otras

fuentes de información no estructurada (textos y web) y

semiestructurada (XML), así como en aplicaciones relacionadas

(sistemas recomendadores).

Page 6: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

6

1. Introducción.

1.1. El Problema de la Extracción Automática de

Conocimiento.

1.2. Relación de Tareas y Técnicas

1.3. Técnicas que generan modelos comprensibles:

árboles de decisión y sistemas de reglas

1.4. El caso de la Minería de Datos

Page 7: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

7

2. Integración y Adaptación de Modelos

2.1. Técnicas y Medidas de Evaluación.

2.2. Análisis ROC.

2.3. Combinación de Modelos.

Page 8: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

8

3. Extracción de Conocimiento a Partir de Información No

Estructurada. Minería Web

3.1. Los Problemas de la Información No Estructurada.

3.2. Extracción de Conocimiento a partir de Documentos

HTML y texto (Web content mining)

3.3. Extracción de Información semi-estructurada (XML).

3.4. Lenguajes de consulta e intercambio de conocimiento.

3.5. Extracción de Conocimiento a partir de la estructura

3.6. Extracción de Conocimiento a partir de Patrones de

Uso

3.7. Personalización y Sistemas Recomendadores

Page 9: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

9

APRENDIZAJE AUTOMÁTICO (Generales):

• Flach, P. “Machine Learning. The Art and Science of

Algorithms that Make Sense of Data” Cambridge University

Press 2012. [*]

• Ethem Alpaydin “Introduction to Machine Learning, Second

Edition (Adaptive Computation and Machine Learning)” The

MIT Press, 2010 [B 4-63/01093]

• T. Hastie, R. Tibshirani, J. Friedman “The Elements of

Statistical Learning: Data Mining, Inference and Prediciton”,

Springer 2009, [*] (2013 version freely available here:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/)

• Thornton, Chris “Truth from Trash. How Learning Makes

Sense” The MIT Press (A Bradford Book), 2000. [4-63/897B] [*]

Page 10: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

10

APRENDIZAJE DECLARATIVO (ILP, IFLP, …) Y RELACIONAL:

• De Raedt, L. “Logical and Relational Learning” Springer 2010. [*]

• Getoor, L.; Taskar, B. “Introduction to Statistical Relational

Learning”, MIT 2007. [*]

• Dzeroski, S.; Lavrac, N. “Relational Data Mining” Springer 2001. [D-

SIC/3347] [*]

Page 11: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

11

DATA-MINING Y KDD:

• Berthold, M.; Hand, D.J. (ed) “Intelligent Data Analysis. An

Introduction” Springer 1999. (2nd Edition 2002). [D-SIC/3346] [*]

• Dunham, M.H. “Data Mining. Introductory and Advanced

Topics” Prentice Hall, 2003. [DSIC/3475D][*]

• Han, J.; Kamber, M. “Data Mining: Concepts and Techniques”

Morgan Kaufmann, 2001. [D-SIC/3274] [*]

• Hand, D.J.; Mannila, H. and Smyth, P. “Principles of Data

Mining”, The MIT Press, 2000. [D-SIC/3349] [*]

• Hernández, J.; Ramírez, M.J.; Ferri, C. “Introducción a la

Minería de Datos”, Prentice Hall / Addison Wesley, 2004. [*]

• Witten, I.H.; Frank, E. “Data Mining. Practical Machine Learning

Tools and Techniques ”, Morgan Kaufmann, 2nd Edition, 2005.

[D-SIC/3281] [*]

Page 12: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

12

XML, Datos Semiestructurados, Web Mining

• Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents

and Usage Data, Second Edition, Springer 2009. [*]

• Kosala, R.; Blockeel, H. “Web Mining Research: A Survey”

ACM SIGKDD Explorations, Newsletter of the ACM Special

Interest Group on Knowledge Discovery and Data Mining,

June 2000, Vol. 2, nº1, pp. 1-15. [D-SIC/ ] [*]

• Chakrabarti, S. “Mining the Web: Discovering Knowledge from

Hypertext Data” Morgan-Kaufmann 2003.[D-SIC/3530] [*]

Page 13: BASES DE DATOSjosephorallo.webs.upv.es/docent/master/pres.pdf · XML, Datos Semiestructurados, Web Mining • Liu, B. “Web Data Mining”, Exploring Hyperlinks, Contents and Usage

13

Dos posibilidades:

• Presentaciones de artículos científicos (originales o surveys) al

final del cuatrimestre: • Cualquier artículo relacionado con la asignatura y, si es posible,

relacionado con el campo de interés o tesis del estudiante.

• Presentaciones de 15’ + preguntas.

• Se valorará:

• Crítica del artículo: puntos fuertes, puntos débiles

• Relación con la asignatura

• Realización de un trabajo práctico con WEKA u otra herramienta

de análisis de datos (R, Rapidminer, SPSS Modeler, etc.). • La presentación el trabajo práctico será opcional, y se valorará

positivamente.

En ambos casos, la elección del artículo o el tema del trabajo práctico deberán

obtener el visto bueno por parte de los profesores de la asignatura.