Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá...

Post on 26-Jan-2015

10 views 3 download

Transcript of Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá...

Seminario de Extracción de Información

DAPPER: The Data Mapper

Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos

ruben@dlsi.ua.es

2

INDICE

1. Problemática2. ¿ Qué es DAPPER3. ¿ Cómo crear un Dapp?4. ¿ Cómo usar un Dapp?5. Dos ejemplos prácticos6. Características Interesantes7. Algunos problemas de DAPPER

3

Problemática

En 2008, alrededor de 160 millones de webs

Estructura heterogénea y dinámica

Datos semi-estructurados

Desarrollo manual de wrappers◦ Especializado por web◦ Muy costoso de desarrollar◦ Todavía más de mantener

4

¿Qué es DAPPER?

Herramienta de Extracción de Información desde Internet

5

¿Qué es DAPPER?

Servicio web, gratuito (registro)No es necesario programar (entorno

visual)Fases:

◦1 desarrollo del Dapp para una web◦∞ usos del Dapp sobre diferentes webs

Nos permitirá:◦Extraer la información requerida de una web◦Utilizarla de diferentes modos

6

¿Cómo crear un DAPP?

1. Varias muestras de webs con la misma estructura

7

¿Cómo crear un DAPP?

8

¿Cómo crear un DAPP?

1. Varias muestras de webs con la misma estructura

2. Definir información que queremos

9

¿Cómo funciona DAPPER?TITULA

RSUBTITULAR

CUERPO

10

¿Cómo crear un DAPP?

1. Varias muestras de webs con la misma estructura

2. Definir información que queremos

3. DAPPER aprende y propone automáticamente• Información estática / dinámica• Estructura y etiquetas HTML (XPATH)

4. Refinamos el Dapp5. Guardamos el Dapp

11

¿Cómo usar un DAPP?

Suscribirnos mediante un lector◦ RSS Feed (formato de redifusión de fuentes

web)

◦ Atom Feed

Ponerlo en nuestra página web◦ Gadget Google◦ Módulo Netvibes◦ Widget en flash

12

¿Cómo usar un DAPP?

Usarlo desde un lenguaje de programación

◦ XML◦ JSON◦ YAML, XSL, CSV …

Otros◦ iCal◦ Google Map

13

Ejemplo Práctico IExtraer información de noticias

del diario MARCA◦Titular◦Subtitular◦Cuerpo

Crear un widget para mi página web

14

Ejemplo Práctico IICrear un buscador que use yahoo

Crear un gadget para iGoogle

15

Características Interesantes

Uso de variables de entrada◦ Query para un buscador

Creación de alertas◦ Email cuando en cuerpo de noticia aparezca

“Rubén Izquierdo”

Enlazar varios Dapp◦ Dapp buscador inglés Dapp traductor

Explotación de Dapp’s◦ API JAVA◦ Python…

16

Algunos problemas de DAPPER

No funciona con flash

Algunas web bloquean al robot de DAPPER

Limitación hits/segundo

Se ejecuta en el servidor de Yahoo◦Dependencia de Yahoo◦Dependencia de la carga de la red

¿Sugerencias? ¿Preguntas?

DAPPER: The Data Mapper

Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos

ruben@dlsi.ua.es