Extracción, transformación y almacenamiento de información ...
Seminario de Extracción de Información
description
Transcript of Seminario de Extracción de Información
Seminario de Extracción de Información
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos
2
INDICE1. Problemática2. ¿ Qué es DAPPER3. ¿ Cómo crear un Dapp?4. ¿ Cómo usar un Dapp?5. Dos ejemplos prácticos6. Características Interesantes7. Algunos problemas de DAPPER
3
ProblemáticaEn 2008, alrededor de 160 millones de webs
Estructura heterogénea y dinámica
Datos semi-estructurados
Desarrollo manual de wrappers◦ Especializado por web◦ Muy costoso de desarrollar◦ Todavía más de mantener
4
¿Qué es DAPPER?Herramienta de Extracción de
Información desde Internet
5
¿Qué es DAPPER?Servicio web, gratuito (registro)No es necesario programar (entorno visual)Fases:
◦1 desarrollo del Dapp para una web◦∞ usos del Dapp sobre diferentes webs
Nos permitirá:◦Extraer la información requerida de una web◦Utilizarla de diferentes modos
6
¿Cómo crear un DAPP?1. Varias muestras de webs con la
misma estructura
7
¿Cómo crear un DAPP?
8
¿Cómo crear un DAPP?1. Varias muestras de webs con la
misma estructura2. Definir información que queremos
9
¿Cómo funciona DAPPER?TITULARSUBTITULAR
CUERPO
10
¿Cómo crear un DAPP?1. Varias muestras de webs con la
misma estructura2. Definir información que queremos3. DAPPER aprende y propone
automáticamente• Información estática / dinámica• Estructura y etiquetas HTML (XPATH)
4. Refinamos el Dapp5. Guardamos el Dapp
11
¿Cómo usar un DAPP? Suscribirnos mediante un lector
◦ RSS Feed (formato de redifusión de fuentes web)
◦ Atom Feed
Ponerlo en nuestra página web◦ Gadget Google◦ Módulo Netvibes◦ Widget en flash
12
¿Cómo usar un DAPP? Usarlo desde un lenguaje de
programación◦ XML◦ JSON◦ YAML, XSL, CSV …
Otros◦ iCal◦ Google Map
13
Ejemplo Práctico IExtraer información de noticias
del diario MARCA◦Titular◦Subtitular◦Cuerpo
Crear un widget para mi página web
14
Ejemplo Práctico IICrear un buscador que use yahoo
Crear un gadget para iGoogle
15
Características Interesantes
Uso de variables de entrada◦ Query para un buscador
Creación de alertas◦ Email cuando en cuerpo de noticia aparezca “Rubén
Izquierdo”
Enlazar varios Dapp◦ Dapp buscador inglés Dapp traductor
Explotación de Dapp’s◦ API JAVA◦ Python…
16
Algunos problemas de DAPPERNo funciona con flash
Algunas web bloquean al robot de DAPPER
Limitación hits/segundo
Se ejecuta en el servidor de Yahoo◦Dependencia de Yahoo◦Dependencia de la carga de la red
¿Sugerencias? ¿Preguntas?
DAPPER: The Data Mapper
Rubén Izquierdo BeviáDepartamento de Lenguajes y Sistemas Informáticos