Download - Presentación Geolocalización Noticias (geo news).2012

Transcript
Page 1: Presentación Geolocalización Noticias (geo news).2012

Geolocalización de Noticias (GEONews)

Proyecto Fin de Grado

Julio - 2012

Guillermo Santos García

[email protected] @gsantosgo

Page 2: Presentación Geolocalización Noticias (geo news).2012

Contenido

� Introducción

� Proceso General de Geolocalización

� Arquitectura Tecnológica

� Detalles Implementación� Detalles Implementación

� Demo Aplicación

� Evaluación

� Conclusiones

� Futuros Trabajos

Page 3: Presentación Geolocalización Noticias (geo news).2012

Introducción

� Visión general de la aplicación Geolocalización de

Noticias

Page 4: Presentación Geolocalización Noticias (geo news).2012

Introducción

� Información estructurada vs no estructurada.

� Inteligencia artificial y procesamiento del lenguaje

natural (PLN).

� Extracción de la información (IE). Extracción de � Extracción de la información (IE). Extracción de

conocimiento estructurado, a partir de información

textual no estructurada en lenguaje natural.

� Reconocimiento y clasificación de entidades

nombradas (NERC). Extracción de entidades dentro

del texto y posterior clasificación en categorías

(nombres de personas, organizaciones, nombres de

lugares,..)

Page 5: Presentación Geolocalización Noticias (geo news).2012

Proceso General de Geolocalización

� Tarea 1. Captura de noticias

� Tarea 2. Reconocimiento y Clasificación de entidades

nombradas

� Tarea 3. Resolución de nombres de lugares

� Tarea 4. Visualización

Page 6: Presentación Geolocalización Noticias (geo news).2012

Proceso General de Geolocalización

� Reconocimiento y Clasificación de entidades

nombradas (NERC)� Basados en Gazetteer.

� Basados en Reglas.

� Basados en Aprendizaje Automático.Basados en Aprendizaje Automático.

“El presidente de la Generalitat valenciana, Alberto Fabra, ha trasladado al nuevo

ministro de Industria, José Manuel Soria, el rechazo de la Generalitat valenciana

ante el proyecto que propone la instalación de un cementerio nuclear en la

localidad de Zarra (Valencia).”

“El presidente de la [Generalitat valenciana] [Organization], [Alberto Fabra]

[Person], ha trasladado al nuevo ministro de Industria, [José Manuel Soria]

[Person], el rechazo de la Generalitat valenciana [Organization] ante el proyecto

que propone la instalación de un cementerio nuclear en la localidad de [Zarra]

[Location] ([Valencia] [Location]).”

Page 7: Presentación Geolocalización Noticias (geo news).2012

Proceso General de Geolocalización

� Resolución de nombres de lugaresRecibe una lista de nombres de lugares o topónimos, y debe determinar cuál es

el topónimo mas adecuado para posicionar geográficamente una noticia sobre

un mapa cartográfico.

Ej. Asturias, España � Asturias (Latitud: 43.33333, Longitud: -6)

Uso de servicio web search de Geonames para obtener coordenadas geográficas. Uso de servicio web search de Geonames para obtener coordenadas geográficas.

� Problema de ambigüedades.

� Homografía de nombres de lugares con palabras comunes.

� Homografía de nombres de lugares con nombre y apellidos de

personas.

� Homografía de nombres de lugares con el mismo nombre.

Page 8: Presentación Geolocalización Noticias (geo news).2012

Arquitectura Tecnológica

� Aplicación Web con tecnología Java/J2EE

� Tecnologías

� GWT (Google Web Toolkit).

� Google Maps

� Servicios

� Servicio RSS.

� Servicio de reconocimiento y clasificación de entidades

nombradas.

� Servicio de resolución de lugares (topónimos).

� Servicio Cache Local (Guava Cache).

Page 9: Presentación Geolocalización Noticias (geo news).2012

Arquitectura Tecnológica

� Arquitectura Web con tecnología Java/JEE

(gwtnewsgeolocation.war)

Page 10: Presentación Geolocalización Noticias (geo news).2012

Arquitectura Tecnológica

� Tecnologías empleadas

� GWT (Google Web Toolkit). Patrón MVP. Llamadas

asíncronas.

� Integración GWT con cartografía de Google Maps (acceso

API de Google Maps).API de Google Maps).

� Servicios

� Servicio RSS.

� Servicio de reconocimiento y clasificación de entidades

nombradas (GATE-ANNIE)

� Servicio de resolución de lugares (topónimos) mediante el

apoyo de los servicios Web de Geonames.

� Servicio cache local (Guava Cache).

Page 11: Presentación Geolocalización Noticias (geo news).2012

Arquitectura Tecnológica

� Arquitectura aplicación Geolocalización de Noticias

Page 12: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio RSS� Permite acceder remotamente a fuentes de información RSS para obtener y

analizar cada item (elemento) con el objetivo de extraer el título, descripción

y categorías.

� Formato RSS 2.0 (Lenguaje XML)

� Información� Información

� Titulo

� Descripción

� Categorías

� OJO!! Existen fuentes RSS con

Publicidad

Page 13: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de reconocimiento y clasificación de

entidades nombradas (NERC)

� Identificación de nombres propios dentro del texto, y

clasificación dentro de un conjunto de categorías

predefinidas de interés (nombres de personas, predefinidas de interés (nombres de personas,

organizaciones , nombres de lugares, …)

� GATE-ANNIE. Reconocedor genérico de entidades.

Page 14: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de reconocimiento y clasificación de

entidades nombradas

� Recursos de procesamiento

� ANNIE Tokenizer

� Sentence Splitter� Sentence Splitter

� Gazetteer

� Part-Of-Speech

� ANNIE NE Transducer

OJO!! Problemas de recursos disponibles en español

Page 15: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de reconocimiento y clasificación de

entidades nombradas

� GAZETTEER (Basado en listas)

� Creación e Incorporación de listas de nombres de lugares o

topónimos obtenidos a partir de Geonames (continentes, países, topónimos obtenidos a partir de Geonames (continentes, países,

aeropuertos, regiones, estados, provincias, ciudades, mares,

océanos,…)

� Creación e incorporación de listas de nombres de personas y

organizaciones obtenidos de JRCNames.

� Lista de palabras de paradas o vacías (stopwords)

� …

� ¿Qué es Geonames?

� Base de datos de topónimos (alrededor de 8 millones).

� Dispone 35 servicios Web (countryInfo, search,…)

Page 16: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de resolución de nombres de lugares

� Problema de ambigüedades

� Homografía de palabras comunes

� Homografía de nombres de personas y apellidos (Ej. Javier Solana,

Monserrat).

� Homografía de lugares con el mismo nombre.

Page 17: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de resolución de nombres de lugares

� Algoritmo de desambiguación de lugares.

� Basado en heurísticas

� Cache de continentes y países

� Implementación � Implementación

� Homografía basado en nombres de

lugares.

Ej. Asturias, España

� Paso 1. Obtención de topónimos

� Continentes, Países, Localizaciones (search)

Ej.: Asturias, España

Coordenadas Geográficas WGS84 (latitud y longitud)

Page 18: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de resolución de nombres de lugares

� Implementación

� Paso 2. Nombre de lugar con un sólo

topónimo.

� Lista de países elementos para

eliminar ambigüedades de topónimos.

Page 19: Presentación Geolocalización Noticias (geo news).2012

Detalles Implementación

� Servicio de resolución de nombres de lugares

� Implementación

� Paso 3.

� Eliminación de topónimos que no

pertenezcan a listas de países, usando

cuadro delimitador.

� Sistema de puntuación de 0..3, en función

clase característica y código característica de

Geonames.

Page 20: Presentación Geolocalización Noticias (geo news).2012

Demo Aplicación

Page 21: Presentación Geolocalización Noticias (geo news).2012

Demo Aplicación

Page 22: Presentación Geolocalización Noticias (geo news).2012

Evaluación

� Conjunto de 35 noticias nacionales.

� Conjunto de 35 noticias internacionales.

� Comparativa con servicio “Conversor RSS a GeoRSS”

de Geonames de Geonames

� Precisión o eficiencia de 35 noticias nacionales

� (0%)

� (39,39%)

� (60,61%)

GEONews Geonames

Falsamente localizadas

0% 0%

Incorrectamente localizadas

39,39% 21,21%

Correctamente localizadas

60,61% 78,79%

Page 23: Presentación Geolocalización Noticias (geo news).2012

Evaluación

� Precisión o eficiencia de 35 noticias internacionales

GEONews Geonames

Falsamente localizadas

2,86% 0%

Incorrectamente 37,14% 23,53%Incorrectamente localizadas

37,14% 23,53%

Correctamente localizadas

60,00% 76,47%

Page 24: Presentación Geolocalización Noticias (geo news).2012

Conclusiones

� Necesidad de tener un mayor conocimiento de la

información no estructurada ( Ej. representación y

posicionamiento de información geográfica )

� Campo del procesamiento del lenguaje natural (PLN)

cada vez tiene mas importancia.cada vez tiene mas importancia.

� Geolocalización de Noticias es una aplicación Web

donde se integran diversas tecnologías y

herramientas (GWT, Google Maps, Reconocedor y

Clasificador de Entidades Nombradas, Geonames, ...)

Page 25: Presentación Geolocalización Noticias (geo news).2012

Futuros Trabajos

� Soporte para formatos adicionales de alimentadores

Web (Web Feed). RSS (multiples versiones), Atom u

otros formatos actuales.

� Implementación para que la aplicación sea

completamente accesible y usable desde dispositivos completamente accesible y usable desde dispositivos

móviles.

� Mejora de la inferfaz de usuario.

� Usar otras alternativas a Google Maps (Cartografía

de OpenStreetMap).

Page 26: Presentación Geolocalización Noticias (geo news).2012

Futuros Trabajos

� Mejora del reconocimiento y clasificación de

entidades nombradas, dotándole de un mayor

rendimiento, de una mayor inteligencia y eficiencia.

� Reducción de latencia de red a servicios de

Geonames, mediante la implementación un índice Geonames, mediante la implementación un índice

con tecnología Lucene/SOLR en local.

� Mejoras en el algoritmo de desambiguación de

topónimos, mejorar el rendimiento e inclusión de

otras heurísticas.