Proyecto de Grado - Idetem

15
Proyecto de Grado - Idetem Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa

description

Proyecto de Grado - Idetem. Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa. El Desafio. Desarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase. - PowerPoint PPT Presentation

Transcript of Proyecto de Grado - Idetem

Page 1: Proyecto de Grado -  Idetem

Proyecto de Grado - IdetemMartin BarretoRicardo Bedat

Docentes: Juanjo Prada – Aiala Rósa

Page 2: Proyecto de Grado -  Idetem

El DesafioDesarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase.

Se pretende que el sistema sea capas de identificar secciones de texto, que contengan la información deseada, aunque esta no sea explicita.

Por ejemplo: Dada la frase “Aumento en los precios del combustible” sea capas de devolver porciones del documento que contengan: • “Suba del combustible”• “Subió el valor del combustible”• “Aumentó el barril de petróleo”• Etc.

Page 3: Proyecto de Grado -  Idetem

Consulta: • “Información”

EL ProblemaDOCUMENTO:El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información , debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.

Page 4: Proyecto de Grado -  Idetem

Consulta: • La cantidad de

información ha sufrido un gran aumento

• Problemas al crear un programa

• Recuperación de información.

EL ProblemaDOCUMENTO:El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información, debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.

Page 5: Proyecto de Grado -  Idetem

Objetivo:◦ Investigación del estado del arte de los sistemas

de recuperación y extracción de información.◦ Desarrollo de un sistema de extracción de

información temática.◦ Integrar el sistema desarrollado al sistema

Lavinia.◦ Analizar los resultados obtenidos.

Proyecto Idtem

Page 6: Proyecto de Grado -  Idetem

Se analizaron trabajos relacionados, para el Inglés.

Se analizaron herramientas de utilidad para el desarrollo del proyecto.

Se obtuvo una versión de WordNet para el Español.

Se hicieron prototipos de uso de las herramientas.

Se inició con el Diseño del software. Actualmente se está comenzando la

implementación.

Estado actual del proyecto

Page 7: Proyecto de Grado -  Idetem

Escaso material relacionado. Pocas herramientas de software libre. No se encontró ningún sistema que

solucione el problema planteado.

Dificultades encontradas

Page 8: Proyecto de Grado -  Idetem

Primera Versión de la Arquitectura

En el fondo se busca encontrar un algoritmo.

Page 9: Proyecto de Grado -  Idetem

Primera Versión de la Arquitectura

Divide y vencerás

Dividimos el sistema en sub componentes encargados de resolver una función especifica.

Page 10: Proyecto de Grado -  Idetem

Primera Versión de la Arquitectura

Los componentes resuelven una función, pero existen varias formas de cumplir esta función, cada una con ventajas y desventajas

Page 11: Proyecto de Grado -  Idetem

Primera Versión de la Arquitectura

Integrar a Lavinia

Page 12: Proyecto de Grado -  Idetem

Primera Versión de la Arquitectura

Contenedor UIMA para permitir la integración con LAVINIA

Page 13: Proyecto de Grado -  Idetem

Primera Versión de la Arquitectura

Cada componente individual puede ser integrado a LAVINA

Page 14: Proyecto de Grado -  Idetem

1. El uso de un dominio restringido o un dominio global.

2. Expansión de consultas.3. El uso de diccionarios.4. Algoritmos de aprendizaje automático o

basados en reglas parametrizables.5. Definición de la estructura de datos para

la comunicación entre los diferentes componentes

Decisiones a tomar

Page 15: Proyecto de Grado -  Idetem

Implementación de la plataforma principal. Desarrollo de los componentes Desarrollo de los algoritmos específicos Desarrollo de la solución. Testear y evaluar los resultados. Documentar hasta que el verdirrojo sea

campeón de la liga.

Coming next…