Proyecto de Grado - Idetem
description
Transcript of Proyecto de Grado - Idetem
Proyecto de Grado - IdetemMartin BarretoRicardo Bedat
Docentes: Juanjo Prada – Aiala Rósa
El DesafioDesarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase.
Se pretende que el sistema sea capas de identificar secciones de texto, que contengan la información deseada, aunque esta no sea explicita.
Por ejemplo: Dada la frase “Aumento en los precios del combustible” sea capas de devolver porciones del documento que contengan: • “Suba del combustible”• “Subió el valor del combustible”• “Aumentó el barril de petróleo”• Etc.
Consulta: • “Información”
EL ProblemaDOCUMENTO:El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información , debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.
Consulta: • La cantidad de
información ha sufrido un gran aumento
• Problemas al crear un programa
• Recuperación de información.
EL ProblemaDOCUMENTO:El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información, debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.
Objetivo:◦ Investigación del estado del arte de los sistemas
de recuperación y extracción de información.◦ Desarrollo de un sistema de extracción de
información temática.◦ Integrar el sistema desarrollado al sistema
Lavinia.◦ Analizar los resultados obtenidos.
Proyecto Idtem
Se analizaron trabajos relacionados, para el Inglés.
Se analizaron herramientas de utilidad para el desarrollo del proyecto.
Se obtuvo una versión de WordNet para el Español.
Se hicieron prototipos de uso de las herramientas.
Se inició con el Diseño del software. Actualmente se está comenzando la
implementación.
Estado actual del proyecto
Escaso material relacionado. Pocas herramientas de software libre. No se encontró ningún sistema que
solucione el problema planteado.
Dificultades encontradas
Primera Versión de la Arquitectura
En el fondo se busca encontrar un algoritmo.
Primera Versión de la Arquitectura
Divide y vencerás
Dividimos el sistema en sub componentes encargados de resolver una función especifica.
Primera Versión de la Arquitectura
Los componentes resuelven una función, pero existen varias formas de cumplir esta función, cada una con ventajas y desventajas
Primera Versión de la Arquitectura
Integrar a Lavinia
Primera Versión de la Arquitectura
Contenedor UIMA para permitir la integración con LAVINIA
Primera Versión de la Arquitectura
Cada componente individual puede ser integrado a LAVINA
1. El uso de un dominio restringido o un dominio global.
2. Expansión de consultas.3. El uso de diccionarios.4. Algoritmos de aprendizaje automático o
basados en reglas parametrizables.5. Definición de la estructura de datos para
la comunicación entre los diferentes componentes
Decisiones a tomar
Implementación de la plataforma principal. Desarrollo de los componentes Desarrollo de los algoritmos específicos Desarrollo de la solución. Testear y evaluar los resultados. Documentar hasta que el verdirrojo sea
campeón de la liga.
Coming next…