Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de
Información PertinenteDra. Rocío Abascal-Mena
DC-2006, México
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
Introducción
Contexto: Biblioteca Digital. Instituto Nacional de Ciencias
Aplicadas de Lyon, Francia (INSA). Consulta Integral de Tesis en Red
(CITHER) Difusión de tesis en línea. Búsqueda a partir de palabras claves. Búsqueda por catálogo. Formato PDF (Portable Document Format).
Introducción
Introducción
Objetivo: Crear nuevo modelo de documentos para permitirle al usuario obtener la información pertinente.
Nuestro trabajo consiste en: Modelar la tesis durante su creación. Permitir la búsqueda de información
pertinente. Uso de “etiquetas semánticas”.
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
Propuesta para la creación de un nuevo modelo de documentos
Llamado a Nomino
Base de Conceptos
Creación manual de etiquetas
Llamado a la base
Estudiante
Tesis con las nuevas etiquetas
Tesis
Almacenamiento de la tesis
CITHER
(1) (2) (3)
Etapa 1
Etapa 2
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
Extracción de conceptos
Estudio comparativo de 4 herramientas de extracción automática de conceptos: Copernic Summarizer Nomino TerminologyExtractor Xerox Terminology Suite (XTS)
Corpus: 25 documentos científicos. Análisis basado en la “precisión” y la
“exhaustividad”.
Extracción de conceptos
La “precisión” es la proporción de documentos recuperados realmente relevantes, del total de documentos recuperados.
Precisión = Documentos relevantes recuperados
Documentos recuperados
Extracción de conceptos
La “exhaustividad” es la proporción de documentos que son relevantes en la base de datos, independientemente de que éstos se recuperen o no.
Exhaustividad = Documentos relevantes recuperados
Documentos relevantes
Extracción de conceptos
Resultados del análisis de nuestro corpus:
Concept clasificado comopertinente por el humano
Concepto clasificado como nopertinente por el humano
Concepto clasificado comopertinente por la
herramientaa b
Concepto clasificado comono pertinente por la
herramientac d
XTS Copernic
Summarizer Terminology Extractor
Nomino
Précision 0.028 (2.8%)
0.339 (33.9%)
0.068 (6.8%)
0.834 (83.4%)
Exhaustividad 0.905 (90.5%)
0.510 (51%)
0.648 (64.8%)
0.651 (65.1%)
Extracción de conceptos
Selección de Nomino como la herramienta más adecuada a nuestras necesidades.
A pesar de la calidad de las herramientas el usuario experto debe de validar los conceptos extraídos.
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
Análisis de la estructura lógica Dos tipos de análisis:
Estructura lógica Estructura semántica
Análisis de la estructura lógica: Observando la organización de la tesis
constatamos que: Siguen un plan, estructura “descomposición
lógica”. Existe una relación entre la estructura
“semántica”.
Análisis de la estructura lógica Análisis de los principales conceptos
extraídos de acuerdo a la estructura lógica Nomino se apoya en dos principios:
“ganancia al alcance”: estipula que la información es aún más importante si es rara
“ganancia a la expresividad”: clasifica los árboles en función de la información que se encuentra a su alrededor
Aplicando Nomino al corpus nos damos cuenta de que hay conceptos que se repiten mucho y que por lo tanto no serán clasificados como pertinentes
Análisis de la estructura lógica
Tesis Conceptos para la tesis completa
Conceptos únicamente para los
capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33
Análisis de la estructura lógica
Tesis Conceptos para la tesis completa
Conceptos únicamente para los
capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33
Análisis de la estructura lógica Resultados
Para nuestro estudio: Índice Introducción Conclusión
Índice Introducción C1 C2 C3 C4 C5 Conclusión
9,51% 12,98% 20,77% 25,93% 22,23% 25,71% 23,60% 13,42%
Son de menor interés
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
Análisis de la estructura semántica “Segmento semántico”: descomposición o corte del
documento que nos permite acceder al contenido de las tesis por medio de temas o conceptos tratados.
Ejemplos: estado del arte, metodología, modelo, algoritmo, etc.Segmentos semanticos Presentacion del segmento
Estado del arte Lo encontramos en diferentes capitulos de la tesis pero la mayor parte deltiempo esta consacrado al segundo capitulo al cual llamamos « estado delarte general ». Despues podemos encontrar dentro de ciertos capitulosdiferentes estados del arte tales como : « estado del arte de los metodos »,« estado del arte de los algoritmos », …
Metodologia La encontramos en la presentacion de una estrategia propuesta con el finde resolver un problema.
Modelo Este segmento puede encontrarse en varios capitulos.Algoritmo Una de las estrategias encontradas en la gran parte de las tesis consiste en
modelar un problema utilizando algoritmos.Arquitectura Concierne a las principales caracteristicas del prototipo creado.
Prototipo Parte generalmente presentada en los ultimos capitulos.
Análisis de la estructura semántica Análisis de la estructuración de la tesis de
acuerdo a sus “segmentos semánticos”.T1 T2
Estado del arte general-Capitulo 1 al 3
Estado del arte general-Parte 1 Seccion 1-3
Propuesta-Capitulo 4
Estado del arte de los metodos-Parte 2 Seccion 1-2 y 2.1
Prototipo-Capitulo 5
Experimentacion-Parte 2 Seccion 2.2
Estado del arte de lasherramientas
-Parte 3Modelo
-Parte 4Estado del arte de las tecnicas
-Parte 4 Seccion 2Prototipo
Análisis de la estructura semántica Un ejemplo de la extracción de
conceptos usando dos “segmentos semánticos”.Tesis ESTADO DEL ARTE GENERAL MODELO
No. conceptos En los capítulos No. conceptos En los capítulos T1 241 1, 2 y 3 54 4 T2 22 1(1, 2, 3) 8 4 T3 51 1, 2 y 3 31 4 y 5 T4 59 1, 2, 3 y 4 19 5, 6, 7 y 8 T5 32 3 17 3(3.3, 3.4), 4(4.1) T6 56 2 20 3 T7 46 1 20 2 T8 26 2 6 3(4) T9 65 2 10 3
Segmento semántico T1 T2 T3 T4 T5 T6 T7 T8 T9
Estado del arte general 36% 16% 44% 37% 42% 52% 46% 78% 42% Modelo 15% 16% 44% 20% 42% 24% 41% 22% 28%
Análisis de la estructura semántica Validación del interés de cortar la tesis
en diferentes “segmentos semánticos” Localización de las partes de la tesis
más ricas en información Extracción de conceptos del área de
estudio (informática) Creación de una base de conceptos del
área
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
Un nuevo modelo de documento (1) Creación de un documento de tipo TESIS
Estructura lógica (recomendaciones del Ministerio de Educación + Universidad).
Estructura semántica: usando XML Schéma.
Un nuevo modelo de documento (2) Puesta en marcha de un sistema
que ayuda al estudiante a la hora de redactar su tesis.
Llamado a Nomino
Base de Conceptos
Creación manual de etiquetas
Llamado a la base de conceptos
Estudiante
Tesis con las nuevas etiquetas
Tesis
Almacenamiento de la tesis
CITHER
(1) (2) (3)
Etapa 1
Etapa 2
Un nuevo modelo de documento
Un nuevo modelo de documento
Extracción de conceptos haciendo una llamada a Nomino
Nomino
Un nuevo modelo de documento
Un nuevo modelo de documento
Un nuevo modelo de documento
Conclusión Definición de un nuevo modelo de documento
tipo “TESIS” Permitiendo el acceso a las partes pertinentes de
los documentos Conjugando simultáneamente las 2 estructuras:
lógica y semántica Construcción de una herramienta para la
generación de tesis Obedeciendo a una estructura predefinida y
controlable Permitiendo la integración de los conceptos con el
fin de describir el contenido Aprovechando la experiencia del autor
Top Related