Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de...
-
Upload
nicodemo-bedoya -
Category
Documents
-
view
219 -
download
0
Transcript of Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de...
![Page 1: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/1.jpg)
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de
Información PertinenteDra. Rocío Abascal-Mena
DC-2006, México
![Page 2: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/2.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 3: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/3.jpg)
Introducción
Contexto: Biblioteca Digital. Instituto Nacional de Ciencias
Aplicadas de Lyon, Francia (INSA). Consulta Integral de Tesis en Red
(CITHER) Difusión de tesis en línea. Búsqueda a partir de palabras claves. Búsqueda por catálogo. Formato PDF (Portable Document Format).
![Page 4: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/4.jpg)
Introducción
![Page 5: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/5.jpg)
Introducción
Objetivo: Crear nuevo modelo de documentos para permitirle al usuario obtener la información pertinente.
Nuestro trabajo consiste en: Modelar la tesis durante su creación. Permitir la búsqueda de información
pertinente. Uso de “etiquetas semánticas”.
![Page 6: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/6.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 7: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/7.jpg)
Propuesta para la creación de un nuevo modelo de documentos
Llamado a Nomino
Base de Conceptos
Creación manual de etiquetas
Llamado a la base
Estudiante
Tesis con las nuevas etiquetas
Tesis
Almacenamiento de la tesis
CITHER
(1) (2) (3)
Etapa 1
Etapa 2
![Page 8: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/8.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 9: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/9.jpg)
Extracción de conceptos
Estudio comparativo de 4 herramientas de extracción automática de conceptos: Copernic Summarizer Nomino TerminologyExtractor Xerox Terminology Suite (XTS)
Corpus: 25 documentos científicos. Análisis basado en la “precisión” y la
“exhaustividad”.
![Page 10: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/10.jpg)
Extracción de conceptos
La “precisión” es la proporción de documentos recuperados realmente relevantes, del total de documentos recuperados.
Precisión = Documentos relevantes recuperados
Documentos recuperados
![Page 11: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/11.jpg)
Extracción de conceptos
La “exhaustividad” es la proporción de documentos que son relevantes en la base de datos, independientemente de que éstos se recuperen o no.
Exhaustividad = Documentos relevantes recuperados
Documentos relevantes
![Page 12: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/12.jpg)
Extracción de conceptos
Resultados del análisis de nuestro corpus:
Concept clasificado comopertinente por el humano
Concepto clasificado como nopertinente por el humano
Concepto clasificado comopertinente por la
herramientaa b
Concepto clasificado comono pertinente por la
herramientac d
XTS Copernic
Summarizer Terminology Extractor
Nomino
Précision 0.028 (2.8%)
0.339 (33.9%)
0.068 (6.8%)
0.834 (83.4%)
Exhaustividad 0.905 (90.5%)
0.510 (51%)
0.648 (64.8%)
0.651 (65.1%)
![Page 13: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/13.jpg)
Extracción de conceptos
Selección de Nomino como la herramienta más adecuada a nuestras necesidades.
A pesar de la calidad de las herramientas el usuario experto debe de validar los conceptos extraídos.
![Page 14: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/14.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 15: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/15.jpg)
Análisis de la estructura lógica Dos tipos de análisis:
Estructura lógica Estructura semántica
Análisis de la estructura lógica: Observando la organización de la tesis
constatamos que: Siguen un plan, estructura “descomposición
lógica”. Existe una relación entre la estructura
“semántica”.
![Page 16: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/16.jpg)
Análisis de la estructura lógica Análisis de los principales conceptos
extraídos de acuerdo a la estructura lógica Nomino se apoya en dos principios:
“ganancia al alcance”: estipula que la información es aún más importante si es rara
“ganancia a la expresividad”: clasifica los árboles en función de la información que se encuentra a su alrededor
Aplicando Nomino al corpus nos damos cuenta de que hay conceptos que se repiten mucho y que por lo tanto no serán clasificados como pertinentes
![Page 17: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/17.jpg)
Análisis de la estructura lógica
Tesis Conceptos para la tesis completa
Conceptos únicamente para los
capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33
![Page 18: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/18.jpg)
Análisis de la estructura lógica
Tesis Conceptos para la tesis completa
Conceptos únicamente para los
capítulos T1 293 296 T2 36 38 T3 66 64 T4 45 43 T5 69 73 T6 42 42 T7 38 42 T8 115 124 T9 40 38 T10 52 54 T11 50 57 T12 36 40 T13 46 54 T14 47 51 T15 81 85 T16 23 24 T17 36 43 T18 17 14 T19 29 32 T20 35 33
![Page 19: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/19.jpg)
Análisis de la estructura lógica Resultados
Para nuestro estudio: Índice Introducción Conclusión
Índice Introducción C1 C2 C3 C4 C5 Conclusión
9,51% 12,98% 20,77% 25,93% 22,23% 25,71% 23,60% 13,42%
Son de menor interés
![Page 20: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/20.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 21: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/21.jpg)
Análisis de la estructura semántica “Segmento semántico”: descomposición o corte del
documento que nos permite acceder al contenido de las tesis por medio de temas o conceptos tratados.
Ejemplos: estado del arte, metodología, modelo, algoritmo, etc.Segmentos semanticos Presentacion del segmento
Estado del arte Lo encontramos en diferentes capitulos de la tesis pero la mayor parte deltiempo esta consacrado al segundo capitulo al cual llamamos « estado delarte general ». Despues podemos encontrar dentro de ciertos capitulosdiferentes estados del arte tales como : « estado del arte de los metodos »,« estado del arte de los algoritmos », …
Metodologia La encontramos en la presentacion de una estrategia propuesta con el finde resolver un problema.
Modelo Este segmento puede encontrarse en varios capitulos.Algoritmo Una de las estrategias encontradas en la gran parte de las tesis consiste en
modelar un problema utilizando algoritmos.Arquitectura Concierne a las principales caracteristicas del prototipo creado.
Prototipo Parte generalmente presentada en los ultimos capitulos.
![Page 22: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/22.jpg)
Análisis de la estructura semántica Análisis de la estructuración de la tesis de
acuerdo a sus “segmentos semánticos”.T1 T2
Estado del arte general-Capitulo 1 al 3
Estado del arte general-Parte 1 Seccion 1-3
Propuesta-Capitulo 4
Estado del arte de los metodos-Parte 2 Seccion 1-2 y 2.1
Prototipo-Capitulo 5
Experimentacion-Parte 2 Seccion 2.2
Estado del arte de lasherramientas
-Parte 3Modelo
-Parte 4Estado del arte de las tecnicas
-Parte 4 Seccion 2Prototipo
![Page 23: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/23.jpg)
Análisis de la estructura semántica Un ejemplo de la extracción de
conceptos usando dos “segmentos semánticos”.Tesis ESTADO DEL ARTE GENERAL MODELO
No. conceptos En los capítulos No. conceptos En los capítulos T1 241 1, 2 y 3 54 4 T2 22 1(1, 2, 3) 8 4 T3 51 1, 2 y 3 31 4 y 5 T4 59 1, 2, 3 y 4 19 5, 6, 7 y 8 T5 32 3 17 3(3.3, 3.4), 4(4.1) T6 56 2 20 3 T7 46 1 20 2 T8 26 2 6 3(4) T9 65 2 10 3
Segmento semántico T1 T2 T3 T4 T5 T6 T7 T8 T9
Estado del arte general 36% 16% 44% 37% 42% 52% 46% 78% 42% Modelo 15% 16% 44% 20% 42% 24% 41% 22% 28%
![Page 24: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/24.jpg)
Análisis de la estructura semántica Validación del interés de cortar la tesis
en diferentes “segmentos semánticos” Localización de las partes de la tesis
más ricas en información Extracción de conceptos del área de
estudio (informática) Creación de una base de conceptos del
área
![Page 25: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/25.jpg)
Contenido
Introducción Propuesta para la creación de un
nuevo modelo de documento Extracción de conceptos Análisis de la estructura lógica Análisis de la estructura semántica Un nuevo modelo de documento Conclusión
![Page 26: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/26.jpg)
Un nuevo modelo de documento (1) Creación de un documento de tipo TESIS
Estructura lógica (recomendaciones del Ministerio de Educación + Universidad).
Estructura semántica: usando XML Schéma.
![Page 27: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/27.jpg)
Un nuevo modelo de documento (2) Puesta en marcha de un sistema
que ayuda al estudiante a la hora de redactar su tesis.
Llamado a Nomino
Base de Conceptos
Creación manual de etiquetas
Llamado a la base de conceptos
Estudiante
Tesis con las nuevas etiquetas
Tesis
Almacenamiento de la tesis
CITHER
(1) (2) (3)
Etapa 1
Etapa 2
![Page 28: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/28.jpg)
Un nuevo modelo de documento
![Page 29: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/29.jpg)
Un nuevo modelo de documento
Extracción de conceptos haciendo una llamada a Nomino
Nomino
![Page 30: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/30.jpg)
Un nuevo modelo de documento
![Page 31: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/31.jpg)
Un nuevo modelo de documento
![Page 32: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/32.jpg)
Un nuevo modelo de documento
![Page 33: Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.](https://reader036.fdocuments.ec/reader036/viewer/2022062500/5665b45e1a28abb57c90f0ee/html5/thumbnails/33.jpg)
Conclusión Definición de un nuevo modelo de documento
tipo “TESIS” Permitiendo el acceso a las partes pertinentes de
los documentos Conjugando simultáneamente las 2 estructuras:
lógica y semántica Construcción de una herramienta para la
generación de tesis Obedeciendo a una estructura predefinida y
controlable Permitiendo la integración de los conceptos con el
fin de describir el contenido Aprovechando la experiencia del autor