Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada...

137
cenidet Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS Extracción de Información Basada en Técnicas de Alineamiento de Ontologías presentada por Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales Director de tesis: Dra. Azucena Montes Rendón Co-Director de tesis: MC. José Alejandro Reyes Ortiz Cuernavaca, Morelos, México. 28 de octubre de 2011

Transcript of Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada...

Page 1: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

cenidet

Centro Nacional de Investigación y Desarrollo Tecnológico

Departamento de Ciencias Computacionales

TESIS DE MAESTRÍA EN CIENCIAS

Extracción de Información Basada en Técnicas de Alineamiento de Ontologías

presentada por

Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas

como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales

Director de tesis:

Dra. Azucena Montes Rendón

Co-Director de tesis: MC. José Alejandro Reyes Ortiz

Cuernavaca, Morelos, México. 28 de octubre de 2011

Page 2: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

cenidet

Centro Nacional de Investigación y Desarrollo Tecnológico

Departamento de Ciencias Computacionales

TESIS DE MAESTRÍA EN CIENCIAS

Extracción de Información Basada en Técnicas de Alineamiento de Ontologías

presentada por

Felipe Antonio Román Albores Lic. en Sistemas Computacionales por la Universidad Autónoma de Chiapas

como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias Computacionales

Director de tesis: Dra. Azucena Montes Rendón

Co-Director de tesis:

MC. José Alejandro Reyes Ortiz

Jurado: Dr. David Eduardo Pinto Avendaño-Presidente Dr. Juan Gabriel González Serna-Secretario

Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente

Cuernavaca, Morelos, México. 28 de octubre de 2011

Page 3: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Dedicatoria

A Dios

Porque este triunfo no sería lo mismo si no tuviera la fé que tengo en él,

así como también la salud y bienestar que me ha brindado.

A mi madre

Rocío Albores Millares†, porque siempre ha estado conmigo todos los

días de mi vida ya que sin su ayuda, apoyo y fé en ella no hubiese

logrado llegar hasta este punto de mi vida. Y que en los momentos más

importantes ha estado ahí para ayudarme a escoger la mejor opción y

por colocar en mi camino siempre a las personas correctas para

ayudarme en este largo caminar de la vida.

A ella

Flor de Margarita Nucamendi González (Maggy) por devolverme esa luz

de esperanza que había perdido; por llegar en un momento muy difícil de

mi vida ya que con su amor y cariño me ha devuelto la alegría y felicidad

todos los días.

Page 4: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Agradecimientos

Esta tesis de maestría no hubiese sido posible sin la ayuda de mi directora de tesis la Dra.

Azucena Montes Rendón y mi codirector el M.C. José Alejandro Reyes Ortiz que han empleado

tiempo y esfuerzo para verla culminada. A ellos mis más sinceros agradecimientos; sin embargo,

existen otras personas e instituciones que hicieron posible este esfuerzo conjunto las cuales nombraré

a continuación:

Al Consejo Nacional de Ciencia y Tecnología (CONACYT) por el apoyo económico que me

brindó durante mis estudios de posgrado.

Al Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) por la preparación

que los profesores-investigadores de esta institución me brindaron en la maestría, ya que su

aportación se ve reflejada en esta tesis.

A mi Madre Roció Albores Millares† por darme la vida y la ayuda necesaria en los momentos

que más lo necesito. Así mismo agradezco a sus hermanos que sin saberlo siempre han estado ahí

para mí, aportándome la ayuda necesaria para ver terminado un logro más.

A mis revisores de tesis, Dr. Hugo Estrada Esquivel, Dr. Juan Gabriel González Serna y por

último al Dr. David Eduardo Pinto Avendaño por ser parte de este logro así como sus comentarios

sugerencias y correcciones que hicieron posible para que esta tesis fuese terminada.

Al Ing. Juan Aniceto Orantes Grajales por brindarme su amistad, consejos y apoyo para

emprender una aventura que se ve finalizada con esta tesis, ya que sin su consejo de realizar la

maestría en CENIDET no hubiera aprendido y vivido cosas que me cambiaron completamente la vida.

Le agradezco la confianza que me brindó para desempeñarme como desarrollador en su empresa

HighBits.

A mis compañeros de maestría, que con la convivencia casi diaria me lograron enseñar el

valor de la amistad, a todos ellos gracias, pero sobre todo a Ricardo Estrada, Nazir Molina, Everardo

Munguía, Carlos Méndez, Karen Hernández y Emmanuel Vásquez.

Me gustaría nombrar a cada una las personas que tocaron lo más profundo de mis

pensamientos, sentimientos y acciones en mi corta vida pero son tantas que no terminaría de

nombrarlos a todos, algunos de las cuales ya no se encuentran vivos, sin embargo, les agradezco

todo lo que me enseñaron al hacerme parte de su vida en el tiempo que nos conocimos.

¡A todos, Gracias Totales!

Page 5: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Resumen

La Web es una de las herramientas actuales más importantes para obtener conocimiento,

debido a la enorme cantidad de información existente en ella, la cual es objeto de una evolución

constante. Esto ha convertido a la Web en una excelente fuente de investigación en diferentes áreas

de la computación.

Debido a la gran información existente en la Web y a los resultados insatisfactorios que

ofrecen los buscadores actuales, Tim Berners Lee propuso: “La nueva información debe ser reunida

de forma que un buscador la pueda comprender, en lugar de ponerla simplemente en una lista. La

Web Semántica sería una red de documentos más inteligentes que permitan, a su vez, búsquedas

más inteligentes” (Berners-Lee, 2000).

El desarrollo de la Web Semántica requiere la utilización del lenguaje estructurado XML

(Extensible Markup Language), el lenguaje RDF (Resource Description Framework) y el lenguaje OWL

(Web Ontologie Language) que dotan a cada recurso de la Web de significado, logrando con esto que

un buscador semántico puede explotar.

Actualmente en el Centro Nacional de Investigación y Desarrollo Tecnológico (CENIDET) se

encuentra en proceso de desarrollo un buscador semántico, que como primera etapa, compete al

módulo de tratamiento de lenguaje natural derivada de la tesis “Traductor de consultas en lenguaje

natural a SPARQL para realizar búsquedas sobre ontologías” de (Vázquez, 2010). Esta tesis es la

primera fase del buscador y ataca la complejidad de las consultas en lenguaje natural para

formalizarla y generar como resultado una tripleta formada por sujeto, predicado, objeto y una consulta

en SPARQL.

El presente trabajo de investigación consiste en la segunda parte del buscador semántico, el

cual es responsable de realizar la extracción de información mediante el uso de técnicas de

alineamiento de ontologías. Esto se realiza para hacer coincidir (mediante similitud sintáctica) las

entidades que conforman a la tripleta con otras estructuras existentes en las ontologías del repositorio.

Esto último es necesario para obtener información relevante al contexto de la búsqueda semántica de

información; es decir, que los alineamientos que se obtengan entre las entidades de una ontología y

las tripletas serán la información concerniente al contexto de la consulta.

Para lograr desarrollar esta segunda etapa del buscador semántico, se propone crear algunos

submódulos que se describen a continuación: a) repositorio de ontologías el cual contiene un número

finito de ontologías, b) alineamiento de ontologías con las tripletas, el cual se realiza con el fin de

obtener resultados de la consulta de entrada, c) filtro de resultados este se encarga de obtener la

Page 6: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

respuesta correcta de lo que se obtuvo en el paso anterior y remueve los posibles resultados

erróneos. La integración de los módulos de tratamiento de lenguaje natural (Vázquez, 2010) y de

alineamiento de ontologías con tripletas, forma parte de un buscador semántico basado en

alineamiento de ontologías para la Web semántica llamado ironLP (Information Retrieval from

Ontologies using Natural Language Processing).

Page 7: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Abstract

The Web is one of the most important tools to gain knowledge nowadays, because of the

enormous amount of information in it, which is under constant evolution. This has made the Web an

excellent source of research in different areas of computing.

Due to the large existing information on the Web and the unsatisfactory results provided by

search engines, Tim Berners Lee proposed: "The new information must be gathered on a way that one

search engine can understand, rather than simply put on a list. The Semantic Web documents would

be a more intelligent network to allow smarter searches” (Berners-Lee,2000).

The development of the Semantic Web requires the use of structured language XML

(Extensible Markup Language), RDF (Resource Description Framework) and OWL (Web Ontologie

Language) which give meaning to each page, to each resource or content of the Web, thereby

computers achieve to understand concepts related to existing resources.

Currently in the National Center for Research and Technological Development (CENIDET) is in

process of developing a semantic search engine, which as a first step lies with the natural language

processing module which will be conducted by the thesis "Traductor de consultas en lenguaje natural a

SPARQL para realizar búsquedas sobre ontologías" (Vazquez, 2010). This thesis is the first phase of

the search and attacks the complexity of natural language queries to execute and generate results in a

triplet consisting of subject, predicate, object and a SPARQL query.

This research work is the second part of the semantic search engine, which is responsible for

performing information extraction using ontology alignment techniques. This is done to match (by

syntactic similarity) the entities that make up the triplet with other structures in the ontologies stored in

the repository. This is necessary to obtain information relevant to the context of the information search

in a semantic search engine, that the alignments obtained on the entities that make up an ontology

with the triplets will be information regarding the context of the query.

To be able to develop this second stage of semantic search engine, create some sub-modules

that are described below: a) the ontologies repository which contains a finite number of domain

ontologies, b) the alignment of ontologies with the triplets, which is performed in order to get relevant

results, c) results filter this is responsible of obtaining the correct answer that is extracted in the

previous step and removes possible erroneous results. The integration of the natural language

processing module (Vazquez, 2010) and ontology alignment with triplets, form part of a semantic

search engine based on ontology alignment for the semantic Web called ironLP (Information Retrieval

using Ontologies from Natural Language Processing).

Page 8: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

i

Contenido Lista de tablas ......................................................................................................................................... iv

Lista de ejemplos ..................................................................................................................................... v

Lista de formulas ...................................................................................................................................... v

Lista de figuras ........................................................................................................................................ vi

Lista de gráficas ...................................................................................................................................... vi

Glosario de términos .............................................................................................................................. vii

CAPÍTULO 1. INTRODUCCIÓN ............................................................................................................ 1

1.1 Planteamiento del problema........................................................................................................... 2

1.2 Descripción del problema ............................................................................................................... 3

1.3 Descripción del marco de trabajo ................................................................................................... 4

1.4 Objetivos ......................................................................................................................................... 6

1.4.1 Objetivo General ..................................................................................................................... 6

1.4.2 Objetivos específicos .............................................................................................................. 6

1.5 Justificación y beneficios ................................................................................................................ 6

1.6 Alcance y limitaciones .................................................................................................................... 7

1.6.1 Alcances .................................................................................................................................. 7

1.6.2 Limitaciones............................................................................................................................. 7

1.7 Organización del documento.......................................................................................................... 8

CAPÍTULO 2. MARCO TEÓRICO ......................................................................................................... 9

2.1 Ontologías .................................................................................................................................... 10

2.2 Mediación de ontologías .............................................................................................................. 11

2.3 Técnicas de alineamiento de ontologías ...................................................................................... 12

2.4 Sistemas de extracción de información, recuperación de información y preguntas-respuestas . 12

2.5 Recursos léxicos WordNet y EuroWordNet ................................................................................. 13

2.6 JENA 2 ......................................................................................................................................... 14

2.7 TreeTagger ................................................................................................................................... 15

2.8 SimMetric ...................................................................................................................................... 18

CAPÍTULO 3. ESTADO DEL ARTE .................................................................................................... 19

3.1 Sistemas de alineamiento tradicionales ....................................................................................... 20

3.1.1 MaF ....................................................................................................................................... 20

Page 9: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

ii

3.1.2 PowerMap ............................................................................................................................. 21

3.1.3 FOAM .................................................................................................................................... 23

3.1.4 LOM ....................................................................................................................................... 24

3.1.5 Ontology mapping for querying heterogeneous information sources ................................... 26

3.1.6 Ontology matching based on Hypernym, Hyponym, Holonym, and Meronym sets in WordNet ......................................................................................................................................... 28

3.2 Sistemas de alineamientos y mapeo basados en grafos ............................................................. 29

3.2.1 ASCO3 .................................................................................................................................. 29

3.2.2 OPTIMA ................................................................................................................................. 31

3.2.3. OLA ...................................................................................................................................... 32

3.2.3. Axiom-based ontology matching .......................................................................................... 34

3.3 Comparativa de trabajos presentados en el estado del arte ....................................................... 35

3.3.1 Análisis de las características de algoritmos de alineamiento y mapeo de ontologías ........ 35

3.3.2 Tabla de comparativa de las características de los algoritmos ............................................ 36

3.3.3 Características de herramientas de alineamiento y mapeo de ontologías ........................... 37

3.3.3 Tabla de comparativa de las herramientas de alineamiento y mapeo.................................. 38

CAPÍTULO 4. METODOLOGÍA DE SOLUCIÓN ...................................................................................... 40

4.1 Arquitectura general ..................................................................................................................... 41

4.1.1 Extracción de términos .......................................................................................................... 43

4.1.2 Extracción y mapeo de ontologías ........................................................................................ 47

4.1.3 Resultado de mapeo de ontologías ...................................................................................... 58

CAPÍTULO 5. PRUEBAS .................................................................................................................. 60

5.1 Hipótesis ....................................................................................................................................... 61

5.2 Convención de nombres .............................................................................................................. 61

5.3 Plan de pruebas ........................................................................................................................... 62

5.3.1 Introducción ........................................................................................................................... 62

5.3.2 Elementos de prueba ............................................................................................................ 63

5.3.3 Características a ser probadas ............................................................................................. 66

5.3.4 Características que no serán probadas ................................................................................ 67

5.3.5 Pruebas a realizar ................................................................................................................. 67

5.3.6 Enfoque ................................................................................................................................. 69

5.3.7 Criterio de éxito/fracaso de los casos de prueba .................................................................. 69

5.3.8 Criterios de suspensión y requerimientos de reanudación ................................................... 69

Page 10: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

iii

5.3.9 Tareas de prueba .................................................................................................................. 69

5.3.10 Liberación de pruebas ......................................................................................................... 70

5.3.11 Requisitos ambientales ....................................................................................................... 70

5.3.12 Responsabilidades .............................................................................................................. 70

5.3.13 Riesgos y contingencias ...................................................................................................... 71

5.3.14 Aprobación .......................................................................................................................... 71

5.4 Casos de prueba .......................................................................................................................... 71

5.5 Análisis de resultados .................................................................................................................. 88

5.5.1 Justificación de las pruebas fallidas ...................................................................................... 91

CAPÍTULO 6. CONCLUSIONES ......................................................................................................... 92

6.1 Conclusiones ................................................................................................................................ 93

6.2 Aportaciones................................................................................................................................. 94

6.3 Trabajos futuros ........................................................................................................................... 95

REFERENCIAS………………………………………………………………………………………………….96

ANEXOS………………………………………………………………………………………..……………..101

Anexo A. Palabras vacías ................................................................................................................ 102

Anexo B. Resultados del análisis de algoritmos de similitud de cadenas ....................................... 103

Anexo C. Resultados de las pruebas realizadas ............................................................................. 112

Page 11: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

iv

Lista de tablas

Tabla 2-1. Modelos definidos por JENA para el acceso a elementos de las ontologías. ...................... 14

Tabla 2-2. Etiquetado gramatical, obtenido del sitio oficial de TreeTagger. .......................................... 16

Tabla 2-3. Etiquetas gramaticales para la identificación de verbos en español en TreeTagger. .......... 16

Tabla 2-4. Etiquetas gramaticales para la identificación de verbos del Inglés en TreeTagger. ............ 17

Tabla 3-1. Características evaluadas de los algoritmos de alineamiento y mapeo de ontologías. ....... 36

Tabla 4-1. Tipos de tripletas identificadas como entrada al sistema. .................................................... 41

Tabla 4-2. Entrada del prototipo para la búsqueda de información en ontologías. ............................... 43

Tabla 4-3. Conteo de tripletas ingresadas. ............................................................................................ 43

Tabla 4-4. Identificación de elementos contenidos en las tripletas de entrada. .................................... 43

Tabla 4-5. Identificación de la categoría gramatical de los términos existentes con TreeTagger. ........ 44

Tabla 4-6. Enriquecimiento de términos mediante sinónimos obtenidos de EuroWordNet................... 46

Tabla 4-7. Elementos ontológicos y umbrales establecidos. ................................................................. 48

Tabla 4-8. Información contenida en la ontología de búsqueda. ........................................................... 49

Tabla 4-9. Tratamiento de elementos ontológicos. ................................................................................ 49

Tabla 4-10. Mapeo de términos de la tripleta de búsqueda número 1. ................................................. 51

Tabla 4-11. Mapeo de términos de la tripleta de búsqueda número 2. ................................................. 53

Tabla 4-12. Mapeo de términos de la tripleta de búsqueda número 3. ................................................. 56

Tabla 4-13. Filtro de resultados de la consulta. ..................................................................................... 59

Tabla 4-14. Algoritmo utilizado para la extracción de información contenida en ontologías. ................ 59

Tabla 5-1. Convención de nombres utilizado en las pruebas del prototipo. .......................................... 61

Tabla 5-2. Verbos utilizados en las ontologías del idioma Español para las pruebas realizadas. ........ 63

Tabla 5-3. Casos de prueba de la herramienta de extracción de información contenida en ontologías 67

Tabla 5-4. Tareas de prueba a ejecutar en el desarrollo del plan de pruebas. ..................................... 69

Tabla 5-5. Requisitos de hardware y software de la herramienta desarrollada. ................................... 70

Tabla 5-6. Resumen de las pruebas realizadas..................................................................................... 89

Tabla 5-7. Número de preguntas y porcentaje de efectividad de la herramienta. ................................. 89

Tabla 5-8. Relaciones de elementos ontológicos y los umbrales utilizados. ......................................... 90

Tabla 1. Palabras vacías del idioma Español. ................................................................................... 102

Tabla 2. Palabras vacías del idioma Inglés ........................................................................................ 102

Tabla 3. El primer conjunto de datos está determinado por las siguientes cadenas de caracteres. .. 104

Tabla 4. El segundo conjunto de datos está determinado por las siguientes cadenas de caracteres.

.............................................................................................................................................................. 106

Tabla 5. El tercer conjunto de datos está determinado por las siguientes cadenas de caracteres. ... 108

Page 12: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

v

Tabla 6. El primer conjunto de pruebas basado en relaciones está determinado por las siguientes

cadenas de caracteres. ........................................................................................................................ 110

Tabla 7. Comparativa del rendimiento de los algoritmos con relaciones ontológicas. ....................... 112

Lista de ejemplos

Ejemplo 5-1.Tripleta simple del patrón A con la incógnita en el dominio. ............................................. 71

Ejemplo 5-2. Tripleta anidada con la incógnita en el dominio de ambas tripletas. ................................ 71

Ejemplo 5-3.Tripleta simple con la incógnita en el rango de la tripleta. ................................................. 71

Ejemplo 5-4.Tripleta anidada con la incógnita en el rango de ambas tripletas. .................................... 72

Ejemplo 5-5.Tripleta anidada con la incognita únicamente en la tripleta B. .......................................... 72

Ejemplo 5-6.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y dos tripletas

bien formadas. ........................................................................................................................................ 72

Ejemplo 5-7.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y tres tripletas

bien formadas. ........................................................................................................................................ 72

Ejemplo 5-8.Consulta simple de tripleta taxonómica con la incógnita en el rango. ............................... 72

Ejemplo 5-9.Consulta simple de tripleta taxonómica con la incógnita en el dominio. ........................... 72

Ejemplo 5-10. Consulta de tripletas anidadas con la incógnita en el rango de la tripleta A y dos tripletas

de tipo G sin incógnitas. ......................................................................................................................... 72

Ejemplo 5-11.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y una tripleta

de tipo G sin incógnitas. ......................................................................................................................... 73

Ejemplo 5-12.Consulta de tripletas anidadas con las incógnita en el rango de las tripletas B y una

tripleta de tipo G sin incógnitas al principio. ........................................................................................... 73

Ejemplo 5-13.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas

de tipo G sin incógnitas. ......................................................................................................................... 73

Ejemplo 5-14.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas

de tipo G sin incógnitas. ......................................................................................................................... 73

Lista de fórmulas

Fórmula 3-1. Función para el alineamiento de los elementos de las ontologías en MaF...................... 20

Page 13: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

vi

Lista de figuras

Figura 1-1. Arquitectura general de la herramienta desarrollada en esta investigación.......................... 5

Figura 3-1. Proceso de mapeo para la obtención de ontologías y entidades candidatos. .................... 22

Figura 3-2.Proceso de alineamiento de la herramienta FOAM. ............................................................. 23

Figura 3-3. Proceso de consultas semánticas y mapeo de ontologías.................................................. 26

Figura 3-4. Proceso de igualado de entidades candidato. ..................................................................... 28

Figura 3-5. Proceso de alineamiento del algoritmo ASCO3. ................................................................. 29

Figura 3-6. Relaciones ontológicas transformadas en nodos. ............................................................... 31

Figura 3-7.Herramienta Óptima en ejecución. ....................................................................................... 32

Figura 4-1. Metodología de solución para la extracción de información contenida en ontologías. ....... 42

Figura 5-1. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-A-1. ................................ 74

Figura 5-2. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-AA-2. ........................... 75

Figura 5-3. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-B-3. ................................ 76

Figura 5-4. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BB-4. .............................. 77

Figura 5-5. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BG-5. ............................. 78

Figura 5-6. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGG-6. ........................... 79

Figura 5-7. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGGG-7. ........................ 80

Figura 5-8. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-F-8. ................................ 81

Figura 5-9. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-E-9. ................................ 82

Figura 5-10. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-GGGB-10. ................. 83

Figura 5-11. Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-GB-11. ....................... 84

Figura 5-12. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GBB-12. ....................... 85

Figura 5-13. Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GBG-13. ....................... 86

Figura 5-14.Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-GGB-14. ........................ 87

Figura 5-15. Estructura de la meta ontología OntoEvento en (Reyes, 2011). ...................................... 88

Figura 5-16. Porcentaje de efectividad de la herramienta de extracción de información. ..................... 90

Lista de gráficas

Gráfica 1. Resultados finales de los algoritmos. .................................................................................. 103

Gráfica 2. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el primer

conjunto de datos. ................................................................................................................................ 105

Gráfica 3. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el segundo

conjunto de datos. ................................................................................................................................ 107

Gráfica 4. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el tercer

conjunto de datos. ................................................................................................................................ 109

Gráfica 5. Comparativa del rendimiento de los algoritmos con relaciones ontológicas. ...................... 111

Page 14: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

vii

Glosario de términos

Alineamiento de ontologías: El alineamiento consiste en dadas dos ontologías, con sus diferentes

entidades (concepto, relación o instancia) encontrar una relación de igualdad uno a uno en cada

entidad que las componen (Ehrig, 2005).

Ontología: Una ontología es una especificación de un dominio, de todo lo que 'existe' en un dominio,

incluyendo los términos, conceptos, entidades, axiomas, teoremas, leyes, reglas, y las acciones que

se pueden realizar sobre todo en el dominio así como la forma de razonar sobre el dominio

(Standford,2007).

OWL: El Lenguaje de Ontología Web (OWL) es un lenguaje para representar ontologías de recursos

Web en la Web Semántica (OWL, 2004).

RDF: El Marco de Descripción de Recursos (RDF) es un lenguaje para la representación de recursos

en la World Wide Web utilizando sentencias RDF triples y es la base para la Web Semántica (RDF,

2004).

SPARQL: El Protocolo SPARQL y RDF Query Language (SPARQL) es un método y lenguaje de

consulta para utilizar un servicio Web para acceder a un conjunto de datos RDF (SPARQL, 2008).

Taxonomía: Ciencia que trata de los principios, métodos y fines de la clasificación (Taxonomía, 2010).

Tripleta: Una tripleta de RDF es un tripleta formado por un sujeto, predicado (o propiedad), y el objeto

en la forma de un objeto RDF tripleta, una tripleta RDF predicado, y un objeto RDF triple, que se

utilizan para el estado representan una afirmación o una declaración acerca de un recurso Web en el

formato de datos RDF(Tripleta, 2010).

XML: El Lenguaje de marcado extensible (XML) es un subconjunto de SGML. Su objetivo es permitir

que SGML genérico sea servido, recibido y procesado en la Web en la forma en que ahora es posible

con HTML. XML ha sido diseñado para facilitar su aplicación y para la interoperabilidad con SGML y

HTML. (XML, 2004).

Page 15: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

1

Capítulo 1. INTRODUCCIÓN En este capítulo se describe el contexto en el que se encuentra la investigación junto a la problemática

que se aborda en esta tesis. Se presentan también los objetivos generales, objetivos específicos, la

justificación así como los beneficios aportados por esta investigación, los alcances y las limitaciones

de la presente investigación.

Page 16: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

2

1.1 Planteamiento del problema

Desde el surgimiento de la Internet, la Web ha evolucionado de manera significativa iniciando

con las primeras páginas estáticas las cuales eran mantenidas por personas especializadas y donde

los usuarios finales eran tan sólo espectadores; no fue sino hasta la llegada de la denominada Web

2.0 que se derivaron múltiples factores radicales que marcaron pauta de un cambio que tenía como

filosofía principal el de ser una Web para usuarios finales; es decir, las personas que hacen uso de la

Web son los principales responsables de llenarla enriqueciendo su contenido. Esta convergencia

generalizada en su uso y mantenimiento de la Web por los usuarios finales generó múltiples

problemas sobre todo en la recuperación de la información. La Web 3.0, que actualmente se está

desarrollando pretende dar el siguiente paso hacia una Web Semántica la cual es una extensión de la

Web actual (Web 2.0), en la cual se pretende dotar de un mayor significado a los recursos que

tenemos disponibles en la Web, para que cualquier usuario de la red encuentre información de

manera eficiente.

Una de las técnicas más usadas para poder dotar de significado a los recursos existentes en

la Web es por medio de ontologías. Estás ofrecen la oportunidad de que las computadoras puedan

entender las relaciones entre los objetos existentes por medio de lenguajes como lo son RDF y OWL

además proporcionan los medios para obtener información de las ontologías por medio del lenguaje

SPARQL.

El lenguaje RDF (Resource Description Framework) es un lenguaje de propósito general para

la representación de la información en la Web (RDF, 2004). Con este lenguaje se puede obtener una

relación jerárquica de forma estructurada de los recursos existentes en la Web; RDF define la sintaxis

y semántica de SPARQL para RDF (SPARQL, 2008). SPARQL es utilizado para formular las

consultas a través de RDF. El lenguaje OWL está diseñado para el uso de las aplicaciones que

necesitan procesar el contenido de la información en lugar de presentar la información a los seres

humanos (OWL, 2004). Es decir que se utiliza para el intercambio de información entre computadoras.

Al proporcionar a la Web de significado, se solucionan diferentes problemas comunes en la

búsqueda de información que se tienen actualmente. Un ejemplo de ello son los problemas de

sinonimia y polisemia que existen con los buscadores tradicionales, que por lo general no dan

resultados oportunos, ya que no hacen inferencias sobre el tema que el usuario necesita obtener y no

considera la semántica de la búsqueda ni de la información; sin embargo, existen otros problemas

aunados a la utilización de ontologías como lo son: las diferentes formas o metodologías usadas al

crearlas; es por ello que en esta investigación se propone utilizar técnicas de alineamiento para

solventar estos problemas ya que las técnicas utilizadas en el buscador ironLP enriquece los términos

existentes en las tripletas de búsqueda para tener un mayor grado de confianza en las consultas

realizadas.

Page 17: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

3

Por lo tanto con esta tesis se desarrolló una herramienta que explota la información contenida

en ontologías haciendo uso de técnicas de alineamiento de ontologías con lo que se enriquecieron

elementos contenidos en las tripletas de consulta con la finalidad de obtener información relevante

para el usuario.

1.2 Descripción del problema

En esta etapa del proyecto del buscador semántico se pretende desarrollar una herramienta

que realice búsquedas semánticas basándose en alineamiento de tripletas con ontologías de dominio.

La complejidad del problema radica en la creación de las ontologías. Para lograr mejores

resultados en la extracción de información se utilizan técnicas de alineamiento de ontologías entre las

entidades candidato. Esta similitud se complica si las ontologías son de dominio diferente ya que se

calcula considerando aspectos sintácticos y semánticos entre clases, relaciones, instancias y axiomas.

El alineamiento entre estas ontologías se realiza para garantizar su interoperabilidad en bases

de conocimientos diferentes. Debido a su naturaleza, las ontologías que son del mismo dominio

pueden ser elaboradas de distintas maneras, ya sea por el ingeniero de ontologías o siguiendo

diferentes metodologías para la elaboración de las mismas de forma manual, semi-automática o

automática. Debido a estos problemas básicos en las ontologías se pueden identificar claramente

otros factores ya que según (Gruber, 1993) son:

Los desajustes de conceptualización que son los desajustes de diferentes

conceptualizaciones del mismo dominio y los desajustes de la explicación que son los desajustes

en la forma de especificar las conceptualizaciones.

1. Los desajustes de conceptualización se pueden clasificar en dos categorías las cuales se

enlistan a continuación.

a. Desajustes en el alcance

b. Desajuste entre la cobertura del modelo y su granularidad

2. La parte de los desajustes de la explicación recaen en tres categorías las cuales se mencionan

a continuación:

a. Desajustes en el estilo del modelado

b. Desajustes terminológicos

c. Desajuste de la codificación

Con la presente investigación se pretende dar solución a los desajustes en el alcance, los

desajustes entre la cobertura del modelo y su granularidad, y por último los desajustes

terminológicos para realizar la extracción de información contenida en las ontologías. En este

sentido y conociendo las implicaciones que conlleva el utilizar las ontologías como medio para la

búsqueda de información se deben de emplear técnicas de alineamiento para la resolución de estos

Page 18: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

4

fenómenos concebidos en el momento de la creación de las ontologías de dominio.

1.3 Descripción del marco de trabajo

El presente trabajo de investigación se encuentra embebido dentro de un proyecto general

para la creación de un buscador semántico denominado ironLP (Information Retrieval from Ontologies

using Natural Language Processing).

El objetivo general de ironLP que se describe en (Vázquez, 2010) es: “desarrollar una herramienta

que reciba consultas en lenguaje natural y permita la recuperación de información a partir de un

repositorio de datos estructurados como ontologías, y que mediante técnicas de procesamiento de

lenguaje natural y técnicas de alineamiento de ontologías se conteste a una consulta del usuario”.

Este buscador contiene en su versión más básica dos componentes para su creación. El

primer componente de ironLP es el procesamiento de la consulta en lenguaje natural para la

generación de tripletas. El segundo componente del cual se deriva esta investigación es el uso de

técnicas de alineamiento para la extracción de información contenida en ontologías. Esta

investigación es la encargada de obtener los resultados correctos de las consultas generadas por

medio de tripletas (sujeto, predicado, objeto) que cumplan con los patrones de búsqueda identificados

en esta tesis.

La aportación principal de esta investigación al desarrollo del buscador semántico ironLP

consiste en una herramienta para la extracción de información contenida en ontologías utilizando

técnicas de alineamiento. Esta herramienta permite la inserción de tripletas que cumplan con un

patrón de búsqueda claramente identificado el cual puede ser anidado con otros patrones para hacer

más expresiva la consulta.

En la figura 1-1 se detalla cada uno de los módulos del componente desarrollado para el

buscador semántico de esta investigación:

Page 19: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Figura 1-1. Arquitectura general de la herramienta desarrollada en esta investigación.

A continuación se describe brevemente el funcionamiento de cada unos de los módulos.

1. Extracción de términos: este módulo es el encargado de extraer información contenida en las

bases de datos léxico-gráficas de WordNet y EuroWordNet de cada término contenido de la

tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo

al término correspondiente.

2. Extracción y mapeo de ontologías:

contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son

utilizados para realizar mapeos entre

alineamiento de ontologías (sintácticas y de aproximación semántica).

3. Resultado de mapeo de ontologías y tripletas:

únicamente las tripletas completas que

de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con

respuestas correctas.

Capítulo I. Introducción

Arquitectura general de la herramienta desarrollada en esta investigación.

A continuación se describe brevemente el funcionamiento de cada unos de los módulos.

este módulo es el encargado de extraer información contenida en las

gráficas de WordNet y EuroWordNet de cada término contenido de la

tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo

Extracción y mapeo de ontologías: se encuentra destinado a la extracción de los elementos

contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son

utilizados para realizar mapeos entre los términos de las tripletas mediante el uso de técnicas de

alineamiento de ontologías (sintácticas y de aproximación semántica).

Resultado de mapeo de ontologías y tripletas: el último módulo se encarga de extraer

únicamente las tripletas completas que contengan información coherente; es decir, que el número

de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con

Capítulo I. Introducción

5

Arquitectura general de la herramienta desarrollada en esta investigación.

A continuación se describe brevemente el funcionamiento de cada unos de los módulos.

este módulo es el encargado de extraer información contenida en las

gráficas de WordNet y EuroWordNet de cada término contenido de la

tripleta. También se realiza la identificación de cada término así como la asignación de sinónimos

se encuentra destinado a la extracción de los elementos

contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son

los términos de las tripletas mediante el uso de técnicas de

el último módulo se encarga de extraer

contengan información coherente; es decir, que el número

de tripletas ingresadas en la búsqueda corresponda al mismo número de tripletas devueltas con

Page 20: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

6

1.4 Objetivos

1.4.1 Objetivo General

Desarrollar una herramienta que permita hacer búsqueda de información pertinente en ontologías de

dominio, mediante el alineamiento de ontologías con tripletas.

1.4.2 Objetivos específicos

1. Modificación de un algoritmo para el cálculo del grado de similitud de una tripleta con las

entidades candidato en diferentes ontologías de dominio.

2. Integración del módulo de tratamiento de lenguaje natural (Vázquez, 2010) y el módulo de

alineamiento de ontologías con tripletas.

1.5 Justificación y beneficios

Esta investigación pretende desarrollar una técnica que permita extraer información contenida

en ontologías por medio del tratamiento de estas. Este tratamiento compete a uso de técnicas de

alineamiento de ontologías lo que permite tener una mayor expresividad en los elementos que se

evalúan. El uso de técnicas de alineamiento en la extracción de información tiene la finalidad de

conseguir una probabilidad mayor de obtener mejores resultados. Este proyecto de investigación se

enfoca en el tratamiento ontológico de los elementos de las ontologías con los términos de las tripletas

de búsqueda.

Los beneficios que se obtienen con esta tesis son los siguientes:

1. El desarrollo de una técnica que permita extraer información contenida en ontologías a partir

de la inserción de tripletas de búsqueda las cuales deben contener como mínimo una

incógnita.

2. El tratamiento de los términos contenidos en tripletas que sean identificados como verbos y

nombre común por medio de la herramienta de etiquetado TreeTagger.

3. La extracción de información en múltiples ontologías de dominio.

4. La integración del módulo de extracción de información contenida en ontologías con diferentes

proyectos de análisis lingüísticos los cuales generen como resultado tripletas con los patrones

que recibe como entrada esta herramienta.

5. Identificación de patrones de búsqueda en instancias de ontologías.

6. Identificación de diferentes umbrales con respecto a los elementos ontológicos que se

evalúan.

7. Identificación e implementación de diferentes algoritmos para la comparación de cadenas de

texto derivadas de los elementos ontológicos.

Page 21: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

7

Esta investigación deja un precedente importante en el área del tratamiento automático de

lenguaje natural. Los trabajos que se deriven del tratamiento de la consulta en lenguaje natural se

deben acoplar a la entrada de la herramienta la cual permite la inserción de tripletas con diferentes

patrones de búsqueda.

1.6 Alcance y limitaciones

1.6.1 Alcances

1. Selección de técnicas de alineamiento de ontologías por similitud de cadenas y aproximación

semántica.

2. Los resultados obtenidos de las ontologías serán entendibles para el usuario.

3. Se enriquecen los términos de las tripletas de consulta por medio de sinónimos.

4. Se realizan consultas en Español e Inglés.

1.6.2 Limitaciones

1. Se deberá de ingresar una tripleta bien formada (Sujeto, predicado, objeto) o una tripleta con

una incógnita (Sujeto, predicado, x ?) o una con un máximo dos incógnitas (x ?, predicado, y

?) así como una combinación de ellas.

2. Tiempo de procesamiento desconocido.

3. Las ontologías a consultar deben de estar previamente almacenadas en un repositorio y

validadas para su procesamiento.

Page 22: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo I. Introducción

8

1.7 Organización del documento

En el Capítulo I se detalla el problema existente en el uso y creación de ontologías donde se

definen los puntos que se atacaran con la presente investigación. El siguiente punto describe el marco

de trabajo de la tesis, objetivos generales de la investigación con los que se deben de cumplir, los

beneficios aportados y por último los alcances y las limitaciones que tendrá la investigación,

El Capítulo II describe conceptos utilizados en el presente trabajo de investigación. Se definen

los términos correspondientes a la mediación y tratamiento de ontologías, los recursos utilizados para

el tratamiento de ontologías y las técnicas utilizadas para realizar dichos tratamientos.

El Capítulo III se describe el Estado del arte presentado en este trabajo de investigación. En

este apartado se describen las categorías de los sistemas de alineamiento identificados que utilizan

diferentes técnicas para realizar alineamiento entre ontologías.

En el Capítulo IV se describe la metodología de solución aplicada para dar solución al

problema de la presente investigación. Se detallan cada uno de los módulos propuestos así como los

procesos que cada uno lleva a cabo para obtener los resultados esperados para cumplir con los

objetivos propuestos.

En el Capítulo V se presentan las pruebas que fueron realizadas conforme al estándar IEEE

829-1998. En él se describe la hipótesis presentada, convención de nombres a utilizar, plan de

pruebas, pruebas realizadas, análisis de los resultados y las pruebas fallidas.

El Capítulo VI se presenta las conclusiones a las cuales se llego con el desarrollo de la tesis

así como las aportaciones generadas y trabajos futuros que se derivan de esta tesis.

Page 23: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

9

Capítulo 2. MARCO TEÓRICO En esta sección se describen los conceptos existentes en el presente trabajo de investigación;

donde se definen los términos correspondientes a la mediación y tratamiento de ontologías, los

recursos usados en el tratamiento de ontologías y las técnicas para realizar dichos tratamientos.

Page 24: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

10

2.1 Ontologías

En (Gruber, 1993) se definen a las Ontologías como “una especificación de una

conceptualización”. En ese sentido Gruber afirma que una conceptualización es una visión abstracta y

simplificada del mundo que queremos representar con algún propósito. Otro enfoque que parte de

esta definición es descrita en (Huang et. al., 2010) donde los autores delimitan a esta

conceptualización y especificación por separado con la finalidad de dar una definición más clara que la

aportada por Gruber. Los autores en (Huang et. al., 2010) afirman que la “conceptualización es el

proceso que conduce a la extracción y la generalización de la información”. Así mismo también

definen a la especificación como la forma de describir a dicha conceptualización en un lenguaje

formal.

En la metodología descrita en (Corcho, 2005) se definen los elementos que tiene una

ontología. Estos elementos se detallan a continuación:

1. Conceptos: son tomados en un sentido más amplio. Estos conceptos son organizados en

taxonomías y unidos por una relación taxonómica o de subsunción entre ellos.

2. Relaciones: representan un tipo de asociación entre los conceptos del dominio. Existen 2

tipos de relaciones con más relevancia entre los conceptos de una ontología la primera de

ellas es la taxonómica y es una relación binaria que es definida por una etiqueta que describe

a un concepto que “es un” o “parte de”. El otro tipo de relación es la no-taxonómica definida

por etiquetas que describen una acción entre dos conceptos.

3. Instancias: se utilizan para representar elementos o individuos en una ontología.

4. Constantes: son valores numéricos que no cambian durante mucho tiempo

5. Atributos: son utilizados para describir las propiedades de instancias y de los conceptos. Los

cuales se derivan en dos tipos de atributos: los atributos de clases y de instancias. Los

atributos de clase no son heredados por las subclases ni por las instancias y los de instancias

son heredados por las subclases derivadas de la clase donde se definió hasta llegar a la

instancia.

6. Axiomas formales: son expresiones lógicas. Y se utilizan normalmente para especificar

restricciones en la ontología

7. Reglas: son utilizados para inferir el conocimiento de la ontología, en los valores de los

atributos e instancias de relaciones.

Page 25: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

11

2.2 Mediación de ontologías

En esta subsección se definen los diferentes tratamientos de ontologías (alineamiento y

mapeo) los cuales fueron tomados de (Ehrig et al., 2005) y que se utilizan en el presente trabajo de

investigación, así como también el uso de otros términos relacionados.

1. Mediacion (Mediation): la mediación de ontologías es el nivel superior del proceso del

tratamiento entre ontologías heterogéneas. Ésta incluye la especificación y descubrimiento de

alineamientos entre ontologías.

2. Alineamiento (Alignment): dada dos ontologías, el alineamiento de una ontología con otra

significa que para cada entidad en la primera ontología se trata de encontrar una entidad

correspondiente en la segunda ontología. Por lo tanto una alineación es encontrar entidades

con una relación de igualdad de uno a uno entre entidades.

3. Combinación (Combining): en la combinación son usadas dos o más ontologías diferentes

para una tarea en donde la relación mutua es relevante. La relación de la combinación puede

ser de cualquier tipo, no solamente de identidad.

4. Integración (Integration): para la integración, una o más ontologías son reutilizadas para

crear una nueva ontología. Los conceptos se conservan con posibilidad de ser extendidos. El

origen se queda especificado por medio del espacio de nombres (del Inglés “namespace”).

Este acercamiento es interesante cuando las ontologías son de diferente dominio. Por medio

de la integración la nueva ontología cubre un dominio más grande. El alineamiento es un paso

anterior a la integración ya que por medio de ésta se conocen los términos que se sobreponen

y pueden ser conectados.

5. Igualamiento (Matching): trata de encontrar una correspondencia entre dos entidades. Estas

correspondencias no necesariamente deben ser las mismas en términos sintácticos sin

embargo deben de corresponder al mismo significado de los términos.

6. Mapeo (Mapping): el mapeo se utiliza para consultar diferentes ontologías. Un mapeo en

ontologías representa una función entre ontologías. La ontología original no se modificada

pero los axiomas adicionales describen como expresar los conceptos, relaciones e instancias

en términos de la segunda ontología. Los mapeos encontrados en este proceso son separan

de las propias ontologías. Casi siempre los mapeos se establecen en una dirección, por

ejemplo son aplican de la ontología 1 hacía la ontología 2.

7. Mezcla (Merging): en este caso se crea una nueva ontología a partir de dos o más

ontologías. La nueva ontología unifica y reemplaza a las ontologías utilizadas para su creación

sin poder identificar de que ontología proviene el término. El alineamiento también es un paso

anterior para conocer el solapamiento de los términos de las ontologías

Page 26: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

12

8. Transformación (Transformation): cuando se transforman ontologías la semántica cambia

esto con la finalidad de que sean más adecuados para otros fines que las de origen.

9. Traducción (Translation): la traducción se define como una operación restringida a la

traducción de datos, que puede incluir sintaxis. Esta traducción es importante cuando se

requiere hacer alineamientos entre ontologías de diferentes idiomas así como de estructura,

como por ejemplo pasar una ontología RDF(s) a OWL

2.3 Técnicas de alineamiento de ontologías

En esta subsección se describen las técnicas de alineamiento de ontologías tomadas a partir

de las definiciones de (Euzenat, 2010) las cuales son descritas a continuación:

1. Técnicas terminológicas (puramente sintácticas). Basadas en la normalización de

cadenas, en la búsqueda de sub-cadenas o patrones y en la noción matemática de distancia,

bien entre una cadena de texto, es decir, conjunto de caracteres donde el orden sí es

importante o considerando que los nombres son conjunto de caracteres donde el orden no es

importante.

2. Técnicas terminológicas (de aproximación semántica). Se basan en la búsqueda de

sinónimos o términos en otros idiomas. Así como en el intento de hacer uso de estructuras

taxonómicas para detectar subsunciones.

3. Técnicas estructurales. Consiste en comparar los tipos de datos de los conceptos de ambas

ontologías, o en la pertenencia a espacios de nombres comunes.

4. Técnicas de comparación semántica. Consiste en el empleo de técnicas procedentes de la

lógica de descripciones y modelos para inferir relaciones que pudieran existir entre ontologías.

5. Técnicas lingüísticas avanzadas. Técnicas avanzadas objeto de investigación por parte de

disciplinas relacionadas con el Procesamiento del Lenguaje Natural.

2.4 Sistemas de extracción de información, recuperación de información y preguntas-respuestas

La definición de recuperación de información (IR del Inglés “Information Retrieval” ) dada en

(Manning, 2008) nos dice que la IR trata de encontrar material de naturaleza no estructurada que

satisface con la necesidad de obtener información en grandes colecciones de documentos.

Los sistemas de extracción de información (IE del Inglés “Information Extraction”) se derivan

de los sistemas de IR donde (Cowie, 1996) afirma que los sistemas de IE, son aquellos sistemas

capaces de procesar de forma selectiva las estructuras de los datos que encuentra en uno o más

textos estructurados o no estructurados. La extracción de información se realiza con técnicas de

procesamiento de lenguaje natural.

Page 27: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

13

De acuerdo a la definición de (Valero et. al. 2010) dada para los sistemas de preguntas-

respuestas (QAS del Inglés “Question Answering Systems”) esta clase de sistemas consisten en un

flujo de procesamiento único que realiza 3 pasos de forma secuencial los cuales se enlistan a

continuación:

1. Análisis de la pregunta.

2. Documento del que se recuperara la información.

3. Selección de la respuesta.

El proyecto ironLP del que forma parte este trabajo de investigación, se considera un sistema

de preguntas-respuestas con la variante de que está basado en ontologías de dominio para responder

a las preguntas que se ingresan previamente en el módulo de tratamiento de lenguaje natural y que

posteriormente se tratan con el módulo de tratamiento ontológico para dar una respuesta adecuada a

la pregunta.

2.5 Recursos léxicos WordNet y EuroWordNet

El recurso léxico WordNet es según (Miller, 1995) una base de datos léxica, diseñada

para su uso bajo cualquier lenguaje de programación. Esta base de datos contiene verbos,

adjetivos y adverbios. Así mismo existen relaciones de sinonimia entre los términos en inglés

existentes en la base de datos lexicográfica de WordNet, estos conjuntos son llamados synsets.

En (Vossen,1998) se describe a EuroWordNet como una base de datos multilingüe

adaptada para diferentes idiomas de Europa incluidos el Español, está completamente basada

en WordNet y puede ser integrada para tener una mayor riqueza de recursos léxicos en

diferentes idiomas. Está conformada por verbos, adjetivos y adverbios e igual que WordNet está

conformado por conjuntos de sinónimos (synsets).

Los recursos léxicos utilizados para resolver los problemas de alineamiento de ontologías

son WordNet para el idioma Inglés y EuroWordNet para el idioma Español. En la mayoría de los

artículos descritos en el capítulo 3 del presente trabajo de investigación utilizan WordNet como

un recurso léxico para la desambiguación de términos.

En el presente trabajo de investigación se pretende utilizar ambos recursos para realizar

operaciones que incluyen la desambiguación semántica de términos por medio del

enriquecimiento de estos. Esto se realiza con la finalidad de obtener el grado de similitud de dos

términos y descartar las entidades que no son iguales en significado, aunque no coincidan

morfológica o sintácticamente.

Page 28: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

14

2.6 JENA 2

JENA es una API para la construcción de aplicaciones de la Web semántica en el lenguaje

JAVA de código fuente abierto desarrollado por (McBride, 2002) en los laboratorios de programación

semántica de HP.

La API de JENA provee de métodos para explotar archivos RDF, RDFS, OWL, N3, N-Triples y

DAML, así como también de un motor de consulta SPARQL y un motor de inferencia basado en reglas

el cual puede ser extendido.

Los métodos se utuilizan para acceder a los elementos específicos de la ontología, estos

elementos son clases, relaciones ontológicas, instancias así como el acceso a elementos que son

extraídos haciendo inferencias utilizando el razonador basado en reglas.

Lo primero que se necesita realizar para trabajar con la API de JENA es crear un modelo de la

ontología en memoria, con la finalidad de acceder a todos los elementos del archivo OWL o DAML,

con la siguiente instrucción:

OntModel m = ModelFactory.createOntologyModel();

Esta instrucción permitirá acceder a los elementos de la ontología mediante la variable “m” la cual crea

diferentes tipos de modelos los cuales se describen en la tabla 2-1.

Tabla 2-1. Modelos definidos por JENA para el acceso a elementos de las ontologías.

OntModelSpec Lenguaje Razonador

OWL_MEM OWL full Ninguno

OWL_MEM_TRANS_INF OWL full inferencia transitiva clase jerarquía

OWL_MEM_RULE_INF OWL full razonador basado en reglas con las reglas de OWL

OWL_MEM_MICRO_RULE_INF OWL full razonador basado en reglas con las reglas de OWL

OWL_MEM_MINI_RULE_INF OWL full razonador basado en reglas con un subconjunto de reglas de OWL

OWL_DL_MEM OWL DL Ninguno

OWL_DL_MEM_RDFS_INF OWL DL razonador basado en reglas a nivel de implicaciones RDFS

OWL_DL_MEM_TRANS_INF OWL DL inferencia transitiva clase jerarquía

OWL_DL_MEM_RULE_INF OWL DL razonador basado en reglas de OWL

OWL_LITE_MEM OWL Lite Ninguno

Page 29: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

15

OWL_LITE_MEM_TRANS_INF OWL Lite inferencia transitiva clase jerarquía

OWL_LITE_MEM_RDFS_INF OWL Lite razonador basado en reglas a nivel de implicaciones RDFS

OWL_LITE_MEM_RULES_INF OWL Lite razonador basado en reglas de OWL

DAML_MEM DAML+OIL Ninguno

DAML_MEM_TRANS_INF DAML+OIL inferencia transitiva clase jerarquía

DAML_MEM_RDFS_INF DAML+OIL razonador basado en reglas a nivel de implicaciones RDFS

DAML_MEM_RULE_INF DAML+OIL razonador basado en reglas de DAML

RDFS_MEM RDFS Ninguno

RDFS_MEM_TRANS_INF RDFS inferencia transitiva clase jerarquía

RDFS_MEM_RDFS_INF RDFS razonador basado en reglas a nivel de implicaciones RDFS

El código para crear un modelo especifico de la ontología queda de la siguiente manera:

OntModel m = ModelFactory.createOntologyModel( <model spec> );

Al extender el modelo de representación de la ontología se logra acceder a más elementos de

la ontología.

Todas las clases definidas en la ontología están ligadas directamente al elemento

OntResource el cual se encuentra en la ontología. Esta característica hace de OntResource un

recurso importante para acceder a otros elementos de la ontología por la propia naturaleza del

elemento. OntResource extiende los recursos RDF de la API de JENA.

2.7 TreeTagger

TreeTagger es un etiquetador gramatical de textos desarrollado por (Schmid, 1994) basada en

árboles de decisión. Se desarrolló dentro del Instituto de Lingüística Computacional de la Universidad

de Stuttgart en Alemania. TreeTagger ha sido utilizado con éxito para textos en Alemán, Inglés,

francés, Italiano, Holandés, Español, Búlgaro, Ruso, Griego, Portugués, Chino, Swahili, Latín, Estonio

y lenguas antiguas del Francés.

Esta herramienta proporciona el lema, así como también las categorías gramaticales a las que

pertenecen las palabras procesadas partiendo del árbol de decisión creado a partir del texto

ingresado.

En la tabla 2-2 se presenta un ejemplo de etiquetado del siguiente texto:

Page 30: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

16

“The TreeTagger is easy to use.”

Tabla 2-2. Etiquetado gramatical, obtenido del sitio oficial de TreeTagger.

Word Pos Lemma The DT the

TreeTegger NP TreeTagger is VBZ Be easy JJ Easy to TO to use VB use . SENT .

La importancia de utilizar el etiquetador gramatical recae en las relaciones ontológicas a las

que están asociadas las instancias. Es por ello que se necesita realizar un etiquetado gramatical del

verbo principal que una a dos instancias las cuales están definidas por las clases que componen al

dominio y rango. Esta instanciación se le conoce como relaciones instanciadas las cuales pueden

estar definidas en diferente forma o tiempo. El etiquetado gramatical hecho con TreeTagger otorga al

prototipo de la raíz del verbo que se está utilizando en la ontología para luego ser comparada con la

relación ontológica que une al sujeto y objeto en la tripleta mejorando el resultado de la comparación

sintáctica de las relaciones.

En la tabla 2-3 describe las etiquetas de los verbos en el idioma Español.

Tabla 2-3. Etiquetas gramaticales para la identificación de verbos en español en TreeTagger.

Etiqueta Descripción

VCLIger Verbo clítico en gerundio

VCLIinf Verbo clítico infinitivo

VCLIfin Verbo clítico finito

VEadj Verbo estar participio pasado

VEfin Verbo estar finito

VEger Verbo estar gerundio

VEinf Verbo estar infinitivo

VHadj Verbo haber participio pasado

VHfin Verbo haber Finito

VHger Verbo haber Gerundio

VHinf Verbo haber en infinitivo

VLadj Verbo en participio pasado

VLfin Verbo en finito

VLger Verbo en gerundio

VLinf Verbo en infinitivo

Page 31: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

17

VMadj Verbo modal en participio pasado

VMfin Verbo modal en finito

VMger Verbo modal en gerundio

VMinf Verbo modal en infinitivo

VSadj Verbo ser en participio pasado

VSfin Verbo ser en finito

VSger Verbo ser en gerundio

VSinf Verbo ser en infinitivo

La identificación de las diferentes formas verbales del idioma español son de mucha

importancia en el prototipo ya que se esperan resultados satisfactorios al realizar el etiquetado

gramatical.

La tabla 2-4 describe las etiquetas de los verbos del idioma Inglés.

Tabla 2-4. Etiquetas gramaticales para la identificación de verbos del Inglés en TreeTagger.

Etiqueta Descripción

VB Verbo be en su forma base

VBD Verbo be en pasado

VBG Verbo be en gerundio/participio

VBN Verbo be en participio pasado

VBZ Verbo be en presente tercera persona del singular

VBP Verbo be en presente

VD Verbo do en su forma base

VDD Verbo do en pasado

VDG Verbo do en gerundio/participio

VDN Verbo do en participio pasado

VDZ Verbo do en presente tercera persona del singular

VDP Verbo do en presente

VH Verbo have en su forma base

VHD Verbo have en pasado

VHG Verbo have en gerundio/participio

VHN Verbo have en participio pasado

VHZ Verbo have en presente tercera persona del singular

VHP Verbo have en presente

VV Verbo en su forma base

VVD Verbo en pasado

VVG Verbo en gerundio/participio

VVN Verbo en pasado participio

Page 32: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo II. Marco teórico

18

VVP Verbo en presente

VVZ Verbo en presente del singular

2.8 SimMetric

Es una librería de código fuente abierto, fue desarrollada por (Chapman, 2005) con la finalidad

de obtener la similitud de dos cadenas de texto. La librería contiene diferentes algoritmos de similitud

de cadenas como lo son los algoritmos Jaro, Levenshtein, similitud de Jaccard, distancia de Bloque,

similitud de coseno, similitud de Dice, distancia Euclidiana, Mongue Elkan entre otros. La librería está

destinada para su uso en recuperación de información, integración de información, alineamiento de

ontologías, bases de datos, análisis de ADN y la inteligencia artificial.

Las medidas de similitud se basan en un enfoque estadístico de integración de la información

comparando dos cadenas de texto que devuelven un valor que indica el grado de confianza de las

mismas. La biblioteca SimMetric proporciona una interfaz estandarizada obtener medidas de similitud

que actúan de una manera permitiendo la comparación y la composición de la métrica, mientras que

todavía permite el uso de la salida de algoritmos originales de base.

La librería SimMetric ha sido utilizada en aplicaciones de detección de fraude, detección de

plagio, fusión de ontologías, análisis de ADN, análisis de ARN, análisis de imágenes, pruebas de

aprendizaje automatizado, complemento de la similitud de celdas para MS Excel, en base de datos,

minería de datos, interfaces Web dando sugerencias de estilo a medida que escriben texto,

integración de datos y en la integración de conocimiento semántico.

Page 33: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

19

Capítulo 3. ESTADO DEL ARTE El estado del arte presentado en este trabajo se divide en dos categorías. La primera está

identificada por los sistemas de alineamiento tradicionales los cuales utilizan las primitivas de OWL y

RDF(s) para la solución de alineamientos ontológicos así como una serie de recursos (WordNet,

EuroWordNet, Sumo, etc.) para desambiguar sintáctica y semánticamente el significado de entidades

existentes en las ontologías de origen y fuente. El segundo grupo está integrado por sistemas de

alineamiento basado en grafos, los algoritmos que se emplean son utilizados en teoría de grafos los

cuales ayudan a resolver problemas de mapeo y alineamiento en ontologías; lo interesante de este

enfoque es que en algunos casos se pueden llegar a derivar conclusiones a partir de axiomas

ingresados permitiendo realizar mapeos con las conclusiones obtenidas de las premisas, ayudando

en el alineamiento de ontologías; el uso de grafos se basa principalmente en el alineamiento de la

estructura de los grafos esto para obtener resultados de mapeo y alineamiento satisfactorios.

Page 34: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

20

3.1 Sistemas de alineamiento tradicionales

3.1.1 MaF

Descripción

Los autores (Navas et al., 2007) describen a MAF como una herramienta con arquitectura de

tres capas que permite la combinación de algoritmos de comparación basados en conceptos y roles.

Estos algoritmos son utilizados para obtener el mapeo entre las distintas entidades candidato de las

ontologías que se introduzcan. Los autores definen de manera formal la expresión matemática para la

obtención de las relaciones semánticas de la siguiente manera:

(e,e’,n,R): donde e y e’ son entidades pertenecientes a ontologías diferentes ingresadas en la

herramienta, n es una medida de grado de confianza, y por último R que representa la relación

existente entre ambas entidades.

En dicho trabajo de investigación se desarrolló un método que genera de manera automática

el alineamiento resultante. MaF esta implementado de una forma modular que contribuye al uso de

nuevos algoritmos.

En el artículo se establecen 2 perspectivas del estado del arte del alineamiento, una de las

cuales son las técnicas empleadas para resolver el problema del alineamiento y la otra son las

herramientas desarrolladas para hacer el alineamiento de ontologías.

En la primera parte se describen las distintas técnicas abordadas en el alineamiento de ontologías

descritas en (Euzenat, 2010) y son los siguientes:

1. Técnicas terminológicas puramente sintácticas.

2. Técnicas terminológicas de aproximación semántica.

3. Técnicas estructurales.

4. Técnicas de comparación semántica.

5. Técnicas lingüísticas avanzadas.

La función para el alineamiento de ontologías se define en la siguiente fórmula 1-1:

Fórmula 3-1. Función para el alineamiento de los elementos de las ontologías en MaF.

A’=� (�, �′, �, �, �)

Donde o y o’ son las ontologías que se alinearán, el parámetro A es una alineación previa de

esas 2 ontologías si existe y es opcional, la variable p es la encargada de recibir como parámetros los

nombres de algoritmos que se utilizan para el alineamiento y por último r son los recursos disponibles

para realizar el alineamiento los cuales son las composiciones de fórmulas.

Page 35: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

21

MaF aborda el alineamiento de ontologías utilizando para ello las técnicas terminológicas (sintácticas y

de aproximación semántica) así como las técnicas estructurales.

Características importantes

MAF realiza el mapeo de 2 ontologías en el idioma español y codificado en OWL. La técnica

estructural se basa en comparar los valores existentes en las propiedades. Las técnicas sintácticas

utilizan conceptos, instancias y propiedades, realizando un cálculo de distancias de cadenas entre

ellas. Por último, utiliza EuroWordNet como recurso externo en la desambiguación de términos, esto

con la finalidad de obtener mejores resultados.

Relevancia para el trabajo de investigación

Un aspecto relevante a destacar de este proyecto, es que el alineamiento se realiza con

ontologías en español y utilizan EuroWordNet para desambiguar términos relacionados con el idioma

español. Este recurso externo se aplicará en esta tesis para abordar ontologías en español y obtener

mejores resultados en el alineamiento de ontologías para generar una herramienta que ataque

ontologías en español e inglés.

Referencia (Navas et. al., 2007) Dept. de Lenguajes y Ciencias de la Computación Universidad de

Málaga; Departamento de Sistemas Informáticos y Telemáticos Escuela Politécnica, Universidad de

Extremadura; España.

3.1.2 PowerMap

Descripción

En este proyecto (López et. al, 2006a) se describe a PowerMap como un algoritmo utilizado

para realizar mapeos entre tripletas y ontologías en tiempo de ejecución. El mapeo de los términos se

obtiene en base a una serie de tripletas ingresadas, las cuales pueden ser reestructuradas y

mapeadas en una o varias ontologías en un dominio abierto. PowerMap ataca una serie de ontologías

sin determinar el dominio o estructuras similares; este nuevo escenario propone otros requerimientos

como el procesamiento de varias ontologías, lo cual contribuye al aumento en la heterogeneidad de

los dominios, haciendo que el tiempo en el rendimiento del proceso sea un factor importante en el

mapeo de las ontologías.

En la figura 3-1 se describen los pasos del algoritmo utilizado por PowerMap:

Page 36: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

22

Figura 3-1. Proceso de mapeo para la obtención de ontologías y entidades candidatos.

Se definen 3 fases para la resolución de los problemas planteados en el nuevo escenario,

estos pasos son descritos a continuación.

1. Mapeo sintáctico: este mapeo se realiza en múltiples ontologías para encontrar las coincidencias

sintácticas de las entidades candidatos basándose solamente en los conceptos.

2. Mapeo semántico: el proceso de mapeo en esta fase se realiza de un conjunto reducido de

ontologías como resultado del paso anterior y se basa en obtener el significado semántico de los

conceptos e ir descartando ontologías que no sean pertenecientes al mismo dominio, dándole

mayor importancia a la estructura de las entidades candidato, utiliza para ello los métodos para la

extracción de sinónimos derivados de WordNet.

3. Filtro semántico: el último paso del proceso se realiza con la finalidad de obtener los resultados

pertinentes al contexto de la consulta, haciendo énfasis en el orden de las entidades de las

tripletas obtenidas, las cuales serán mapeadas en las ontologías derivadas de la fase 2

respetando dicha estructura. En este paso se derivan las ontologías que cumplen con las

condiciones y deberían de representar la información que se requiera obtener.

Características importantes

PowerMap es un algoritmo utilizado para realizar mapeos entre múltiples ontologías en el

idioma inglés de forma automática, basándose en el lenguaje de ontologías OWL. El algoritmo de

PowerMap evalúa técnicas terminológicas y estructurales. Los mapeos terminológicos se realizan

entre conceptos, relaciones e instancias, así como de la comparación de un RDF-Triple con una

estructura similar en la ontología, sin embargo la relación no es muy importante en el proceso de

mapeo. Los mapeos estructurales se realizan con la ayuda de la ontología SUMO que es un recurso

externo derivado de WordNet, con esta ontología se realizan mapeos entre las superclases y

subclases del concepto que está siendo evaluado. Una particularidad de PowerMap es el resultado

que genera ya que entrega resultados semánticos y no valores de similitud entre los términos

mapeados.

Page 37: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

23

Relevancia para el trabajo de investigación

PowerMap otorga un método preciso para abordar el problema de las consultas de múltiples

ontologías sin conocer el dominio y estructura de las mismas. Logrando como resultado una

combinación de técnicas muy fiables para su implementación. Los procesos establecidos en este

trabajo de investigación serán un punto de partida para la implementación de algoritmos en esta tesis.

Referencia (López et al., 2006a) Knowledge Media Institute (KMi), Walton Hall; The Open University,

Milton Keynes; Inglaterra.

Referencias relacionadas (López et al., 2006b), (López et al, 2009).

3.1.3 FOAM

Descripción

En este artículo (Ehrig, 2005) describe los diferentes procesos que forman parte de FOAM

para realizar el proceso de alineamiento y mapeo de ontologías. FOAM puede hacer el alineamiento

de dos o más ontologías en una sola corrida del programa; así mismo se pueden agregar

opcionalmente alineamientos previos que ayudan en gran medida a obtener mejores resultados de las

entidades alineadas.

En la figura 3-2 se establece el proceso de una manera gráfica:

Figura 3-2.Proceso de alineamiento de la herramienta FOAM.

Las etapas del proceso de alineamiento en FOAM se definen a continuación:

1. Características de ingeniería: son pequeñas excepciones sobre la definición de la ontología

que son seleccionadas para describir una entidad específica, las cuales representan cierta

semántica.

2. Selección de búsqueda: la derivación de los alineamientos de las ontologías tienen lugar en

el espacio de búsqueda de entidades candidato para el alineamiento.

3. Similitud por computación: aquí se indica el grado de similitud que existen entre dos

entidades candidato para su alineamiento que va de [0,1]. Por ejemplo: Sim(carro, automóvil)

= 1.

Page 38: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

24

4. Similitud por agregación: en este punto pueden haber varios valores de similitud para un par

de entidades candidatos. Por ejemplo similitudes entre etiquetas, instancias, relaciones etc.

5. Interpretación: usa valores de similitud por separado o agrupados derivados de los

alineamientos entre entidades candidato los cuales devuelven los valores de similitud

estructural realizados entre ellas.

6. Iteración: la similitud obtenida en un par de entidades influye en la similitud de sus vecinos

más cercanos. En esta etapa se repiten los algoritmos de alineamiento los cuales para cada

iteración recalculan el grado de similitud de las entidades candidato y termina hasta que ya no

se puedan obtener más resultados.

Características

FOAM es una herramienta desarrollada para realizar múltiples alineamientos de ontologías en

el lenguaje OWL para su representación en el idioma inglés de manera semiautomática. Las técnicas

utilizadas por FOAM son las estructurales, terminológicas y semánticas esta última técnica es

abordada por el recurso externo Kaon2 el cual es un motor de inferencias para realizar deducciones

basados en los axiomas de las ontologías. El segundo recurso externo es WordNet el cual es usado

para obtener los sinónimos de los términos que está evaluando. Los elementos que utiliza FOAM para

calcular el grado de similitud entre los términos son los conceptos, instancias, relaciones, propiedades

y axiomas, así como también la estructura de los nodos con relación al nodo que se evalúa y una

estructura RDF-Triple. El resultado del alineamiento se guarda en un archivo que establece las

entidades candidato alineadas y precedidas por un grado de similitud que comprende de 0 a 1.

Relevancia para el trabajo de investigación

FOAM es una de las herramientas más completas en el alineamiento de ontologías. El método para el

alineamiento de múltiples ontologías es la parte a resaltar de esta herramienta.

Referencia (Ehrig, 2005) Institute AIFB University of Karlsruhe; Alemania

Referencias relacionadas (Ehrig, 2004)

3.1.4 LOM

Descripción

En este artículo el autor (Li, 2004) describe a LOM, una herramienta semiautomática de

mapeo de ontologías. El autor considera el mapeo de ontologías como un proceso de aprendizaje

realizado por humanos o maquinas con el propósito de encontrar morfismos entre conceptos de

ontologías. En LOM se hacen mapeos basados en el lexicón, ya que se afirma que este proceso es

factible, porque la mayoría de las ontologías desarrolladas tienen similitud léxica con el vocabulario

utilizado.

Page 39: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

25

El autor utiliza 4 métodos para encontrar mapeos existentes entre entidades candidato, estos

métodos se describen a continuación:

1. Emparejamiento de todo el término (whole term matching): este algoritmo convierte todas

los términos de las dos ontologías a minúsculas y luego los compara entre sí para saber si

existe alguna correspondencia entre ellos y le asigna el valor 1, si no lo hubiera le otorga el

valor 0.

2. Componente de emparejamiento de la palabra (word constituent matching): en esta etapa

del proceso cada término se divide en otras palabras siempre y cuando exista una letra

mayúscula, un guion o un guion bajo. Las “Palabras vacias” derivadas de este proceso son

omitidas en el emparejamiento entre términos. Los términos se evalúan morfológicamente así

como con la ocurrencia del término completo. A cada evaluación elaborada de manera

correcta se le otorga un valor de 1 y en su defecto 0.

3. Emparejamiento de synset (synset matching): en esta fase se obtiene el significado

semántico de los términos utilizando para ello los synsets existentes en WordNet. El proceso

de la similitud entre términos se hace como en el paso anterior.

4. Tipo de emparejamiento (type matching): los términos que no fueron mapeados hasta esta

fase, sirven como fuente de comparación entre ellos. Los recursos SUMO y MILO son

ontologías que contienen referencias de palabras de WordNet derivados en hipónimos,

hiperónimos en este caso si existe algún tipo de emparejamiento entre los términos se les

agrega un valor descrito anteriormente.

Características

LOM es una herramienta semiautomática que realiza mapeos sintácticos entre elementos de

la ontología, para el idioma inglés en ontologías descritas en OWL. Estos mapeos son ejecutados en

conceptos, relaciones e instancias con la finalidad de mapeos únicamente entre elementos de la

misma categoría. Los lexicones utilizados en LOM son SUMO y MILO los cuales son ontologías

derivadas de WordNet tiene la función de desambiguar semánticamente los términos que están

procesando. Los resultados de la herramienta es una lista de elementos de la ontología mapeados

con un grado de similitud existente entre ellos.

Relevancia para el trabajo de investigación

El tiempo de procesamiento en LOM es un factor fundamental para el autor, es por ello que

utilizan métodos que comparan la cadena completa con el fin de encontrar más rápido las entidades

que cumplen con la similitud necesaria en el mapeo.

Referencia (Li, 2004) Teknowledge Corporation, Palo Alto, California, Estados Unidos de América.

Page 40: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

26

3.1.5 Ontology mapping for querying heterogeneous information sources

Descripción

Los autores en (Benslimane et al., 2007) presenta un marco de trabajo en tres capas para el

mapeo semiautomático de ontologías. Esta investigación propone una serie de reglas que determinan

el grado de similitud de las entidades así como de sus características, las cuales se extraen de las

ontologías que se mapean. Estos mapeos ontológicos son verificados por un ingeniero de ontologías

para determinar las correctas correlaciones entre las entidades de la ontología.

En la figura 3-3 se detalla el proceso de la extracción de información a partir de la consulta y

extracción de información.

Figura 3-3. Proceso de consultas semánticas y mapeo de ontologías.

Las etapas del sistema de mapeo para la consulta de fuentes heterogéneas se describen a

continuación:

1. La capa fuente en esta fase se tiene una colección de información almacenada en bases de

datos relacionales. Estas colecciones de información están ligadas a ontologías y conectadas

por medio de relaciones no-taxonómicas.

2. La capa de mapeo en esta parte del marco de trabajo se realiza el mapeo de entidades entre

distintas ontologías almacenadas localmente y derivadas a partir de la capa fuente. Los

mapeos descubiertos son revisados para su validación y almacenados en lenguajes

estandarizados para el mapeo denotando con ello las entidades que se relacionan entre

diferentes ontologías.

3. La capa de consulta semántica está dedicada a construir consultas semánticas de acuerdo al

conjunto de mapeos realizados en la capa 2. Una consulta semántica es generada

automáticamente en tiempo de ejecución y es almacenada para ser utilizada por el motor de

búsqueda semántica, esta consulta puede derivarse en subconsultas junto al mapeo de

Page 41: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

27

entidades previamente realizado. Finalmente los resultados de las consultas en SPARQL son

enviados al usuario final.

Los autores utilizan una serie de reglas para validar si las entidades de las ontologías pueden

ser similares otorgándole un grado de similitud por cada par de entidades mapeadas. Estas reglas son

utilizadas en mapeos léxico-sintácticos, estructurales y taxonómicos.

A continuación se enumeran las reglas que se utilizan para obtener la similitud de las

entidades candidato de las ontologías:

1. Dos entidades son idénticas si tienen el mismo identificador o el mismo nombre.

2. Dos entidades son idénticas si se encuentra en los sinónimos.

3. Dos conceptos son idénticos si sus propiedades son las mismas.

4. Dos propiedades son iguales si una de las siguientes condiciones se cumplen:

a. Si tienen el mismo nombre(regla 1)

b. Si el dominio y rango son iguales

5. Dos conceptos son similares si sus subconceptos son los mismos.

6. Dos conceptos son similares si sus súper conceptos son los mismos.

Características

El enfoque del presente artículo está dirigido a realizar mapeos semiautomáticos en múltiples

ontologías descritas en OWL y enfocado al idioma inglés. Utiliza las técnicas estructurales y

terminológicas. La similitud léxico-sintáctica se calculan partiendo de la entrada de dos cadenas de

caracteres. Para obtener una comparación léxico semántica se obtiene los diferentes sinónimos de

WordNet. El mapeo basado en estructura utiliza la estructura de los conceptos y de las propiedades

las cuales incluyen las relaciones de los conceptos (dominio, rango). El mapeo basado en la

taxonomía utiliza los superconceptos y subconceptos relacionados directa y taxonómicamente a la

clase que se evalúa.

Los resultados generados de la herramienta es una lista de entidades mapeadas con un grado

de similitud entre las entidades candidato evaluadas.

Relevancia para el trabajo de investigación

Las reglas especificadas por el autor de este proyecto, serán abordadas por esta tesis, para

deducir el mapeo de entidades candidato de una manera precisa, generando mejores resultados al

validando cada una de ellas por separado. Esto con la finalidad de hacer más preciso el proceso de

mapeo.

Referencia (Benslimane et al., 2007) Evolutionary Engineering and Distributed Information Systems

Laboratory Computer science Department, University of Sidi Bel Abbes. Argelia.

Page 42: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

28

3.1.6 Ontology matching based on Hypernym, Hyponym, Holonym, and Meronym sets in WordNet

Descripción

En el trabajo de investigación de (Kwak, 2010) se propone un método para igualar los

términos contenidos en 2 ontologías, utilizando para ello Super Word Set Similarity(SWSS). Este

recurso es agregado al método implementado por los autores ya que incluye relaciones semánticas

basadas en WordNet. Estas relaciones entre conceptos son de tipo: hipónimos, hiperónimos,

holónimos, merónimos.

El método propuesto extrae los conceptos semejantes (MC) y las propiedades semejantes

(MP), las cuales son extraídas de la fase de similitud entre conceptos y propiedades. Después se

extraen los conceptos y propiedades que no son semejantes (PUC). La última etapa del proceso es la

comparación de propiedades y conceptos que es realizado con SWSS en el conjunto PUC ya que son

las entidades candidato que no encontraron una semejanza en los procesos anteriores. Esto se hace

con la finalidad de encontrar más entidades semejantes entre ontologías logrando una tasa más alta

de conceptos y propiedades similares entre sí.

En la figura 3-4 se puede ver el proceso de mapeo propuesto por el presente trabajo de

investigación.

Figura 3-4. Proceso de igualado de entidades candidato.

El método propuesto por los autores es descrito a continuación:

1. El primer paso de la metodología es obtener la similitud de los conceptos entre las ontologías

para poder incrementar el conjunto MC.

2. En el segundo paso se obtienen las similitud de las propiedades de ambas ontologías e

incrementan el conjunto de MP, en este punto del proceso se obtiene a su vez las entidades

candidato que no fueron igualadas y se envía al conjunto PUC.

3. El tercer paso de la metodología es la encargada de evaluar al conjunto PUC, esto se realiza

con el SWSS que contiene los hiperónimos, hipónimos, holónimos y merónimos en este punto

del proceso no se incluyen los sinónimos de WordNet ya que fueron evaluados en los pasos

anteriores.

4. Las inferencia lógicas se realizan a partir de las propiedades que OWL define como los son

FunctionalProperty, InverseOf, SymmetricProperty, TransitiveProperty y InverseFunctional

Page 43: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

29

Property. Se pueden utilizar estas características para hacer las inferencias lógicas necesarias

para encontrar conceptos.

5. Filtra los resultados obtenidos en la etapa anterior para la visualización de la comparación de

entidades candidato como resultado de la metodología.

Características

La metodología propuesta por (Kwak, 2010) acepta el uso de múltiples ontologías en el

proceso de alineamiento y mapeo de ontologías, así mismo sólo realiza este proceso a ontologías en

OWL en el idioma inglés. Se utilizan técnicas estructurales y terminológicas para hacer coincidir

mediante la similitud semántica los términos relacionados. Los elementos que usa la metodología son

conceptos, propiedades, el rango de las propiedades y las superclases y subclases del concepto que

se evalúa. Los resultados generados son una lista de entidades mapeadas con su grado de similitud.

Relevancia

En este trabajo se utilizan técnicas de alineamiento estructural para enriquecer la búsqueda

de entidades similares, utilizando para ello hipónimos, hiperónimos, holónimos, merónimos con la

finalidad de tener un conjunto más grande de términos encontrados en el proceso de mapeo de

ontologías.

Referencia (Kwak, 2010) Department of Computer Science and Engineering, Ewha Womans

University, Seul, Korea.

3.2 Sistemas de alineamientos y mapeo basados en grafos

3.2.1 ASCO3

Descripción

En este trabajo (Thanh Le, 2007) presenta ASCO3 un nuevo algoritmo para el alineamiento de

ontologías, este algoritmo apunta a encontrar mapeos entre entidades de dos ontologías relacionadas

del mismo dominio. ASCO3 funciona con ontologías OWL DL/LITE, basándose en la expresividad y

primitivas de OWL para deducir la similitud de las entidades candidato de dos ontologías.

En la figura 3-5 se muestran los procesos del algoritmo propuesto.

Figura 3-5. Proceso de alineamiento del algoritmo ASCO3.

Page 44: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

30

El algoritmo ASCO3 realiza la conversión de la ontología en un grafo que el autor denomina

O-Graph. El proceso de alineamiento se describe a continuación:

1. Se utilizan las clases, relaciones e instancias para ser convertidas en nodos, cada nodo está

conectado mediante un arco dirigido y etiquetado por una primitiva de OWL, el resultado de

este primer proceso es un grafo dirigido cíclico por cada una de las ontologías ingresadas.

2. En esta etapa se crea un grafo de asociación lo cual conlleva a decodificar la información de

compatibilidad entre los nodos de los dos O-Graphs con un sólo arco.

3. Se obtiene el máximo subgrafo común esto se hace mediante una búsqueda de la clique

máxima en el grafo de asociación elaborado en la etapa 2, con la utilización de un algoritmo

que crea las cliques y les agrega un peso determinado a cada arco.

4. Se realiza el cálculo de la clique máxima la cual se basa en la similitud lingüística de dos

entidades (etiquetas, nombres y comentarios de las clases) en cada nodo de la clique.

5. Por último se obtienen los mapeos realizados en la fase de generación del grafo de asociación

donde se mapean las entidades de las dos ontologías. Al obtener la clique máxima. Se

obtiene el número máximo de mapeos encontrados, como resultado tenemos una lista de

entidades mapeadas con una similitud entre ellas.

Características

El proceso de mapeo en ASCO3 se realiza utilizando como base dos ontologías en OWL para

el idioma inglés. El mapeo se realiza por medio de la extracción de términos derivado de conceptos,

instancias y relaciones los cuales son utilizados para ser analizados morfológicamente y crear nodos

dentro de un grafo, donde este último se compara estructuralmente para encontrar isomorfismos entre

los subgrafos derivados y obtener los términos alineados. Es importante señalar que el resultado

derivado por el algoritmo es un conjunto de entidades pares de ambas ontologías que son similares

entre sí.

Relevancia para el trabajo de investigación

En esta investigación se identificó el uso de grafos para la solución de problemas de alineamiento

entre ontologías. Se utilizan las clases, relaciones e instancias para aplicar las técnicas de similitud

sintáctica entre entidades.

Referencia (Thanh Le, 2007) University of Technology, Hanoi, Vietnam; INRIA Sophia Antipolis,

Francia.

Page 45: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

31

3.2.2 OPTIMA

Descripción

Según (Kolli et al., 2008) Optima es una herramienta de propósito general para la alineación

de ontologías que identifica automáticamente los conceptos similares entre ontologías. La herramienta

es compatible con una interfaz de usuario intuitiva que facilita la visualización y análisis de las

ontologías en N3, RDF y OWL así como de los resultados de las alineaciones entre ontologías.

En el núcleo de Optima existe un algoritmo gráfico que formula el problema de la alineación

para encontrar el elemento más probable entre dos ontologías (optimización), y calcula la probabilidad

de uso con la técnica de expectativa de maximización (EM).

El algoritmo utilizado en Optima se describe más claramente en (Doshi, 2006), el artículo

establece los pasos a seguir para convertir una ontología en un grafo el cual contiene las clases y

relaciones en vértices. Un ejemplo de ello se muestra en la figura 3-6.

Figura 3-6. Relaciones ontológicas transformadas en nodos.

(3-6a) (3-6b)

La figura (3-6a) representa la relación existente entre conceptos de una ontología, los cuales

se aprecia en la figura (3-6b). En el proceso de conversión a grafos se introducen nodos “dummys”

para no perder las conexiones de la relación entre conceptos.

El cálculo de similitud se realiza por medio de las estructuras de los grafos creadas de ambas

ontologías y de la similitud léxica de las etiquetas en las relaciones, conceptos e instancias contenidas

en la ontología. Los grafos obtenidos son verificados para que cumplan con el homomorfismo que se

necesita para alinear ambas estructuras de manera tal que el resultado de este proceso sea una

correspondencia estructural entre ambos grafos.

La herramienta Optima utiliza la biblioteca de código abierto llamada Jena para analizar las

ontologías expresadas en diferentes lenguajes de ontologías (N3, RDF y OWL).

En la figura 3-7 se aprecia un ejemplo del funcionamiento de la herramienta:

Page 46: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

32

Figura 3-7.Herramienta Óptima en ejecución.

(3-7a) (37-b) En la figura (3-7a) se muestra la herramienta en ejecución con dos ontologías. La figura (3-7b)

despliega el resultado del alineamiento de las dos ontologías, identificando a las entidades alineadas

en color azul.

Características

Optima realiza el mapeo de 2 ontologías en diferentes lenguajes para la representación de

ontologías (N3, RDF y OWL) en el idioma inglés. Esta herramienta utiliza la API de Jena la cual es un

framework para el desarrollo de aplicaciones para la Web Semántica (Jena, 2000) como recurso

externo para procesar ontologías en distintos lenguajes. Optima realiza comparaciones estructurales y

morfológicas de los conceptos, instancias, relaciones y propiedades de las ontologías. El resultado del

proceso de alineamiento es un grafo con las entidades mapeadas marcadas de color azul para su

reconocimiento.

Relevancia para el trabajo de investigación

Esta herramienta desarrollada por el autor utiliza la API de Jena para abordar ontologías

representadas en diferentes lenguajes; ésta API servirá para acceder a las ontologías que se

consulten y así explotar sus elementos ontológicos.

Referencia (Thanh Le, 2007). Dept. of Computer Science, University of Georgia, Georgia, Estados

Unidos de América.

Referencias relacionadas (Doshi, 2006).

3.2.3. OLA

Descripción

OLA es una herramienta desarrollada por (Euzenat, 2004a) para el alineamiento de ontologías

Page 47: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

33

en OWL, centrándose en el lenguaje de OWL-Lite. En OLA se realizan alineamientos automáticos

entre entidades de 2 ontologías, también se pueden añadir alineamientos previos para hacer más

efectivo el proceso.

En el proceso de alineamiento de ontologías, OLA requiere un pequeño conjunto de

parámetros que hacen posible el alineamiento automático, estos parámetros son ingresados al inicio

del alineamiento.

El primer paso en el alineamiento con OLA, es obtener la similitud entre entidades de las

ontologías ingresadas. OLA realiza comparaciones léxicas de los términos encontrados en las

ontologías. El autor utiliza técnicas de aproximación semántica para obtener resultados más

satisfactorios por medio de los sinónimos contenidos en WordNet.

El siguiente paso del proceso es realizar una comparación estructural de las ontologías las

cuales son transformadas en grafos que los autores denominan OL-Graph.

Un OL-Graph es un grafo etiquetado donde sus vértices corresponden a entidades

encontradas en las ontologías (clases, objetos, relaciones, instancias, instancias de las propiedades,

tipos de datos, valores de los datos, restricciones de propiedades) y sus aristas son relaciones

definidas internamente por los autores. Estas relaciones utilizadas por OL-Graph son descritas a

continuación:

1. Especialización: éstas son únicamente entre clases y relaciones.

2. Instanciación: relaciones entre objetos y clases, instancias de las propiedades y

propiedades, tipo de datos y sus valores.

3. Atribución: éstas son dadas entre clases y propiedades, objetos e instancias de las

propiedades.

4. Restricción: expresa la restricción de la propiedad en la clase.

5. Evaluación: relaciones que representan una propiedad en un objeto.

Antes de la conversión de la ontología a OL-Graph todas sus entidades son extraídas para

crear conjuntos de entidades equitativas. A estos conjuntos de entidades se aplica una función de

similitud que cubre la mayor parte de las características para la obtención de la similitud entre

entidades par de la misma categoría.

1. La similitud de los términos usados para designar a cada entidad.

2. La similitud de los nodos vecinos en el OL-Graph respectivo debe estar vinculados con el otro

OL-Graph con las mismas relaciones.

3. La similitud de otras características descriptivas dependen de cada categoría.

La similitud de entidades pares depende de todas las similitudes obtenidas por sus conceptos vecinos.

Page 48: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

34

Para obtener mejores resultados, los valores de las medidas de similitud obtenidos en las diferentes

etapas de alineamiento son normalizados. Esta normalización consiste en hacer una sumatoria de

todas las similitudes encontradas en cada categoría y dividirlas por el total de elementos contenidos

en dichas categorías.

Características

OLA realiza el mapeo de 2 ontologías descritas en OWL/DL para el idioma inglés. Se basa en

técnicas estructurales y terminológicas sobre las clases, relaciones, instancias, instancias de las

propiedades, tipos de datos, valores de los datos, restricciones de las propiedades. OLA utiliza

WordNet para extraer los sinónimos y compararlos con el término que evalúa esto para darle mayor

eficacia al proceso de alineamiento. El resultado del proceso es un resumen con las entidades

mapeadas con sus respectivos grados de similitud.

Relevancia para el trabajo de investigación

En el proyecto que presentan los autores definen una serie de relaciones existentes entre

entidades de las ontologías, estas relaciones se anotan cuando las ontologías ya fueron convertidas a

grafos con la finalidad de identificar de manera eficaz las entidades que son similares entre sí y de esa

forma hacer el proceso de alineamiento más efectivo.

Referencia (Euzenat, 2004a) INRIA Rhône-Alpes, Francia; Universidad de Montreal, Montreal,

Canadá.

3.2.3. Axiom-based ontology matching

Descripción

En (Furst, 2009) se presenta una herramienta que realiza alineamiento entre ontologías en

base a axiomas, se trata de un nuevo enfoque para el alineamiento y mapeo de entidades existentes

en ontologías. Este enfoque requiere que los axiomas estén explícitos en las ontologías que serán

procesadas de una forma conceptual no operacional como usualmente se realiza. Los autores utilizan

el lenguaje OCGL (Ontology Conceptual Graphs Language) para representar los axiomas

conceptuales. Este lenguaje está basado en teoría de grafos y lógica de primer orden para encontrar

homomorfismos entre grafos y mecanismos de razonamiento basado en grafos.

El método se basa en el uso de axiomas para descubrir semánticamente analogías entre

primitivas de las ontologías. Al encontrar estas analogías se realiza un cálculo de similitud entre los

conceptos o relaciones no-taxonómicas.

Para la representación de una ontología en OCGL consiste en especificar el vocabulario

conceptual y la semántica de ese vocabulario por medio de axiomas. Este vocabulario está compuesto

Page 49: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

35

por conceptos, relaciones e instancias.

Características

La herramienta presentada en este artículo realiza mapeos entre dos ontologías en el lenguaje

para la representación de grafos y lógica de primer orden OCGL para el idioma en inglés. Las técnicas

utilizadas por la herramienta son estructurales, terminológicas y semánticas, se basa en conceptos,

relaciones e instancias así como de los axiomas conceptuales que deben ser definidos en las

ontologías que ingresen. El resultado final de la herramienta es un listado de conceptos y relaciones

con el coeficiente de similitud entre ambas entidades mapeadas.

Relevancia para el trabajo de investigación

Lo importante de este proyecto de investigación es el uso de la lógica de primer orden en la

tarea de la deducción de nuevos elementos en las ontologías.

Referencia (Furst et al., 2009). Laboratoire de Recherche en Informatique d’Amiens UPJV;

Laboratoire d’Informatique de Nantes Atlantique Cedex, Francia

Referencias (Furst et al., 2004).

3.3 Comparativa de trabajos presentados en el estado del arte

La comparativa de los trabajos revisados en esta investigación se divide en 2 etapas. La

primera de ellas aborda a los algoritmos utilizados para realizar las tareas de alineamiento y mapeo de

entidades candidatos existentes entre 2 o más ontologías. En la segunda etapa se evaluaron las

características generales de las herramientas y metodologías propuestas por los autores en el estado

del arte de la presente investigación.

3.3.1 Análisis de las características de algoritmos de alineamiento y mapeo de ontologías

El criterio de evaluación de las características de los algoritmos planteados por los trabajos

descritos en el estado del arte, se establecen a partir de las técnicas de alineamiento y de los

elementos que caracterizan a las ontologías las cuales están descritas en el marco teórico. Del trabajo

presentado por (Euzenat, 2004b).

Las técnicas que se evalúan son las siguientes: comparaciones estructurales, sintácticas y

semánticas que se derivan en otras características que son más precisas para su evaluación.

1. Las características de comparación estructural se basan en la taxonomía (T) la cual compete

a la evaluación de los superconceptos y subconceptos de la clase a calcular, como también

las de dominio y rango de propiedades (P-DR) y por último las de relaciones(R-DR) en ellas

Page 50: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

36

se evalúan que exista un grado de similitud entre la estructura formada por los atributos y

conceptos de donde se derivan.

2. Las características de comparación sintáctica se derivan en comparaciones morfológicas

realizadas para obtener la distancia de dos cadenas de texto y se realiza sobre los conceptos

(C), las relaciones no taxonómicas (RNT), instancias (I) propiedades o atributos (P), por último

la estructura integrada por una tripleta RDF (RDF-Triple).

3. La última característica es la utilizada para desambiguar semánticamente un término. El uso

de lexicones (SL) que se usan para desambiguar el término por medio del significado de este,

las reglas (RS) las cuales se derivan nuevas propiedades que sirven para hacer este mapeo y

axiomas(AS).

3.3.2 Tabla de comparativa de las características de los algoritmos

La tabla 3-1 se basa en las métricas identificadas para la evaluación de los algoritmos de alineamiento

y mapeo de cada trabajo de investigación presentado en este documento.

Tabla 3-1. Características evaluadas de los algoritmos de alineamiento y mapeo de ontologías.

Tipo de Comparación

/ Trabajos

Enfoque Estructural Sintáctica Semántica

T P-DR R-DR C I RNT P RDF-Triple

SL RS AS

ASC03 (Thanh Le, 2007)

Basado en grafos

X - - X X X - - - - -

OPTIMA (Kolli et al., 2008)

X - - X X X X - - - -

OLA (Euzenat, 2004a)

X - - X X X X - - - -

TooCom (Furst et al., 2009)

X - - X X X - - - - X

MAF (Navas et al., 2007)

Tradicional X X - X X - X X - -

PowerMap (López et al.,

2006a)

X - - X X X X X X - -

FOAM (Erigh, 2005)

X X X X X X X X - - X

LOM (Li, 2004)

X - - X X X - - X - -

(Benslimane et al., 2007)

X X - X X X X - X - -

(Kwak, 2010) X X - X - - X - X - - TESIS - - - X X X X X X - -

Page 51: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

37

3.3.3 Características de herramientas de alineamiento y mapeo de ontologías

La tabla 3-2 se divide en columnas y filas; donde las columnas representan cada una de las

características utilizadas para evaluar a las herramientas que se describen en el estado del arte.

Al comienzo de cada una de las filas se tiene a los trabajos evaluados. Las características

establecidas en la tabla 3-2 se describen a continuación:

1. Enfoque: principalmente para conocer el tipo proceso que utiliza en la solución del problema

de alineamiento de ontologías.

2. Entrada: indica los parámetros de entrada de la herramienta

3. Técnicas de alineamiento: para su evaluación se derivaron en los siguientes puntos:

a. Técnicas sintácticas: son las más utilizadas y se basan en el grado de similitud entre

dos conceptos utilizando para ello algoritmos de comparación de cadenas.

b. Técnicas de aproximación semántica: en este punto se utilizan recursos externos

para obtener otros términos con el mismo significado aunque morfológicamente

diferentes entre ellos.

c. Técnicas estructurales: se basa en la comparación de la taxonomía de la que está

compuesta la ontología, también se hacen comparaciones de superconceptos y

subconceptos así como del dominio y rango de las propiedades de la ontología.

d. Técnicas semánticas: estas utilizan motores de inferencia axiomas y reglas

establecidas de antemano en las ontologías para obtener algún resultado en el

proceso de mapeo.

e. Técnicas lingüísticas: en este apartado se consideran el uso de recursos tales

como corpus de texto los cuales sirven para evaluar los conceptos en el proceso de

mapeo por ocurrencias de los términos existentes en ellos.

4. Proceso del alineamiento: este punto es importante ya que se deduce el mecanismo que

utiliza para terminar con el proceso de alineamiento y que tan fiable se torna la herramienta.

5. Recursos externos: esta columna representa a los diferentes recursos externos utilizados

para ayudarse a complementar el alineamiento.

6. Idioma: se hace mención de ello, ya que en esta tesis se aborda el problema del alineamiento

de ontologías en dos idiomas.

7. Lenguaje de ontología: se utiliza para conocer el tipo de lenguaje que usa cada herramienta

ya que existe por lo menos una que aborda varios lenguajes de representación de ontologías.

8. Salida: importante señalar la salida del sistema para efectos de uso de la herramienta para un

usuario experto o no en el tema.

Page 52: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

38

3.3.3 Tabla de comparativa de las herramientas de alineamiento y mapeo

Tabla 3-2. Comparativa de los sistemas de alineamiento y mapeo de ontologías.

Características /

Trabajos

Enfoque Entrada Técnicas Terminológicas Técnicas estructurales

Técnicas semánticas

Técnicas lingüísticas

Recursos externos

Idioma Lenguaje de

Ontología

Salida

T. Sintácticas

T. de aprox. semántica

ASC03 (Thanh Le, 2007)

Basado en grafos

2 ontologías Similitud léxica de términos

No utiliza Se busca isomorfismos entre los grafos

No utiliza No utiliza No utiliza Inglés OWL Grafo con entidades mapeadas

OPTIMA (Kolli et al., 2008)

2 ontologías Similitud léxica de entidades candidato

Extrae sinónimos de WordNet

Busca homomorfismo entre los grafos

No utiliza No utiliza WordNet y Jena

Inglés N3, RDF y OWL

Grafo con entidades mapeadas

OLA (Euzenat, 2004a)

2 ontologías Similitud léxica de términos

Extrae sinónimos de WordNet

Se realizan mapeos entre grafos verificando la estructura de las propiedades

No utiliza No utiliza WordNet Inglés OWL/ DL

Taxonomía de las ontologías con términos alineados remarcados de azul y archivo de alineamiento

TooCom (Furst et al., 2009)

2 ontologías (convertidas a OCGL)

Similitud léxica de términos

No utiliza Basada en la estructura del grafo

Utiliza axiomas conceptuales

No utiliza No utiliza Inglés OCGL Resumen de entidades mapeadas y el coeficiente de similitud

MAF (Navas et al.,

2007)

Tradicional

2 ontologías Similitud léxica de términos

Extrae sinónimos de EuroWordNet

Comparación de conceptos según el tipo de dato

No utiliza No utiliza WordNet Español OWL Tabla de entidades mapeadas con grado de confianza

PowerMap (López et al.,

2006a)

Múltiples ontologías y tripletas

Similitud léxica de términos

Extrae sinónimos de WordNet, hiponimos e hiperónimos de SUMO

Mapeo de superconceptos y subconceptos

No utiliza No utiliza WordNet y Sumo

Inglés OWL Resultados de tipo semántico

FOAM (Erigh, 2005)

Múltiples ontologías

Similitud léxica de términos

No utiliza Verifica la taxonomía de la ontología

Utiliza motor de inferencia

No utiliza Kaon2 Inglés OWL/ DL

Archivo con entidades alineadas y con el grado de similitud

Page 53: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo III. Estado del arte

39

LOM (Li, 2004)

Tradicional

2 ontologías Similitud léxica de términos

Extrae sinónimos de WordNet hiponimos e hiperónimos de SUMO y MILO

Mapeo de superconceptos y subconceptos

No utiliza No utiliza WordNet SUMO y MILO

Inglés OWL Tabla de entidades mapeadas con grado de confianza

(Benslimane et al., 2007)

Múltiples ontologías

Similitud léxica de términos

Extrae sinónimos de WordNet

Mapeo de superconceptos y subconceptos

No utiliza No utiliza OWLAPI, y Java WordNet Library

Inglés OWL Tabla de entidades mapeadas con grado de confianza

(Kwak, 2010) Múltiples ontologías

Similitud léxica de términos

Extrae sinónimos de WordNet de SWSS extrae hiponimos, hiperónimos, homónimos y merónimos

Mapeo de superconceptos y subconceptos

No utiliza No utiliza WordNet y SWSS

Inglés OWL Lista de entidades mapeadas con grado de confianza

TESIS Múltiples ontologías y tripletas

Similitud léxica de términos

Uso de WordNet y EuroWordNet

No utiliza No utiliza No utiliza WordNet, EuroWordNet, Jena

Español e Inglés

OWL Página Web con resultados adecuados para el usuario final

Page 54: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

40

Capítulo 4. METODOLOGÍA DE SOLUCIÓN En este apartado se describe la metodología aplicada para dar solución al problema de la

presente investigación. Esta investigación forma parte de una herramienta de búsquedas semánticas

basadas en ontologías llamada ironLP (por sus siglas en Inglés information retrieval using

ontologies and natural language processing). El componente que se describe en esta sección es

el encargado de extraer la información implícita en las ontologías para responder a los

cuestionamientos que se realizan por medio de la introducción de tripletas.

Page 55: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

41

4.1 Arquitectura general

El componente de extracción de información a partir de ontologías utiliza técnicas que son

aplicadas en el alineamiento de ontologías para obtener un resultado. Las dos técnicas de

alineamiento de ontologías utilizadas son la comparación léxico-sintáctica y la aproximación

semántica.

La tabla 4-1 describe los patrones de búsqueda identificados como entrada de la herramienta.

Tabla 4-1. Tipos de tripletas identificadas como entrada al sistema.

Ab. Tripletas Descripción

A [ Subject ?, Predicate, Object ] Extrae las instancias de la ontología que contengan una similitud satisfactoria con la relación y el rango de los términos en la tripleta de búsqueda.

B [Subject, Predicate, Object? ] Extrae las instancias de la ontología que contengan una similitud satisfactoria con la relación y el dominio de los términos en la tripleta de consulta.

C [ Subject , Predicate ?, Object ] Extrae las instancias de la ontología donde el dominio y rango de la tripleta de búsqueda se encuentran relacionados entre sí.

D [Subject?, Predicate, Object ? ] Extrae las instancias de la ontología que son relacionadas por el predicado.

E [ Subject, is-a, Object?] Extrae la clase de la que se deriva la instancia en la taxonomía (Ej: El clarinete, es un, instrumento musical).

F [ Subject ?, is-a, Object ] Extrae instancias de la clase y subclases de la clase que se introduce en el rango.

G [Subject, Predicate, Object ] Extrae las instancias de las ontologías a las que corresponda el sujeto relación y objeto de la tripleta ingresada para realizar la búsqueda.

Al hacer uso de recursos externos se tiene la posibilidad obtener un porcentaje más alto de

encontrar términos que no son sintácticamente iguales; pero si, en su significado al hacer uso de

sinónimos que ayudan a encontrar una relación entre estos elementos. Por lo tanto, se incluyen un

vector de sinónimos para cada elemento de la tripleta que tenga esta información contenida en las

bases de datos lexicográficas para enriquecer estos términos con otros elementos.

Page 56: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Este componente tiene 3 módulos los cuales se especifican en

representa de forma general la metodología de solución propuesta.

En la figura 4-1 se observa la metodología de solución en conjunto.

Figura 4-1. Metodología de solución para la extracción de información contenida en ontologías.

A continuación se describe brevemente el funcionamiento de cada unos de los módulos.

1. Extracción de términos: este módulo es el encargado de extraer información contenida en las

bases de datos léxico-gráficas de WordNet y EuroWordNet de cada término contenido de la

tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo

al término correspondiente.

2. Extracción y mapeo de ontologías:

contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son

utilizados para realizar mapeos entre

alineamiento de ontologías (sintácticas y de aproximación semántica).

3. Resultado de mapeo de ontologías y tripletas:

únicamente las tripletas completas que

búsqueda del usuario.

Capítulo IV. Metodología de solución

Este componente tiene 3 módulos los cuales se especifican en la figura 4

representa de forma general la metodología de solución propuesta.

se observa la metodología de solución en conjunto.

Metodología de solución para la extracción de información contenida en ontologías.

A continuación se describe brevemente el funcionamiento de cada unos de los módulos.

este módulo es el encargado de extraer información contenida en las

gráficas de WordNet y EuroWordNet de cada término contenido de la

tripleta. También se realiza la identificación de cada término así como la asignación de sinónimo

Extracción y mapeo de ontologías: se encuentra destinado a la extracción de los elementos

contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son

utilizados para realizar mapeos entre los términos de las tripletas mediante el uso de técnicas de

alineamiento de ontologías (sintácticas y de aproximación semántica).

Resultado de mapeo de ontologías y tripletas: el último módulo se encarga de extraer

únicamente las tripletas completas que contengan información concerniente al contexto de la

Capítulo IV. Metodología de solución

42

la figura 4-1 donde se

Metodología de solución para la extracción de información contenida en ontologías.

A continuación se describe brevemente el funcionamiento de cada unos de los módulos.

este módulo es el encargado de extraer información contenida en las

gráficas de WordNet y EuroWordNet de cada término contenido de la

tripleta. También se realiza la identificación de cada término así como la asignación de sinónimos

se encuentra destinado a la extracción de los elementos

contenidos en las ontologías (clases, relaciones e instancias). Estos elementos ontológicos son

los términos de las tripletas mediante el uso de técnicas de

el último módulo se encarga de extraer

ontengan información concerniente al contexto de la

Page 57: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

43

4.1.1 Extracción de términos

El primer módulo llamado “extracción de términos” identifica cada uno de los elementos de la

tripleta así como su incógnita. Esta identificación se realiza para establecer la posición de la incógnita

o incógnitas dentro de la tripleta así como del tipo de elemento que es ingresado en ella. El desarrollo

del ejemplo que se utiliza para enseñar el funcionamiento de la metodología de solución está basado

en los patrones de búsqueda G, G y B de la tabla 4-1.

En la tabla 4-2 se aprecian las tripletas de entrada que recibe el prototipo generado de esta tesis.

Tabla 4-2. Entrada del prototipo para la búsqueda de información en ontologías.

[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ][ comunicaron, argumento2, temblor ][ temblor, espacio, x ? ]

Posteriormente se realiza un conteo del número de tripletas ingresadas así como la validación

de éstas. Este punto del proceso identifica el número de tripletas que se ingresaron como se aprecia

en la tabla 4-3.

Tabla 4-3. Conteo de tripletas ingresadas.

1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

2. [ comunicaron, argumento2, temblor ]

3. [ temblor, espacio, x ? ]

Número de tripletas ingresadas: 3

El módulo de “extracción de términos” identifica al elemento que contiene la tripleta o tripletas

anidadas incluyendo la incógnita que se desea encontrar como se muestra en la tabla 4-4.

Tabla 4-4. Identificación de elementos contenidos en las tripletas de entrada.

1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

1.1 Sujeto : comunicaron

1.2 Predicado: argumento1

1.3 Objeto: la Agencia Meteorológica Japonesa

Page 58: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

44

2. [ comunicaron, argumento2, temblor ]

2.1 Sujeto : comunicaron

2.2 Predicado : argumento2

2.3 Objeto: temblor

3. [ temblor, espacio, x ? ]

3.1 Sujeto: temblor

3.2 Predicado : espacio

3.3 Incógnita: x ?

En esta etapa del módulo de “extracción de términos” se procede a identificar la categoría

gramatical a la que corresponde cada uno de los términos contenidos en las tripletas. El etiquetador

TreeTagger realiza la identificación de la categoría gramatical y se procede a extraer el verbo o

nombre común que identifica el etiquetador.

En la tabla 4-5 se detalla la acción que sucede en esta parte de la metodología de solución propuesta.

Tabla 4-5. Identificación de la categoría gramatical de los términos existentes con TreeTagger.

1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

1.1 Sujeto : comunicaron

1.1.1 Categoría gramatical: verbo en infinitivo ( VLfin )

1.1.1.1 Verbo: comunicar

1.1.2 Stop Words: no contiene

1.1.3 Cadena final: comunicar

1.2 Predicado: argumento1

1.2.1 Categoría gramatical: desconocida

1.2.2 Stop Words: no contiene

1.2.3 Cadena final: argumento 1

1.3 Objeto: la Agencia Meteorológica Japonesa

1.3.1 Categoría gramatical: desconocida

1.1.1 Stop Words: la

1.1.1 Cadena final: agencia meteorológica japonesa

2. [ comunicaron, argumento2, temblor ]

Page 59: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

45

2.1 Sujeto : comunicaron

2.1.1 Categoría gramatical: Verbo en infinitivo ( VLfin )

2.1.1.1 Verbo: comunicar

1.3.2 Stop Words: no contiene

2.1.2 Cadena final: comunicar

2.2 Predicado : argumento2

2.2.1 Categoría gramatical: desconocida

2.3 Objeto: temblor

2.3.1 Categoría gramatical: es identificado como un nombre común (NC)

2.3.1.1 Nombre común: temblor

1.3.3 Stop Words: no contiene

2.3.2 Cadena final: temblor

3. [ temblor, espacio, x ? ]

3.1 Sujeto: temblor

3.1.1 Categoría gramatical: es identificado como un nombre común (NC)

3.1.1.1 Nombre común: temblor

1.3.4 Stop Words: no contiene

3.1.2 Cadena final: temblor

3.2 Predicado: espacio

3.2.1 Categoría gramatical: es identificado como un nombre común (NC)

3.2.1.1 Nombre común: espacio

1.3.5 Stop Words: no contiene

3.2.2 Cadena final: espacio

3.3 Incógnita: x ?

3.4 Categoría gramatical: desconocida

El siguiente paso del módulo de “extracción de información” consiste en extraer de las bases

de datos lexicográficas los sinónimos y verbos relacionados de los términos identificados en las

tripletas como un nombre común o un verbo. Para obtener los sinónimos de los términos en Español

se utiliza la base de datos EuroWordNet. Los resultados obtenidos se agrupan agregando a cada

término los sinónimos y verbos relacionados que son encontrados en EuroWordNet. En las tripletas

ingresadas por lo menos una debe existir una incógnita.

En la tabla 4-6 se establece el ejemplo de la acción que se realiza en este paso de la

metodología de solución propuesta basados en lo patrones G, G y B de la tabla 4-1.

Page 60: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

46

Tabla 4-6. Enriquecimiento de términos mediante sinónimos obtenidos de EuroWordNet.

1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

1.1 Sujeto : comunicaron

1.1.1 Categoría gramatical: verbo en infinitivo ( VLfin )

1.1.1.1 Verbo: comunicar

1.3.6 Stop Words: no contiene

1.1.2 Cadena final: comunicar

1.1.3 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,

revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,

transmitir, dar, impartir, ofrecer.

1.2 Predicado: argumento1

1.2.1 Categoría gramatical: desconocida

1.3.7 Stop Words: no contiene

1.3.8 Cadena final: argumento 1

1.3 Objeto: la Agencia Meteorológica Japonesa

1.3.1 Categoría gramatical: desconocida

1.1.2 Stop Words: la

1.3.2 Cadena final: agencia meteorológica japonesa

2. [ comunicaron, argumento2, temblor ]

2.1 Sujeto: comunicaron

2.1.1 Categoría gramatical: Verbo en infinitivo ( VLfin )

2.1.1.1 Verbo: comunicar

1.3.9 Stop Words: no contiene

2.1.2 Cadena final: comunicar

2.1.3 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,

revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,

transmitir, dar, impartir, ofrecer.

2.2 Predicado : argumento2

2.2.1 Categoría gramatical: desconocida

1.3.10 Stop Words: no contiene

1.3.11 Cadena final: argumento 1

2.3 Objeto: temblor

2.3.1 Categoría gramatical: es identificado como un nombre común ( NC )

Page 61: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

47

2.3.1.1 Nombre común: temblor

1.3.12 Stop Words: no contiene

2.3.2 Cadena final: temblor

2.3.3 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,

coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,

retozo, estremecimiento, sacudida, temblor

3. [ temblor, espacio, x ? ]

3.1 Sujeto: temblor

3.1.1 Categoría gramatical: es identificado como un nombre común ( NC )

3.1.1.1 Nombre común: temblor

1.3.13 Stop Words: no contiene

3.1.2 Cadena final: temblor

3.1.3 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,

coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,

retozo, estremecimiento, sacudida, temblor

3.2 Predicado : espacio

3.2.1 Categoría gramatical: es identificado como un nombre común ( NC )

3.2.1.1 Nombre común: espacio

1.3.14 Stop Words: no contiene

3.2.2 Cadena final: espacio

3.3 Incógnita: x ?

3.4 Categoría gramatical: desconocida

Las tripletas ingresadas dentro de la herramienta por lo menos en una tripleta debe existir una

incógnita y como máximo 2 en la misma. La incógnita de la tripleta es el elemento que se requiere

conocer o por el cual se pregunta.

4.1.2 Extracción y mapeo de ontologías

El segundo módulo denominado “Extracción y mapeo de ontologías” es el encargado de

extraer las ontologías necesarias para realizar la búsqueda de información. Este módulo también

extrae los elementos de la ontología; es decir; extrae las instancias, relaciones y clases de la ontología

con la finalidad de realizar mapeos entre los elementos de las tripletas ingresadas.

La extracción de los elementos contenidos en la ontología se realiza con la API de JENA

desarrollada en los laboratorios de semánticos de HP por (McBride, 2002). El mapeo de estos

Page 62: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

48

elementos se determina por el grado de similitud del elemento de la ontología y el término de la

tripleta, esto con el objetivo de obtener un grado de confianza de las cadenas que va desde 0 hasta 1.

El resultado obtenido en la comparación de cadenas de texto se realiza con los algoritmos

(Levensthein,1965), (Needleman&Wunsch, 1970) y (Monge&Elkan, 1996) y se encuentran

implementadas dentro de la librería SimMetric desarrollada por (Chapman, 2005). A continuación de

describen los elementos necesarios para la implementación de cada algoritmo en la herramienta:

1. El algoritmo que se utiliza en cadenas pequeñas de un máximo de 5 caracteres es el

algoritmo de (Levenshtein, 1965) el cual se usa para comparar clases e instancias y

relaciones.

2. El siguiente algoritmo es el de (Nedleman & Wunch, 1970) implementado en la mayoría de las

relaciones e instancias que tiene una longitud mayor a 5 y de no más de 14 caracteres de

longitud.

3. El último algoritmo es el de (Monge&Elkan, 1996) en donde se usa para calcular sobre

cadenas con longitudes mayores a 14 caracteres.

Se utilizan diferentes umbrales para comparar y extraer la información contenida en las

ontologías. En la tabla 4-7 se especifican los umbrales y el elemento ontológico al cual se aplican:

Tabla 4-7. Elementos ontológicos y umbrales establecidos.

Elemento Umbral

Clase .90

Relación .80

Instancia .70

En este módulo se leen las ontologías que se encuentran clasificadas por dominio y

subdominio en la base de datos en donde se encuentran guardadas las direcciones de las ontologías

dentro del repositorio.

En todos los patrones de búsqueda que se describen en la tabla 4-1 se realizan

comparaciones sintácticas de los términos contenidos en las tripletas y los elementos de la ontología

de forma directa haciendo una correspondencia en el tipo de elemento a comparar. Si el resultado de

esa comparación es menor al umbral definido en la tabla 4-7 se procede a comparar el elemento de la

ontología correspondiente con los elementos contenidos en los vectores de sinónimos de cada

Page 63: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

49

término de las tripletas, esto se hace, hasta encontrar un elemento que tenga un grado de similitud por

arriba del umbral definido y se considere como una respuesta correcta.

Siguiendo con el ejemplo del módulo de “extracción de términos” de la tabla 4-5 se realiza el

mapeo de los términos contenidos en las tripletas con los existentes en las ontologías.

En la tabla 4-8 se aprecia la información contenida en la ontología la cual tiene una estructura

que se deriva de (Reyes, 2011) que debe ser mapeada correctamente para extraer la respuesta a la

consulta ingresada de la tabla 4-2 la respuesta que se desea obtener es la instancia de la tripleta 3 en

la posición del objeto.

Tabla 4-8. Información contenida en la ontología de búsqueda.

1. [ anunció, argumento 1, la agencia meteorológica japonesa]

2. [ anunció argumento 2 sismo]

3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]

Los elementos ontológicos se tratan para eliminar palabras comúnmente conocidas como

“palabras vacías” (ver anexo A). con la finalidad de encontrar el verbo en las instancias que se utilizan

como relaciones. El reconocimiento de las categorías gramaticales se realiza por medio del

etiquetador TreeTagger que es una herramienta de etiquetado gramatical desarrollado por (Schmid,

1994) para realizar anotaciones de texto basado en árboles de decisión.

En la tabla 4-9 se muestra un ejemplo del procesamiento previo de los elementos ontológicos para realizar el mapeo de estos con los términos de las tripletas.

Tabla 4-9. Tratamiento de elementos ontológicos.

1. [ anunció, argumento 1, la agencia meteorológica japonesa]

1.1 Sujeto: anunció

1.1.1 Elemento: Instancia

1.1.2 Categoría gramatical: no encontrada por TreeTagger

1.1.3 Stop Words: no contiene

1.1.4 Cadena final: anunció

1.2 Predicado: argumento1

1.2.1 Categoría gramatical: no encontrada por TreeTagger

1.2.2 Elemento: Instancia de relación

Page 64: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

50

1.2.3 Stop Words: no contiene

1.2.4 Cadena final: argumento1

1.3 Objeto: la agencia meteorológica japonesa

1.3.1 Elemento: Instancia

1.3.2 Categoría gramatical: no encontrada por TreeTagger

1.3.3 Stop Words: la

1.3.4 Cadena final: agencia meteorológica japonesa

2. [ anunció, argumento 2, sismo]

2.1 Sujeto: anunció

2.1.1 Elemento: Instancia

2.1.2 Categoría gramatical: no encontrada por TreeTagger

2.1.3 Stop Words: no contiene

2.1.4 Cadena final: anunció

2.2 Predicado: argumento 2

2.2.1 Categoría gramatical: no encontrada por TreeTagger

2.2.2 Elemento: Instancia de relación

2.2.3 Stop Words: no contiene

2.2.4 Cadena final: argumento 2

2.3 Objeto: sismo

2.3.1 Elemento: Instancia

2.3.2 Categoría gramatical: nombre común (NC)

2.3.2.1 Nombre común: sismo

2.3.3 Stop Words: no contiene

2.3.4 Cadena final: sismo

3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]

3.1 Sujeto: sismo

3.1.1 Elemento: Instancia

3.1.2 Categoría gramatical: nombre común

3.1.2.1 Nombre común: sismo

3.1.3 Stop Words: no contiene

3.1.4 Cadena final: sismo

3.2 Predicado: espacio

Page 65: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

51

3.2.1 Categoría gramatical: nombre común (NC)

3.2.1.1 Nombre común: espacio

3.2.2 Elemento: Instancia de relación

3.2.3 Stop Words: no contiene

3.2.4 Cadena final: espacio

3.3 Objeto: epicentro a 66 km al este de Sendai y a una profundidad de 256 km

3.3.1 Elemento: Instancia

3.3.2 Categoría gramatical: no encontrada por TreeTagger

3.3.3 Stop Words: a, al, este, de, y, una.

3.3.4 Cadena final: epicentro 66 km Sendai profundidad 256 km

La tripleta 1 de la ontología es la primera en ser mapeada con los términos de la tripleta 1 de la consulta del usuario que se específico en la tabla 4-2.

En la tabla 4-10 se desarrolla el ejemplo del mapeo de la tripleta contenida en la ontología junto al tratamiento previo que se realizó con la tripleta de búsqueda 1 descrita en la tabla 4-3.

Tabla 4-10. Mapeo de términos de la tripleta de búsqueda número 1.

1. [ anunció, argumento 1, la agencia meteorológica japonesa]

1.1 Sujeto: anunció

1.1.1 Cadena final: anunció

1.2 Predicado: argumento1

1.2.1 Cadena final: argumento1

1.3 Objeto: la agencia meteorológica japonesa

1.3.1 Cadena final: agencia meteorológica japonesa

2. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

2.1 Sujeto : comunicaron

2.1.1 Cadena final: comunicar

2.1.2 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,

revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,

transmitir, dar, impartir, ofrecer.

2.2 Predicado: argumento1

2.2.1 Cadena final: argumento 1

2.3 Objeto: la Agencia Meteorológica Japonesa

2.3.1 Cadena final: agencia meteorológica japonesa

Page 66: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

52

En esta fase del módulo de “selección de entidades” se realizan los mapeos

correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de

cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la

siguiente manera:

1. Tripleta de la ontología:[ anunció, argumento 1, agencia meteorológica japonesa]

2. Tripleta de búsqueda:[ comunicar, argumento 1, agencia meteorológica japonesa ]

Análisis de comparación sintáctica y de aproximación semántica.

El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos

de ambas tripletas.

1. [ anunció, argumento 1, agencia meteorológica japonesa]

2. [ comunicar, argumento 1, agencia meteorológica japonesa ]

En el caso donde la tripleta corresponde al patrón G de búsqueda se comienza por el

mapeo de la relación para obtener la similitud de esta.

1. [ anunció, argumento 1, agencia meteorológica japonesa]

2. [ comunicar, argumento 1, agencia meteorológica japonesa ]

El grado de similitud obtenido por el algoritmo (Needleman&Wunch,1970) implementado

es de 1.0.

El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.

1. [ anunció, argumento 1, agencia meteorológica japonesa ]

2. [ comunicar, argumento 1, agencia meteorológica japonesa ]

El grado de similitud obtenido por el algoritmo (Needleman&Wunch,1970) implementado

es de 0.61 el cual es un grado muy bajo de confianza y no es suficiente para el umbral definido

para este elemento; en este punto se realiza la comparación sintáctica de los sinónimos que se

obtuvieron en el módulo de ”Extracción de términos” de las tripletas de búsqueda.

En el vector de sinónimos del término “comunicar” de la tripleta de búsqueda se encuentra

el verbo “anunciar” el cual se compara sintácticamente con el verbo contenido en la tripleta de la

Page 67: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

53

ontología, el valor que se obtiene es de 0.81 donde el grado de confianza para las relaciones es

satisfactorio. Se reformula la tripleta la cual queda de la siguiente manera

1. [ anunció, argumento 1, agencia meteorológica japonesa ]

2. [ anunciar, argumento 1, agencia meteorológica japonesa ]

El último grado de similitud obtenido es el del objeto de ambas tripletas. El algoritmo

utilizado es (Monge&Elkan,1996) ya que este algoritmo otorga una mejor respuesta en el grado de

confianza que calcula en cadenas mayores a 12 caracteres.

1. [ anunció, argumento 1, agencia meteorológica japonesa]

2. [ anunciar, argumento 1, agencia meteorológica japonesa ]

El algoritmo genera como resultado un grado de confianza de 1.0 lo que permite

seleccionar la tripleta de la ontología como una respuesta correcta.

Resultados:

[ anunció, argumento 1, agencia meteorológica japonesa ]

Esta tripleta se agrega al vector de resultados correspondientes a la primera tripleta de búsqueda.

En la tabla 4-11 se desarrolla el ejemplo en el mapeo de la tripleta de búsqueda 2 con los

elementos que conforman una tripleta dada por sujeto, predicado y objeto de la ontología.

Tabla 4-11. Mapeo de términos de la tripleta de búsqueda número 2.

1. [ anunció, argumento 2, sismo]

1.1 Sujeto: anunció

1.1.1 Cadena final: anunció

1.2 Predicado: argumento 2

1.2.1 Cadena final: argumento 2

1.3 Objeto: sismo

1.3.2 Cadena final: sismo

2. [ comunicaron, argumento2, temblor ]

2.1 Sujeto: comunicaron

2.1.1 Cadena final: comunicar

Page 68: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

54

2.1.2 Sinónimos: avisar, declarar, informar, manifestar, notificar, participar, prevenir,

revelar, significar, anunciar, contagiar, contaminar, infectar, inficionar, inocular,

transmitir, dar, impartir, ofrecer.

2.2 Predicado : argumento2

1.3.15 Cadena final: argumento 1

2.3 Objeto: temblor

2.3.1 Cadena final: temblor

2.3.2 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,

coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,

retozo, estremecimiento, sacudida, temblor

En esta fase del módulo de “selección de entidades” se realizan los mapeos

correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de

cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la

siguiente manera:

1. Tripleta de la ontología: [ anunció, argumento 2, sismo ]

1. Tripleta de búsqueda: [ comunicaron, argumento2, temblor ]

Análisis de comparación sintáctica y de aproximación semántica.

El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos

de ambas tripletas.

1. [ anunció, argumento 2, sismo ]

2. [ comunicar, argumento 2, temblor ]

En el caso donde la tripleta corresponde al patrón G de búsqueda se comienza por el

mapeo de la relación para obtener la similitud de ésta.

1. [ anunció, argumento 2, sismo ]

2. [ comunicar, argumento 2, temblor ]

El grado de similitud obtenido por el algoritmo (Needleman&Wunch, 1970) implementado

es de 1.0.

El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.

Page 69: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

55

1. [ anunció, argumento 2, sismo ]

2. [ comunicar, argumento 2,temblor ]

El grado de similitud obtenido por el algoritmo (Needleman&Wunch,1970) implementado

es de 0.61 el cual es un grado muy bajo de confianza; en este punto se realiza la comparación

sintáctica de los sinónimos que se obtuvieron en el módulo de ”extracción de términos” de las

tripletas de búsqueda.

En el vector de sinónimos del término “comunicar” de la tripleta de búsqueda se encuentra

el verbo “anunciar” el cual se compara sintácticamente con el verbo contenido en la tripleta de la

ontología, el valor que se obtiene es de 0.81 donde el grado de confianza para las relaciones es

satisfactorio. Se reformula la tripleta la cual queda de la siguiente manera

1. [ anunció, argumento 2, sismo ]

2. [ anunciar, argumento 2, temblor ]

El último grado de similitud obtenido es el del objeto de ambas tripletas. El algoritmo

utilizado es el algoritmo de (Levenshtein, 1965) ya que existe una cadena de texto de sólo 5

caracteres y el algoritmo genera mejores resultados en este tipo de cadenas.

1. [ anunció, argumento 1, sismo ]

2. [ anunciar, argumento 1, temblor ]

El algoritmo de (Levenshtein, 1965) genera como resultado un grado de confianza de

0.142 y no cumple con el umbral establecido para ser seleccionado como una respuesta correcta.

Para obtener un mejor resultado se realiza la comparación sintáctica de los sinónimos que se

obtuvieron en el módulo de “extracción de términos” de las tripletas de búsqueda.

En el vector de sinónimos del término “temblor” de la tripleta de búsqueda se encuentra el

sinónimo “sismo” el cual se compara sintácticamente con el término contenido en la tripleta de la

ontología, el valor que se obtiene es de 1.0. Se reformula la tripleta la cual queda de la siguiente

manera:

1. [ anunció, argumento 1, sismo ]

2. [ anunciar, argumento 1, sismo ]

Page 70: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

56

Resultados:

[ anunció, argumento 2, sismo ]

Este resultado se agrega al vector de resultados correspondientes a la segunda tripleta de

búsqueda.

En la tabla 4-12 se realiza la extracción de la información en la ontología a partir de la tripleta

número 3 la cual se identifica por el patrón B de las tripletas de búsqueda que contiene la incógnita

en el objeto de la tripleta.

Tabla 4-12. Mapeo de términos de la tripleta de búsqueda número 3.

1. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]

1.1 Sujeto: sismo

1.1.1 Cadena final: sismo

1.2 Predicado: espacio

1.2.1 Cadena final: espacio

1.3 Objeto: epicentro a 66 km al este de Sendai y a una profundidad de 256 km

1.3.1 Cadena final: epicentro a 66 km al este de Sendai y a una profundidad de 256

km

1. [ temblor, espacio, x ? ]

1.1 Sujeto: temblor

1.1.1 Cadena final: temblor

1.1.2 Sinónimos: sismo, terremoto, agitación, bailable, bailoteo, brinco, cabriola,

coreografía, danza, jaleo, meneo, movimiento, pantomima, representación,

retozo, estremecimiento, sacudida, temblor

1.2 Predicado : espacio

1.2.1 Cadena final: espacio

1.3 Incógnita: x ?

1.4 Categoría gramatical: desconocida

En esta fase del módulo de “selección de entidades” se realizan los mapeos

correspondientes con las cadenas finales obtenidas en cada uno de los tratamientos previos de

Page 71: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

57

cada elemento. Se reestructuran las tripletas con las cadenas finales obtenidas quedando de la

siguiente manera:

1. Tripleta de la ontología: [ sismo, espacio, epicentro a 66 km al este de Sendai y a una

profundidad de 256 km ]

2. Tripleta de búsqueda: [ temblor, espacio, x ? ]

Análisis de comparación sintáctica y de aproximación semántica.

El siguiente paso es la obtención del grado de similitud sintáctica de cada par de términos

de ambas tripletas sin comparar el elemento la incógnita.

1. [ sismo, espacio,

2. [ temblor, espacio, x ? ]

En el caso donde la tripleta corresponde al patrón B de búsqueda se comienza por el

mapeo de la relación para obtener la similitud de ésta.

1. [ sismo, espacio,

2. [ temblor , espacio, temblor ]

El grado de similitud obtenido por el algoritmo (Needleman&Wunch, 1970) implementado

es de 1.0.

El segundo elemento que se utiliza para el mapeo es el contenido en la posición del sujeto.

1. [ sismo, espacio,

2. [ temblor, espacio, x ?]

El algoritmo de (Levenshtein, 1965) genera como resultado un grado de confianza de

0.142 y no cumple con el umbral establecido para ser seleccionado como una respuesta correcta.

Para obtener un mejor resultado se realiza la comparación sintáctica de los sinónimos que se

obtuvieron en el módulo de “extracción de términos” de las tripletas de búsqueda.

En el vector de sinónimos del término “temblor” de la tripleta de búsqueda se encuentra el

sinónimo “sismo” el cual se compara sintácticamente con el término contenido en la tripleta de la

ontología, el valor que se obtiene es de 1.0. Se reformula la tripleta la cual queda de la siguiente

manera.

epicentro a 66 km al este de Sendai y a una profundidad de 256 km]

epicentro a 66 km al este de Sendai y a una profundidad de 256 km]

epicentro a 66 km al este de Sendai y a una profundidad de 256 km]

Page 72: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

58

1. [ sismo, espacio,

2. [ sismo, espacio, x ?]

El último paso a realizar en este proceso es el seleccionar la tripleta bien formada de

ontología y marcar el objeto de la misma para contestar a la incógnita que contiene la

1. [ sismo, espacio,

Resultados:

[ sismo, espacio,

Esta tripleta se agrega al vector de resultados correspondientes a la segunda tripleta de

búsqueda.

Todas las tripletas que contengan resultados son vectorizados. Estos resultados se extraen en

la forma sujeto, predicado, objeto con la finalidad de eliminar la incógnita y ofrecer una tripleta

completa sin contener ningún elemento faltante. Con la finalidad de cumplir la respuesta a la consulta

ingresada en la tabla 4-2. El último módulo se encarga de filtrar los resultados para presentarlos

adecuados a la consulta del usuario.

4.1.3 Resultado de mapeo de ontologías

Los resultados son obtenidos de la salida del módulo de extracción y mapeo de ontologías los

cuales se encuentran sin depurar. La depuración de resultados consiste en comparar el número de

tripletas ingresadas en la búsqueda con el numero de tripletas encontradas en las ontologías las

cuales deben ser iguales o mayores a las ingresadas. Esto se hace para no dar respuestas

incorrectas si una ontología no cumple con el número de respuestas (tripletas completas) sus

resultados no son visualizados por la herramienta.

El filtro de resultados es un módulo que permite la extracción correcta de los elementos que

deben ser extraídos a partir de la consulta del usuario.

En la tabla 4-13 se muestra un ejemplo del funcionamiento del filtro de resultados el cual se

basa en el agrupamiento de elementos de los términos comunes.

epicentro a 66 km al este de Sendai y a una profundidad de 256 km]

epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]

epicentro a 66 km al este de Sendai y a una profundidad de 256 km ]

Page 73: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo IV. Metodología de solución

59

Tabla 4-13. Filtro de resultados de la consulta.

1. [ comunicaron, argumento1, la agencia meteorológica japonesa ]

1.1 [ anunció, argumento 1, la agencia meteorológica japonesa]

2. [ comunicaron, argumento2, temblor ]

2.1 [ anunció argumento 2, sismo ]

3. [ temblor, espacio, x ? ]

3.1 [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256

km ]

El filtro compara los resultados vectorizados de cada tripleta de la consulta con la

siguiente en la posicion del sujeto y objeto hasta encontrar el elemento que es igual a él.

1. [ anunció, argumento 1, la agencia meteorológica japonesa ]

2. [ anunció, argumento 2, sismo ]

3. [ sismo, espacio, epicentro a 66 km al este de Sendai y a una profundidad de 256 km

]

En la tabla 4-14 se describe el algoritmo que se utiliza para realizar la búsqueda de información por

medio de tripletas en las ontologías objetivo.

Tabla 4-14. Algoritmo utilizado para la extracción de información contenida en ontologías.

Sea A el conjunto de tripletas de la ontología.

B el conjunto de elementos que se van a buscar.

C el conjunto vacío.

1. Seleccione un elemento x de B

2. Seleccione un elemento y de A.

2.1 z = búsqueda(x,y)

2.2 C = C + z

3. Se repiten los pasos 1-2 hasta terminar con los elementos de B.

4. Si C es subconjunto de A, entonces la búsqueda es correcta.

Page 74: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

60

Capítulo 5. PRUEBAS En este capítulo se presentan las pruebas que fueron realizadas conforme al estándar IEEE 829-1998.

En él se describe la hipótesis presentada, convención de nombres a utilizar, plan de pruebas, pruebas

realizadas, análisis de los resultados y las pruebas fallidas.

Page 75: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

61

5.1 Hipótesis

La extracción de información contenida en ontologías de esta investigación, se basa en la

identificación de patrones de consulta por medio de tripletas, éstas se ingresan para la recuperación

de información y debe contener por lo menos una incógnita en alguna de las tripletas o tripleta

ingresadas. Esta incógnita contenida en la tripleta es el término que se desconoce el cual será

identificado en la ontología para extraer la tripleta bien formada (sin incógnitas). Esta tripleta otorga la

suficiente información para extraer el término faltante. La información que se desea extraer de las

tripletas anidadas debe estar ligada por lo menos por un término del dominio o rango en las demás

tripletas.

5.2 Convención de nombres

En la tabla 5-1 se definen los nombres que se utilizan para cada prueba definida por los

patrones que se identificaron para la extracción de información.

Tabla 5-1. Convención de nombres utilizado en las pruebas del prototipo.

Abreviatura Descripción

MapTool Herramienta de mapeo.

En Pruebas para el idioma Inglés.

Es Pruebas en el idioma Español.

Triple Tripletas en el orden sujeto, predicado y objeto.

A Extrae las instancias del dominio que cumplan con el rango y la relación.

B Extrae las instancias del rango que cumplan con el dominio y la relación.

C Extrae las instancias que son relacionadas por el predicado.

D Extrae las instancias del dominio y rango que se encuentren relacionadas entre sí.

E Extrae la clase de la que se deriva la instancia en la taxonomía.

F Extrae instancias de las subclases de la clase que se introduce en el rango.

G Extrae las instancias que se encuentren en el dominio y rango de la tripleta así como de la relación; es decir extrae los términos que se encuentren en

Page 76: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

62

cada uno de los elementos de la tripleta en la ontología

Las pruebas estarán definidas por un sólo tipo de tripleta o por una serie de tripletas anidadas

para hacer más expresiva la consulta. Para una consulta de tripleta simple en el idioma Español se

define la siguiente convención:

MapTool –Es-Triple-A-01.

Para pruebas del idioma Español de dos tripletas define la siguiente convención:

MapTool –Es-Triple-AB-01

Cada vez que se agregue una tripleta, se añade el tipo de patrón que esta definido por la letra del

alfabeto en la tabla 4-1.

5.3 Plan de pruebas

5.3.1 Introducción

El presente documento describe el plan de pruebas de la herramienta para la extracción de

información contenida en ontologías el cual se basa en el estándar (IEEE 829, 1998) para realizar las

pruebas de software necesarias para su aprobación.

Las pruebas realizadas tendrán la finalidad de aportar a la herramienta mejoras sustanciales,

con el objetivo de mejorar la herramienta para su uso en la extracción de información existente en

ontologías de dominio.

El documento de plan de pruebas tiene los siguientes puntos a tratar:

1. Elementos de prueba: se describen los elementos que se utilizan para realizar pruebas

sobre la herramienta en este caso las tripletas de consulta.

2. Características a ser probadas: se definen cuales son las características de la herramienta

que se prueban para posteriormente hacer las validaciones sobre esta.

3. Características que no serán probadas: se describen las propiedades de las pruebas que

no tiene ningún tipo de incidencia en las pruebas realizadas.

4. Enfoque: las pruebas se realizan partiendo de una entrada que específica la información que

es extraída.

5. Pruebas a realizar: se establecen los tipos de pruebas que se realizan con la herramienta en

este apartado se definen los patrones de búsqueda de la herramienta.

6. Criterio de éxito/fracaso de los casos de prueba: se describe el tipo de evaluación que se

toma en cuenta para saber si la prueba es exitosa o no.

Page 77: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

63

7. Criterio de suspensión y de reanudación: en este punto se definen cuales son los criterios

que se usan para suspender y reanudar las pruebas así como si es necesario seguir con

dicha prueba.

8. Tarea de pruebas: define todo lo necesario para llevar a cabo las labores de prueba de la

herramienta.

9. Liberación de pruebas: es la aprobación final partiendo de los criterios de evaluación y

aprobación de las pruebas a realizar.

10. Requisitos ambientales: son los requisitos de hardware y software que son necesarios y que

se usan en las pruebas de la herramienta.

11. Responsabilidades: se especifican a los responsables directos así como las tareas que debe

realizar cada uno de ellos.

12. Riesgos y contingencias: los riesgos se obtienen conforme se desarrollan las pruebas así

como el plan para contingencias que se proponga.

13. Procedimiento de pruebas y resultados: se procede a realizar de manera efectiva las

pruebas en la herramienta, así como también a documentar los resultados que se obtengan

de las pruebas a elaborar si estas sean correctas o no.

5.3.2 Elementos de prueba

Las pruebas tienen como fin validar y verificar la extracción de información contenida en

ontologías por medio de la inserción de consultas elaboradas y mapeadas a tripletas. Esto

considerando que las consultas son correctas y las tripletas que se ingresen tienen como mínimo una

incógnita.

En la realización de las pruebas, se van a ingresar una consulta con elementos de las tripletas

(sujeto, predicado y objeto) en ella, las cuales deben contener por lo menos una incógnita. Las

tripletas deben tener al menos un elemento que pueda relacionarse con las demás si se tratase de

tripletas anidadas. Esta entrada a la herramienta debe de ser ingresada de manera correcta para

realizar a la extracción de información que se requiere.

Algunas de las relaciones que se utilizan para la realización de las pruebas en el idioma Español están

definidas en la tabla 5-2 que se presenta a continuación.

Tabla 5-2. Verbos utilizados en las ontologías del idioma Español para las pruebas realizadas.

Ontología Verbos Sinónimo a utilizar

Predicado utilizado

sinónimos

Originado por

Originar Crear Ha creado crear, determinar, establecer, excitar, formar, hacer, imprimir, incitar, influir, infundir, introducir, meter, motivar,

Page 78: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

64

obrar, ocasionar, producir, promover, provocar, sembrar, suscitar.

Causado por

Causar Aportar Engendrar

Aportado en | por

Engendrado en | por

Aportar, crear, engendrar, formar, hacer, imprimir, incitar, influir, infundir, introducir, meter, motivar, obrar.

Afecto Afectar Perjudicar Aquejar

ha perjudicado

| por aquejado a |

por

Afligir, aquejar, conmover, dañar, estropear, impresionar, perjudicar, aparentar, fingir, forzar, presumir, simular, actuar, ejercer, influir, adscribir, agregar, anexar, vincula

Provoca provocar provocar Ha provocado | por

No tiene.

Sucede en Suceder Ocurrir Ocurrió en acaecer, acontecer, cumplirse, ocurrir, pasar, producirse, sobrevenir, verificarse, advenir, descender, efectuarse, proceder, provenir, venir, reanudar, reemplazar, relevar, representar, substituir, suplantar, suplir, trocar, continuar, heredar, perpetuar, proseguir, seguir.

Participo Participar Colaborar Ha colaborado colaboro | por

Asociarse, auxiliar, ayudar, celebrar, colaborar, competir, componer, concurrir, contribuir, cooperar, entrar, inscribirse, integrar, interesarse, intervenir, jugar, militar, presentarse, rivalizar, solidarizarse, anunciar, avisar, comunicar, informar, invitar.

Ofreció Ofrecer Brindar Brindo | ha brindado

Abonar, afirmar, apoyar, asegurar, avalar, brindar, comprometer, convidar, dar, dedicar, donar, entregar, formular, garantizar, invitar, exponer, manifestar, mostrar, patentizar, presentar, consagrar, dedicar, ofrendar.

Acudió Acudir Acudir Acudió a | acudió

Aprendió Aprender Aprender Aprendió | ha aprendido

No tiene.

Mostraron Mostrar Demostrar Se ha demostrado | demostraron

abrir, asomar, descubrir, desempaquetar, desenvolver, desplegar, destapar, enseñar, exhibir, exhumar, exponer, extender, extraer, lucir, aclarar, demostrar, evidenciar, explicar, manifestar, ostentar, patentizar, probar, publicar, revelar, sugerir, aconsejar, advertir, apuntar, determinar, encaminar, guiar, indicar, marcar, orientar.

Page 79: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

65

Entraron Entrar Allanar Allanaron en| allanado por

Abusar, entrar, forzar, inspeccionar, irrumpir, penetrar, alisar, aplanar, arrasar, explanar, igualar, nivelar, rellenar, abatir, derribar, explanar, facilitar, resolver, superar, vencer, zanjar, allanar.

Interpuso Interponer Intercalar Se intercalo | intercalado

Alternar, combinar, engranar, entremezclar, entreverar, insertar, intercalar, interlinear, interpolar, introducir, meter, mezclar, presentar.

Reduce Reducir Reducir Redujo | se reduce

No tiene.

Resultado Resultar Resultar Es resultado de

No tiene.

Regula producción de

No aplica No aplica No aplica No aplica

Fue llevado a cabo por

Llevar Guiar Fue guiado por | guiado por

Acarrear, acompañar, arrastrar, cargar, carretear, convoyar, despachar, dirigir, encaminar, escoltar, facturar, guiar, mandar, portear, cortar, rebanar, retazar, separar, trinchar, convencer, incitar, inducir, persuadir, adaptar, aguantar, sobrellevar, soportar, sufrir, tolerar, gastar, poner, traer, usar, vestir, conseguir, lograr, merecer, obtener, conducir, dominar, manejar, arrendar, adelantar, contar, exceder, pasar, sobrepasar, cobrar, exigir, percibir, dar, frutecer, granar, producir, rendir.

Fue coordinado por

Coordinar Coordinar Coordinado por

No tiene.

Fue financiado por

Financiar Financiar Financiado por No tiene.

Fue fijado a

Fijar Clavar Clavado ha Acuñar, adherir, aferrar, afianzar, afirmar, amarrar, asegurar, asentar, atornillar, clavar, empotrar, incrustar, inmovilizar, asignar, concretar, decidir, designar ,determinar, establecerse, limitar, marcar, precisar, reglar, resolver, estampar, grabar, imprimir, marcar, sellar, consolidar, estabilizar, establecer, inmovilizar, aplicar, detener, dirigir.

Fue trasladado por

Trasladar Transportar Transportado por

Arrastrar, cargar, conducir, empujar, llevar, portear, transportar, trasladar, causar, implicar, ocasionar, acarrear.

Page 80: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

66

Fue controlado por

controlar controlar Es controlado No tiene.

Fue sentido

Sentir Sentir Se sintió | sentido

No tiene.

Fue registrado

Registrar Apuntar Se apunto | Fue apuntado

Buscar, cachear, examinar, explorar, inspeccionar, investigar, observar, rastrear, rebuscar, reconocer, revolver, anotar, apuntar, asentar, consignar, copiar, escribir, inscribir, matricular, patentar.

informo sobre fue informado

informar explicar Explicado | Fue explicado| Aclarado

Demostrar, descubrir, desembrollar, desenredar, elucidar, enmendar, esclarecer, especificar, explicar, informar, justificar, manifestó, aclarar.

Fueron sentidas en

Sentir Sentir Sentido en| Se sintió

No tiene.

Ha sido seguido

seguir seguir Siguió | Seguir | Seguido

No tiene.

forma parte de

formar causar Causado | Causa de

coordinar, crear, establecer, fundar, hacer, instituir, ordenar, organizar, producir, configurar, labrar, moldear, plasmar, trabajar, componer, constituir, entrar, integrar, adiestrar, aleccionar, criar, desarrollar, dirigir, educar, ejercitar, enseñar, iniciar, perfeccionar, preparar.

Tiene epicentro

no no El epicentro No tiene.

Despego con

Despegar Levantar Levanto con | Levantado

apartar, arrancar, desasir, desencolar, desengomar, desprender, desunir, levantar, quitar, separar, levantarse, remontarse

5.3.3 Características a ser probadas

Las características a probar están definidas en la metodología de solución propuesta las cuales se

describen de manera detallada a continuación:

1. Identificación del idioma: se debe realizar la selección adecuada de los recursos existentes

para el idioma Español.

2. Validación de patrones de la tripleta: la herramienta debe identificar patrones en la tripleta

de consulta para la extracción de información.

3. Extracción de fenómenos lingüísticos: se necesita extraer los sinónimos y verbos

relacionados para el idioma Español.

Page 81: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

67

4. Comparación sintáctica: se valida que la comparación sintáctica correcta de los términos

contenidos en las ontologías y las tripletas con diferentes algoritmos de comparación de

cadenas como son (Monge&Elkan, 1996), (Needleman&Wunsch, 1970) y (Levenshtein,

1965).

5. Comparación de aproximación semántica: ésta se realiza con los recursos lexicográfico

externos de EuroWordNet para el Español.

6. Validación de resultados: se revisa que los resultados sean los esperados y que los

resultados sean los existentes en las ontologías así como de su coherencia.

5.3.4 Características que no serán probadas

Las siguientes características no forman parte de la evaluación:

1. El tiempo de procesamiento de una o múltiples ontologías.

2. El diseño de la interfaz de usuario basado en mejores prácticas de accesibilidad y usabilidad

Web.

3. El funcionamiento del analizador TreeTagger.

4. Los elementos de las bases de datos lexicográficas (WordNet y EuroWordNet).

5. La introducción patrones en las tripletas de consulta, diferentes a los patrones de extracción

establecidos.

6. Uso de versiones de software diferentes a los definidos en requisitos ambientales.

7. La extracción de información en ontologías codificadas en OWL 2.

5.3.5 Pruebas a realizar

En la tabla 5-3 se describen las pruebas a realizar sobre la herramienta de extracción de

información contenida en ontologías.

Tabla 5-3. Casos de prueba de la herramienta de extracción de información contenida en ontologías

Prueba Descripción

MapTool-Es-Triple-Dom-Sub-A Este patrón de búsqueda extrae las instancias encontradas en el dominio de la tripleta ya que ésta contiene la incógnita en esta posición y mediante la similitud existente con sus otros dos elementos es posible extraer la información correspondiente.

MapTool-Es-Triple-Dom-Sub-AA La búsqueda realizada con este patrón se basa en encontrar la incógnita del dominio de las dos tripletas.

MapTool-Es-Triple-Dom-Sub-B Con este patrón se busca la incógnita existente dentro del rango en la tripleta con ayuda de los términos existentes en la relación y el dominio.

Page 82: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

68

MapTool-Es-Triple-Dom-Sub-BB La búsqueda realizada con este patrón debe encontrar la incógnita del rango de las dos tripletas.

MapTool-Es-Triple-Dom-Sub-BG La búsqueda realizada con este patrón trata de encontrar la incógnita del rango en la tripleta B ya que la tripleta G no contiene incógnitas.

MapTool-Es-Triple-Dom-Sub-BGG La búsqueda realizada con este patrón se usa para encontrar la incógnita del rango en la tripleta B ya que las dos tripletas G no contiene incógnitas.

MapTool-Es-Triple-Dom-Sub-BGGG La búsqueda realizada con este patrón obtiene la incógnita del rango de la tripleta B ya que las dos tripletas G no contiene incógnitas.

MapTool-Es-Triple-Dom-Sub-E En esta búsqueda se obtiene la clase inmediata a la instancia que se especifico en el dominio de la tripleta.

MapTool-Es-Triple-Dom-Sub-F La búsqueda extrae instancias de la clase que se introduce en el rango de la tripleta, así como las instancias derivadas de esta clase en las subclases.

MapTool-Es-Triple-Dom-Sub-GGGB Esta búsqueda necesita en encontrar la incógnita en el rango de la tripleta B ya que las tres tripletas G no contiene incógnitas.

MapTool-Es-Triple-Dom-Sub-GB Este patrón de búsqueda encuentra todos los elementos ingresados en la tripleta G para continuar con la tripleta B la cual contiene la incógnita que se desea conocer.

MapTool-Es-Triple-Dom-Sub-GBB Este patrón de búsqueda se utiliza para obtener todos los elementos ingresados en la tripleta G para continuar con las tripletas B la cuales contienen las incógnitas en el rango que se desean conocer.

MapTool-Es-Triple-Dom-Sub-GBG Con este patrón de búsqueda se realiza la extracción de los elementos de la tripleta contenida en la tripleta G para posteriormente utilizar esas tripletas y compararlas con las tripletas generadas en la segunda tripleta la cual contiene la incógnita en el rango y es diferenciada por la letra B por último los resultados son comparados nuevamente con los términos existentes con los resultados obtenidos de la segunda tripleta G.

MapTool-Es-Triple-Dom-Sub-GGB Este patrón de búsqueda obtiene todos los elementos ingresados en las dos tripletas G para continuar con los elementos de la tripleta B la cual contiene la incógnita en el rango.

En todos los casos de prueba especificados en la tabla 5-3 se verifica que se realicen las

comparaciones sintácticas y de aproximación semántica que corresponden para obtener una

respuesta correcta.

Page 83: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

69

5.3.6 Enfoque

Las pruebas a realizar están enfocadas en probar la herramienta en la extracción de

información contenida en ontologías de manera coherente; es decir, que el número de tripletas

ingresadas en la consulta del usuario deben ser encontradas y contener la información de la ontología

que se está procesando para su extracción. La herramienta no realiza el análisis previo de la consulta

en lenguaje natural.

5.3.7 Criterio de éxito/fracaso de los casos de prueba

Los casos de prueba que se describen en la tabla 5-3 del presente documento, se basan en la

comparación de los resultados obtenidos contra los existentes en las ontologías para validar de

manera efectiva la prueba.

Se considera que una prueba ha pasado con éxito cuando los resultados obtenidos coincidan

con los resultados esperados para cada uno de los casos de prueba.

En caso de que la prueba no resulte con exitosa, se analizan las causas y se realizan las

modificaciones necesarias hasta obtener los resultados esperados; si no se obtuviera la respuesta que

se solicita se etiqueta como prueba fallida.

5.3.8 Criterios de suspensión y requerimientos de reanudación

No se establece ningún criterio de suspensión de la prueba. Cuando se presente el escenario

de que la prueba no cumple con los resultados esperados, ésta se corrige las veces que sea

necesario hasta lograr el resultado esperado o en su defecto se describen las razones que no hacen

posible obtener un resultado correcto.

5.3.9 Tareas de prueba

Las tareas de prueba de este plan se describen en la tabla 5-4:

Tabla 5-4. Tareas de prueba a ejecutar en el desarrollo del plan de pruebas.

Tarea Habilidades Responsabilidad

Planificación Conocimiento del estándar IEEE 829 para la realización de pruebas sobre software.

L.S.C. Felipe Antonio Román Albores.

Diseño Conocimiento de la herramienta y sus alcances, así como de los objetivos de la presente investigación.

L.S.C. Felipe Antonio Román Albores.

Ejecución Conocimiento de la herramienta para la extracción de información contenida en ontologías

L.S.C. Felipe Antonio Román

Page 84: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

70

y sus limitantes. Albores.

Depuración Conocimiento de lenguaje de programación JAVA, API de JENA y de Framework para el desarrollo de aplicaciones Web.

L.S.C. Felipe Antonio Román Albores.

Evaluación Conocimiento de los objetivos e hipótesis de investigación de este trabajo así como sus alcances y limitaciones.

L.S.C. Felipe Antonio Román Albores

5.3.10 Liberación de pruebas

Las pruebas realizadas se verifican con la información contenida en las ontologías que se

consultan, esto con el fin de validar correctamente los resultados obtenidos de la corrida de la

herramienta en cada una de las pruebas. Si los resultados obtenidos son coherentes a la información

que se solicitó y esta información se encuentra dentro de la ontología se toma como una prueba válida

y es aceptada.

5.3.11 Requisitos ambientales

A continuación se describen las características de hardware y software del ambiente de

pruebas, estas especificaciones se muestran en la tabla 5-5.

Tabla 5-5. Requisitos de hardware y software de la herramienta desarrollada.

Hardware Software

Servidor Power Edge T410 Sistema operativo: Ubuntu Server 10.04

2 Intel QuadCore Xeon a 2.53 Ghz HT, 8 M Cache

Servidor Web: Apache 2.2.14 y Tomcat 6

1 HD 160 Gb Maquina virtual de JAVA:JDK 1.6

1 HD 1 Tb Manejador de base de datos: Mysql 5.1

API: JENA 2

Etiquetador: TreeTagger

Navegador Web: Google chrome con soporte para Java Script.

5.3.12 Responsabilidades

El responsable directo de las pruebas de la actual investigación recae en su totalidad en el

L.S.C Felipe Antonio Román Albores, quien es el responsable de la documentación de los resultados

obtenidos.

Page 85: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

71

5.3.13 Riesgos y contingencias

Los errores generados por la herramienta se documentan y se lleva un historial de las

contingencias que se llegaran a presentar en la depuración de las pruebas. El mejoramiento de la

herramienta será realizado por el responsable de las pruebas y autor de este documento.

5.3.14 Aprobación

El plan de pruebas deberá ser aprobado por la directora de tesis, Dra. Azucena Montes

Rendón y los revisores el Dr. Hugo Estrada Esquivel, Dr. Juan Gabriel González Serna y el Dr. David

Pinto Avendaño.

5.4 Casos de prueba

En este apartado se describen los casos de prueba así como los resultados esperados de

cada una de las pruebas que se describieron en la sección de pruebas a realizar. Los casos de

pruebas que se describen a continuación tienen la finalidad de tener una métrica de éxito y fracaso de

la herramienta desarrollada para evaluar su efectividad así como la de otorgar un ejemplo del tipo de

consulta que se realiza en cada caso.

1. MapTool-Es-Triple-Dom-Sub-A: Este patrón de búsqueda extrae las instancias encontradas en

el dominio de la tripleta ya que contiene la incógnita en esta posición. El resultado se obtiene al

realizar las comparaciones entre los elementos del la tripleta que se conocen como en el ejemplo

5-1:

[ x ?, informo, falla del lanzamiento ]

Ejemplo 5-1.Tripleta simple del patrón A con la incógnita en el dominio.

2. MapTool-Es-Triple-Dom-Sub-AA: La búsqueda realizada con este patrón se basa en encontrar

la incógnita del dominio de las dos tripletas con los elementos de la misma que son ingresados.

La tripleta que se muestra en el ejemplo 5-2 es de este tipo:

[ x ?, sucedió en, Iztacalco ][ x ?, tiene tiempo, 18:00 ]

Ejemplo 5-2. Tripleta anidada con la incógnita en el dominio de ambas tripletas.

3. MapTool-Es-Triple-Dom-Sub-B: Con este patrón se busca la incógnita existente dentro del

rango en la tripleta con ayuda de los términos existentes en la relación y el dominio es posible

obtener el resultado correcto. El ejemplo 5-3 es una muestra de estas tripletas de búsqueda.

[ falla lanzamiento, tiene espacio, x ? ]

Ejemplo 5-3.Tripleta simple con la incógnita en el rango de la tripleta.

4. MapTool-Es-Triple-Dom-Sub-BB: La búsqueda realizada con este patrón se centra en encontrar

la incógnita del rango de las dos tripletas ingresadas como en el ejemplo 5-4.

Page 86: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

72

[replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ][replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]

Ejemplo 5-4.Tripleta anidada con la incógnita en el rango de ambas tripletas.

5. MapTool-Es-Triple-Dom-Sub-BG: La búsqueda realizada con este patrón trata de encontrar la

incógnita del rango en la tripleta B ya que la tripleta G no contiene incógnitas como se aprecia en

el ejemplo 5-5.

[ examina, argumento1, x ? ][ examina, argumento2, los productos importados de Japón ]

Ejemplo 5-5.Tripleta anidada con la incognita únicamente en la tripleta B.

6. MapTool-Es-Triple-Dom-Sub-BGG: La búsqueda realizada con este patrón se requiere obtener

la incógnita del rango en la tripleta B ya que las dos tripletas G no contiene incógnitas; este tipo

de consulta se muestra en el ejemplo 5-6.

[ postergo, argumento1, x ? ][ postergo, argumento2, la misión ][ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]

Ejemplo 5-6.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y dos tripletas bien formadas.

7. MapTool-Es-Triple-Dom-Sub-BGGG: La búsqueda realizada con este patrón debe obtener la

incógnita del rango de la tripleta B ya que las tres tripletas G no contiene incógnitas. En el

ejemplo 5-7 se presenta este tipo de consultas.

[informo, argumento1, x ? ][informo,argumento2 ,lucha ][lucha,argumento1 ,los técnicos ][lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]

Ejemplo 5-7.Consulta de tripletas anidadas con incógnita en el rango de la tripleta B y tres tripletas bien formadas.

8. MapTool-Es-Triple-Dom-Sub-E: En esta búsqueda se obtiene la clase inmediata a la instancia

que se expresa en el dominio de la tripleta. En el ejemplo 5-8 se presenta una consulta de este

tipo.

[cuerpo de bomberos, is-a, x ? ]

Ejemplo 5-8.Consulta simple de tripleta taxonómica con la incógnita en el rango.

9. MapTool-Es-Triple-Dom-Sub-F: La búsqueda extrae instancias de la clase que se introduce en

el rango de la tripleta, así como las instancias derivadas de esta clase en las subclases; este tipo

de consultas se observa en el ejemplo 5-9 que se presenta a continuación.

[ x ?, is-a, acontecimientos ]

Ejemplo 5-9.Consulta simple de tripleta taxonómica con la incógnita en el dominio.

10. MapTool-Es-Triple-Dom-Sub-GGGB: Esta búsqueda trata de encontrar la incógnita en el rango

de la tripleta A ya que las tres tripletas G no contiene incógnitas como se observa en el ejemplo

5-10.

[ hallan gen, pertenece a, nueva variante ][nueva variante, reduce, hipertensión ][hipertension, afecta a, adultos de la Union Europea ][hallan gen, coordinan, x ? ]

Ejemplo 5-10. Consulta de tripletas anidadas con la incógnita en el rango de la tripleta A y dos

Page 87: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

73

tripletas de tipo G sin incógnitas.

11. MapTool-Es-Triple-Dom-Sub-GB: Este patrón de búsqueda pretende obtener todos los

elementos ingresados en la tripleta G para continuar comparándolos con las tripletas completas

en B la cual contiene la incógnita que se desea conocer. En el ejemplo 5-11 se observa estas

consultas anidadas.

[hallazgo gen, corresponde a, nueva variante][ nueva variante, regula, x ? ]

Ejemplo 5-11.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y una tripleta de tipo G sin incógnitas.

12. MapTool-Es-Triple-Dom-Sub-GBB: Este patrón de búsqueda se examinan todos los elementos

ingresados en la tripleta G para continuar con las tripletas B la cuales contienen las incógnitas en

el rango que se desean conocer. En el ejemplo 5-12 se observa el tipo de consultas de esta

categoría.

[ explosión, fue controlada por, cuerpo de bomberos][ explosión, provoco, x ? ][explosión, afecto, x ? ]

Ejemplo 5-12.Consulta de tripletas anidadas con las incógnita en el rango de las tripletas B y una tripleta de tipo G sin incógnitas al principio.

13. MapTool-Es-Triple-Dom-Sub-GBG: Con este patrón de búsqueda se realiza la extracción de los

elementos de la tripleta contenida en la tripleta G para posteriormente utilizar esas tripletas y

compararlas con las tripletas generadas en la segunda tripleta la cual contiene la incógnita en el

rango y es diferenciada por la letra B. El ejemplo 5-13 se presenta a continuación.

[llevara, argumento1, el Endeavour][llevara, argumento2, x?][llevara, argumento3, para que sea instalado fuera de la estación espacial ]

Ejemplo 5-13.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas de tipo G sin incógnitas.

14. MapTool-Es-Triple-Dom-Sub-GGB: Este patrón de búsqueda debe obtener todos los elementos

ingresados en las dos tripletas G para continuar con los elementos de la tripleta B la cual contiene

la incógnita en el rango. El ejemplo 5-14 representa esta categoría a probar.

[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ][ comunicaron, argumento2, temblor ][ temblor, espacio, x ? ]

Ejemplo 5-14.Consulta de tripletas anidadas con la incógnita en el rango de la tripleta B y dos tripletas de tipo G sin incógnitas.

Page 88: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿ Quién informó acerca de la falla del lanzamiento?

realizar cambios, quedando de la siguiente manera:

1. [ x ?, informo acerca de, falla del

En el cuadro de texto de la figura

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-1. Resultado correcto de la consulta MapTool

Observaciones:

Esta prueba se realizó con el mapeo sintáctico de los términos de las tripletas y los elementos de la

ontología debido a que la TreeTagger no logró

de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se

obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-A-1

Resultado:

Quién informó acerca de la falla del lanzamiento? se generó

realizar cambios, quedando de la siguiente manera:

[ x ?, informo acerca de, falla del lanzamiento ]

En el cuadro de texto de la figura 5-1 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

con el mapeo sintáctico de los términos de las tripletas y los elementos de la

ido a que la TreeTagger no logró identificar el verbo “informar” derivado de la cadena

de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se

obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.

elipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

74

generó la tripleta sin

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-A-1.

con el mapeo sintáctico de los términos de las tripletas y los elementos de la

derivado de la cadena

de texto “informo acerca de” que tiene la función del predicado en dicha tripleta; sin embargo se

obtiene el resultado esperado en la incógnita de la tripleta mediante la similitud sintáctica realizada.

Page 89: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Que sucedió a las 18:00 horas en Iztacalco?

cambios, quedando de la siguiente manera:

1. [x?, sucedió en, Iztacalco]

2. [x?, tiene unidad temporal, 18:00]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-2. Resultado incorrecto de la consulta MapTool

Observaciones:

Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias

y la instancia de propiedad “18:00”

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-AA-2

Resultado:

¿Que sucedió a las 18:00 horas en Iztacalco? se generaron las tripletas sin realizar

cambios, quedando de la siguiente manera:

[x?, sucedió en, Iztacalco]

[x?, tiene unidad temporal, 18:00]

figura 5-2 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub

Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias

“18:00” no puede ser mapeada con el elemento de la tripleta.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

75

Resultado:

se generaron las tripletas sin realizar

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-AA-2.

Esta prueba es errónea debido a que la herramienta no indaga en las propiedades de las instancias

no puede ser mapeada con el elemento de la tripleta.

Page 90: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Qué originó la falla del lanzamiento

cambios, quedando de la siguiente manera:

1. [falla lanzamiento, origino, x ?]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-3. Resultado correcto de la consulta

Observaciones:

En esta prueba se realizó con el mapeo sintáctico de los términos de las tripletas y los elementos de

la ontología debido a que la TreeTagger no

tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el

resultado esperado.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-B-3

Resultado:

Qué originó la falla del lanzamiento? se generó la tripleta sin realizar

cambios, quedando de la siguiente manera:

[falla lanzamiento, origino, x ?]

la figura 5-3 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

con el mapeo sintáctico de los términos de las tripletas y los elementos de

la ontología debido a que la TreeTagger no logró identificar el verbo “originar” en el predicado de la

tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

76

Resultado:

la tripleta sin realizar

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-B-3.

con el mapeo sintáctico de los términos de las tripletas y los elementos de

en el predicado de la

tripleta es así como se mapearon sintácticamente los términos de la tripleta logrando obtener el

Page 91: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de

nuevo Fukushima? se generaron las tripletas siguientes:

1. [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]

2. [replica de 6.4 grados sacud

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-4. Resultado correcto de la consulta MapTool

Observaciones:

En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin

embargo, existe una cadena de texto

extracción de información, esta consulta es muy particular ya que se solicita información concerniente

al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontologí

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-BB-4

Resultado:

¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de

se generaron las tripletas siguientes: [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]

[replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]

figura 5-4 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin

embargo, existe una cadena de texto que se localiza por medio de similitud sintáctica para realizar la

extracción de información, esta consulta es muy particular ya que se solicita información concerniente

al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontologí

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

77

Resultado:

¿Cuándo y dónde se publicó la noticia sobre la réplica de 6.4 grados sacude de

[replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]

e de nuevo Fukushima, tiene_lugar_pub, x ? ]

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-BB-4.

En este caso en particular no existe un verbo que cumpla con la función de unir a las tripletas; sin

por medio de similitud sintáctica para realizar la

extracción de información, esta consulta es muy particular ya que se solicita información concerniente

al texto por lo que las relaciones de ambas tripletas son específicas de la meta ontología OntoEvento.

Page 92: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Quién examina los productos importados de Japón?

sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las

ontologías, quedando de la siguiente manera:

1. [ examina, argumento1, x ? ]

2. [ examina, argumento2, los productos importados de

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-5. Resultado correcto de la consulta MapTool

Observaciones:

La extracción de información existente en la ontolo

comparación de la similitud sintáctica entre los términos existentes en las t

elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-BG-5

Resultado:

¿Quién examina los productos importados de Japón? se generaron las tripletas

sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las

ontologías, quedando de la siguiente manera: [ examina, argumento1, x ? ]

[ examina, argumento2, los productos importados de Japón ]

figura 5-5 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

La extracción de información existente en la ontología en esta prueba se realiza

comparación de la similitud sintáctica entre los términos existentes en las tripletas de búsqueda y los

elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

78

Resultado:

se generaron las tripletas

sin ninguna modificación en los términos de las tripletas con respecto a las existentes en las

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-BG-5.

gía en esta prueba se realiza por medio de la

ripletas de búsqueda y los

elementos de la ontología con la finalidad de extraer la incógnita existente en las tripletas ingresadas.

Page 93: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una

nave de carga rusa? se derivan las siguientes tripletas:

1. [ postergo, argumento1, x ? ]

2. [ postergo, argumento2, la misión ]

3. [ postergo , argumento3,

En el cuadro de texto de la figura 5

procede a dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-6. Resultado correcto de la consulta MapTool

Observaciones:

La extracción de la información contenida en la ontología se extrae

realizaron modificaciones en las instancias que tienen la función de verbo y que unen a las tripletas

para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer

la recuperación correcta de los datos.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-BGG-6

Resultado:

¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una

se derivan las siguientes tripletas:

[ postergo, argumento1, x ? ]

[ postergo, argumento2, la misión ]

[ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]

figura 5-6 se ingresan las tripletas anidadas; para ejecutar la prueba se

procede a dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

ón contenida en la ontología se extrae de manera correcta ya que no se

iones en las instancias que tienen la función de verbo y que unen a las tripletas

para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer

la recuperación correcta de los datos.

Román Albores

Cargo:

Autor

Capítulo V. Pruebas

79

Resultado:

¿Quién postergó la misión para evitar que se sobrepusiera con el arribo de una

para evitar que se sobre pusiera con una nave rusa ]

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-BGG-6.

de manera correcta ya que no se

iones en las instancias que tienen la función de verbo y que unen a las tripletas

para anidarlas en ese sentido se cumplen con los umbrales establecidos en la herramienta para hacer

Autor

Page 94: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Quién informo sobre la lucha de los técnicos para controlar los reactores de

la central de Fukushima? se generaron las tripletas siguientes:

1. [informo, argumento1, x ? ]

2. [informo,argumento2 ,lucha ]

3. [lucha,argumento1 ,los técnicos ]

4. [lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-7. Resultado correcto de la consulta MapTool

Observaciones:

La información extraída por medio de las tripletas ingresadas corresponde a la información que

cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-BGGG-7

Resultado:

¿Quién informo sobre la lucha de los técnicos para controlar los reactores de

se generaron las tripletas siguientes:

[informo, argumento1, x ? ]

[informo,argumento2 ,lucha ]

[lucha,argumento1 ,los técnicos ]

[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]

figura 5-7 se ingresan las tripletas anidadas; para ejecuta

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-BGGG

La información extraída por medio de las tripletas ingresadas corresponde a la información que

cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

80

Resultado:

¿Quién informo sobre la lucha de los técnicos para controlar los reactores de

[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]

se ingresan las tripletas anidadas; para ejecutar la prueba se

BGGG-7.

La información extraída por medio de las tripletas ingresadas corresponde a la información que

cumple con la similitud necesaria para contestar la incógnita que existe en la tripleta 1.

Page 95: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Cuáles son los acontecimientos ?

quedando de la siguiente manera:

1. [ x ?, is-a, acontecimientos ]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-8. Resultado correcto de la consulta

Observaciones:

Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el

rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la

relación taxonómica “is-a” y la clase en el rango

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-F-8

Resultado:

¿Cuáles son los acontecimientos ? se generó la tripleta sin realizar cambios,

quedando de la siguiente manera:

a, acontecimientos ]

figura 5-8 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el

rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la

y la clase en el rango.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

81

Resultado:

la tripleta sin realizar cambios,

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-F-8.

Esta prueba trata de obtener las instancias de la clase y subclases de la que se hace referencia en el

rango de la tripleta; para resolver la incógnita se debe realizar una consulta RDF caracterizada por la

Page 96: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Que es el cuerpo de bomberos ?

quedando de la siguiente manera:

1. [ cuerpo de bomberos, is

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-9. Resultado correcto de la consulta MapTool

Observaciones:

Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la

incógnita de la tripleta se debe realizar un

“is-a” para llegar a deducir la clase a la que la instancia pertenece.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-E-9

Resultado:

¿Que es el cuerpo de bomberos ? se generó la tripleta sin realizar cambios,

quedando de la siguiente manera:

cuerpo de bomberos, is-a, x ? ]

figura 5-9 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la

incógnita de la tripleta se debe realizar una consulta RDF caracterizada por la relación taxonómica

para llegar a deducir la clase a la que la instancia pertenece.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

82

la tripleta sin realizar cambios,

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-E-9.

Esta prueba trata de obtener la clase inmediata a la que se asocia una instancia para resolver la

a consulta RDF caracterizada por la relación taxonómica

Page 97: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom-Sub

De la pregunta ¿ Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante

que reduce la hipertensión que afecta a adultos de la Unión Europea?

sin realizar cambios, quedando de la siguiente manera:

1. [ hallazgo gen, pertenece a, nueva variante]

2. [ nueva variante, disminuye, hipertensión]

3. [ hipertensión, afecta a, adultos de la Unión Europea]

4. [ hallazgo gen, coordinó, x ? ]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-10. Resultado incorrecto de la consulta MapTool

Observaciones:

El resultado fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de

consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las

siguientes tripletas anidadas:

1. [ hallazgo gen, coordinaron, x ? ]

2. [ hallazgo gen, pertenece a, nueva variante ]

3. [nueva variante, reduce, hipertensión]

4. [hipertensión, afecta a, adultos de la Unión Europea ]

El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco

de la consulta en lenguaje natural para responder a la incógnita de la tripleta 1.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Sub-GGGB-10

Resultado:

Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante

que reduce la hipertensión que afecta a adultos de la Unión Europea? se generaron las tripletas

sin realizar cambios, quedando de la siguiente manera:

go gen, pertenece a, nueva variante]

[ nueva variante, disminuye, hipertensión]

[ hipertensión, afecta a, adultos de la Unión Europea]

[ hallazgo gen, coordinó, x ? ]

figura 5-10 se ingresan las tripletas anidadas; para ejecutar

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub-

fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de

consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las

[ hallazgo gen, coordinaron, x ? ]

hallazgo gen, pertenece a, nueva variante ]

[nueva variante, reduce, hipertensión]

[hipertensión, afecta a, adultos de la Unión Europea ]

El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco

lenguaje natural para responder a la incógnita de la tripleta 1.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

83

Resultado:

Quienes coordinan el hallazgo de un gen que pertenece a una nueva variante

se generaron las tripletas

se ingresan las tripletas anidadas; para ejecutar la prueba se

-GGGB-10.

fallido de esta prueba es debido a la posición de las incógnitas dentro de las tripletas de

consulta lo cual para obtener la información correspondiente a la consulta se debe ingresar las

El resultado obtenido de esta consulta reestructurada es el que se desea obtener dentro del marco

Page 98: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Quién descubrió la nueva variante a la cual

se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:

1. [ hallazgo gen, corresponde, nueva variante ]

2. [ hallazgo gen, descubrió, x ? ]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-11. Resultado incorrecto de la consulta

Observaciones:

En este caso de prueba no se obtienen los resultados esperados debido a que

en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el

sujeto; las tripletas correctas serian las siguientes:

1. [ hallazgo gen, corresponde, nueva variante ]

2. [ x ?, descubrió, nueva varia

Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los

elementos de la ontología.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-GB-11

Resultado:

¿Quién descubrió la nueva variante a la cual corresponde el hallazgo del gen?

se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:

[ hallazgo gen, corresponde, nueva variante ]

[ hallazgo gen, descubrió, x ? ]

figura 5-11 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado incorrecto de la consulta MapTool-Es-Triple-Dom-Sub

En este caso de prueba no se obtienen los resultados esperados debido a que la incógnita existente

en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el

las tripletas correctas serian las siguientes:

[ hallazgo gen, corresponde, nueva variante ]

[ x ?, descubrió, nueva variante ]

Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

84

Resultado:

corresponde el hallazgo del gen?

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-GB-11.

la incógnita existente

en la tripleta 2 no debe de estar en la posición del objeto ya que en la ontología se encuentra en el

Por ello no es posible realizar el mapeo correcto de los términos contenidos en las tripletas con los

Page 99: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de

bomberos? se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:

1. [ explosión, fue controlada por, cuerpo de bomberos]

2. [ explosión, provoco, x ? ]

3. [explosión, afecto, x ? ]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar para extraer la información de la ontología.

Figura 5-12. Resultado correcto de la consulta MapTool

Observaciones:

En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en

“controlar” y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se

procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el

cual es el mismo, posteriormente se realizaron los mismo pasos para tr

verbal de los verbos “afecto” y

verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y

así extraer la información concerniente a la incógnita en las dos últimas tripletas.

Responsable:

LSC. Felipe Antonio Román Albor

Capítulo V. Pruebas

Dom-Sub-GBB-12

Resultado:

¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de

se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:

[ explosión, fue controlada por, cuerpo de bomberos]

explosión, provoco, x ? ]

[explosión, afecto, x ? ]

figura 5-12 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en

y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se

procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el

cual es el mismo, posteriormente se realizaron los mismo pasos para tratar de identificar la raíz

y “provoco” donde el etiquetador no realizó la identificación de estos

verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y

así extraer la información concerniente a la incógnita en las dos últimas tripletas.

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

85

Resultado:

¿Que provocó y afectó la explosión que fue controlada por el Cuerpo de

se generaron las tripletas sin realizar cambios, quedando de la siguiente manera:

se ingresan las tripletas anidadas; para ejecutar la prueba se

Sub-GBB-12.

En esta consulta se encontró la raíz del verbo, dado por la relación en la tripleta el cual se deriva en

y no contiene sinónimos dentro de la base de datos de EuroWordNet por lo que se

procedió a realizar el mapeo por medio de similitud sintáctica con el verbo existente en la ontología el

atar de identificar la raíz

la identificación de estos

verbos dejándolos de la misma manera para realizar el mapeo de la similitud de cadenas de texto y

Page 100: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom

De la pregunta ¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?

se generaron las siguientes tripletas:

1. [llevara, argumento1, el Endeavour]

2. [llevara, argumento2, x?]

3. [llevara, argumento3, para que sea instalado fuera de la estación espacial ]

En el cuadro de texto de la figura 5

en el botón buscar, el cual ejecuta evento par

Figura 5-13. Resultado correcto de la consulta MapTool

Observaciones:

La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la

tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el

cual es 0.7.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

Dom-Sub-GBG-13

Resultado:

¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?

generaron las siguientes tripletas:

[llevara, argumento1, el Endeavour]

[llevara, argumento2, x?]

[llevara, argumento3, para que sea instalado fuera de la estación espacial ]

figura 5-13 se ingresan estas tripletas y se procede a ejecutarla dando clic

en el botón buscar, el cual ejecuta evento para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub

La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la

tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el

Román Albores

Cargo:

Autor

Capítulo V. Pruebas

86

Resultado:

¿Qué llevará el Endeavour para que sea instalado fuera de la estación espacial?

[llevara, argumento3, para que sea instalado fuera de la estación espacial ]

se ingresan estas tripletas y se procede a ejecutarla dando clic

a extraer la información de la ontología.

Sub-GBG-13.

La información extraída por medio de las tripletas ingresadas cumple con la similitud necesaria en la

tripleta 2 y 3 en donde el texto ingresado en el rango es mayor al umbral de la instancia establecido el

Autor

Page 101: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Caso de prueba:

MapTool-Es-Triple-Dom-

De la pregunta ¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ?

generaron las tripletas siguientes modificando el nombre común

verbo “anunciar” que tiene en su vector de sinónimos el verbo

“comunicaron” quedando de la siguiente manera:

1. [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

2. [ comunicaron,argument

3. [ temblor, espacio, x ? ]

En el cuadro de texto de la figura 5

debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.

Figura 5-14.Resultado correcto de la consulta MapTool

Observaciones:

El verbo “comunicar” se encuentra dentro del vector de sinónimos del verbo

tanto es mapeado de manera correcta por la herramienta así como la palabra

“temblor” el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la

tripleta 1.

Responsable:

LSC. Felipe Antonio Román Albores

Capítulo V. Pruebas

-Sub-GGB-14

Resultado:

¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ?

generaron las tripletas siguientes modificando el nombre común “sismo” por “temblor”

que tiene en su vector de sinónimos el verbo “comunicar” derivado de la palabra

quedando de la siguiente manera:

[ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

[ comunicaron,argumento2, temblor ]

[ temblor, espacio, x ? ]

figura 5-14 se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.

Resultado correcto de la consulta MapTool-Es-Triple-Dom-Sub-

se encuentra dentro del vector de sinónimos del verbo “anunciar”

tanto es mapeado de manera correcta por la herramienta así como la palabra

el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la

LSC. Felipe Antonio Román Albores

Cargo:

Autor

Capítulo V. Pruebas

87

¿Donde ocurrió el sismo que anunció la Agencia Meteorológica Japonesa ? se

“temblor” así como el

derivado de la palabra

se ingresan las tripletas anidadas; para ejecutar la prueba se

debe dar clic en el botón buscar la cual dispara el evento para extraer la información de la ontología.

GGB-14.

“anunciar” por lo

tanto es mapeado de manera correcta por la herramienta así como la palabra “sismo” por

el cual es su sinónimo, así como la similitud de la cadena existente en el rango de la

Page 102: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

88

5.5 Análisis de resultados

El objetivo principal de realizar las pruebas fue el comprobar la metodología de solución

propuesta y mejorarla logrando hacerla más eficiente; así como también comprobar la hipótesis

propuesta en el plan de pruebas y la identificación de patrones de búsqueda más recurrentes en las

ontologías.

Las consultas se realizaron sobre ontologías del dominio de noticias. La mayoría de las

pruebas realizadas se llevaron a cabo sobre un tipo de ontologías específicas para la representación

de texto en ontologías de dominio. Esta meta ontología se describe en (Reyes, 2011) donde utiliza

para la representación de eventos en la figura 5-15 se aprecia el conjunto de conceptos (T-Box) de la

meta ontología OntoEvento.

Figura 5-15. Estructura de la meta ontología OntoEvento en (Reyes, 2011).

Las consultas en lenguaje natural realizadas para las pruebas fueron obtenidas a partir del

contenido existente en las ontologías de (Reyes, 2011a). El número total de ontologías utilizadas en

las pruebas fueron 13. Partiendo de las consultas en lenguaje natural se realizó la conversión de las

preguntas de manera manual a tripletas ya que ésta es la entrada de la herramienta para la extracción

de información a partir de ontologías de la presente investigación.

Tiene_arg3

Tiene_espacio

Es_un

Es_un

Tiene_arg1

Tiene_arg2

Tiene_tiempo

Es_un

Es_un

Urbano

Evento

Efecto

provoca

Causante

Causado_por

Espacio

Geográfico

Acción

Argumento1

Argumento 2

Argumento 3

Unidad_Temporal

Nominalizació

n

Es_un

Intervalo

Instant

Es_un

Page 103: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

89

Las pruebas que se realizaron se encuentran dentro del (ver anexo C). Estas pruebas fueron

elaboradas a partir de los patrones de búsqueda identificadas en el apartado de pruebas a realizar.

En total fueron 70 pruebas de las cuales la herramienta reflejó el 88.57% de efectividad logrando

responder correctamente 62 preguntas de diferentes patrones de consulta contra 8 preguntas

erróneas obteniendo el 11.43 % restante del total de las pruebas realizadas.

A continuación se presenta la tabla 5-6 donde se define el número de consultas realizadas por

patrón, el patrón de consulta simple o anidada, para posteriormente especificar el número de

consultas respondidas correctamente y las consultas incorrectas del patrón de consulta que se

empleo.

Tabla 5-6. Resumen de las pruebas realizadas.

Consultas Patron de consulta Correctas Incorrectas

1 MapTool-Es-Triple-Dom-Sub-A 1 0

1 MapTool-Es-Triple-Dom-Sub-AA 0 1

4 MapTool-Es-Triple-Dom-Sub-B 4

1 MapTool-Es-Triple-Dom-Sub-BB 1 0

14 MapTool-Es-Triple-Dom-Sub-BG 12 2

8 MapTool-Es-Triple-Dom-Sub-BGG 8 0

1 MapTool-Es-Triple-Dom-Sub-BGGG 1 0

1 MapTool-Es-Triple-Dom-Sub-E 1 0

1 MapTool-Es-Triple-Dom-Sub-F 1 0

1 MapTool-Es-Triple-Dom-Sub-GGGB 0 1

24 MapTool-Es-Triple-Dom-Sub-GB 21 3

1 MapTool-Es-Triple-Dom-Sub-GBB 1 0

6 MapTool-Es-Triple-Dom-Sub-GBG 6 0

6 MapTool-Es-Triple-Dom-Sub-GGB 5 1

70 62 8

El resultado del análisis de las pruebas elaboradas se presenta en la tabla 5-7 en resumen:

Tabla 5-7. Número de preguntas y porcentaje de efectividad de la herramienta.

Preguntas Porcentaje

Correctas 62 88.57%

Incorrectas 8 11.43%

Total 70 100%

Page 104: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

En la figura 5-16 se presenta el porcentaje redondeado de efectividad de la herramienta

respecto a las pruebas realizadas en el presente plan de pruebas.

Figura 5-16. Porcentaje de efectividad de la herramienta de

Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas

se logró identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta

correcta.

A continuación se presenta la

umbrales utilizados.

Tabla 5-8. Relaciones de elementos ontológicos y los umbrales utilizados.

Elemento

Clase

Relación

Instancia

En las pruebas realizadas se

para realizar la comparación de las cadenas de texto en las relaciones era poco e

sentido se optó por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se

estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de

cadenas.

Efectividad de la herramienta

Capítulo V. Pruebas

se presenta el porcentaje redondeado de efectividad de la herramienta

respecto a las pruebas realizadas en el presente plan de pruebas.

Porcentaje de efectividad de la herramienta de extracción de información.

Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas

identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta

enta la tabla 5-8 especificando los elementos de la ontología y los

Relaciones de elementos ontológicos y los umbrales utilizados.

Elemento Umbral

Clase .90

Relación .80

Instancia .70

En las pruebas realizadas se logró identificar que el algoritmo (Monge&Elkan, 1996) utilizado

para realizar la comparación de las cadenas de texto en las relaciones era poco e

por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se

estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de

89%

11%

Efectividad de la herramienta

Correctas

Incorrectas

Capítulo V. Pruebas

90

se presenta el porcentaje redondeado de efectividad de la herramienta

extracción de información.

Las pruebas elaboradas se utilizaron para el mejoramiento de la herramienta. Con las pruebas

identificar el uso de múltiples valores en los umbrales utilizados para obtener una respuesta

especificando los elementos de la ontología y los

Relaciones de elementos ontológicos y los umbrales utilizados.

identificar que el algoritmo (Monge&Elkan, 1996) utilizado

para realizar la comparación de las cadenas de texto en las relaciones era poco efectivo. En este

por implementar otros algoritmos que se adecuaran al tipo de cadenas de texto que se

estaban evaluando logrando así un mejoramiento en los resultados obtenidos en la similitud de

Page 105: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo V. Pruebas

91

El algoritmo utilizado en cadenas pequeñas de un máximo de 5 caracteres fue el algoritmo de

(Levenshtein, 1965) utilizado para comparar clases e instancias y relaciones. El otro algoritmo

(Nedleman&Wunch, 1970) fue utilizado en la mayoría de las relaciones e instancias que tiene una

longitud mayor a 5 y de no más de 14 caracteres de longitud. El algoritmo (Monge&Elkan, 1996) se

utiliza en cadenas con longitudes mayores a 14 caracteres. Con el uso de estos algoritmos derivados

de la librería SimMetric (Chapman, 2005) se obtienen mejores resultados que usando únicamente un

algoritmo para la tarea de comparación de cadenas de texto.

5.5.1 Justificación de las pruebas fallidas

Se presentaron dos problemas en la mayoría de los casos de prueba que resultaron

incorrectos debido a que el etiquetador TreeTagger no reconoce algunos tiempos verbales siendo la

más frecuente los verbos en pretérito indicativo.

El segundo problema encontrado fue en la base de datos de EuroWordNet ya que se

encuentra en una versión incompleta; lo cual hace que algunas pruebas realizadas sobre los verbos

no encuentren verbos relacionados al que se está utilizando para extraer el vector de sinónimos y no

es posible realizar un mapeo de esta palabra con otras existentes en los términos que representan al

verbo dentro de la tripleta.

Page 106: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo VI. Conclusiones

92

Capítulo 6. CONCLUSIONES En este capítulo se describen los resultados obtenidos con el desarrollo de la presente

investigación. Se presentan las conclusiones finales del desarrollo de la herramienta para la

extracción de información contenida en ontologías de dominio. Se presentan las aportaciones del

presente trabajo de tesis así como también trabajos futuros que se derivan de esta investigación.

Page 107: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo VI. Conclusiones

93

6.1 Conclusiones

Los patrones de las tripletas de búsqueda identificados en esta investigación se pueden

combinar en relación a la salida del análisis de la consulta de lenguaje natural. Esto permite que la

herramienta generada de esta investigación se adapte a otros proyectos donde se requiera extraer

información de ontologías de dominio. En relación a este apartado las ontologías que se encuentren

dentro del repositorio deben tener una estructura conocida por el ingeniero de ontologías para obtener

mejores resultados en la extracción de la información.

En el presente trabajo de investigación se utilizaron dos componentes para la identificación y

enriquecimiento de términos que recibe como entrada el prototipo para la extracción de información

contenida en ontologías de dominio. El primer componente que se utilizó en esta investigación fue el

etiquetador TreeTagger el cual identifica los verbos y nombres comunes para un mejor procesamiento.

Estos verbos se encuentran en las tripletas de búsqueda así como en los elementos de la ontología en

los que se identificaban las raíces verbales para realizar un mapeo con un grado de confianza más

alto. El segundo componente es la base de datos lexicográfica de EuroWordNet para el

enriquecimiento de los términos de las tripletas. En este punto se utilizan los sinónimos de los

términos identificados de los nombres comunes y verbos siempre que estos contengan información en

la base de datos. Este enriquecimiento de los términos generan más probabilidades para realizar

mapeos con los elementos que se extraen de la bases de datos.

Se implementaron 3 diferentes tipos de algoritmos para la comparación de cadenas de texto

con los cuales se obtienen mejores resultados. Los algoritmos son aplicados dependiendo de la

longitud de la cadena así como el elemento ontológico que se evalué.

1. El algoritmo (Levenshtein, 1965) es utilizado cuando las cadenas de texto son menores o

iguales a 5 caracteres de longitud. Se aplica a las instancias e instancias de relaciones que

tienen la función de relación en donde en la mayoría de los casos sirven para unir una tripleta

con otra. Para este caso en particular se obtienen mejores resultados que los generados por

los algoritmos propuestos por (Monge&Elkan, 1996) y (Needleman&Wunch, 1970).

2. El algoritmo (Needleman&Wunch, 1970) es utilizado en cadenas de texto mayores a 5

caracteres y menores o iguales a 14 caracteres de longitud. Es aplicado en instancias,

instancias de relaciones y clases. Este algoritmo obtiene mejores resultados en cadenas de

texto que se encuentran con estas restricciones.

3. El algoritmo (Monge&Elkan, 1996) se utiliza únicamente para las instancias ontológicas donde

la longitud de la cadena supera los 14 caracteres, esto se debe a que el algoritmo es el que

mejor resultados obtiene en cadenas de texto grandes.

Page 108: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo VI. Conclusiones

94

Se identificaron 3 diferentes umbrales para obtener mejores resultados en el mapeo de los

elementos de las tripletas con los elementos de las ontologías de dominio en relación al tipo de

elemento ontológico que se evalúa.

1. El umbral que se estableció para determinar si una clase es mapeada sintácticamente

correcta fue de 0.9. Este valor es el mayor de los umbrales ya que la extracción de las

instancias correspondientes a este método exige tener la mejor similitud entre los conceptos.

2. El umbral de las relaciones se estableció en 0.8 ya que en varias ocasiones el etiquetador

TreeTagger no lograba encontrar la raíz verbal debido al tiempo en el que se encontraba

definido en la ontología o en las tripletas de búsqueda dicha instancia.

3. Las Instancias se establecieron en el umbral de 0.7 debido a que existen instancias

representadas por cadenas de texto muy largas.

La herramienta generada a partir de esta investigación se presenta como una forma novedosa

para realizar la extracción de información por medio de ontologías de dominio utilizando para ello

técnicas de alineamiento de ontologías. Por lo que permite tener una mayor flexibilidad para realizar

esa tarea en comparación al uso de un lenguaje de consulta estándar como lo es SPARQL.

6.2 Aportaciones

Las principales aportaciones realizadas en el estudio de la extracción de información en

ontologías con la herramienta desarrollada a partir de la presente investigación son los siguientes:

A. En esta investigación se realizó el tratamiento de los verbos en el idioma español con ayuda del

etiquetador TreeTagger lo que permite obtener el contexto de la consulta del usuario. Los verbos

representan acciones sobre distintos elementos de una oración o consulta se desean conocer.

B. La búsqueda de información se realiza en múltiples ontologías de dominio, logrando obtener un

mayor alcance en los resultados de las consultas ejecutadas por el usuario.

C. El enriquecimiento de los elementos que se utilizan para obtener una mayor expresividad y así

obtener mejores resultados al utilizar sinónimos para comparar a los elementos de las ontologías.

D. La integración con diferentes herramientas que se encargan de analizar preguntas elaboradas en

lenguaje natural siempre y cuando generen tripletas en el modo de los patrones establecidos en la

presente investigación.

E. Integración de bases de datos lexicográficas de WordNet y EuroWordNet para realizar la

extracción de información en ontologías elaboradas en el idioma Inglés y Español

respectivamente.

F. Se aplicaron diferentes algoritmos para la comparación de cadenas de texto así como de

diferentes umbrales para la obtención de mejores resultados.

Page 109: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Capítulo VI. Conclusiones

95

No obstante, es necesario realizar un tratamiento previo de la consulta en lenguaje natural

para realizar una mejor extracción de la información utilizando la herramienta de mapeo de tripletas

con ontologías, ya que esta investigación recibe como entrada el resultado de un módulo previo de

análisis del lenguaje natural a tripletas.

La unión de los dos módulos genera una herramienta completa para la búsqueda de

información basada en preguntas-respuestas mediante el uso de ontologías para responder las

interrogantes que se presentan.

6.3 Trabajos futuros

Partiendo de los resultados de las pruebas, conclusiones y aportaciones generadas en esta

investigación se logró obtener una serie de actividades que ayudarían a mejorar y validar el presente

trabajo de investigación. Estas actividades son listadas a continuación:

A. Pruebas de ironLP basándose en la herramienta completa; es decir, probar los módulos de

(Vázquez, 2010) y la presente investigación para que por medio de un gold estándar validado se

obtengan el porcentaje real de efectividad de ironLP.

B. Pruebas de la herramienta de mapeo de ontologías de dominio generada para el idioma Inglés.

C. Integración e implementación de métodos que exploten axiomas que se encuentren establecidos

en las ontologías.

D. Integración e implementación de métodos para la extracción de información contenida en

instancias de propiedades así como en las relaciones de estas propiedades.

E. Extender la herramienta para que pueda leer ontologías en codificadas en OWL 2.

F. Integrar un módulo para la generación de consultas en SPARQL al término de la identificación de

todos los elementos que se desean extraer.

G. Visualizador de textos a partir de la instancia encontrada.

Estas actividades que se proponen tienen la finalidad de generar nuevos proyectos de

investigación. Se pretende darle continuidad a la presente investigación para mejorarla en medida que

se integren los trabajos futuros a la misma y mejorar también el buscador semántico ironLP que se

encuentra en desarrollo.

Page 110: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

96

REFERENCIAS (Berners-Lee, 2000) Berners Lee T., “Semantic Web - XML2000”. [en linea],

http://www.w3.org/2000/Talks/1206-xml2k-tbl, Recuperado el 28

de marzo de 2010.

(Benslimane, 2007) Benslimane S. M., Bensaber D. A., “Ontology mapping for

querying heterogeneous information”. Año 2007.

(Chapman, 2005) Sam Chapman, (2005). “SimMetric: An open source extensible

library of Similarity and Distance Metrics”. Revisado el día:

05/10/2010. Disponible en: http://www.dcs.shef.ac.uk/

~sam/simme trics.html.

(Corcho, 2005) Corcho O, Fernández M, Gómez A, López A. “Building legal

ontologies with METHONTOLOGY and WebODE”. Law and the

Semantic Web. Legal Ontologies, Methodologies, Legal

Information Retrieval, and Applications. Año 2005.

(Cowie, 1996) Jim Cowie, Wendy Lehnert, “Information extraction”,

Communications of the ACM, v.39 n.1, p.80-91. Año 1996

doi:10.1145/234173.234209.

(Doshi, 2006) Doshi, P., Kolli, R., and Thomas, C. “Inexact matching of

ontology graphs using expectation-maximization”. Web

Semantica. 7, 2. Año 2006,90-106. DOI=

http://dx.doi.org/10.1016/j.Websem.2008.12.001

(Ehrig, 2004) Ehrig, Marc; Staab, Steffen; “QOM – Quick Ontology Mapping”

The Semantic Web – ISWC 2004 Lecture Notes in Computer

Science. Año 2004 Springer Berlin / Heidelberg Alemania pág

683-697.

(Ehrig, 2005) Ehrig, Marc and Sure, York. “FOAM - framework for ontology

alignment and mapping, results of the ontology alignment

evaluation initiative”. En Ashpole 2005, pp 72-76.

(Euzenat et al., 2008) Euzenat, J. et. al., ”Processing ontology alignments with

SPARQL”. INRIA & LIG. Grenoble, France 2008.

(Euzenat, 2004a) Euzenat, J., Loup, D., Touzani, M., Valtchev, “Ontology

alignment with ola”. McIlraith, S.A., Plexousakis, D., van

Page 111: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

97

Harmelen, F. (eds.) ISWC 2004. LNCS, vol. 3298, Springer,

Heidelberg (2004)

(Euzenat, 2004b) Euzenat J. and Valtchev P. “Similarity-based ontology alignment

in OWL-lite”. In Proc. 15th ECAI, pages 333–337, Valencia (ES),

2004.

(Furst, 2004) Furst, F., M. Leclere and F. Trichet “Operationalizing domain

ontologies: a method and a tool”, in European Conference on

Artificial Intelligence, R.L. de Mantaras and L. Saitta (eds),

Amsterdam: IOS Press, 318–322. año 2004.

(Furst, 2009) Frédéric F. and Francky T. “Axiom-based ontology matching”

Expert Systems, Año 2009, Vol. 26, No. 2 Pag: 218 -246

(Gruber, 1993) Gruber, T. “Toward Principles for the Design of Ontologies Used

for Knowledge Sharing”. Año 1995. International Journal of

Human and Computer Studies, 43(5/6): 907-928.

(Hakeem, 2004) Hakeem, A.; Shah, M.; “Ontology and taxonomy collaborated

framework for meeting classification” Sch. of Comput. Sci.,

Central Florida Univ., Orlando, FL, USA Pattern Recognition.

Proceedings of the 17th International Conference on. Año 2004.

pag: 219 - 222 Vol.4.ISSN: 1051-4651. ISBN: 0-7695-2128-2

(Hawke, 2010) Hawke S., Presentacion de “An Introduction to linked data”. MIT

Cambridge. Año 2010. [en linea]

http://www.w3.org/2010/Talks/0608-linked-data/ presentation.pdf

(Huang et al., 2010) Huang Chu-Ren et. al. “Ontology and the Lexicon A Natural

Language Processing Perspective”. Series: Studies in Natural

Language Processing. ISBN: 9780521886598. Año 2010.

(Jena, 2000) Jena; “Jena - A Semantic Web Framework for Java”; [en linea]

http://jena.sourceforge.net/index.html; Recuperado el Sábado

20 de noviembre de 2010.

(Kolli et al., 2008) Kolli, R et al., “OPTIMA: tool for ontology alignment with

application to semantic reconciliation of sensor metadata for

publication in SensorMap”. Semantic Computing, 2008 IEEE

International Conference on ISBN: 978-0-7695-3279-0, pág 484

– 485 agosto 2008.

Page 112: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

98

(Kotis&Vouros, 2004)

Kotis, Konstantinos and Vouros, George A., (2004). “The

HCONE Approach to Ontology Merging”; Springer Berlin /

Heidelberg Pag. 137-151.

(Kwak, 2010) Jungae Kwak; “Ontology Matching Based On Hypernym,

Hyponym, Holonym, And Meronym Sets In Wordnet”. Hwan-

Seung Yong; Department of Computer Science and Engineering,

Journal. International Journal of Web & Semantic Technology .

Ewha Womans University, Seoul, Korea. Issn 09762280; EIssn

09759026; año 2010; Volume 1 pag:1-14.

(Levenshtein, 1965) Levenshtein, (1966); “Binary Codes Capable of Correcting

Deletions, Insertions, and Reversals”. Soviet Physics Doklady,

10(8), 707-710.

(Li, 2004) J. Li, "LOM: A Lexicon-Based Ontology Mapping Tool". Proc.

Workshop Performance Metrics for Intelligent Systems (PerMIS

'04), 2004.

(López et. al., 2006a) Lopez Vanessa; Sabou Marta; Motta Enrico; ”PowerMap:

Mapping the Real Semantic Web on the Fly”; The Semantic Web

- ISWC 2006 Lecture Notes in Computer Science año 2006

Editorial Springer Berlin / Heidelberg pág. 414-427 url

http://dx.doi.org/10.1007/11926078_30

(López et. al., 2006b) López Vanessa, Uren Victoria, Motta Enrico, Pasin Michele

“AquaLog: An ontology-driven Question Answering system as an

interface to the Semantic Web”. Human Language Technology

Conference of North America Chapter of the Association of

Computational Linguistics Proceedings. Nueva York. 2006.

(López et al., 2009) López Vanessa, Victoria Urem, Marta Sabou, Enrico Motta.

“Cross ontology query answering on the semantic Web: An initial

evaluation”. Proceedings of the fifth International Conference on

Knowledge Capture, pag. 17-24. California, USA 2009.

(Manning, 2008) Christopher Manning, Raghavan, P., Schütze, H., “Introduction

to Information Retrieval”, Cambridge University Press. Año 2008.

ISBN: 0521865719.

(McBride, 2002) Brian McBride, (2002). “Jena: A Semantic Web Toolkit”, IEEE

Internet Computing, v.6 n.6, p.55-59, November 2002 pág. 55 -

Page 113: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

99

59 ISSN: 1089-7801.

(Monge&Elkan,1996) Monge, A., and Elkan, C., (1996). “The field-matching problem:

algorithm and applications”. In Proceedings of the Second

International Conference on Knowledge Discovery and Data

Mining.

(Miller, 1995) Miller, G. “WORDNET: A Lexical Database for English.

Communications” ACM , año 1995 pág 39-41.

(Navas et al, 2007) Ismael Navas et. al., “MaF: un marco de trabajo para el

alineamiento de ontologías” Campus de Teatinos 29071 Málaga

Universidad de Extremadura. [en línea ]

www.sistedes.es/sistedes/pdf/2007/eidbd-07-navas-maf.pdf.

Recuperado el día 22 de agosto de 2010

(Nedleman&Wunch, 1970) Saul B. Needleman, Christian D. Wunsch, “A General Method

Applicable to Search for Similarities in the Amino Acid Sequence

of Two Proteins”, J. Mol. Biol., 48, pp. 443-453, 1970.

(RDF, 2004) RDF. W., “RDF vocabulary description language 1.0:RDF

schema”. [en linea] http://w3.org/TR/rdf-schema. Recuperado el

28 de marzo de 2010.

(Reyes, 2011) Reyes J. A. (2011). “Creación automática de ontologías a partir

de textos con un enfoque lingüístico”. CENIDET. Cuernavaca,

Morelos, México.

(Reyes, 2011a) Reyes J. A. (2011). “Creación automática de ontologías a partir

de textos con un enfoque lingüístico”. Reporte cuatrimestral.

CENIDET Cuernavaca, Morelos, México.

(Schmid, 1994) Schmid, H., (1994) “Probabilistic part-of-speech tagging using

decision trees“.In: Proceedings of International Conference on

New Methods in Language Processing.

(Silva&Rocha, 2003) Silva, N. and Rocha, J., (2003) "MAFRA - An Ontology Mapping

Framework for the Semantic Web"; Proceedings of the 6th

International. Año 2003.

(Standford,2007) Standford, “What is an ontology?”. Universidad de Standford,

Stanford, California, USA [en linea] http://www-

ksl.stanford.edu/kst/what-is-an-ontology.html. Recuperado el 25

Page 114: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

100

de marzo de 2010

(SPARQL, 2008) SPARQL, W., “Query language for RDF”. [en linea] http://

w3.org/TR/rdf-sparql-query. Recuperado el 27 de febrero de

2010.

(Thanh Le et al,, 2007)

Thanh Le, B. and Dieng-Kuntz, R.. “A Graph-Based Algorithm for

Alignment of OWL Ontologies”. In Proceedings of the

IEEE/WIC/ACM international Conference on Web intelligence

(November 02 - 05, 2007). Web Intelligence. IEEE Computer

Society, Washington, DC, 466-469. Año 2007. DOI=

http://dx.doi.org/10.1109/WI.2007.10

(Tripleta, 2010) Tripleta, “Resource description framework”.[en linea]

http://es.wikipedia.org/wiki/Resource_Description_Framework.

Recuperado el 14 de abril de 2010.

(OWL, 2004) OWL, W., “Web ontology language”. [en linea] http://

w3.org/TR/owl-features . Recuperado el 27 de febrero de 2010.

(Valero et al., 2010) Valero A., et. al. “Towards Multi-Stream Question Answering

Using Answer Validation” Laboratorio de Tecnologías del

Lenguaje Instituto Nacional de Astrofísica, Óptica y Electrónica

Puebla, México. Año 2009.

(Vázquez, 2010) Vázquez, C., “Traductor de consultas en lenguaje natural a

SPARQL para realizar búsquedas sobre ontologías”, Tesis de

maestría. Cenidet, Morelos, México 2010.

(Vossen, 1998) Vossen, Piek. “Introduction to EuroWordNet” Computers and the

Humanities. Año 1998. Editorial Springer Netherlands. Computer

Science. Pág. 73-89.

(Taxonomía, 2004) Taxonomía. “Taxonomía”. [en linea] http://es.wikipedia.org /wiki

/Taxonom%C3%ADa Recuperado el 25 de febrero de 2010.

(XML, 2004) XML, W. “Extensible markup language (XML) 1.0”. [en linea]

http://www.w3.org/TR/2004/REC-xml-20040204/ Recuperado el

25 de febrero de 2010.

Page 115: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Anexos

101

ANEXOS

Page 116: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

102

Anexo A. Palabras vacías

En esta sección se presentan las palabras utilizadas para limpiar las cadenas de texto en la herramienta

y con la finalidad de obtener un mejor grado de similitud entre dos cadenas de texto que se van a comparar.

La tabla 1contiene las palabras vacías utilizadas para ontologías del idioma Español.

Tabla 1. Palabras vacías del idioma Español.

un, una, unas, unos, uno, sobre, todo, también, tras, otro, algún, alguno, alguna, algunos, algunas, ser, es,

soy, eres, somos, sois, estoy, esta, estamos, estáis, están, como, en, para, atrás, porque, porque, por, estado,

estaba, ante, antes, siendo, ambos, pero, por, poder, puede, puedo, podemos, podéis, pueden, fui, fue, fuimos,

fueron, hacer, hago, hace, hacemos, hacéis, hacen, cada, fin, incluso, primero, desde, conseguir, consigo,

consigue, consigues, conseguimos, consiguen, ir, voy, va, vamos, vais, van, vaya, bueno, ha, tener, tengo,

tiene, tenemos, tenéis, tienen, el, la, lo, las, los, su, aquí, mío, tuyo, ellos, ellas, nos, nosotros, vosotros,

vosotras, si, dentro, solo, solamente, saber, sabes, sabe, sabemos, sabéis, saben, ultimo, largo, bastante,

haces, muchos, aquellos, aquellas, sus, entonces, tiempo, verdad, verdadero, verdadera, cierto, ciertos, cierta,

ciertas, intentar, intento, intenta, intentas, intentamos, intentáis, intentan, dos, bajo, arriba, encima, usar, uso,

usas, usa, usamos, usáis, usan, emplear, empleo, empleas, emplean, ampliamos, empleáis, valor, muy, era,

eras, éramos, eran, modo, bien, cual, cuando, donde, mientras, quien, con, entre, sin, trabajo, trabajar,

trabajas, trabaja, trabajamos, trabajáis, trabajan, podría, podrías, podríamos, podrían, podríais, yo, aquel.

La tabla Anexo A-2 contiene las palabras vacías utilizadas para ontologías del idioma Inglés.

Tabla 2. Palabras vacías del idioma Inglés

a, about, above, after, again, against, all, am, an, and, any, are, aren't, as, at, be, because, been, before,

being, below, between, both, but, by, can't, cannot, could, couldn't, did, didn't, do, does, doesn't, doing, don't,

down, during, each, few, for, from, further, had, hadn't, he, he'd, he'll, he's, her, here, here's, hers, herself,

him, himself, his, how, how's, i, i'd, i'll, i'm, i've, if, in, into, is, isn't, it, it's, its, itself, let's, me, more, most,

mustn't, my, myself, no, nor, not, of, off, on, once, only, or, other, ought, our, ours, ourselves, out, over, own,

same, shan't, she, she'd, she'll, she's, should, shouldn't, so, some, such, than, that, that's, the, their, theirs,

them, themselves, then, there, there's, these, they, they'd, they'll, they're, they've, this, those, through, to, too,

under, until, up, very, was, wasn't, we, we'd, we'll, we're, we've, were, weren't, what, what's, when, when's,

where, where's, which, while, who, who's, whom, why, why's, with, won't, would, wouldn't, you, you'd, you'll,

you're, you've, your, yours, yourself, yourselves, has, hasn't, have, haven't, having.

Page 117: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

103

Anexo B. Resultados del análisis de algoritmos de similitud de cadenas

Los algoritmos analizados en el presente documento fueron obtenidos de la librería SimMetric

desarrollada por (Chapman, 2005). Esta librería fue desarrollada con la finalidad de proporcionar el grado de

similitud de dos cadenas de texto; donde el grado de similitud se encuentra dentro del rango de 0 a 1.

El objetivo principal del análisis de los algoritmos de comparación de cadenas es obtener el algoritmo

que mejor se adapte a las necesidades que se presentan en esta investigación. La cual se resume en realizar

comparaciones de cadenas de texto separadas por espacio en blanco considerando a cada una como un

conjunto de tokens. Para lo cual se realizaron 60 pruebas con cadenas de textos de diferente índole con la

finalidad de proporcionar distintas variaciones en las pruebas. Las pruebas se realizaron en base a las clases,

instancias y relaciones ontológicas existentes en ontologías del dominio de noticias que se utilizaron para

obtener el resultado de este análisis.

De acuerdo a los resultados obtenidos en el análisis realizado, el algoritmo desarrollado por

(Monge&Elkan, 1996) obtuvo mejores resultados. De las 60 pruebas realizadas el algoritmo obtuvo un

porcentaje significativo en relación a los 10 algoritmos evaluados en el análisis. El algoritmo que más cerca

estuvo fue (Needleman & Wunsch, 1970) el cual se encontró en un puntaje de -8 por debajo del algoritmo

propuesto por (Monge&Elkan, 1996) con 77%. En la gráfica 1 se aprecian los resultados de los algoritmos

aplicados en el análisis.

Gráfica 1. Resultados finales de los algoritmos.

0

10

20

30

40

50

60

70

80

90

100

Page 118: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Anexos

104

A continuación se presentan las gráficas donde se aprecian los resultados de todas las de las cadenas de texto y los algoritmos aplicados.

Tabla 3. El primer conjunto de datos está determinado por las siguientes cadenas de caracteres.

.

1 Anotacion Anotaciones

2 aplicaciones de la industria aplicacion de la industria

3 beltran leiva beltran

4 participantes de la llamada caminata contra la muerte participantes de la caminata contra la muerte

5 participantes de la llamada caminata contra la muerte caminata contra la muerte

6 participantes de la llamada caminata contra la muerte participantes de la caminata

7 cerrar la calzada del canal de tezontle cerraron la calzada de tezontle

8 cerrar la calzada del canal de tezontle cerraron canal de tezontle

9 cerrar la calzada del canal de tezontle cerraron la calzada tezontle

10 no concretarse la separacion del cohete no realizar la separacion del cohete

11 no concretarse la separacion del cohete no realizar la division del cohete

12 no concretarse la separacion del cohete No se realizo la division del cohete

13 cuerpo de bomberos bomberos

14 decenas de viviendas varias viviendas

15 decenas de viviendas viviendas

Page 119: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

105

Gráfica 2. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el primer conjunto de datos.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Jaro Levenshtein Jaccard Similarity

Block Distance

Cosine Similarity

Dice Similarity

Euclidean Distance

Matching Coefficient

Monge Elkan Needleman Wunch

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Page 120: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

106

Tabla 4. El segundo conjunto de datos está determinado por las siguientes cadenas de caracteres.

No Cadena original Cadena modificada

16 difundir el desarrollo de la ciencia y la tecnologia difundir el desarrollo de la ciencia

17 difundir el desarrollo de la ciencia y la tecnologia divulgar el desarrollo de la ciencia

18 difundir el desarrollo de la ciencia y la tecnologia divulgar el desarrollo de la ciencia y tecnologia

19 fallecio dos niños y dos adultos fallecieron niños y adultos

20 insultos y disparos insultos

21 insultos y disparos disparos

22 intentar privar de la vida quitar la vida

23 intentar privar de la vida Intentar quitar la vida

24 intentar privar de la vida tratar de quitar la vida

25 kilometros al oeste del puerto de valparaiso kilometros al oeste del puerto

26 kilometros al oeste del puerto de valparaiso kilometros de valparaiso

27 kilometros al oeste del puerto de valparaiso kilometros del puerto

28 madrugada del viernes 04 de marzo madrugada 04 de marzo

29 madrugada del viernes 04 de marzo madrugada del viernes

30 madrugada del viernes 04 de marzo viernes 04 de marzo

Page 121: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

107

Gráfica 3. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el segundo conjunto de datos.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Jaro Levenshtein Jaccard Similarity

Block Distance

Cosine Similarity

Dice Similarity

Euclidean Distance

Matching Coefficient

Monge Elkan Needleman Wunch

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

Page 122: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

108

Tabla 5. El tercer conjunto de datos está determinado por las siguientes cadenas de caracteres.

No Cadena original Cadena modificada

31 almacenaba material pirotecnico guardaba material pirotecnico

32 almacenaba material pirotecnico almacenaba material inflamable

33 almacenaba material pirotecnico almacenaba pirotecnia

34 jose anotnio bermudez aguilar jose anotnio aguilar

35 jose anotnio bermudez aguilar jose anotnio bermudez

36 jose anotnio bermudez aguilar jose aguilar

37 jose anotnio bermudez aguilar anotnio bermudez

38 jose anotnio bermudez aguilar anotnio aguilar

39 produccion de uromodulina crea uromodulina

40 produccion de uromodulina produce uromodulina

41 tentativa de homicidio tentativa de asesinato

42 tentativa de homicidio Intento de homicidio

43 base vandenberg de la fuerza aerea en california base vanderberg de la fuerza aerea

44 base vandenberg de la fuerza aerea en california base de la fuerza aerea

45 base vandenberg de la fuerza aerea en california base de la fuerza aerea en california

Page 123: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

109

Gráfica 4. Comparativa del rendimiento de los algoritmos con instancias ontológicas en el tercer conjunto de datos.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Jaro Levenshtein Jaccard Similarity

Block Distance

Cosine Similarity

Dice Similarity

Euclidean Distance

Matching Coefficient

Monge Elkan Needleman Wunch

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

Page 124: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

110

Tabla 6. El primer conjunto de pruebas basado en relaciones está determinado por las siguientes cadenas de caracteres.

No Cadena original Cadena Modificada

1 es excretada en se excreto

2 es excretada en se excreto en

3 está formado por formado por

4 está formado por esta formado

5 fue coordinado por coordinado por

6 fue financiado por financiado por

7 fue financiado por financiado

8 fue llevado a cabo por Se llevo a cabo en

9 fue llevado a cabo por llevo a cabo

10 tiene asistencias asistencias

11 tiene ciudad ciudad

12 tiene documento documento

13 tiene fecha fecha

14 fue desarrollado por desarrollo

15 fue desarrollado por se desarrollo

Page 125: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

111

Gráfica 5. Comparativa del rendimiento de los algoritmos con relaciones ontológicas.

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Jaro Levenshtein Jaccard Similarity

Block Distance

Cosine Similarity

Dice Similarity

Euclidean Distance

Matching Coefficient

Monge Elkan Needleman Wunch

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Page 126: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

112

Anexo C. Resultados de las pruebas realizadas

En esta sección se presentan los resultados finales obtenidos de los casos de prueba definidos dentro del plan de pruebas en este

documento se encuentran las pruebas exitosas así como también las pruebas fallidas.

En la tabla C-1 se describen las pruebas realizadas sobre la herramienta para la extracción de información contenida en ontologías:

Tabla 7. Comparativa del rendimiento de los algoritmos con relaciones ontológicas.

No. Consulta Parámetros Tripletas Correcto

1 [ demoraron, argumento1, x ?]

[demoraron, argumento2, el

lanzamiento del Endeavour ]

Idioma: Español

Dominio: Noticias

Subdominio: Ciencia y tecnología

aplazan argumento 1 la NASA

retrasar argumento 1 la NASA

aplazan argumento 2 diez días lanzamiento de transbordador endeavour

retrasar argumento 2 el lanzamiento del transbordador espacial endeavour

Si

2 [ aplazo, argumento1, x ? ]

[ aplazo, argumento2, el lanzamiento del transbordador ]

Idioma: Español

Dominio: Noticias

Subdominio: Ciencia y tecnología

La búsqueda realizada no causo ninguna respuesta. No

3 [llevara, argumento1, el Endeavour]

[llevara, argumento2, x?] [llevara, argumento3, para que sea instalado fuera de la estación espacial ]

Idioma: Español

Dominio: Noticias Subdominio: Ciencia y tecnología

llevara argumento 1 el Endeavour llevara argumento 2 detector de particulas llamado espectometro magnetico alpha

llevara argumento 3 para que sea montado fuera de la estación espacial

Si

4 [guiado, argumento1, el Endeavour]

[guiado, argumento2, x?] [guiado, argumento3, en la instalación fuera de la estación ]

Idioma: Español

Dominio: Noticias

Subdominio: Ciencia y tecnología

llevara argumento 1 el Endeavour llevara argumento 2 detector de particulas llamado espectometro magnetico alpha

llevara argumento 3 para que sea montado fuera de la estación espacial

Si

5 [retraso, causado por, x?] Idioma: Español retrasar causado por un problema de calendario Si

Page 127: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

113

[retraso, argumento2, lanzamiento del transbordador Endeavour]

Dominio: Noticias

Subdominio: Ciencia y tecnología

en la estacion espacial internacional

retrasar argumento 2 el lanzamiento del transbordador espacial endeavour

6 [demoraron, originado por, x?] [demoraron, argumento2, lanzamiento del transbordador Endeavour]

Idioma: Español Dominio: Noticias

Subdominio: Ciencia y tecnología

retrasar causado por un problema de calendario en la estacion espacial internacional

retrasar argumento 2 el lanzamiento del transbordador espacial endeavour

Si

7 [ postergo, argumento1, x ? ]

[ postergo, argumento2, la misión ]

[ postergo , argumento3, para evitar que se sobre pusiera con una nave rusa ]

Idioma: Español

Dominio: Noticias

Subdominio: Ciencia y tecnología

postergo argumento 1 la agencia espacial estadunidense

postergo argumento 2 la mision postergo argumento 3 para evitar que esta se sobrepusiera con el arribo de una nave de carga rusa al puesto en orbita

Si

8 [ demoraron, argumento1, x ? ]

[ demoraron, argumento2,la misión]

[demoraron, argumento3, para evitar una colisión con una nave de carga rusa ]

Idioma: Español

Dominio: Noticias

Subdominio: Ciencia y tecnología

postergo argumento 1 la agencia espacial estadunidense

postergo argumento 2 la mision postergo argumento 3 para evitar que esta se sobrepusiera con el arribo de una nave de carga rusa al puesto en orbita

Si

9 [ temblor, originado por, x ? ]

[ temblor, espacio, en Japón ]

Idioma: Español

Dominio: Noticias Subdominio: Desastres

temblor causa alerta tsunami

temblor espacio en japon

Si

10 [ comunicaron, argumento1, la Agencia Meteorológica Japonesa ]

[ comunicaron,argumento2,temblor]

[ temblor, espacio, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

anuncio argumento 1 la agencia meteorologica japonesa

anuncio argumento 2 sismo sismo espacio epicentro a 66 km al este de sendai y a una profundidad de 256 km

Si

11 [ alerto, argumento1, x ? ]

[ alerto, argumento2 , sobre el

riesgo de un tsunami ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

alerto argumento 1 la agencia meteorologica japonesa

alerto argumento 2 sobre el riesgo de un tsunami

Si

12 [ fue perjudicada, argumento1, la Idioma: Español fue afectada argumento 1 la prefectura de miyagi Si

Page 128: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

114

prefectura de Miyagi ]

[ fue perjudicada, tiempo, x ? ]

Dominio: Noticias

Subdominio: Desastres

fue afectada tiempo el 11 de marzo

13 [informo, argumento1, x ? ]

[informo,argumento2 ,lucha ] [lucha,argumento1 ,los técnicos ]

[lucha,argumento2 ,para controlar los reactores de la central de Fukushima ]

Idioma: Español

Dominio: Noticias Subdominio: Desastres

informo argumento 1 la empresa gestora de la planta tepco

informo argumento 2 luchan

luchan argumento 1 los tecnicos

luchan argumento 2 para controlar los reactores accidentados de la central nuclear japonesa de fukushima

Si

14 [ agrego, argumento1, el portavoz de Tokyo Electric Power ]

[ agrego, argumento2, x ? ]

Idioma: Español Dominio: Noticias

Subdominio: Desastres

añadio argumento 1 el portavoz de tokyo electric power añadio argumento 2 desconocemos si hay hubo algun impacto en las instalaciones pues los trabajadores salieron del area

Si

15 [se cotizaba, argumento1, el barril de petróleo tipo Brent del Mar del Norte ]

[ se cotizaba, argumento2, el mercado electrónico Intercontinental Petroleum Exchange ] [se cotizaba, tiempo, x ?]

Idioma: Español

Dominio: Noticias Subdominio: Finanzas

se cotizaba argumento 1 el barril de petroleo tipo brent del mar del norte se cotizaba argumento 2 en el mercado electronico intercontinental petroleum exchange ICE se cotizaba tiempo este jueves

Si

16 [se ubica, argumento1, el Brent ]

[se ubica, argumento2, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Finanzas

se ubica argumento 1 el brent se ubica argumento 2 en 12.199 dolares

Si

17 [cotizo, argumento1, la canasta de la Organización de Países Exportadores de Petróleo]

[cotizo, argumento2, x ? ]

Idioma: Español

Dominio: Noticias Subdominio: Finanzas

cotizo argumento 1 la canasta de la organizacipon de paises exportadores de petroleo OPEP cotizo argumento 2 en 11.762 dolares lo que represento una alza de 1.02 dolares 0.88 por ciento respecto al cierre del martes

Si

18 [cayo, argumento1, x?]

[cayo, argumento2, 31 centavos de dólar respecto al cierre del

Idioma: Español

Dominio: Noticias

La búsqueda realizada no causo ninguna respuesta. No

Page 129: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

115

miércoles] Subdominio: Finanzas

19 [ fue hospitalizado, argumento1, x?]

[ fue hospitalizado, argumento2, en estado crítico ]

Idioma: Español

Dominio: Noticias

Subdominio: Internacionales

hospitalizado argumento 1 alencar ex vicepresidente brasileno

hospitalizado argumento 2 en estado critico

Si

20 [ comunicaron,argumento1,el hospital Sirio Libanes de Sao Paulo]

[ comunicaron, argumento2, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Internacionales

anuncio argumento 1 el hospital sirio libanes de sao paulo anuncio argumento 2 el ex vicepresidente de brasil jose alencar volvio a ser internado hoy a raiz de fuertes dolores abdominales y se encuentra en estado critico

Si

21 [ goberno, argumento1, x ? ]

[ goberno, espacio, Brasil ]

[ goberno, tiempo, entre 2003 y 2010]

Idioma: Español

Dominio: Noticias

Subdominio: Internacionales

gobernó argumento 1 luiz inacio lula da silva

gobernó espacio Brasil

gobernó tiempo entre 2003 y 2010

Si

22 [administraron, argumento1, x ? ] [administraron, espacio, Brasil ]

[administraron, tiempo, entre 2003 y 2010 ]

Idioma: Español Dominio: Noticias

Subdominio: Internacionales

gobernó argumento 1 luiz inacio lula da silva

gobernó espacio Brasil

gobernó tiempo entre 2003 y 2010

Si

23 [administraron, argumento1, Luiz Inacio Lula da Silva] [administraron, espacio, Brasil]

[administraron, tiempo, x?]

Idioma: Español

Dominio: Noticias Subdominio: Internacionales

gobernó argumento 1 luiz inacio lula da silva

gobernó espacio brasil gobernó tiempo entre 2003 y 2010

Si

24 [batallado, argumento1, el político de 79 años de edad]

[batallado, argumento2, x?]

Idioma: Español

Dominio: Noticias

Subdominio: Internacionales

lucha argumento 1 el politico de 79 anos de edad lucha argumento 2 contra un cancer desde 1997

Si

25 [ dejaron, argumento1, 6 cuerpos ]

[ dejaron, espacio, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Nacionales

dejan argumento 1 6 cuerpos dejan espacio sobre autopista del sol

Si

26 [ encontraron, argumento1, los Idioma: Español encontraron argumento 1 agentes de la PME Si

Page 130: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

116

agentes de la PME]

[ encontraron,argumento2, x ? ]

Dominio: Noticias

Subdominio: Nacionales

encontraron argumento 2 un automóvil tipo accord abandonado y con manchas de sangre

27 [ hallaron, argumento1, los agentes de la PME ] [ hallaron, argumento2, x ? ]

Idioma: Español

Dominio: Noticias Subdominio: Nacionales

encontraron argumento 1 agentes de la PME encontraron argumento 2 un automóvil tipo accord abandonado y con manchas de sangre

Si

28 [ enfrentamiento, argumento1, entre grupos armados ]

[ enfrentamiento, espacio, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Nacionales

enfrentamiento argumento 1 entre grupos armados enfrentamiento espacio en la comunidad santana municipio de choix

Si

29 [replica de 6.4 grados sacude de nuevo Fukushima, tiene_fecha_pub, x ? ]

[replica de 6.4 grados sacude de nuevo Fukushima, tiene_lugar_pub, x ? ]

Idioma: Español

Dominio: Noticias Subdominio: Desastres

replica de 6 4 grados sacude de nuevo fukushima tiene lugar pub tokio japon

replica de 6 4 grados sacude de nuevo fukushima tiene fecha pub martes 29 de marzo de 2011

Si

30 [ fueron dañados, argumento1, seis reactores] [ fueron dañados, argumento2, x ?]

Idioma: Español

Dominio: Noticias Subdominio: Desastres

dañados por argumento 1 seis reactores dañados por argumento 2 terremoto

Si

31 [ fueron afectados, argumento1, seis reactores ]

[ fueron afectados,argumento2,x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

dañados por argumento 1 seis reactores dañados por argumento 2 terremoto

Si

32 [ temblor, tiempo, x ? ] Idioma: Español Dominio: Noticias

Subdominio: Desastres

sismo tiempo este jueves sismo tiempo a las 23:32 horas

Ontología: JR-DS-01

sismo tiempo dia 11

sismo tiempo 19:54 hora local

sismo tiempo 11 de marzo

terremoto tiempo hoy

Ontología: UN-DS-01

Si

33 [ sismo, tiempo, x ? ] Idioma: Español sismo tiempo este jueves Si

Page 131: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

117

Dominio: Noticias

Subdominio: Desastres

sismo tiempo a las 23:32 horas

Ontología: JR-DS-01

sismo tiempo día 11 sismo tiempo 19:54 hora local

sismo tiempo 11 de marzo

terremoto tiempo hoy

Ontología: UN-DS-01

34 [ temblor, tiempo, Hoy ]

[ temblor, espacio, x ? ]

Idioma: Español

Dominio: Noticias Subdominio: Desastres

terremoto tiempo hoy terremoto espacio noreste de Japón

Si

35 [terremoto, tiempo, Hoy]

[terremoto, espacio, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

terremoto tiempo hoy terremoto espacio noreste de Japón

Si

36 [ sismo, tiempo, Hoy ]

[ sismo, espacio, x ? ]

Idioma: Español

Dominio: Noticias Subdominio: Desastres

terremoto tiempo hoy terremoto espacio noreste de Japón

Si

37 [sismo, tiempo, Hoy ]

[sismo, espacio, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

terremoto tiempo hoy terremoto espacio noreste de Japón

Si

38 [ tsunami, espacio, las zonas de la costa noreste ]

[ tsunami, tiempo, x ? ]

Idioma: Español Dominio: Noticias

Subdominio: Desastres

tsunami espacio zonas de la costa noreste tsunami tiempo día 11

Si

39 [ tsunami, espacio, la costa

noreste ]

[ tsunami, tiempo, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

tsunami espacio zonas de la costa noreste tsunami tiempo día 11

Si

40 [ examina, argumento1, x ? ] [ examina, argumento2, los productos importados de Japón ]

Idioma: Español Dominio: Noticias

Subdominio: Desastres

examina argumento 1 taiwan

examina argumento 2 los productos importados de Japón

Si

Page 132: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

118

41 [ están investigando, argumento1,

x ? ]

[ están investigando, argumento2, los productos de Japón ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

examina argumento 1 Taiwán

examina argumento 2 los productos importados de japon

Si

42 [ anuncio, argumento1, un funcionario isleño ]

[ anuncio, argumento2, x ? ]

[ anuncio, tiempo, Hoy ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

anuncio argumento 1 un funcionario isle o anuncio argumento 2 Taiwán ha detectado niveles de radiación superiores a lo normal pero que no suponen peligro para la salud en el embalaje de cartón de fideos importados de Japón

anuncio tiempo hoy

Si

43 [ comunicado, argumento1, funcionario isleño ]

[ comunicado, argumento2, x ? ]

[ comunicado, tiempo, Hoy ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

anuncio argumento 1 un funcionario isle o anuncio argumento 2 Taiwán ha detectado niveles de radiación superiores a lo normal pero que no suponen peligro para la salud en el embalaje de cartón de fideos importados de Japón

anuncio tiempo hoy

Si

44 [ detecta, argumento1, Taiwán ]

[ detecta, argumento2, radiación en fideos japoneses ]

[ detecta, espacio, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

detecta argumento 1 taiwan

detecta argumento 2 radiación en fideos japoneses detecta espacio taiwan

Si

45 [ examina, argumento1, Taiwan ]

[ examina, argumento2, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

examina argumento 1 Taiwán examina argumento 2 los productos importados de japon

Si

46 [ investigando, argumento1,

Taiwan ]

[ investigando, argumento2, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Desastres

examina argumento 1 Taiwán examina argumento 2 los productos importados de Japón

Si

47 [ pidió, argumento1, el perredista ]

[ pidió, argumento2, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Policiacos

pidió argumento 1 el perredista pidió argumento 2 esperar los resultados que arrojen la consulta ciudadana realizada este domingo en territorio mexiquense

Si

Page 133: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

119

48 [ ha exigido, argumento1, el perredista ]

[ ha exigido, argumento2, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Policiacos

La búsqueda realizada no causo ninguna respuesta. No

49 [ reitero, argumento1, x ? ] [ reitero, argumento2, que no será el abanderado de una eventual alianza política con el Partido Acción Nacional (PAN) ]

Idioma: Español Dominio: Noticias

Subdominio: Policiacos

reitera argumento 1 alejandro encinas rodríguez

reitera argumento 2 que no será el abanderado de una eventual alianza entre este organismo político y el partido acción nacional PAN

Si

50 [ dijo, argumento1, el perredista ] [ dijo, argumento2, que celebra que se realicen ejercicios ciudadanos ]

[ dijo, tiempo, x ? ]

Idioma: Español Dominio: Noticias

Subdominio: Policiacos

dijo argumento 1 el perredista dijo argumento 2 celebra que se realicen ejercicios ciudadanos dijo tiempo alrededor de las 19:30 horas

Si

51 [ ha manifestado, argumento1, el perredista ] [ ha manifestado, argumento2, celebra que se realicen ejercicios ciudadanos ] [ ha manifestado, tiempo, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio: Policiacos

La búsqueda realizada no causo ninguna respuesta. No

52 [ señalo, argumento1, el exjefe del Gobierno del Distrito federal ] [ señalo, argumento2, x ? ] [ señalo, espacio, su cuenta de Twitter ]

Idioma: Español

Dominio: Noticias Subdominio: Policiacos

señalo argumento 1 el ex jefe del gobierno del distrito federal señalo argumento 2 lo que quiero reiterar es que no voy a participar en una eventual alianza entre mi partido el PRD y el PAN lo digo con toda claridad

señalo espacio su cuenta en twitter

Si

53 [ explosión, controlaron, x ? ] [ explosión, fue originada por, almacenamiento de material pirotécnico ]

Idioma: Español Dominio: Noticias

Subdominio:

explosión fue controlado por cuerpo de bomberos

explosión causado por almacenaba material pirotécnico

Si

54 [ explosión, fue controlada por, cuerpo de bomberos] [ explosión, provoco, x ? ] [explosión, afecto, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio:

explosión fue controlado por cuerpo de bomberos explosión provoca cerrar la calzada canal de tezontle

explosión afecto sies viviendas

Si

Page 134: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

120

55 [ explosión, fue originado por, el almacenamiento de material pirotécnico ] [ explosión, tiene unidad temporal, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio:

explosión causado por almacenaba material pirotécnico explosión tiene unidad temporal temporal 1

Si

56 [x?, sucedió en, Iztacalco] [x?, tiene unidad temporal, 18:00 ]

Idioma: Español

Dominio: Noticias

Subdominio:

La búsqueda realizada no causo ninguna respuesta. No

57 [ cuerpo de bomberos, is-a, x ? ]

Idioma: Español

Dominio: Noticias Subdominio:

cuerpo de bomberos es organización Si

58 [ x ?, is-a, acontecimientos ]

Idioma: Español

Dominio: Noticias

Subdominio:

terremoto es desastres

explosión es desastres

Ontología: Ontología 1

balean a estudiante es policiaco balacera es policiaco

expo robótica 2010 es ciencia

Ontología: Ontología 2

hallan gen es tecnológico

Ontología: Ontología 3

sismo es desastres

Ontología: Ontología 4

falla lanzamiento es evento

Ontología: Ontología 5

Si

59 [ balacera, participo, x ?] [balacera, fue originada por, disparos ]

Idioma: Español

Dominio: Noticias

Subdominio:

balacera participo José Gpe Ramírez

balacera participo José Antonio Bermúdez Aguilar

balacera causado por disparos

Si

Page 135: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

121

60 [Jose Gpe Ramirez, traslado, x?] [balacera, participo, Jose Gpe Ramirez ]

Idioma: Español

Dominio: Noticias

Subdominio:

José Gpe Ramírez fue trasladado por cruz roja

balacera participo José Gpe Ramírez

Si

61 [ balacera, provoco, x?] [ balacera, participaron, Jose Antonio Bermudez Aguilar ] [ balacera, participaron, Jose Gpe Ramirez ]

Idioma: Español Dominio: Noticias

Subdominio:

balacera participo José Gpe Ramírez

balacera participo José Antonio Bermúdez Aguilar

balacera causado por disparos

Si

62 [ Expo Robótica 2010, ofrecieron, x?]

Idioma: Español

Dominio: Noticias Subdominio:

expo robótica 2010 ofreció talleres

expo robótica 2010 ofreció conferencias Si

63 [ expo robótica 2010, participo, x?] [ expo robótica 2010, asistieron, jóvenes de instituciones educativas]

Idioma: Español

Dominio: Noticias

Subdominio:

La búsqueda realizada no causo ninguna respuesta. No

64 [hallazgo gen, corresponde a, nueva variante] [ nueva variante, regula, x ? ]

Idioma: Español

Dominio: Noticias Subdominio:

hallan gen pertenece a nueva variante

nueva variante regula producción de uromodulina

Si

65 [ hallazgo gen, corresponde, nueva variante ]

[ hallazgo gen, descubrió, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio:

La búsqueda realizada no causo ninguna respuesta. No

66 [ hallazgo gen, pertenece a, nueva variante]

[ nueva variante, disminuye, hipertensión]

[ hipertensión, afecta a, adultos de la Unión Europea]

[ hallazgo gen, coordinó, x ? ]

Idioma: Español Dominio: Noticias

Subdominio:

La búsqueda realizada no causo ninguna respuesta. No

67 [ sismo, fue seguido, por miles de replicas] [ sismo, afectó, x ? ]

Idioma: Español

Dominio: Noticias

Subdominio:

sismo ha sido seguido por miles de replicas sismo afectó zona central chilena

Si

68 [ sismo, afectó, zona central Idioma: Español sismo afecto zona central chilena Si

Page 136: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

122

Chilena ] [ sismo, con epicentro, Epicentro ] [ Epicentro, fue fijado a, x?]

Dominio: Noticias

Subdominio:

sismo tiene epicentro epicentro epicentro fue fijado a 70 kilómetros al oeste del puerto de Valparaíso

69 [ x ?, informo acerca de, falla del lanzamiento ]

Idioma: Español

Dominio: Noticias

Subdominio:

Omar Báez informó sobre falla lanzamiento Si

70 [falla lanzamiento, origino, x ?]

Idioma: Español

Dominio: Noticias

Subdominio:

falla lanzamiento originado por no concretarse la separación del cohete

Si

Page 137: Tesis RAFA V1 - CENIDET Felip… · Dr. Juan Gabriel González Serna-Secretario Dr. Hugo Estrada Esquivel-Vocal MC. José Alejandro Reyes Ortiz -Vocal Suplente Cuernavaca, Morelos,

Referencias

123