CATÁLOGO DE TECNOLOGÍAS Y RECURSOS · 1. Ingeniería Ontológica . OOPS! – OntOlogy Pitfall...

CATÁLOGO DE TECNOLOGÍAS Y RECURSOS

ONTOLOGY ENGINEERING GROUP (UPM)

ONTOLOGY ENGINEERING GROUP: CATÁLOGO DE TECNOLOGÍAS (octubre 2020) Pág. 2 de 32

CATÁLOGO DE TECNOLOGÍAS Y RECURSOS

ONTOLOGY ENGINEERING GROUP

UNIVERSIDAD POLITÉCNICA DE MADRID

PRESENTACIÓN DEL GRUPO DE INVESTIGACIÓN

El Grupo de Ingeniería Ontológica (OEG - Ontology Engineering Group) se encuentra en la Escuela Técnica Superior de Ingenieros Informáticos (antigua Facultad de Informática) de la Universidad Politécnica de Madrid. Ocupa la tercera posición de entre los más de doscientos grupos de investigación de esta Universidad, y es ampliamente reconocido en Europa en las áreas de Ingeniería Ontológica, Web Semántica y Linked Data, Tecnologías del Lenguaje, Aplicación de semántica en e-Ciencia e Integración de Datos.

Los logros más relevantes del grupo en estas áreas son:

a. Metodologías para el desarrollo de ontologías y redes de ontologías (Methontology, NeOn Methodology y LOT Methodology) y procesos de gobernanza para dichos desarrollos.

b. Herramientas para facilitar el desarrollo de ontologías. Aquí se incluyen: OOPS!, para la evaluación de ontologías; Widoco y AR2Dtool, para la generación de documentación HTML y diagramas de ontologías; Themis para hacer pruebas sobre ontologías; Licensius para la gestión de licencias; Vocab para la generación de catálogos de ontologías, OnToology, para la aplicación de mecanismos de integración continua para el desarrollo de ontologías en GitHub, y Astrea para la validación de datos con SHACL shapes generadas automáticamente a partir de un corpus de ontologías.

c. Repositorios de ontologías desarrolladas en diversos dominios: ciudades (http://vocab.linkeddata.es/datosabiertos/, http://smartcity.linkeddata.es/), IoT ( http://vicinity.iot.linkeddata.es), geografía (https://datos.ign.es/vocabularios.html).

d. Grafos de conocimientos desplegados en diversos dominios: bibliotecas (http://datos.bne.es/inicio.html), geografía (https://datos.ign.es/), recursos lingüísticos (ApertiumRDF, TerminotecaRDF), dominio jurídico (Lynx), contratación pública (https://github.com/TBFY/knowledge-graph).

http://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/researchareas/2-ontologicalengineering/index.htmlhttp://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/researchareas/4-semanticweb/index.htmlhttp://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/researchareas/6-naturallanguageprocessing/index.htmlhttp://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/researchareas/6-naturallanguageprocessing/index.htmlhttp://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/researchareas/3-semanticscience/index.htmlhttp://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/methodologies/59-neon-methodology/index.htmlhttp://lot.linkeddata.es/http://oops.linkeddata.es/http://oops.linkeddata.es/http://themis.linkeddata.es/http://ontoology.linkeddata.es/http://astrea.linkeddata.es/http://vocab.linkeddata.es/datosabiertos/http://smartcity.linkeddata.es/http://vicinity.iot.linkeddata.es/https://datos.ign.es/vocabularios.htmlhttp://datos.bne.es/inicio.htmlhttps://datos.ign.es/http://linguistic.linkeddata.es/apertium/http://linguistic.linkeddata.es/terminoteca/https://github.com/TBFY/knowledge-graph


e. Herramientas para la transformación a RDF a partir de fuentes de datos estructurados y semi-estructurados (bases de datos relacionales, JSON, CSV) y publicación de los grafos de conocimientos generados síncrona o asíncronamente a partir de estas fuentes (Morph, Helio, Marimba, Geometry2RDF y TripleGeoKettle). Las vistas de los datos publicados pueden ser personalizadas y los grafos de conocimiento validados mediante SHACL shapes.

f. Recursos que facilitan la construcción y despliegue de servicios web que permiten acceder a contenido RDF mediante peticiones REST que se transforman en consultas SPARQL (R4R): contratación pública (TheyBuyForYou)

g. Herramientas relacionadas con el tratamiento de textos, incluyendo la combinación de técnicas de procesamiento de lenguaje natural con modelos probabilísticos de tópicos y recursos semánticos para grandes corpus documentales (librAIry), construcción guiada de preguntas en lenguaje natural a repositorios de datos semánticos (DylanQ); extracción automática de términos a partir de corpus (KeyQ); extracción de entidades nombradas en entornos seguros (Valkyr-IE, usando con la AEAT, Policía Nacional o Panama Papers); o inferencias sobre el tipo semántico de un texto (NLP4Types).

El grupo ha desarrollado aplicaciones en un amplio rango de dominios, incluyendo gestión del conocimiento, gestión del ciclo de vida de aplicaciones software, comercio electrónico, búsquedas de trabajo y financiación, geolocalización, gestión de proyectos de I+D, etc.

Además, el OEG mantiene el capítulo español de DBpedia, es responsable del nodo de Madrid del Open Data Institute, y participa en diversas actividades de estandarización del W3C (Knowledge Graph Creation, Linked Data Platform, Sensor Network Ontology, Ontolex model, Best practices for Multilingual Linked Open Dat, Ontology-Lexica), ETSI (desarrollo y mantenimiento de la ontología SAREF y sus extensiones, así como en el diseño del portal de desarrollo y comunidad de SAREF) e ISO (ISO/TC 37 Committee dentro del SC 4 y en el ISO/TC 37/TCG /Terminology Coordination Group).

https://morph.oeg-upm.net/https://helio.linkeddata.es/http://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/technologies/228-marimba/index.htmlhttps://github.com/oeg-upm/r4rhttps://tbfy.github.io/knowledge-graph-APIhttps://librairy.linkeddata.es/http://nlp4types.linkeddata.es/http://mayor2.dia.fi.upm.es/oeg-upm/index.php/es/services/322-spanish-chapter-dbpedia/index.html


LÍNEAS DE INVESTIGACIÓN

El Grupo de Ingeniería Ontológica desarrolla su trabajo en seis líneas de investigación dentro del área de la Inteligencia Artificial:

1. Ingeniería Ontológica (Ontology Engineering): para conseguir modelos de datos consensuados y soportar la interoperabilidad semántica de los datos.

2. Grafos de conocimientos (Knowledge Graphs): para la comprensión automática de los datos, la generación de anotaciones y la organización de datos, información y conocimiento.

3. Tecnologías del lenguaje (Language Technologies): análisis de textos, modelos de representación de datos lingüísticos multilingües, datos lingüísticos enlazados, extracción de información a partir de corpus.

4. Integración de datos (Data Integration): datos distribuidos para conseguir nuevos datos de mayor calidad y transparencia en su acceso.

5. Infraestructuras para la Ciencia de datos (Data Science Infrastructure): preparar técnicas de vanguardia para el aprendizaje automático y las aplicaciones de Inteligencia Artificial.

6. Open Government / Open Science: desarrollos para administraciones públicas y entidades académicas y de investigación, con datos de acceso público.

TECNOLOGÍAS

A continuación se exponen las tecnologías desarrolladas por el OEG, agrupadas por líneas de investigación:


1. Ingeniería Ontológica

OOPS! – OntOlogy Pitfall Scanner!

Solución tecnológica:

Sistema online para la evaluación de ontologías. Este sistema ha sido utilizado en más de 60 países con más de 6000 ejecuciones, es una herramienta independiente del editor de ontologías empleado y realiza un mayor número de comprobaciones automáticas que el resto de herramientas existentes. La independencia de editores específicos así como su sencilla interfaz hacen del sistema una herramienta accesible, fácil de utilizar y comprender para usuarios no expertos en tecnologías semánticas. Además, se ha utilizado en distintas empresas internacionales como herramienta para evaluación de ontologías y como material de soporte en procesos de formación. OOPS! También se ha utilizado en cursos universitarios en instituciones como University of Toronto, Universidad Politécnica de Madrid y Universitat Oberta de Catalunya. Por último, las funcionalidades de OOPS! se han integrado en varios registros de ontologías y otros sistemas desarrollados por terceras partes.

Ventajas competitivas:

• Triplica la capacidad que tienen las herramientas existentes para detectar semiautomáticamente los errores más comunes

• Disponible en línea en http://oops.linkeddata.es • Interfaz de usuario web • Servicio web • Ofrece un catálogo en línea de los errores más comunes, incluyendo una

descripción y ejemplos. • Independiente de entornos de edición de ontologías • Fácil de usar • Permite seleccionar un subconjunto de errores comunes a analizar de

acuerdo con diferentes variables de evaluación

Grado de desarrollo: o Concepto o Investigación o Prototipo-lab o Prototipo industrial (X) o Producción

Protección industrial: • Registro software: M009445/2012 • Registro de Marca Nº.3.534.342

http://oops.linkeddata.es

http://oops.linkeddata.es/


OnToology


OnToology es una aplicación basada en la web diseñada para facilitar el flujo de trabajo de desarrollo de ontologías mediante el apoyo a una serie de actividades de ingeniería ontológica. Genera automáticamente documentación (a través de Widoco), visualización (a través de Ar2DTool) y un informe de evaluación de ontologías (a través de OOPS!). Depende de GitHub para apoyar el desarrollo colaborativo de la ontología, mientras que se encarga de las actividades de ingeniería ontológica. Adopta pautas de publicación de ontologías con URLs permanentes y proporciona soporte para la negociación de contenidos generando los recursos necesarios. OnToology se proporciona como una aplicación web, por lo que no es necesario ningún proceso de instalación. La plataforma ha sido adoptada por más de 50 usuarios, ha participado en más de 100 proyectos y ha publicado más de 50 ontologías.


• Reducción del coste en actividades de documentación, evaluación y publicación de ontologías. Reducción de costes de despliegue ya que no necesita instalación, ni servidores, por parte del usuario.

• Incremento de la productividad en la gestión de recursos generados durante el desarrollo de ontologías.


Protección industrial: • Registro software: M-001103/2020

http://ontoology.linkeddata.es/


Themis


Themis es una aplicación basada en la web diseñada para la verificación de ontologías a partir de la ejecución automática de pruebas. Utiliza un lenguaje controlado generado a partir de los tipos de requisitos más comunes, facilitando el diseño de pruebas para expertos de dominio, usuarios y desarrolladores de ontologías. Además, Themis permite la ejecución de pruebas en múltiples ontologías simultáneamente, lo que facilita el análisis e identificación de conceptos y relaciones comunes en diferentes ontologías. La herramienta está basada en RDF siguiendo la ontología Verification Test Case ontology (https://w3id.org/def/vtc#), por lo que el usuario puede exportar un conjunto de pruebas en un fichero RDF siguiendo dicha ontología para su futura reutilización y publicación. Themis se proporciona como una aplicación web, por lo que no es necesario ningún proceso de instalación.


• Diseño de pruebas a partir de un lenguaje controlado, el cual guía al usuario en la generación de pruebas.

• Ejecución de pruebas en diferentes ontologías simultáneamente, permitiendo identificar similitudes y diferencias entre ellas.

• Interfaz web sin instalación necesaria.

Grado de desarrollo: o Concepto o Investigación o Prototipo-lab (X) o Prototipo industrial o Producción

Protección industrial: • En proceso de registro

http://themis.linkeddata.es/

https://w3id.org/def/vtchttp://themis.linkeddata.es/


vocab


vocab es un sistema para generar portales de ontologías a partir de una listas de URIs (identificadores de las ontologías publicadas en la web) y palabras clave asociadas. El sistema recupera automáticamente desde la URIs de las ontologías los metadatos descritos en las mismas para mostrarlos en el portal.


• Requisitos mínimos de entrada de datos • Incorporación de servicios de evaluación de ontologías


Protección industrial: • En proceso

https://github.com/oeg-upm/vocab.linkeddata.es

https://github.com/oeg-upm/vocab.linkeddata.eshttps://github.com/oeg-upm/vocab.linkeddata.es


WIDOCO


WIDOCO es una herramienta para documentar ontologías de manera automática, utilizando las anotaciones existentes en las mismas. Dado un vocabulario en formato RDF estándar, WIDOCO genera una serie de páginas HTML incluyendo descripciones que son fáciles de leer por parte de un investigador. WIDOCO guía a los usuarios a través del proceso de documentación, ayudándoles a personalizar los aspectos de interés que se quieren incluir en el documento final (secciones, diagramas, información de provenance, etc.). WIDOCO integra y extiende herramientas como LODE (para documentación de términos), WebVOWL (para la generación de diagramas interactivos), Bubastis (para detección de diferencias entre distintas versiones de una ontología) y servicios Web como Licensius para rellenar metadatos de licencias y OOPS! para producir informes de evaluación. Además, WIDOCO utiliza las prácticas y estándares recomendados por el W3C, enriqueciendo la documentación con anotaciones para que se pueda descubrir por parte de los motores de búsqueda en la Web, publicando la documentación en varios idiomas y generando los archivos necesarios para que investigadores puedan hacer sus ontologías de manera pública en la Web. WIDOCO ha sido adoptado en la publicación de más de 50 ontologías, y el proyecto ha recibido más de 100 estrellas en GitHub.


• Reducción del tiempo y esfuerzo necesario para generar la documentación de una ontología.

• Flexibilidad y personalización a la hora de diseñar la documentación de una ontología.

• Incremento de la mantenibilidad de una ontología, puesto que la generación de documentación es automatizable.

• Incremento de la productividad en la gestión de recursos generados durante el desarrollo de ontologías.


Protección industrial: En proceso de registro

https://w3id.org/widoco/


2. Grafos de conocimiento

Graphless


Graphless es una herramienta para visualizar resúmenes de datos estadísticos a partir de conjuntos de datos semánticos. Para ello, se basa en la distribución de tipos, propiedades y los grados de entrada y salida de cada nodo del gráfico. Utilizando esta información, aplica un conjunto de heurísticas para explorar los datos. Partiendo de un nodo dado (es decir, un nodo raíz), recorre el gráfico hasta que se logra una determinada condición.


• Única herramienta en línea con esta funcionalidad • Permite detectar errores en datasets semánticos • Interfaz web para humanos y API para desarrolladores



http://graphless.linkeddata.es/

http://graphless.linkeddata.es/


LOUPE


Loupe es un sistema para analizar datos y crear perfiles de datos con información sobre estadísticas y patrones de datos que puede ser utilizada para medir la calidad de los datos. Loupe está diseñado para analizar datos representados usando el modelo RDF. Además, proporciona un conjunto de herramientas para realizar la tarea de creación de perfiles de datos de forma escalable y para visualizar dichos datos.


Grado de desarrollo:

o Concepto o Investigación o Prototipo-lab o Prototipo industrial o Producción


http://loupe.linkeddata.es/loupe/


Astrea


Astrea es una servicio online que permite generar automáticamente unos documentos denominados shapes, utilizando el vocabulario estándar SHACL impulsado por el W3C. Estos documentos shapes permiten validar datos expresados en RDF de acuerdo a una ontología asociada. Astrea, recibe como entrada una o más ontologías y genera sus correspondientes shapes. Además Astrea ofrece un servicio de validación que, dado un documento RDF y un shape, genera un informe de validación.


• Generación automática de SHACL shapes a partir de ontologias. • Los Shapes tienen una amplia cobertura de todas las restricciones posibles.


Protección industrial: En proceso de registro

http://astrea.linkeddata.es/

http://astrea.linkeddata.es/


DBpedia del español


DBpedia del español es, de una parte, una aplicación web que permite a los usuarios humanos recorrer el grafo de conocimiento de DBpedia del español. Este grafo proviene de la información extraída de Wikipedia del español. De otra parte, es un servicio que puede ser usado por aplicaciones a través de una API. Ha sido usada por empresas como TAIGER para mejorar la calidad de sus servicios de Text Analytics. Es el único servicio TIC incluido en el catálogo de infraestructuras UPM.


• Es el mayor dataset semántico con información en español • Avanzado mecanismo de actualización de contenido • Múltiples interfaces de acceso para humanos y programadores

Grado de desarrollo: o Concepto o Investigación o Prototipo-lab o Prototipo industrial o Producción (X)

Protección industrial:

http://es.dbpedia.org

http://es.dbpedia.org/


ApertiumRDF


Conjunto de 22 diccionarios bilingües representados en RDF. ApertiumRDF es la versión RDF de los diccionarios bilingües Apertium, utilizados por la plataforma de traducción automática de código abierto Apertium, (ver: https://www.apertium.org/index.eng.html?dir=cat-por#translation). El modelo de representación utilizado en la conversión de estos diccionarios es el modelo de representación de datos lingüísticos en la Web de Datos, lemon (https://lemon-model.net/), y para las traducciones, en concreto, se ha usado el módulo de traducciones propuesto en el marco del mismo modelo.

ApertiumRDF es el resultado del trabajo conjunto de grupo OEG (Universidad Politécnica de Madrid) y el grupo IULA (Universidad Pompeu Fabra).


• Representar datos lingüísticos multilingües en los formatos de la Web de Datos.

• Navegar datos lingüísticos multilingües a través de un único punto de acceso mediante consultas SPARQL.

• Obtener nuevas traducciones entre lenguas para las que no existía un diccionario bilingüe per se.

• Reutilizar datos representados en RDF en terceras aplicaciones.



http://linguistic.linkeddata.es/apertium/

https://www.apertium.org/index.eng.html?dir=cat-por#translation


3. Tecnologías del Lenguaje

Dylan-Q

Dylan-Q


Sistema guiado para la creación de preguntas en lenguaje natural sobre cualquier conjunto de datos, con garantía de respuesta correcta. La tecnología presentada permite que los clientes formulen preguntas en lenguaje natural de forma intuitiva y rápida. Las preguntas son gramaticalmente correctas, flexibles (permite formular la pregunta de diversas maneras), y multilingües (inglés, español o alemán). Los resultados de la pregunta se actualizan a medida que la pregunta se va construyendo y refinando. Esto aporta al usuario una gran sensación de control. Esta herramienta es el resultado de la combinación de los últimos avances científicos, y una avanzada I+D+i, en interacción persona-ordenador, semántica, y lingüística computacional, por parte de investigadores de la UPM y de la Universidad de Bielefeld (Alemania).


• Desarrollo a medida del cliente: la pregunta se construye con la terminología y el vocabulario que necesita el cliente. El resultado de la pregunta también se adapta a las necesidades del cliente: desde un número, o una tabla de resultados, a un conjunto de gráficos interactivos.

• Multilingüe: español, inglés y alemán. Ampliable a otros idiomas. • Utilizable desde dispositivos móviles. • Muy intuitivo: ideal para usuarios con poca experiencia en el uso de tecnologías

(barrera de adopción mínima). • Comparado con el sistema más parecido se necesita la mitad de tiempo para crear

preguntas. • Se pueden hacer demostraciones con acuerdo de confidencialidad.


o Concepto o Investigación o Prototipo-lab o Prototipo industrial o Producción (X)

Protección industrial: • Registrado

http://


Key-Q

Key-Q


Buscador terminológico. Dado un conjunto de documentos (pdf, Word, etc.), el sistema identifica los términos compuestos y proporciona un buscador por términos, mejorando los resultados respecto a búsquedas por términos simples. El usuario teclea algunas letras y el sistema proporciona términos que incluyen esas letras en cualquier posición (no solo las letras iniciales), por lo que el usuario va descubriendo los términos que puede utilizar, simples y compuestos, para construir la consulta.


• Aplicable a cualquier dominio: se ha hecho un demostrador para manuales de reparación de aeronaves (9 millones de palabras), pero es aplicable al dominio legal o el dominio financiero. Escala linealmente. • Multilingüe: inglés, español (castellano y lenguas co-oficiales). Ampliable a otros idiomas. • Utilizable desde dispositivos móviles. • Muy intuitivo: ideal para usuarios con poca experiencia en el uso de tecnologías (barrera de adopción mínima). • Se pueden hacer demostraciones con acuerdo de confidencialidad



http://


Valkyr-ie


Se trata de una librería desarrollada en JAVA como una extensión de la librería General Architecture for Text Engineering (GATE). Esta extensión está diseñada para tareas de extracción de información, principalmente para tareas de reconocimiento de entidades nombradas (nombres propios de personas, organizaciones, lugares, enfermedades, etc.). Además, la librería cuenta con una API de programación más sencilla y liviana, permite cargar grandes volúmenes de documentos y añade nuevas funcionalidades. Entre sus nuevas funcionalidades se encuentran: - Creación, revisión, almacenamiento y evaluación de gold standards en distintos formatos. - Generación de modelos de machine learning mediante las librerías CoreNLP , OpenNLP . - Plugin para trabajar con la librería Freeling . - Integración de la librería Mallet para tareas de machine learning. - Herramientas de ayuda para la creación de gazetteers (listas de términos) y reglas JAPE para la extracción de entidades.


• Desarrollo a medida del cliente: La librería puede ser entrenada para diferentes casos de uso

• Integración: La librería está desarrollada íntegramente en JAVA lo cual facilita la integración a los procesos de negocio del cliente. Además, está pensada para ejecutarse en los propios servidores del cliente, manteniendo la privacidad de los datos utilizados en todo momento.

• Multilingüe: español, inglés. Ampliable a otros idiomas. • Mantenimiento: La librería está construida sobre otras librerías software de largo

recorrido y con mantenimiento y comunidad detrás.



https://github.com/oeg-upm/valkyr-ie

https://github.com/oeg-upm/valkyr-ie


TerminotecaRDF


TerminotecaRDF es un recurso que integra terminologías multilingües representadas como datos enlazados en RDF. El objetivo de TerminotecaRDF es agregar terminologías específicas de dominio representadas como RDF en un grafo unificado y proporcionar un único punto de entrada a dichas terminologías. El modelo que subyace a la representación de la información terminológica es lemon-Ontolex (https://www.w3.org/2016/05/ontolex/), en concreto, el módulo vartrans, para representación de variantes terminológicas y traducciones. TerminotecaRDF se encuentra disponible en: http://linguistic.linkeddata.es/terminoteca/ TerminotecaRDF se encuentra accesible a través de un punto de consultas SPARQL (http://linguistic.linkeddata.es/terminoteca/sparql-editor/) y una interfaz de búsqueda simple (http://linguistic.linkeddata.es/terminoteca/search/).


• Representar datos terminológicos en los formatos de la Web de Datos • Navegar datos terminológicos a través de un único punto de acceso mediante

consultas SPARQL • Obtener respuestas a consultas complejas a partir de recursos agregados • Reutilizar datos representados en RDF en terceras aplicaciones


o Concepto o Investigación o Prototipo-lab (X) o Prototipo industrial o Producción


http://linguistic.linkeddata.es/terminoteca/

Terminoteca-RDF

http://linguistic.linkeddata.es/terminoteca/http://linguistic.linkeddata.es/terminoteca/


lemon


lemon es un modelo o vocabulario para representar la información de lexicones y diccionarios electrónicos en la Web de Datos. El lenguaje de implementación de lemon es RDF. El modelo lemon está basado en LMF o Lexical Markup Framework (http://www.lexicalmarkupframework.org/), el estándar ISO para la representación de lexicones y diccionarios electrónicos, pero cubre una mayor cantidad de datos lingüísticos y permite enlazar la información lingüística con información ontológica, asegurando la compatibilidad con modelos de ontologías en OWL. El modelo lemon se desarrolló en el marco del proyecto europeo Monnet, como resultado de la colaboración entre el grupo de investigación CITEC de la Universität Bielefeld (Alemania), el centro de investigación DFKI (Alemania), el centro de investigación DERI de la National University of Ireland, Galway (Irlanda) y el OEG de la Universidad Politécnica de Madrid.


• Representar la información de lexicones y diccionarios electrónicos en RDF • Enriquecer ontologías y representaciones conceptuales con información

lingüística • Navegar datos lingüísticos a través de un único punto de acceso mediante

consultas SPARQL • Permitir la reutilización de datos representados en RDF


Protección industrial: • CCBy

https://lemon-model.net/

http://www.lexicalmarkupframework.org/


Ontolex-lemon

Ontolex-lemon

Solución tecnológica: Ontolex-lemon es un modelo o vocabulario para representar información lingüística en la Web de Datos, según el lenguaje RDF. Ontolex-lemon es un modelo que evoluciona el modelo lemon, y que nace del trabajo conjunto de varios expertos en un grupo de discusión abierto (Community Group) del W3C. De hecho, nuevos módulos siguen apareciendo y se siguen acordando en el marco del grupo de discusión Ontolex. El modelo Ontolex-lemon consta de un módulo central y cinco módulos específicos. Dependiendo del tipo de información lingüística que se necesite representar, se utilizaran unos módulos u otros. En el momento de documentar el modelo en el catálogo, Ontolex-lemon consta de los siguiente módulos:

• Ontolex – módulo central, proporciona el enlace con la ontología • Synsem – módulo para la representación de las propiedades

sintácticas de las entradas léxicas y su significado semántico correspondiente en la ontología

• Decomp – módulo para la representación de descomposición de entradas léxicas

• Vartrans – módulo para la representación de variantes terminológicas y traducciones

• Lime – módulos para la representación de los metadatos lingüísticos


• Representar la información de recursos lingüísticos (lexicones, diccionarios, terminologías, glosarios, etc.) electrónicos en RDF

• Enriquecer ontologías y representaciones conceptuales con información lingüística

• Permitir la reutilización de datos representados en RDF



https://www.w3.org/2016/05/ontolex/


librAIry


Sistema de exploración de corpus documentales a gran escala que permite: • Anotar los documentos en base a su contenido identificando de forma

automática sus principales tópicos o temas tratados. • Establecer relaciones de semejanza semántica entre los documentos:

comunidades, perfiles. • Identificar los documentos relacionados a un texto dado: recomendación. • Construir servicios cloud HTTP-Rest que miden la presencia en un texto dado

de los tópicos identificados en una colección de documentos.


• Descubrimiento de comunidades, identificación de perfiles. • Clasificador temático no supervisado. • Multilingüe: español, inglés, francés, portugués y alemán. Ampliable a otros idiomas. • Orientado a servicios en la nube (SaaS) • Utilización como sistema de recomendación basado en el contenido.


Protección industrial: • Registrado M-007342/2016

http://librairy.linkeddata.es


NLP4Types


Esta herramienta permite identificar qué describe un texto breve. Por ejemplo, de un texto descriptivo de Obama, dice que su tipo es “Presidente”, o de un texto del CV de Stephen Hawking, dice que es de tipo “Científico”. Esta inferencia tipográfica está basada en un conjunto de modelos de clasificación de texto que hemos desarrollado y entrenado con la última versión de DBpedia (inglés, 2016-10) que reconoce unos 350 tipos. La herramienta en línea está preparada para texto en inglés, pero la tecnología subyacente permite incluir otros idiomas, como el español, de forma sencilla.


• Válido para textos cortos. • Amplio conjunto de tipos reconocibles • Válido para múltiples idiomas • Utilizable como aplicación para humanos y como servicio (API) para

programadores


Protección industrial: • Registro software: M-002491/2019 http://nlp4types.linkeddata.es/

http://nlp4types.linkeddata.es/


Añotador


Añotador es un anotador temporal, para español e inglés, capaz de detectar diferentes tipos de expresiones temporales en textos, específicamente orientada al dominio legal. Expresiones como fechas, horas, sets (es decir, expresiones que se repiten con el tiempo como "todos los jueves" o "dos veces por semana") y duraciones. Es de manejo sencillo ya que recibe sólo necesita como entrada el texto para anotar y, opcionalmente, una fecha de referencia (si no se introdujera ninguna fecha, se consideraría la fecha actual). Con esta información, el sistema puede encontrar y normalizar expresiones temporales, es decir, expresarlas como un valor estándar, normalmente con respecto a una fecha de referencia (la introducida inicialmente o alguna otra encontrada anteriormente en el texto). Añotador está disponible como servicio web y como repositorio GitHub, entre otros, e incluye una demo en su página web. Esta tecnología supera el estado del arte tanto para textos en español general como para documentos legales en inglés y es de uso común en proyectos de investigación con este enfoque.


• Supera a los anotadores temporales en español, siendo además el primero que cubre parcialmente expresiones temporales hispanoamericanas, y a los anotadores temporales en inglés en textos legales de tribunales europeos.

• Es el primer anotador temporal para el dominio legal, aunque no se limita a éste.



http://annotador.oeg-upm.net/

http://annotador.oeg-upm.net/


4. Integración de datos

morph


Es una familia de herramientas que permiten la generación de datos en formato RDF a partir de datos estructurados (bases de datos relacionales) y semi-estructurados (JSON, CSV). La relación entre los datos estructurados o semi-estructurados y los datos semánticos en RDF se define mediante el uso de anotaciones semánticas como R2RML, RML y CSV on the Web. morph es capaz de generar los datos estructurados como ficheros de RDF o hacerlos disponibles de manera virtual, utilizando optimizaciones en la reescritura de las consultas que lo hacen más eficiente que el resto de alternativas similares.


Facilita la integración de datos heterogéneos procedentes de diversas fuentes de datos, mediante un único lenguaje de representación (RDF) y consulta (SPARQL). Permite representar las relaciones entre fuentes de datos y RDF de manera declarativa, facilitando su mantenibilidad.


Protección industrial: • Registrado M-001739/2020

https://morph.oeg-upm.net/

https://morph.oeg-upm.net/


MIRROR


Herramienta para generar anotaciones semánticas automáticamente, que puedan ser utilizadas por herramientas de acceso semántico a fuentes de datos estructuradas y semi-estructuradas, como la suite morph. MIRROR genera automáticamente anotaciones semánticas en formato R2RML a partir de una base de datos relacional. Analizando las tablas que hay en la base de datos, sus relaciones y los datos que contienen, MIRROR es capaz de generar anotaciones semánticas que representan diversos tipos de relaciones entre conceptos, incluyendo taxonomías.


Reducción del coste y tiempo de generación de mappings R2RML que puedan ser utilizados por herramientas de acceso a datos basados en ontologías (OBDA en inglés) Única en el estado del arte que es capaz de generar modelos enriquecidos a partir del análisis del esquema de la base de datos y de sus datos



https://github.com/oeg-upm/mirror


TADAA


TADA es un software que anota columnas de entidad y números automáticamente con propiedades de un gráfico de conocimiento automáticamente.


• No necesita conocimiento de fondo • No necesita conjunto de entrenamiento • Se ejecuta automáticamente • Anota con propiedades de gráfico de conocimiento




https://github.com/oeg-upm/mirror


HELIO


Helio es una solución que permite publicar datos en RDF a partir de fuentes heterogéneas de datos, las cuales no tienen por qué exponer datos en RDF. Algunas de las funcionalidades que permite Helio son la limpieza de datos y el enlazado de los datos generados a partir de las distintas fuentes. El punto innovador de Helio a nivel conceptual es que posee un motor para traducir datos a RDF basado en mappings con un lenguaje propio; sin embargo, Helio está pensado para poder integrar cualquier otro motor del estado del arte que haga la misma función. Desde este punto de vista Helio puede explotar lo mejor de cada tecnología existente, proporcionando al usuario un framework fácil de configurar.


• Publicación de datos con acceso granular: recurso, dataset, endpoint SPARQL • Potencialmente integra cualquier tecnología que traduzca datos a RDF. • Posee enlazado de datos basado en reglas difusas. • Potencialmente se pueden usar distintos lenguajes de traducción a RDF como

RML o SPARQ generados incluso aunque no sea nativo de la herramienta. Grado de desarrollo:



https://github.com/oeg-upm/helio


Mappingpedia


Repositorio de anotaciones semánticas que permite a los usuarios descubrir, compartir, y ejecutar anotaciones semánticas en lenguajes de especificación de mappings como R2RML o RML.


• Reducción del coste y esfuerzo necesario para encontrar conjuntos de datos que ya estén previamente anotados de acuerdo con ontologías existentes.

• Facilita la creación de otros mappings para fuentes de datos nuevas, o de acuerdo con ontologías distintas a las de los mappings originales.



http://mappingpedia.linkeddata.es/


5. Infraestructuras para la Ciencia de datos

Chronic Social Exclusion

Predictor Service


El uso de paradigmas de machine learning como la regresión logística y el muestreo aleatorio hace posible una alta precisión en la predicción de la exclusión social crónica: alrededor del 90% en las estimaciones más conservadoras. Estos modelos de predicción ofrecen una regla empírica rápida que puede detectar a los ciudadanos que están en peligro de ser excluidos de la sociedad más allá de una situación temporal, permitiendo a los trabajadores sociales estudiar más a fondo estos casos.


• Reducción del coste de los Servicios Sociales, una de las partidas del presupuesto público con mayor impacto en el ciudadano

• Incremento de la productividad en la diagnosis de la exclusión social y prevención de la misma

• Alineado con los Objetivos de Desarrollo Sostenible 10 (Reducción de las desigualdades) y 11 (Ciudades y comunidades sostenibles)



https://

https://github.com/oeg-upm/hner


Autoscore: generador de

música automático


Un modelo capaz de generar y completar composiciones musicales automáticamente. El modelo se basa en paradigmas de aprendizaje generativo de machine learning y deep learning, como las redes neuronales recurrentes..


• Reducción del coste de diseño de las campañas publicitarias: música, y vídeos • Incremento de la productividad en los procesos creativos • Alineado con el ODS 9: Industria, innovación e infraestructura


o Concepto o Investigación o Prototipo-lab o Prototipo industrial (X) o Producción

Protección industrial: • Registro en proceso

http://aimusic.oeg-upm.net/


Simulador social de control

de rumores


El simulador de rumores ofrece métodos para diseñar y validar estrategias de marketing viral en Twitter mediante simulación social basada en agentes. Incluye un innovador modo de difusión de rumores que se basa en el análisis exploratorio de datos de dos conjuntos de datos de rumores diferentes en Twitter. Además, se proponen nuevas estrategias para controlar los cotilleos maliciosos.


• Reducción del coste de las campañas publicitarias y gestión de redes sociales. • Incremento de la productividad de las campañas de marketing • Alineado con los Objetivos de desarrollo sostenible (ODS) y especialmente con el

16: Paz, Justicia, e Instituciones sólidas



http://dit.upm.es/~eserrano/BigMarket/ESWA2015/


ANEXO I: EQUIPOS DE INVESTIGACIÓN ASOCIADOS A CADA LÍNEA

• Ingeniería Ontológica: Asunción Gómez Pérez, Oscar Corcho, Raúl García-Castro, M.Carmen Suárez de Figueroa, María Poveda-Villalón, Edna Ruckhaus, Alba Fernández, Paola Espinoza

• Integración de datos y Grafos de conocimientos: Oscar Corcho, Raúl García Castro, Víctor Rodríguez Doncel, Elena Montiel, David Chaves, Miguel Ángel García, Ahmad Alobaid, Andrea Cimmino, Jhon Toledo

• Open Government / Open Science: Oscar Corcho, Francisco Yedro, Edna Ruckhaus, Esteban González

• Tecnologías del lenguaje (PLN): Elena Montiel, Víctor Rodríguez Doncel, Mariano Rico, Mª del Socorro Bernardos Galindo, Carlos Badenes, Pablo Calleja, María Navas, Patricia Martín Chozas

• Infraestructuras para la Ciencia de datos: Javier Bajo, Emilio Serrano, Elvira Amador

CATÁLOGO DE TECNOLOGÍAS Y RECURSOS · 1. Ingeniería Ontológica . OOPS! – OntOlogy Pitfall...

Documents

Transcript of CATÁLOGO DE TECNOLOGÍAS Y RECURSOS · 1. Ingeniería Ontológica . OOPS! – OntOlogy Pitfall...