Curs 1.6 Datos Enlazados

52
INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES Datos enlazados curso 1.6 Docente: Álvaro Sicilia @ alvarosiciliago

Transcript of Curs 1.6 Datos Enlazados

Page 1: Curs 1.6 Datos Enlazados

INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES

Datos enlazadoscurso 1.6

Docente:Álvaro Sicilia @alvarosiciliago

Page 2: Curs 1.6 Datos Enlazados

OBJECTIVO DE LA SESIÓN

● Al final de la sesión seréis capaces de:

● Definir que son los datos enlazados y la web semántica

● Identificar datos enlazados y saber navegar por ellos

● Describir recursos en la web (RDF)

● Identificar tecnologías para enlazar datos

Facultar a los participantes para enlazar datos abiertos y su uso

Datos enlazados

Page 3: Curs 1.6 Datos Enlazados

ÍNDICE

1. Introducción a los datos enlazados2. De datos abiertos a datos enlazados3. Uso de vocabularios y DCAT4. Enlazar datos abiertos5. Describir recursos en la web6. Como transformar datos abiertos a RDF7. Tecnologías utilizadas en la web semántica8. Consultar datos enlazados

Page 4: Curs 1.6 Datos Enlazados

¿Que son los datos enlazados?Preparad una definición de este concepto

Actividad colectiva

Tiempo: 2 minutos

Actividad

Page 5: Curs 1.6 Datos Enlazados

* http://www.w3c.es/Divulgacion/GuiasBreves/LinkedData** http://www.w3c.es/Divulgacion/GuiasBreves/WebSemantica

Los Datos Enlazados es la forma que tiene la Web Semántica de vincular los distintos datos que están distribuidos en la Web, de forma que se referencian de la misma forma que lo hacen los enlaces de las páginas web*

La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida**

INTRODUCCIÓN A LOS DATOS ENLAZADOS

Page 6: Curs 1.6 Datos Enlazados

INTRODUCCIÓN A LOS DATOS ENLAZADOS

Page 7: Curs 1.6 Datos Enlazados

INTRODUCCIÓN A LOS DATOS ENLAZADOS

Page 8: Curs 1.6 Datos Enlazados

IMDB Wikipedia

¿Lugar de nacimiento de Harrison Ford?

¿Número de habitantes de

Chicago?

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas sobre una fuente de datos?

ActoresCiudades

Page 9: Curs 1.6 Datos Enlazados

IMDB Wikipedia

¿Qué actores que han nacido en poblaciones de más de 2 millones de habitantes?

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas complejas sobre múltiples fuentes de datos?

ActoresCiudades

Page 10: Curs 1.6 Datos Enlazados

IMDB Wikipedia

Usar la Web como una única gran base de datos global Movernos de una Web de documentos a una Web de

Datos

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Preguntas complejas sobre múltiples fuentes de datos?

Page 11: Curs 1.6 Datos Enlazados

DE DATOS ABIERTOS A DATOS ENLAZADOS

1. Usar URIs como nombres de las cosas2. Usar HTTP URIs, para que cualquiera los pueda consultar3. Cuando alguien consulta una URI, proporcionar

información útil en lenguajes estándar (RDF, SPARQL) 4. Incluir enlaces a otras URIs

* http://www.w3.org/DesignIssues/LinkedData.html

Los Cuatro principios de la Web de datos enlazados (Tim Berners Lee, 2006)*

Page 12: Curs 1.6 Datos Enlazados

★ publicar los datos en la Web (en cualquier format) con una licencia abierta

★★ publicar los datos estructurados (ex: en Excel lugar de una imagen con datos)

★★★ publicar daots utilizando formatos no propietarios (ex:: CSV en lugar de Excel)

★★★★ utilitzar URIs para apuntar a cosas★★★★

★Enlazar datos con otros datos

DE DATOS ABIERTOS A DATOS ENLAZADOS

Las 5 estrellas de Tim Berners Lee

Page 13: Curs 1.6 Datos Enlazados

DE DATOS ABIERTOS A DATOS ENLAZADOS

Wikipedia

Page 14: Curs 1.6 Datos Enlazados

DE DATOS ABIERTOS A DATOS ENLAZADOS

Wikipedia

Page 15: Curs 1.6 Datos Enlazados

Navegar por portales de datos abiertos y enlazados listar los diferentes portales Actividad individual

Tiempo: 15 minutos

Actividad

Page 16: Curs 1.6 Datos Enlazados

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Cómo publicar datos enlazados?

1. Empezar por un plan

5. Mantenerl

o

2. Seleccion

ar los datos

4. Publicación3.

Creación de un

dataset

Proceso de los datos abiertos

Page 17: Curs 1.6 Datos Enlazados

DE DATOS ABIERTOS A DATOS ENLAZADOS

¿Cómo publicar datos enlazados?

Aplicar un formato abierto

Capturar los

metadatosAplicar una

licencia abiertaRevisar el dataset

Page 18: Curs 1.6 Datos Enlazados

Actividad¿Que es un vocabulario?Preparad una definición de este concepto

Actividad colectiva

Tiempo: 2 minutos

Page 19: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Qué es un vocabulario?

Los vocabularios definen los conceptos y relaciones utilizados para describir y representar un área de interés.

Definition taken from: http://www.w3.org/standards/semanticweb/ontology

Page 20: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Page 21: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 22: Curs 1.6 Datos Enlazados

Actividad¿Crear un vocabulario para el dataset de ejemplo?

Actividad en grupos

Tiempo: 5 minutos

Page 23: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Estado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 24: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

RAE:1. f. Conjunto de edificios y calles, regidos por un ayuntamiento, cuya población densa y numerosa se dedica por lo común a actividades no agrícolas.

RAE:5. m. País soberano, reconocido como tal en el orden internacional, asentado en un territorio determinado y dotado de órganos de gobierno propios..

Estado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 25: Curs 1.6 Datos Enlazados

Uso de vocabularios y DCAT

¿Dónde está el vocabulario?

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 26: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 27: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

Punto

Localización

- longitud- latitud- altitud

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 28: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

¿Dónde está el vocabulario?

• Un vocabulario puede representar muchos datasets

• Los vocabularios son utilizados para integrar o armonizar datos de diferentes fuentes (CSV, bases de datos, páginas web…)

Punto

Localización

- longitud- latitud- altitud

- fecha creación- fundación

City Creation date Establishment date Long Lat Alt State

Pertenece aEstado

Ciudad

Ciudad Fecha creación Fundación Long Lat Alt Estado

Page 29: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

Ventajas de utilizar vocabularios

Un vocabulario:

- Da contexto (para moverse de datos a información)

- Facilita reutilización de los datos- Reduce ambigüedad- Facilita la integración- Facilita el mantenimiento

Page 30: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)

DCAT es una especificación (vocabulario) para la descripción de catálogos de datos en la red. La especificación oficial ha sido elaborada por el W3C, basada en algunos proyectos anteriores.

DCAT-AP (Application Profile) es una especificación basada en DCAT para describir datasets del sector público en Europa.

Page 31: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)

https://www.w3.org/TR/vocab-dcat/

Page 32: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

Data Catalog Vocabulary (DCAT)Identificadores temáticos DCAT-AP Identificadores temáticos NTI-RISP

ciencia-tecnologia         Ciencia-tecnologia                

Agricultura, pesca, forestal y alimentación Medio-rural-pesca

Economía y finanzas       

EconomíaComercioHacienda       

Educación, cultura y deporte       

EducaciónCultura-ocioDeporte                    

Energía Energía   

Medio ambiente Medio-ambiente

Gobierno y sector público        Sector-publico

Salud        Salud        

Asuntos internacionales

Justicia, sistema legal y seguridad Legislacion-justiciaSeguridad       

Regiones y ciudades        Urbanismos-infraestructurasVivienda   

Población y sociedad DemografíaSociedad-bienestar            Empleo   

Transporte Transporte

IndustriaTurismo

Las temáticas de DCAT-AP han sido traducidas de su original en inglés. Esta equivalencia es realizada por Alberto Abella y no hay una guía oficial refrendándola

Page 33: Curs 1.6 Datos Enlazados

USO DE VOCABULARIOS Y DCAT

Vocabulary of Interlinked Datasets (VoiD)

http://richard.cyganiak.de/2011/gld/gld-dcat-and-void.pdf

Page 34: Curs 1.6 Datos Enlazados

ENLAZAR DATOS ABIERTOS

¿Cómo publicar datos enlazados?

Aplicar un formato abierto

Capturar los metadatos

Aplicar una licencia abierta

Revisar el dataset

Identificar enlaces con

otros datasets

Enlazar las instancias de los

diferentes datasets

Page 35: Curs 1.6 Datos Enlazados

ENLAZAR DATOS ABIERTOS

Enlazando datos abiertos

Procedimiento1. Identificar aquellos conceptos cuyos individuos

puedan ser enlazados dado su interés y potencial.

2. Identificar qué conjuntos de datos pueden contener instancias de los conceptos inidentificados previamente.

3. Seleccionar las herramientas mas adecuadas para llevar a cabo el enlazado (semi) automático.

4. Ejecutar estas herramientas sobre las fuentes de datos para obtener los correspondientes enlaces.

Page 36: Curs 1.6 Datos Enlazados

ENLAZAR DATOS ABIERTOS

Enlazando datos abiertos• Alineación por valores. Determinar cuando dos

valores de dos propiedades expresados de forma diferente son equivalentes

• Alineación por instancias. Determinar si dos instancias son equivalentes

• De acuerdo a las descripciones disponibles para dichas instancias

• Basado en agregación de técnicas de alineación de valores, transitividad de owl:sameAs, mapeos de ontologías, etc.

• Alineación por dataset. Utilizando un conjunto de potenciales mapeos de individuos entre dos datasets

Page 37: Curs 1.6 Datos Enlazados

Actividad¿Enlazar dos datasets de ejemplo?

Actividad en grupos

Tiempo: 15 minutos

Page 38: Curs 1.6 Datos Enlazados

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

Harrison Ford es un Actor

Harrison Ford mide 1,85

Harrison Ford nació en Chicago

Page 39: Curs 1.6 Datos Enlazados

ActividadEscribir triples para el dataset de ejemplo

Actividad en grupos

Tiempo: 15 minutos

Page 40: Curs 1.6 Datos Enlazados

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

http://es.dbpedia.org/ontology/Actor

https://www.w3.org/1999/02/22-rdf-syntax-ns#type

Page 41: Curs 1.6 Datos Enlazados

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

http://es.dbpedia.org/resource/Chicago

http://es.dbpedia.org/ontology/birthPlace

Page 42: Curs 1.6 Datos Enlazados

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

http://es.dbpedia.org/resource/Harrison_Ford

“1.85”

http://es.dbpedia.org/ontology/height

Page 43: Curs 1.6 Datos Enlazados

height

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

…/Harrison_Ford

“1.85”…/Chicago

…Actor

type

birthPlace

Page 44: Curs 1.6 Datos Enlazados

height

height

DESCRIBIR RECURSOS EN LA WEB

Describir la semántica de la información de manera procesable por máquinas

Resource Description Framework (RDF)

Tripletas: Sujeto – Predicado – Objecto

…/Harrison_Ford

“1.85”…/Chicago

…Actor

type …/RobinWilliams

“1.7”

type

birthPlace

Page 45: Curs 1.6 Datos Enlazados

COMO TRANSFORMAR DATOS ABIERTOS A RDF

dataset Rdf dump Triple store Consultas

Sparql

dataset SQL RDF wrapper

Consultas Sparql

• Rápido• No actualizado• Materializado

• No es rápido• Actualizado• Bases de datos relacionales

Mapeos R2RML

Page 46: Curs 1.6 Datos Enlazados

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://wifo5-03.informatik.uni-mannheim.de/pubby/

Page 47: Curs 1.6 Datos Enlazados

COMO TRANSFORMAR DATOS ABIERTOS A RDF

http://silkframework.org/

Page 48: Curs 1.6 Datos Enlazados

TECNOLOGÍAS UTILIZADAS EN LA WEB SEMÁNTICA

Triple stores:- Virtuoso Universal Server virtuoso.openlinksw.com- RDF4J www.rdf4j.org

Publicar datos- Pubby wifo5-03.informatik.uni-mannheim.de/

pubby- Elda github.com/epimorphics/elda

Enlazar datos- Silk silkframework.org- Limes aksw.org/Projects/LIMES.html

W3C listado de recursos:www.w3.org/wiki/TaskForces/CommunityProjects/LinkingOpenData/SemWebClients

Page 49: Curs 1.6 Datos Enlazados

CONSULTAR DATOS ENLAZADOS

Breve introducción a SPARQL

SELECT Distinct ?Concepto

WHERE { ?x a ?Concepto.}

http://es.dbpedia.org/sparql

SELECT Distinct ?x

WHERE { ?x a <http://schema.org/Airport>.}

Page 50: Curs 1.6 Datos Enlazados

ActividadConsulta datos enlazados

Actividad individual

Tiempo: 10 minutos

Page 51: Curs 1.6 Datos Enlazados

OBJECTIVO DE LA SESIÓN

● Ara sois capaces de:

● Definir que son los datos enlazados y la web semántica

● Identificar datos enlazados y saber navegar por ellos

● Describir recursos en la web (RDF)

● Identificar tecnologías para enlazar datos

Facultar a los participantes para enlazar datos abiertos y su uso

Datos enlazados

Page 52: Curs 1.6 Datos Enlazados

Tiempo para preguntas