Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de...

29
Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid http://www.oeg-upm.net [email protected] [email protected] Acknowledgements: M. Hernández Agustí, M. Jiménez Piano, A. Manchado, R. Santos, E. Escolano, B. Villazón, E. Montiel-Ponsoda II Jornada sobre la Reutilización de la Información del Sector Público Madrid, España 15 de Febrero de 2012

Transcript of Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de...

Page 1: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Datos Enlazados en la BNE:datos.bne.es

Daniel Vila Suero

Asunción Gómez-PérezFacultad de Informática, Universidad Politécnica de Madrid

Campus de Montegancedo sn, 28660 Boadilla del Monte, Madrid

http://www.oeg-upm.net

[email protected]

[email protected]

Acknowledgements: M. Hernández Agustí, M. Jiménez Piano, A. Manchado, R. Santos, E. Escolano, B. Villazón, E. Montiel-Ponsoda

II Jornada sobre la Reutilización de la Información del Sector PúblicoMadrid, España

15 de Febrero de 2012

Page 2: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Indice

1. Los datos enlazados de forma intuitiva

2. Los fundamentos

3. El proceso

4. Marimba

5. Conclusiones

2

Page 3: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

¿Quién ha traducido “El Quijote” a otros idiomas?

• Múltiples fuentes de datos multilingües• La información local puede estar incompleta• La información remota no es accesible de manera

sencilla

Page 4: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Datos de las diferentes bibliotecas expuestos vía Web

5

BD de la BNE

BD de la BNE

BD VIAFBD VIAF

BD DNBBD DNB

¿Cuántos obras escritas por Miguel de Cervantes Saavedra están registradas en La BNE y en la DNB?

http://www.bne.es/

http://www.viaf.org/

http://d-nb.info

Page 5: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

M. Cervantes

Don Quixote

Hebrew

creator

Translatedinto

1960

Year of publication

VIAF

located

Integración de datos

6

M. Cervantes

El Quijote

Hebreo

Autor

Traducido en

1950

Año de Publicación

BNE

Ubicado en

M. Cervantes Don Quijote

Deutsch

Autor

Übersetzung

2011P-Jahr

Deutsche National Bibliothek

Bibliothek

M. Cervantes

El Quijote

Autor1605

Año de Publicación

BNE

Ubicado en

BD BNEBD BNE BD VIAFBD VIAFBD DNBBD DNB

Page 6: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

¿Qué necesitamos para responder a esa pregunta?

Page 7: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Indice

1. Los datos enlazados de forma intuitiva

2. Los fundamentos

3. El proceso

4. Marimba

5. Conclusiones

8

Page 8: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Utilidad de los datos enlazados

• Combinar datos• de fuentes

heterogéneas• en diferentes formatos • con diferente nivel de

detalle• en diferentes idiomas• de diferentes países

• Facilitar la integración de datos

© Slide adapted from “5min Introduction to Linked Data”- Olaf Hartig

Page 9: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Linked Open Data

10

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

2011 BNE

Page 10: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Los fundamentosIdentificadores Unicos: URI identifican un nombre o un recurso en internet.

Modelos en RDF(S)

Cer El QuijoteCervantesEs autor

Cer ObraPersonaEs autor

Es una Es una

http://datos.bne.es/resource/XX1718747 http://datos.bne.es/resource/XX3383563

http://iflastandards.info/ns/fr/frbr/frbrer/C1005 http://iflastandards.info/ns/fr/frbr/frbrer/C1001

Enlazar con otros datosSame As

http://viaf.org/viaf/17220427

Cervantes

Same AsSame As

http://dbpedia.org/resource/Miguel_de_Cervantes

Cervantes

Navegación a través de los datos

Page 11: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

El modelo (Ontología) y los datos

12

Obra

Lengua

Traducción

Año

Fecha de Publicación

Biblioteca

Ubicado en

Persona

Es autor

Tiene como materia

El Quijote Cervantes

Es autor

Catalán

Traducción

1960

Fecha de Publicación

BNE

Ubicado en

Tiene como materia

Vida de Cervantes

Ontología

Datos

Page 12: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

El modelo (Ontología) y los datos

13

http://iflastandards.info/ns/fr/frbr/frbrer/C1001

http://iflastandards.info/ns/fr/frbr/frbrer/C1002

Traducción

Año

Fecha de Publicación

http://xmlns.com/foaf/0.1/Organization

Ubicado en

http://iflastandards.info/ns/fr/frbr/frbrer/C1005Es autor

Tiene como materia

http://datos.bne.es/resource/XX3383563 http://datos.bne.es/resource/XX1718747

Es autor

http://datos.bne.es/resource/XX1924295

Traducción

1960

Fecha de Publicación

BNE

Ubicado en

Tiene como materia

http://datos.bne.es/resource/bimo0002045496

Vida de Miguel de Cervantes Saavedra

Don Quijote de la ManchaCervantes Saavedra, Miguel de

Catalán

Ontología

Datos

http://datos.bne.es/#

Lengua

Obra

Biblioteca

Persona

Page 13: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Indice

1. Los datos enlazados de forma intuitiva

2. Los fundamentos

3. El proceso de transformación

4. Marimba

5. Conclusiones

14

Page 14: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Especificación

EspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

• Registros en formato MARC 21• 3.9 millones registros bibliográficos• 4.2 millones registros autoridad• Versión: Noviembre 2011

Page 15: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Ontología basada en vocabularios de IFLA

EspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

Page 16: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba utiliza la ontología para generar RDF

BNEEspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

Page 17: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba enlaza con otros recursos:VIAF, DNB, SUDOC, LIBRIS, DBpedia

BNE

http://datos.bne.es/resource/XX1718747

Same As

Same As

Same As

Same As

Same As

LIBRIS

http://libris.kb.se/resource/auth/45369

SUDOC

http://www.idref.fr/026774771/id

DNB

http://d-nb.info/gnd/11851993X

DBpedia

http://dbpedia.org/resource/Miguel_de_Cervantes

VIAF

http://viaf.org/viaf/17220427

EspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

Page 18: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

EspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

Marimba enlaza con otros recursos:VIAF, DNB, SUDOC, LIBRIS, DBpedia

Page 19: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Publicación

Publicación de los datos

Publicar los metadatos sobre el dataset con VOID

Para facilitar el descubrimiento del dataset

• Registrar el conjunto de datos en DataHub

• Generar el sitemap usando sitemap4rdf

• Cargar el sitemap en Google y Sindice

EspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

Page 20: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Explotación de los datos

select distinct COUNT(?Obras) where {

http://datos.bne.es/resource/XX1718747

<http://iflastandards.info/ns/fr/frbr/frbrer/P2010> ?Obras}

URI Cervantes

Is author

Consultas SPARQL:

http://datos.bne.es/sparql

Interfaz web

http://linkeddata3.dia.fi.upm.es/bne-demo

EspecficaciónEspecficación

ModeladoModelado

GeneraciónRDF

GeneraciónRDF

PublicaciónPublicación

Generaciónde enlacesGeneraciónde enlaces

ExplotaciónExplotación

Page 21: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Funcionalidades de Marimba

• Objetivo: Transformar registros MARC a RDF• Funcionalidades principales:

• Generación de RDF: A través de plantillas de mappings• Generación de enlaces owl:sameAs con otros datasets (A partir de VIAF)

• Valor añadido:

• Ayuda a mejorar y limpiar los datos de origen (registros MARC 21), gracias a la información contenida en las plantillas de mappings

23

Page 22: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN

ANOTACIÓN

RELACIÓN

MAPPING A

MAPPING B

MAPPING C

Mapping Identificación de Entidades:

Dada una etiqueta de campos y una combinación de subcampos, se determina a qué entidad FRBR se relaciona.Por ejemplo:

100 $a $d Persona (FRBR Grupo 2)

100 $a $t Obra (FRBR Grupo 1)

Page 23: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN

ANOTACIÓN

RELACIÓN

MAPPING A

MAPPING B

MAPPING C

Mapping Anotación de Entidades:

Dada una etiqueta de campos y de subcampo, se determina qué propiedad o atributo de la entidad se anota:Por ejemplo:

100 $d Fecha asociada a persona

100 $t Titulo de la obra

Page 24: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba: Proceso de transformación a RDF y mappings

IDENTIFICACIÓN

ANOTACIÓN

RELACIÓN

MAPPING A

MAPPING B

MAPPING C

Mapping Relación entre Entidades:

Dados dos tipos de entidades E1 y E2 (e.g. Persona y Obra), y dado un identificador de subcampo que representa la variación de subcampos entre E1 y E2 en su punto de acceso principal y sabiendo que el valor del punto de acceso de E1 está contenido en E2, se determina que tipo de relación existe entre E1 y E2.Por ejemplo:

Persona-Obra $t Persona es creadora de Obra

Obra-Obra $n Obra es parte de Obra

Page 25: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba: “Mejoras en los datos de origen”

• Durante las sucesivas iteraciones para generar RDF, se han producido mejoras en los registros de origen. Algunos ejemplos son:

• Se han identificado combinaciones de subcampos NO válidas de acuerdo al estándar MARC 21:

• Ejemplo: 100 $a $d $1

• Se han identificado errores en la codificación de ciertas cadenas de caracteres:

• Ejemplo: BiografÃas.

• Se han identificado errores en algunos campos de control:

• Ejemplo: Se ha hallado un indicador en el campo 001, que no de acuerdo al estándar no presenta indicadores.

27

Page 26: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Marimba: Descubriendo enlaces con otros datasets

• Marimba utiliza VIAF como fuente para generar enlaces de equivalencia (owl:sameAs) a otros conjuntos de datos bibliográficos.

• Para ello, utilizando un fichero que contiene las correspondencias entre VIAF y las bibliotecas que participan en VIAF:

1) Localiza los Ids de la BNE y almacena su correspondiente en VIAF.

2) A partir de los IDs correspondientes en VIAF, genera enlaces a otras bibliotecas que también tienen una correspondencia con dichos IDs.

28

Page 27: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

• Modelado:• Open Metadata Registry• Neon Toolkit

• Mapeado y generación:• MARiMbA: Orientado a bibliotecarios, soporta y facilita

todo el proceso de transformación de MARC21 a RDF

• Publicación:• Virtuoso Universal Server• Pubby• CKAN registry• Sitemap4rdf

• Explotación:• Aplicaciones Web que visualicen los datos usando SPARQL

Soporte tecnológico

Page 28: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Otras Iniciativas de datos enlazados de bibliotecas

• Biblioteca Nacional Francesa• Biblioteca del Congreso de EEUU• Biblioteca Nacional Alemana• Biblioteca Británica• España:

• Lista de Encabezamientos de Materia para Bibliotecas Públicas del Ministerio de Cultura

• En SKOS• Enlazados con RAMEAU y materias del LOC

• Biblioteca Virtual de la Escuela de Salamanca • Casos de uso en el W3C:

• Biblioteca Virtual de Polígrafos• Ontología del Patrimonio Cultural de Cantabria

30

Page 29: Datos Enlazados en la BNE: datos.bne.es Daniel Vila Suero Asunción Gómez-Pérez Facultad de Informática, Universidad Politécnica de Madrid Campus de Montegancedo.

Resultados datos.bne.es

• Número total de registros de autoridad: 4.100.000• Número total de registros bibliográficos: 2.390.140• Número total de tripletas RDF: 58.053.215 • Número de enlaces (15% autoridades): 587.520 • Fuentes enlazadas:

• VIAF• SUDOC (Sistema Universitario de Documentación) FR• GND (Autoridades Biblioteca Nacional Alemana) GER• LIBRIS Suecia• DBPedia

31