Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

61
De documentos a datos 9ª jornada de usuarios Ex-Libris 2014 30 de septiembre de 2014 Christian Sifaqui

description

Presentación realizada para la 9a Jornada de Usuarios Ex-Libris, Universidad Gabriela Mistral, 1 de octubre de 2014

Transcript of Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Page 1: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

De documentos a datos

9ª jornada de usuarios Ex-Libris 201430 de septiembre de 2014

Christian Sifaqui

Page 2: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Algunos conceptos

Page 3: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

WebRepleta de información

Orientada al ser humano:para comprender el contenido de una páginapara relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)

Page 4: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Originalmente la webfue creada paracompartir“documentos”

Page 5: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Estándares:Documento “Bolsa” de palabrasLinks entre documentosPalabras y enlaces como el centro del universoLenguajes y protocolos:

HTML y HTTP

Page 6: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Lo que “entiende” Lo que “entiende”un programa un ser humano

Page 7: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

WebBuscadores actuales funcionan bien, pero orientados al keywordAnálisis de palabras y textosAnálisis de los enlaces

¿y la semántica?Ejemplo: “diputados o senadores cuyos

hermanos hayan sido jueces”

Page 8: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Soluciones• ad hoc: usar métodos de IA para analizar

la información no estructurada existente en la Web

• a priori: estructurar la información en la Web para facilitar el análisis automático Web Semántica

Page 9: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Estándares

Page 10: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Estándares

Grafos

Árboles

Page 11: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Tablas Árboles Grafos--------------------- ------------- -------------BD relacional XML RDF

SQL XQUERY SPARQL

Page 12: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Datos abiertos (open data)

es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo

Page 13: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Datos enlazados (linked data):

es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica

Page 14: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Modelo web clásica

Use HTTPUse URIUse HTMLNavegue y siga links

Buscador: proveedor lo hace por usted

Page 15: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Modelo datos abiertos

Publique datos en formatos estándares para que sean asequibles

Indique licencias

Y nada más

Page 16: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

Modelo datos enlazados

Use URIs para expresar “cosas”Use HTTP URIs para que estas “cosas” puedan

ser referenciadas por personas y programasProporcione información útil acerca de la “cosa”

(cuando se acceda a la URI) usando estándares como RDF o SPARQL

Incluya enlaces a otras “cosas” (usando sus URIs)

Page 17: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Introducción

★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta

★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada

★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel

★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas

★★★★★ enlace sus datos a otros datos para proveer contexto

Esquema de las 5 estrellas

Page 18: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplos

Buenos ejemplos:

http://datos.gob.cl (septiembre 2011)http://datos.bcn.cl (mayo 2011)http://data.worldbank.org/ (abril 2010)http://data.gov.uk/ (enero 2010)http://www.data.gov/ (mayo 2009)

Page 19: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplos

Mal ejemplo:

http://opendata.congreso.cl/ (julio 2014)

Page 20: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplos

Mal ejemplo:

http://opendata.congreso.cl/ (julio 2014)

No hay licencia explícitaNo hay manualesUsa diversas variedades de tecnologías (algunas

ya arcaicas)No hay posibilidad de contactoEstamos en Chile… ¿porqué “opendata”?

Page 21: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Page 22: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Pero la web originalmente fue concebida para documentos…

¿cómo llegar a una web de datos?

Page 23: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Algunos caminos:Agregar metadatos a los documentos, y que

estos metadatos estén en el modelo de datos enlazados, o

Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o

Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u

Otra manera

Page 24: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente

Ejemplo:El <Río>Mapocho</Río> es el principal curso de

agua de <Ciudad>Santiago</Ciudad>.

Page 25: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Una forma de lograr lo anterior es mediante la “representación del conocimiento”

Page 26: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias

Ontología: define los objetos, que existen en un dominio particular

Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real

Page 27: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente

Page 28: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos

Page 29: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

StringStringArtista

Obra

EsculturaEscultor

Pintor Cuadro

Técnica

Museo

Cubista Flamenca

StringString

StringString

StringString

StringString

nombre

nombre

nombre

utilizapintado_por

pinta

talla

tallado_por

producida_por

produce

expuesta_ennombre

apellido

Page 30: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Conceptos, clasesTiposInstanciasRelacionesHerenciaAxiomas

Page 31: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

PabloPabloGarçon à la pipeGarçon à la pipe

PicassoPicasso utiliza

talla

pintanombre

apellido

Óleo sobre lienzoÓleo sobre lienzonombre

TizianoTiziano

VecelliVecelli

nombre

apellidopinta

Fuga in EgittoFuga in Egittonombre

Miguel ÁngelMiguel Ángel

Buonarroti Buonarroti

nombre

apellido

Museo del HermitageMuseo del Hermitage

Joven en cuclillasJoven en cuclillas

nombre

expuesta_en

expuesta_en

nombre

Pintor:I1

nombre

Cuadro:I2

Pintor:I4

Escultor:I7

Técnica:I3

Cuadro:I5

Museo:I6

Escultura:I8

utiliza

Page 32: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Lenguajes para ontologías:RDF-Schema (extiende RDF con un vocabulario

de esquema y permite inferencias)OWL (añade mayor expresividad)DAML+OILTopic MapsF-LogicWSMLKIF…

Page 33: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

RDFResource Description Framework (1998)

Descripción de recursosRecurso = identificado por una URISe basa en tripletas

Sujeto Predicado Objeto

Page 34: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Tripletas RDF

Sujeto•URI•Nodo anónimo

Sujeto•URI•Nodo anónimo

Predicado•URIPredicado•URI

Objeto•URI•Literal•Nodo anónimo

Objeto•URI•Literal•Nodo anónimo

Un colegioUn colegio Tiene como nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

Page 35: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

Page 36: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

Tiene como nombre/etiquetaTiene como nombre/etiqueta

“Cardiff High School”“Cardiff High School”

Page 37: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

Tiene como nombre/etiquetaTiene como nombre/etiqueta

“Cardiff High School”“Cardiff High School”

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

http://www.w3.org/2000/01/rdf-schema#label

http://www.w3.org/2000/01/rdf-schema#label

“Cardiff High School”“Cardiff High School”

Page 38: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Page 39: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

LeyChile, liberado en 2008

Idea: añadirle datos abiertos enlazados (linked open data)

- http://dl.acm.org/citation.cfm?id=2063529- h

ttp://conference.ifla.org/conference/past/ifla78/214-sifaqui-en.pdf

Page 40: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Paso 1:Use URIs para expresar “cosas”¿Cómo definir estas URIs?

Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000¿Decretos?

Se requiere: número, fecha y organismoDecreto 341 del 11 de noviembre de 2008 del Ministerio de Educación

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341

Page 41: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial

Page 42: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Paso 3:Recurso

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341

Versión originalhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07

Última versiónhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20

Page 43: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Ontología

Page 44: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Paso 4:Relaciones a otros datasets: países

(tratados internacionales)DBPedia, Geonames

Reutilizar vocabularios/ontologíasSKOS, DC, FOAF, DBPedia, ORG

Page 45: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

Ejemplo

Consulta compleja usando SPARQLEncontrar todas las normas emitidas por una municipalidad entre

los años 1995 y 2000, pero que fueron modificadas después del año 2005

Page 46: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Visualizaciones

Page 47: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo

Visualizaciones

Page 48: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo (si hay tiempo)

Reseñas biográficas

Page 49: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo (si hay tiempo)

Reseñas biográficas

Page 50: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo (si hay tiempo)

http://datos.bcn.cl/recurso/persona/2376

Page 51: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo (si hay tiempo)

Visualizaciones

Page 52: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Ejemplo (si hay tiempo)

Visualizaciones

Page 53: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014
Page 54: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Bibliotecas

Kungliga bibliotekethttps://github.com/libris/librisxl/http://librisbloggen.kb.se/ https://twitter.com/librisnytthttp://devkat.libris.kb.se/ usuario test password test

Library of CongressBritish LibraryBibliothèque nationale de FranceDeutsche NationalbibliothekBiblioteca Nacional de EspañaBIBFRAME http://www.loc.gov/bibframe/

Page 55: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Bibliotecas

Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned.

Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.

Page 56: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Bibliotecas

Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico

Page 57: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Bibliotecas

Oferta de acervo desde el punto de vista literario

Sarah Bartlett, 2010Sarah Bartlett, 2010

Page 58: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Bibliotecas

Pablo Neruda

http://datos.bcn.cl/recurso/persona/2559http://id.worldcat.org/fast/34660http://dbpedia.org/page/Pablo_Nerudahttps://www.freebase.com/m/066c_http://viaf.org/viaf/95126958/http://d-nb.info/gnd/118587005http://www.idref.fr/027337960

Page 59: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Finalmente

Dos mundos• Mundo de documentos para el ser

humano• Mundo de datos para las máquinas

Page 60: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

¿Futuro?

Documentos• OCR• aplicación de algoritmos Named-entity

Recognition• enlaces a ontologías

• Ejemplos:• proyecto Historia de la Ley y Labor Parlamentaria• proyecto sentencias Corte Suprema

Page 61: Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Referencias

http://users.dcc.uchile.cl/~cgutierr/sw/

http://manzanamecanica.org/2014/07/open_data_en_el_congreso_chileno_lo_bueno_lo_malo_y_lo_feo.html

http://de.wikipedia.org/wiki/Ontologie_(Informatik)

http://www.slideshare.net/der42

http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/