Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

Post on 24-Jun-2015

226 views 1 download

description

Presentación realizada para la 9a Jornada de Usuarios Ex-Libris, Universidad Gabriela Mistral, 1 de octubre de 2014

Transcript of Charla 9a Jornada de Usuarios Ex-Libris, 30 de septiembre de 2014

De documentos a datos

9ª jornada de usuarios Ex-Libris 201430 de septiembre de 2014

Christian Sifaqui

Introducción

Algunos conceptos

Introducción

WebRepleta de información

Orientada al ser humano:para comprender el contenido de una páginapara relacionar contenidos dentro de una página (textos, imágenes, videos, etc.)

Introducción

Originalmente la webfue creada paracompartir“documentos”

Introducción

Estándares:Documento “Bolsa” de palabrasLinks entre documentosPalabras y enlaces como el centro del universoLenguajes y protocolos:

HTML y HTTP

Introducción

Lo que “entiende” Lo que “entiende”un programa un ser humano

Introducción

WebBuscadores actuales funcionan bien, pero orientados al keywordAnálisis de palabras y textosAnálisis de los enlaces

¿y la semántica?Ejemplo: “diputados o senadores cuyos

hermanos hayan sido jueces”

Introducción

Soluciones• ad hoc: usar métodos de IA para analizar

la información no estructurada existente en la Web

• a priori: estructurar la información en la Web para facilitar el análisis automático Web Semántica

Introducción

Estándares

Introducción

Estándares

Grafos

Árboles

Introducción

Tablas Árboles Grafos--------------------- ------------- -------------BD relacional XML RDF

SQL XQUERY SPARQL

Introducción

Datos abiertos (open data)

es un idea que impulsa la publicación de datos de forma libre y asequible a cualquier persona, para que sean usados y republicados sin restricciones de ningún tipo

Introducción

Datos enlazados (linked data):

es usar la web para conectar datos que no estaban relacionados previamente. Usa algunas de las mejores prácticas de la Web Semántica

Introducción

Modelo web clásica

Use HTTPUse URIUse HTMLNavegue y siga links

Buscador: proveedor lo hace por usted

Introducción

Modelo datos abiertos

Publique datos en formatos estándares para que sean asequibles

Indique licencias

Y nada más

Introducción

Modelo datos enlazados

Use URIs para expresar “cosas”Use HTTP URIs para que estas “cosas” puedan

ser referenciadas por personas y programasProporcione información útil acerca de la “cosa”

(cuando se acceda a la URI) usando estándares como RDF o SPARQL

Incluya enlaces a otras “cosas” (usando sus URIs)

Introducción

★ coloque sus cosas en la web en cualquier formato bajo una licencia abierta

★★ coloque sus cosas como datos estructurados, por ejemplo, Excel en vez de una imagen escaneada

★★★ utilice formatos no propietarios, por ejemplo, CSV en vez de Excel

★★★★ use URIs para expresar cosas, de tal manera que las personas puedan referirse a sus cosas

★★★★★ enlace sus datos a otros datos para proveer contexto

Esquema de las 5 estrellas

Ejemplos

Buenos ejemplos:

http://datos.gob.cl (septiembre 2011)http://datos.bcn.cl (mayo 2011)http://data.worldbank.org/ (abril 2010)http://data.gov.uk/ (enero 2010)http://www.data.gov/ (mayo 2009)

Ejemplos

Mal ejemplo:

http://opendata.congreso.cl/ (julio 2014)

Ejemplos

Mal ejemplo:

http://opendata.congreso.cl/ (julio 2014)

No hay licencia explícitaNo hay manualesUsa diversas variedades de tecnologías (algunas

ya arcaicas)No hay posibilidad de contactoEstamos en Chile… ¿porqué “opendata”?

Algunos detalles

Pero la web originalmente fue concebida para documentos…

¿cómo llegar a una web de datos?

Algunos detalles

Algunos caminos:Agregar metadatos a los documentos, y que

estos metadatos estén en el modelo de datos enlazados, o

Crear sitios especiales con datos descriptivos acorde al modelo de datos enlazados, o

Crear documentos con marcas semánticas y que estas marcas estén acorde al modelo de datos enlazados, u

Otra manera

Algunos detalles

Lo que se quiere es que el significado de la información pueda ser procesada algorítmicamente

Ejemplo:El <Río>Mapocho</Río> es el principal curso de

agua de <Ciudad>Santiago</Ciudad>.

Algunos detalles

Una forma de lograr lo anterior es mediante la “representación del conocimiento”

Algunos detalles

Lógica: proporciona la estructura formal para formular reglas, permitiendo que los algoritmos puedan obtener inferencias

Ontología: define los objetos, que existen en un dominio particular

Computabilidad: es una propiedad de una base de conocimientos, que permite que sea efectiva/real

Algunos detalles

Ontologías: son representaciones, de un conjunto de conceptos y las relaciones entre ellos en un dominio determinado, lingüísticamente precisas y estructuradas formalmente

Algunos detalles

Las ontologías se utilizan como medio de estructuración de la información y para el intercambio de datos

StringStringArtista

Obra

EsculturaEscultor

Pintor Cuadro

Técnica

Museo

Cubista Flamenca

StringString

StringString

StringString

StringString

nombre

nombre

nombre

utilizapintado_por

pinta

talla

tallado_por

producida_por

produce

expuesta_ennombre

apellido

Algunos detalles

Conceptos, clasesTiposInstanciasRelacionesHerenciaAxiomas

PabloPabloGarçon à la pipeGarçon à la pipe

PicassoPicasso utiliza

talla

pintanombre

apellido

Óleo sobre lienzoÓleo sobre lienzonombre

TizianoTiziano

VecelliVecelli

nombre

apellidopinta

Fuga in EgittoFuga in Egittonombre

Miguel ÁngelMiguel Ángel

Buonarroti Buonarroti

nombre

apellido

Museo del HermitageMuseo del Hermitage

Joven en cuclillasJoven en cuclillas

nombre

expuesta_en

expuesta_en

nombre

Pintor:I1

nombre

Cuadro:I2

Pintor:I4

Escultor:I7

Técnica:I3

Cuadro:I5

Museo:I6

Escultura:I8

utiliza

Algunos detalles

Lenguajes para ontologías:RDF-Schema (extiende RDF con un vocabulario

de esquema y permite inferencias)OWL (añade mayor expresividad)DAML+OILTopic MapsF-LogicWSMLKIF…

Algunos detalles

RDFResource Description Framework (1998)

Descripción de recursosRecurso = identificado por una URISe basa en tripletas

Sujeto Predicado Objeto

Algunos detalles

Tripletas RDF

Sujeto•URI•Nodo anónimo

Sujeto•URI•Nodo anónimo

Predicado•URIPredicado•URI

Objeto•URI•Literal•Nodo anónimo

Objeto•URI•Literal•Nodo anónimo

Un colegioUn colegio Tiene como nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

Tiene como nombre/etiquetaTiene como nombre/etiqueta

“Cardiff High School”“Cardiff High School”

Algunos detalles

Tripletas RDFUn colegioUn colegio Tiene como

nombre/etiquetaTiene como nombre/etiqueta

Un literalUn literal

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

Tiene como nombre/etiquetaTiene como nombre/etiqueta

“Cardiff High School”“Cardiff High School”

http://education.data.gov.uk/id/school/401874

http://education.data.gov.uk/id/school/401874

http://www.w3.org/2000/01/rdf-schema#label

http://www.w3.org/2000/01/rdf-schema#label

“Cardiff High School”“Cardiff High School”

Ejemplo

LeyChile, liberado en 2008

Idea: añadirle datos abiertos enlazados (linked open data)

- http://dl.acm.org/citation.cfm?id=2063529- h

ttp://conference.ifla.org/conference/past/ifla78/214-sifaqui-en.pdf

Ejemplo

Paso 1:Use URIs para expresar “cosas”¿Cómo definir estas URIs?

Ley 20000 podría ser: http://datos.bcn.cl/recurso/cl/ley/20000¿Decretos?

Se requiere: número, fecha y organismoDecreto 341 del 11 de noviembre de 2008 del Ministerio de Educación

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341

Ejemplo

Pero las normas tienen modificaciones, por lo que la norma podría verse como una fuente bibliográfica y así sería posible de aplicar FRBR para obtener el recurso, o una versión actualizada o una manifestación específica en algún formato especial

Ejemplo

Paso 3:Recurso

http://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341

Versión originalhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2008-11-07

Última versiónhttp://datos.bcn.cl/recurso/cl/dto/ministerio-de-educacion/2008-11-07/341/es@2010-07-20

Ejemplo

Ontología

Ejemplo

Paso 4:Relaciones a otros datasets: países

(tratados internacionales)DBPedia, Geonames

Reutilizar vocabularios/ontologíasSKOS, DC, FOAF, DBPedia, ORG

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX n: <http://datos.bcn.cl/ontologies/bcn-norms#> SELECT distinct str(?normTitle) as ?Titulo str(?creatorName) as ?Municipio ?pubDate as ?Fecha_Publicacion ?pubDateOther as ?Fecha_modificacionWHERE { ?norm n:createdBy ?creator . ?creator n:hasName ?creatorName . ?norm dc:title ?normTitle . ?norm n:publishDate ?pubDate . ?norm n:isModifiedBy ?otherNorm . ?otherNorm n:publishDate ?pubDateOther . FILTER (regex(?creatorName,"MUNICIPALIDAD","i")) FILTER (?pubDate > xsd:date("1995") && ?pubDate < xsd:date("2000") && ?pubDateOther > xsd:date("2005"))}ORDER BY (?pubDate)

Ejemplo

Consulta compleja usando SPARQLEncontrar todas las normas emitidas por una municipalidad entre

los años 1995 y 2000, pero que fueron modificadas después del año 2005

Ejemplo

Visualizaciones

Ejemplo

Visualizaciones

Ejemplo (si hay tiempo)

Reseñas biográficas

Ejemplo (si hay tiempo)

Reseñas biográficas

Ejemplo (si hay tiempo)

http://datos.bcn.cl/recurso/persona/2376

Ejemplo (si hay tiempo)

Visualizaciones

Ejemplo (si hay tiempo)

Visualizaciones

Bibliotecas

Kungliga bibliotekethttps://github.com/libris/librisxl/http://librisbloggen.kb.se/ https://twitter.com/librisnytthttp://devkat.libris.kb.se/ usuario test password test

Library of CongressBritish LibraryBibliothèque nationale de FranceDeutsche NationalbibliothekBiblioteca Nacional de EspañaBIBFRAME http://www.loc.gov/bibframe/

Bibliotecas

Library data cannot be used in a Linked Data environment without having Uniform Resource Identifiers (URIs) both for specific resources and for library-standard concepts. The official owners of resource data and standards should assign URIs as soon as possible, since application developers and other users of such data will not delay their activities, but are more likely to assign URIs themselves, outside of the owning institution. When owners are not able to assign URIs in good time, they should seek partners for this work or delegate the assignment and maintenance of URIs to others in order to avoid the proliferation of URIs for the same thing and to encourage the re-use of URIs already assigned.

Agencies responsible for the creation of catalog records and other metadata, such as national bibliographies, are the logical organizations to take a leading role in creating URIs for their described resources.

Bibliotecas

Bibliotecas ofrecen/ofrecerán su acervo en datos abiertos enlazados desde el punto de vista bibliográfico

Bibliotecas

Oferta de acervo desde el punto de vista literario

Sarah Bartlett, 2010Sarah Bartlett, 2010

Bibliotecas

Pablo Neruda

http://datos.bcn.cl/recurso/persona/2559http://id.worldcat.org/fast/34660http://dbpedia.org/page/Pablo_Nerudahttps://www.freebase.com/m/066c_http://viaf.org/viaf/95126958/http://d-nb.info/gnd/118587005http://www.idref.fr/027337960

Finalmente

Dos mundos• Mundo de documentos para el ser

humano• Mundo de datos para las máquinas

¿Futuro?

Documentos• OCR• aplicación de algoritmos Named-entity

Recognition• enlaces a ontologías

• Ejemplos:• proyecto Historia de la Ley y Labor Parlamentaria• proyecto sentencias Corte Suprema

Referencias

http://users.dcc.uchile.cl/~cgutierr/sw/

http://manzanamecanica.org/2014/07/open_data_en_el_congreso_chileno_lo_bueno_lo_malo_y_lo_feo.html

http://de.wikipedia.org/wiki/Ontologie_(Informatik)

http://www.slideshare.net/der42

http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/