Desafíos en Accesibilidad a la Información
Loreto BravoUniversidad de Concepción
Bases de Datos II, 2012 2
Asimetrías de Información
El consejo de innovación de Chile ha destacado:Es necesario pasar de una economía basada en recursos naturales a una basada en conocimiento e innovaciónUn obstáculo para conseguirlo son las fallas de información. En particular:
Asimetrías de información: problema encontrado en una transacción donde una parte tiene más o mejor información que otros.
Sugieren como solución:generación de la informaciónpublicación de la información
Bases de Datos II, 2012 3
Qué se ha hecho?Ley sobre documentos electrónicos, firma electrónica y servicios de certificación de dicha firma (N°19.799, 2002)
Ley de Transparencia (2009)Reparticiones de gobierno deben publicar sus datos en la Web
Bases de Datos II, 2012 4
Datos Públicos en ChileBiblioteca del Congreso NacionalCongreso NacionalSenado de ChileCámara de DiputadosGobierno de ChileDiario Legislativo OficialINEServicio de AduanasDirección del trabajoBanco CentralMinisterio de Hacienda CORFOMunicipalidadesSuperintendencia de Valores y Seguros
SERNACMinisterio de EducaciónMinisterio de SaludCONICYTSuperintendencia de SaludFONASAISAPRESSubtelServicio ElectoralCONAFSERNATURInstituto Geográfico MilitarTransantiago
Y muchos más!
Bases de Datos II, 2012 5
Datos Públicos en ChileHay un creciente volumen de información que comienza a estar formalmente disponibleSin embargo, para que sea realmente accesible debe ser posible:
localizarconsultaragregarnavegar
Esto se ve dificultado en la situación actual por:heterogeneidad de los formatos de datosdiferentes modelos de datosgrandes volúmenes de información
Congreso de Estudiantes, UBB 6
Bases de Datos II, 2012 7
Buscando en la Web
Busqueda por palabras claves
Palabras claves + estructurasite:filetype:define:intitle:
colores filetype:ppt site:.cl
Buscando en la Web
Cual es la correlación entre partido político y voto a favor de proyectos de ley medioambientales?Cual es la relación a lo largo del tiempo de la tasa de interés fijada por el banco central y la utilizada en los bancos?Dado un código de un examen de salud y mi sueldo: que plan de salud me da una mejor cobertura?
Bases de Datos II, 2012 8
Congreso de Estudiantes, UBB 9
Dificultad: heterogeneidad de datos
Congreso de Estudiantes, UBB 10
Dificultad: estructura de la web
IngredientesComida Ingrediente
Pavo A 1 Pavo
Pavo A Tomillo
Pavo A Jugo limon
<comida><nombre> Pavo A </nombre><ingredientes>
<ingrediente>1 Pavo</ingrediente><ingrediente>tomillo</ingrediente><ingrediente>jugo de limon</ingrediente>
</ingredientes><preparacion> …</preparacion> </comida>
RecetasComida PreparacionPavo A …
menos estructurado
más estructurado
Bases de Datos II, 2012 11
Dificultad: grandes volumenes de información
web superficial
web profunda
Bases de Datos II, 2012 12
Dificultad: distintos tipos de usuario
Bases de Datos II, 2012 13
Dificultad: semántica
Qué significa cada uno de los elementos de la tabla?"IPM General Variación Porcentual"="Ipm gral-var." ?
Bases de Datos II, 2012 14
Dificultad: semántica
Qué significan los códigos?Qué unidades corresponden a los distintos montos?
Bases de Datos II, 2012 15
Qué se puede hacer?
Muchos de estos problemas ya han sido investigados en forma aislada en el área de bases de datos y manejo de informaciónSin embargo, el problema actual es a una escala, heterogeneidad y descentralización que no ha sido enfrentado antes
Bases de Datos II, 2012 16
Publicación de datos
Publicar, hoy en día, no tiene ninguna regulaciónSolo los protocolos básicos de la Web (HTML, HTTP, URL)Recíen el 26 de Marzo del 2012 surgió una propuesta:
“Consulta pública Propuesta de Norma Técnica para Publicación de Datos en Chile”
Este problema puede (y debe!) ser tratado en forma sistemáticaEs necesario crear estándares para:
publicarprotocolos de accesopolíticas de accesometadatos para guardar información de procedencia, uso y contenido
Bases de Datos II, 2012 17
Vinculación de datosCon la aparición de la Internet la información comenzó a ser una colección de islas de documentos y servicios conectados por enlaces sin semánticaLos primeros pasos hacia convertir la Web en una fuente de datos usables por aplicaciones es el enlace de datos en la Web con semántica entendible
Ejemplo: RDFa
Se necesita más: poder vincular datos no solo paginas!Ejemplo: linked data
All content on this site is licensed under <a rel="license"href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License </a>.
Bases de Datos II, 2012 18
Consultas a los datosLa noción de consultar y obtener respuestas lógicas es el estándar en el campo de base de datos, pero no en la Web. En la Web, no existe una forma de preguntar consultas estructuradas y lógicas a las fuentes de datos
Proveedores que tienen contratos sobre MM$10 con el Ministerio de Salud?
Los datos están disponibles, pero• En distintas localizaciones• En formatos tan diversos que hacen imposible cualquier procesamiento
directo
Posible solución: contratar a un programador para escribir los scripts adecuados, construir una base de datos común, y un lenguaje como SQL para consulta
Bases de Datos II, 2012 19
Consultas a los datosLa navegación a través de los datos es un compañero necesario a la consulta.
Para las fuentes de datos chilenas, esta es la forma de alcanzar los datos.
El problema de consultar/navegar no es simple! La investigación en lenguajes de consulta como XQuery y SPARQL ha mostrado que no es imposible
La solución no esta allí aun, pero abren el camino...
Bases de Datos II, 2012 20
Integración de datosSi se quiere que la información este realmente disponible a un usuario común, integración es una meta inevitable y crucial.
Por ejemplo, información acerca de estudiantes de escuelas básicas y el sueldo por familia del Ministerio de Educación son necesarios en un proyecto de conectividad en la Agencia de Telecomunicación.
Muchas veces es necesario:Tener una vista comúnTener una forma común de consultaAgregar datos
eficiencia en servidoresnecesidades del usuario, etc
Transferir datos de un esquema a otro
Bases de Datos II, 2012 21
Qué se ha hecho?Existen varios proyectos que han tratado de atacar algunos de estos problemas:
Publicación/VinculaciónLinked data (Datos Vinculados)Freebase
• Ley de transparencia en ChileRDFa…
Consulta/IntegraciónTécnicas tradicionales de integración de datosDataspacesAPIsLenguajes de consultas para grafos…
Bases de Datos II, 2012 22
Linked Data
Surge dentro de la Web semánticaTiene cuatro principios (definidos por Tim Berners-Lee)
Utilizar URIs para identificar los recursos publicados en la Web Utiliza HTTP URIs para que la gente pueda localizar y consultar estos recursos. Cuando alguien busque una URI, proporciona información útilutilizando algún estándar (RDF) Incluir enlaces a otras URI de forma que se potencie el descubrimiento de información en la Web.
Presentación en TED: http://www.youtube.com/watch?v=UUpw-7_SWds
Bases de Datos II, 2012 23
Linked dataInformación de los recursos se presenta usando el modelo de datos de RDF (resource description framework)
Basado en tripletes (sujeto-predicado-obecto)Subject: http://data.linkedmdb.org/resource/film/77Predicate: http://www.w3.org/2002/07/owl#sameAsObject: http://dbpedia.org/resource/Pulp_Fiction_%28film%29
77 Pulp Fictionowl:sameAs
Congreso de Estudiantes, UBB 24
Navegando Linked Datahttp://dbpedia.org/page/Concepci%C3%B3n,_Chile
25
Navegando Linked DataEl URI de Concepción en la dbpedia es:
http://dbpedia.org/page/Concepci%C3%B3n,_ChileAl acceder ese link el servidor identifica el formato requerido y redirecciona al documento correcto para representar esos datos:
html (por ejemplo si la solicitud viene de un navegador)• Lo que vemos al hacer click a http://dbpedia.org/page/Concepci%C3%B3n,_Chile
n3 (rdf)• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.n3
ttl (rdf)• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.ttl
Y otros…• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.nt• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.xml• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.atom• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.json• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jrdf• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jsod
26
Navegando Linked DataSe puede recorrer siguiendo los links de source, target o predicate
Bases de Datos II, 2012 27
Linked Data
Los datos organizados de esa manera pueden ser explorados y procesados directamente por computadoras
ya no estan dentro de documentos en donde su significado, utilización, formato, relaciones, etcétera, no son visibles para motores de búsqueda o aplicaciones de computadora.
Bases de Datos II, 2012 28
Como generar Linked data1. Desde cero…2. Utilizando herramientas para RDFizar desde otros
formatos3. Utilizando herramientas que genera vistas en Linked
data para bases de datos relacionalesEj: D2R
4. Wrappers para envolver APIs
Bases de Datos II, 2012 29
Mayo 2007
Congreso de Estudiantes, UBB 30
Abril 2008
Congreso de Estudiantes, UBB 31
Julio 2009 4.7 billiones de tripletes RDF vinculados por 142 million de links
Septiembre 2011Linking Open Data cloud
diagram, by Richard Cyganiak and Anja Jentzsch.
http://lod-cloud.net/
Septiembre 2011
Distribución de tripletas por dominio
Bases de Datos II, 2012 33
Distribución de links por dominio
Bases de Datos II, 2012 34
Consultando Linked Data
Lenguaje de consulta para RDF: SPARQLRecomendación de la W3C desde Enero 2008Tan expresiva como algebra relacional
No permite aprovecharnos de la estructura de grafo de linked dataMejor que no tener lenguaje de consulta!
Bases de Datos II, 2012 35
Freebase (http://www.freebase.com)"Base de datos abierta, compartida con el conocimiento del mundo"Esquema es fijo y al igual que linked data, los datos son guardados como un grafoConstruida por la genteTiene un lenguaje de consulta MQL (Metaweb Query Language)Freebase es una empresa que genera ingresos a través de publicidad en su sitio.
En el futuro esperan también tener ingresos ordenando datos propietarios
Congreso de Estudiantes, UBB 36
Esquemas en Freebasehttp://schemas.freebaseapps.com/Mas de 37 millones de temas Cada tema tiene tipos y propiedades
Si se quiere ver como una base de datos relacional cada tipo es una tablaEjemplo: http://www.freebase.com/music/album
tema: /musicTipo: /music/albumPropiedad; Artist
Bases de Datos II, 2012 37
Lenguaje de consulta Freebase
MQLMetaweb Query LanguageEjemplo de consulta con API:
https://www.googleapis.com/freebase/v1/mqlread?query={"type":"/music/artist","name":“Los Tres","album":[]}
Para consumo humano se puede usar el link:http://www.freebase.com/query
Bases de Datos II, 2012 38
Freebase
Los datos pueden ser accedidos a través de API: utilizando lenguaje de consulta MQLpuntos RDF: entregan los datos en formato linked dataVolcado de una base de datos (database dump)
Congreso de Estudiantes, UBB 39
Web de datos vs Web de documentos
Bases de Datos II, 2012 40
Desafío
Hacer este mundo de datos accesible a todos y procesable por todos, de la
forma como las maquinas de búsqueda y los navegadores lo hicieron con el
mundo de documentos.
Desafíos en Accesibilidad a la Información
Loreto BravoUniversidad de Concepción
Top Related