Update on OGC involvement in GEOSS - SmartOpenData - SmartOpenData.pdf · • Una correcta...

32
SmartOpenData SmartOpenData Instituto Nacional de Investigación y Tecnología Agraria y Alimentaria Madrid, 29 de Octubre de 2015 Daniel Yagüe - Tragsatec Una infraestructura de datos inteligentes al servicio de la gestión de áreas rurales, zonas protegidas y Parques Nacionales.

Transcript of Update on OGC involvement in GEOSS - SmartOpenData - SmartOpenData.pdf · • Una correcta...

SmartOpenData

SmartOpenData

Instituto Nacional de Investigación y Tecnología Agraria y Alimentaria

Madrid, 29 de Octubre de 2015

Daniel Yagüe - Tragsatec

Una infraestructura de datos inteligentes al servicio

de la gestión de áreas rurales, zonas protegidas y

Parques Nacionales.

AGENDA

1. La gran nube de datos

2. Proyecto SmartOpenData: Portugal & Spain Pilot

3. Linked Open Data: Hacia un nuevo paradigma

4. Retos de futuro

La gran nube de datos

1

La gran nube de datos

• Según Eric Schmidt (CEO de Google), hasta 2003 la Humanidad había

creado una cantidad de información equivalente a 5 Exabytes. En la

actualidad (2011), esta cifra se genera en sólo 2 días.

• Hasta el año 2007 se estima que la Humanidad había creado

295 exabytes de información, y en 2011 hasta 600 exabytes.

600 EB = un trillón de byes, que es la capacidad que pueden contener 1 millón de

ordenadores de sobremesa actuales.

Revista Science – Abril 2011

• … En 2007 el 99,9 % de la información generada era en formato

digital, y sólo el 0,007 % en papel.

Revista Science – Abril 2011

La gran nube de datos

OPEN DATA Iniciativa que pretende que los datos de las Administraciones Públicas se expongan y

hagan accesibles de forma que estén disponibles para su redistribución, reutilización y

aprovechamiento por parte de los ciudadanos y de las empresas.

La gran nube de datos

OPEN DATA

Publica tus datos como datos estructurados (Excel mejor que tabla escaneada)

Publica tus datos en la Web en cualquier formato y bajo licencia abierta

Usa formatos no propietarios (CSV mejor que Excel)

URIs para indicar cosas.

Así pueden ser enlazadas

LINKED

OPEN DATA

La gran nube de datos

LINKED OPEN DATA (LOD) Método de publicación de datos para que puedan ser interconectados.

Orientado a la lectura automática por ordenadores, permitiendo la conexión entre

diferentes fuentes de datos.

Los 4 principios de los LOD:

•Utilizar URIs para identificar los recursos publicados en la Web.

•Aprovechar el HTTP de la URI para que sea localizable y consultable.

•Proporcionar información útil acerca del recurso cuando la URI sea

desreferenciada.

•Incluir enlaces a otras URI relacionadas con los datos contenidos en el

recurso, potenciando el descubrimiento de información en la Web.

Tim Berners-Lee

La gran nube de datos

LOD - RDF

• Datos publicados como RDF en forma de tripletas:

SUJETO PREDICADO OBJETO

Indica el recurso Una relación entre el sujeto y el objeto Rasgos o aspectos del recurso

El cielo tiene el color azul

El Pinus pinaster pertenece al género Pinus

El pino marítimo es la especie Pinus pinaster

• RDF es un importante componente de la Web Semántica

Añade metadatos semánticos, legibles por aplicaciones informáticas, a los recursos publicados

La gran nube de datos

LOD – ONTOLOGÍAS Descripción exhaustiva y rigurosa de un recurso, detallando sus propiedades y relaciones

con otros recursos mediante tripletas, con la finalidad de facilitar la comunicación y el

intercambio entre diferentes recursos.

• Una correcta Ontología nos permite obtener un perfecto conocimiento

del recurso y de sus relaciones.

• Permite realizar consultas “en lenguaje humano” al Sistema.:

“¿Qué especie es el pino marítimo?

La gran nube de datos

Acción sobre los datos

Verlos J J J J J

Imprimirlos J J J J J

Descargarlos J J J J J

Ingresarlos en otro sistema J J J J J

Cambiarlos / Editarlos J J J J J

Compartirlos J J J J J

Procesables con software propietario J J J J

Hacer cálculos, visualizarlos, etc J J J J

Exportarlos a otros formatos estructurados J J J J

Manipularlos libremente (sin limitación de formatos o software) J J J

Enlazarlos desde cualquier otro sitio (web o local) J J

Marcarlos como favoritos J J

Reutilizar parte de losdatos J J

Reutilizar herramientas y librerías J J

Combinar los datos con otros. Si dos cosas tienen la misma URI es de forma intencionada. J J

Descrubrir más datos (relacionados) J

Aprender directamente acerca del esquema de otros J

Entender un gráfico RDF puede ser más complicado que tablas, XML o JSON) L

Puedes encontrar enlaces rotos (comos los 404 de las páginas web) L

Ojo !. No todos los datos son buenos. Es necesario filtrar; Confianza y criterio L

Publicación sencilla J J J L L

Control detallado sobre los datos, pudiendo optimizar su acceso (balanceo de carga, cacheo…) J J

Otros Editores pueden enlazarse a mis datos (lanzarlos a las 5 ) J J

Permites que tus datos sean descubiertos por mayor público J

Incrementas el valor de tus datos J

Puedes ganar los mismos beneficios de los enlaces como los consumidores J

Necesidad de convertidores o "plug-ins" para exportar los datos desde el formato propietario L

Mayor inversión de tiempo en analizar los datos L L

Asignar URIs a los datos y pensar cómo representarlos L L

Encontrar patrones existentes para reutilizarlos o crear unos propios L L

Invertir recursos para enlazar tus datos a otros en la Web L

Revisión de tus datos para reparar posibles enlaces rotos L

EDITOR

CONSUMIDOR

OPEN LINKED DATA - COSTOS Y BENEFICIOS

LOD – PUBLICACIÓN

SmartOpenData Portugal & Spain Pilot

2

SMOD – Portugal & Spain Pilot

SMART OPEN DATA Pretende crear una infraestructura Open Linked Data (de software y datos)

alimentados por datos públicos de fuentes existentes para la biodiversidad, la

protección del medio ambiente y la investigación en las áreas rurales europeas.

PORTUGAL & SPAIN PILOT Busca la optimización de los datos públicos existentes mediante su publicación

como datos abiertos y enlazados (OLD) con el fin de facilitar la toma de

decisiones complejas acerca de la gestión agroforestal.

SMOD – Portugal & Spain Pilot

• Diversidad de fuentes de información.

PUNTO DE PARTIDA

SMOD – Portugal & Spain Pilot

• Transformación de las tablas de una base de datos, en una serie de entidades

que simplifiquen su entendimiento

MODELIZACIÓN - ORM

SMOD – Portugal & Spain Pilot

• Publicación de cada recurso como un RDF enlazado a fuentes externas

MODELIZACIÓN - RDF

SMOD – Portugal & Spain Pilot

DEFINICIÓN ONTOLOGÍA

SMOD – Portugal & Spain Pilot

PUBLICACIÓN Endpoint

• Punto de acceso libre a todos los datos publicados en el proyecto

mediante consultas SPARQL

Unidades de trabajo en las que hay Quercus robur

SMOD – Portugal & Spain Pilot

Consulta del Endpoint

SMOD – Portugal & Spain Pilot

VISOR

SMOD – Portugal & Spain Pilot

VISOR

SMOD – Portugal & Spain Pilot

REFLEXIÓN

• Cambio de mentalidad: de la tabla relacional a la Ontología.

• Se precisa un conocimiento intensivo de los datos y de sus relaciones.

• Publicación más complicada, pero más rica y eficiente.

• La generalización de esta práctica (OLD) enriquecerá el valor de los

datos.

• Se abre la puerta al descubrimiento de nuevas relaciones entre datos.

Linked Open Data Hacia un Nuevo Paradigma

3

Linked Open Data: Hacia un Nuevo Paradigma

• Costes en tiempos de espera, análisis y procesado.

• Cuando exploto mis datos: ¿Están actualizados?

• Repetir los costes cada vez que actualizo la información

Acceso a datos “tradicional”

• Solicitar los datos al Productor.

• En el mejor de los casos: datos descargables desde una Web.

• Análisis de los datos recibidos: conocimiento del modelo de datos.

• Integración en nuestros datos: complicados procesos de ajuste.

Linked Open Data: Hacia un Nuevo Paradigma

• Reducción de costes. Los datos se obtienen OnLine y al vuelo.

• Cuando exploto mis datos: Seguro que están actualizados.

Acceso a datos “Linked”

• Los datos están disponibles en la red.

• No es necesario un proceso de integración.

• Los datos pueden ser leídos automáticamente por una aplicación.

• Cada recurso (RDF) ofrece información sobre sus características

Linked Open Data: Hacia un Nuevo Paradigma

• Precisa conocimiento detallado del modelo de datos (de terceros)

• En qué tabla está lo que busco.

• Nombre y tipología del campo.

• Relaciones entre las tablas.

• Dependencia precisa del modelo de datos.

• Si cambia el nombre de una tabla o campo, todo cambia.

TABLAS RELACIONALES

Linked Open Data: Hacia un Nuevo Paradigma

• Desconexión del modelo de datos (de terceros)

• Relación entre “conceptos”

• Pinus pinaster pertenece al género Pinus

ONTOLOGÍAS

• Precisa conocimiento detallado del recurso (no del modelo de datos)

• Cómo es un recurso.

• Que características lo definen.

• Cómo se relaciona con otros recursos.

LOD - ECOSISTEMA DE DATOS

Linked Open Data: Hacia un Nuevo Paradigma

• “Si la abeja desapareciera de la superficie del globo, al hombre sólo le

quedarían cuatro años de vida: sin abejas, no hay polinización, ni

hierba, ni animales, ni hombres.”

Albert Einstein

• Ecosistema como unidad compuesta de organismos interdependientes

que comparten el mismo hábitat.

• Los organismos se relacionan sin necesidad de conocer la fisiología de

los otros seres: “simplemente” conocen lo que pueden utilizar del otro.

“Desconectados del modelo de datos del otro ser”

LOD – ECOSISTEMA DE DATOS

Linked Open Data: Hacia un Nuevo Paradigma

• Los recursos se relacionan por sus propiedades, independientemente

de su estructura interna.

• Los recursos definidos en una Ontología se comportan como los

organismos de un Ecosistema.

• Este tipo de interacciones enriquecen la información al conectarse con

otras Ontologías (con otros Ecosistemas).

“Un Ecosistema es más rico cuanto mayor es el número de

organismos que lo forman.”

Retos de futuro

4

Retos de futuro

• Necesario un cambio de mentalidad: de tabla relacional a Ontología.

• Penalización inicial en los primeros casos de puesta en práctica.

• Una única publicación. Un mismo recurso útil para muchos usuarios.

• Generalizar la publicación Linked Open Data

• Retroalimentación del sistema. A mayor número de recursos LOD,

mayor riqueza de los mismos.

• Crear una comunidad de diseñadores de Ontologías

• La definición del “ser” de un recurso es complicada.

• Requiere de los conocimientos del experto en la materia y del

técnico informático.

• Para el pequeño consumidor

• Desarrollar intérpretes de acceso a los Endpoint (SparQL).

Retos de futuro

• La abeja desconoce la existencia de una tabla “antera” en la que hay

un campo “polen” que puede almacenar.

• La abeja acude a cualquier flor. No está condicionada por sus “tablas”

• Su pelo puede evolucionar sin afectar a su relación funcional con el

polen.

• La flor desconoce la existencia de una tabla “pelo” en la abeja que

tiene un campo “gránulo” donde puede grabar su polen.

• La flor permite el acceso a cualquier insecto. No limitación “usuarios”.

• Sus anteras no deben condicionar su forma a la de la abeja.

Son dos organismos cuya “ontología” está perfectamente definida;

enlazando sus características con las definidas en otros organismos

y permitiendo su interrelación

LA REFLEXIÓN DE LA ABEJA