Lasaña de DATA en sopa a la OPEN

70
Lasaña de data con sopa a la open Emiliano Marmonti [email protected] @emarmonti 20 de Agosto de 2013

description

Webinar dictado por Emiliano Marmonti el martes 20 de agosto de 2013.

Transcript of Lasaña de DATA en sopa a la OPEN

Page 1: Lasaña de DATA en sopa a la OPEN

Lasaña de data con sopa a la openEmiliano [email protected]@emarmonti

20 de Agosto de 2013

Page 2: Lasaña de DATA en sopa a la OPEN

Objetivo de la charla

Colaborar y entusiasmar con la difusión de iniciativas tales como Datos Abiertos, Repositorios de datos primarios de investigación, gobierno abierto, y abrir un espacio de debate e interés acerca del rol que los bibliotecarios (y otras profesiones) pueden desempeñar en este contexto.

Contenidos de la charla (receta)

• Gobierno abierto.• Datos abiertos. • Concursos y hackatones como medio participativo.• Datos abiertos. Iniciativas en la región y en el exterior.• Privacidad y otras cuestiones polémicas? • Metadatos. Otra vez?• Big Data.Open Science.• Web semántica. • Data curation. Framework.• El rol y participación del bibliotecario en estas iniciativas.

Page 3: Lasaña de DATA en sopa a la OPEN

Gobierno AbiertoEl concepto de Gobierno Abierto se sustenta en tres pilares básicos:

• Transparencia: Un Gobierno transparente fomenta y promueve la rendición de cuentas de la Administración ante la ciudadanía y proporciona información sobre lo que está realizando y sobre sus planes de actuación. Cualquier administración debería permitir el acceso a esta información pública de manera sencilla y clara, permitiendo de esta manera que los ciudadanos puedan realizar un control de la acción de gobierno, así como crear valor económico o social a partir de los datos públicos ofrecidos libremente por la Administración.

• Colaboración: Un Gobierno colaborativo implica y compromete a los ciudadanos y demás agentes en el propio trabajo de la Administración. La colaboración supone la cooperación no sólo con la ciudadanía, sino también con las empresas, las asociaciones y demás agentes, y permite el trabajo conjunto dentro de la propia Administración entre sus empleados y con otras Administraciones.

• Participación: Un Gobierno participativo favorece el derecho de la ciudadanía a participar activamente en la conformación de políticas públicas y anima a la Administración a beneficiarse del conocimiento y experiencia de los ciudadanos. Por tanto, impulsa acciones y orienta actuaciones que aumentan el protagonismo e implicación de los ciudadanos en asuntos públicos y compromete con mayor intensidad a las fuerzas políticas con sus conciudadanos.

Don’t hate the government. Be the

government

Page 4: Lasaña de DATA en sopa a la OPEN

Gobiernos +

TransparentesEfectivosAuditablesParticipativos

Page 5: Lasaña de DATA en sopa a la OPEN

Datos abiertos.

Qué son?• Son datos que han sido generados por una fuente en

particular, abarcan un dominio temático o disciplinar en particular, tienen atributos, dentro de los cuales está la frecuencia de actualización y cuentan con un licenciamiento específico indicando las condiciones de re-utilización de los mismos.

Fuente? Cual fuente?• La fuente es en muchos de los casos el estado nacional,

provincial, municipal, organizaciones comerciales o en otros casos es producto del estudio o medición de particulares.

Atributos• Especifican como fueron obtenidos Fechas de

obtención, actualización y validez, público involucrado, metodología (encuesta, datos registrados en forma obligatoria, datos producidos), uso permitido.

PrimariosProcesables por máquina

CompletosNo discriminatorios

No derechos de autor, copyright,

Extraído Res 538/2013

Page 6: Lasaña de DATA en sopa a la OPEN

http://opendefinition.org/okd/espanol/

Page 7: Lasaña de DATA en sopa a la OPEN

http://opendefinition.org/okd/espanol/

Page 8: Lasaña de DATA en sopa a la OPEN

liberan diferentes conjuntos de datos

Procesamiento

Información

Orientado a que el ciudadano común pueda usar esa información

Esa información es consumida a través de disposiitivos de uso corriente PC, smart-phones, tablets

Estado Academia Otros actores

Actores de la Sociedad civil

Page 9: Lasaña de DATA en sopa a la OPEN

Datos abiertos.

¿A quien le sirve?¿A quien le importa que las administraciones liberen datos?

…En verdad nos debería importar a todos desde el lugar de una ciudadanía activa y participativa…

Podríamos preguntarnos: Dado que a las administraciones les interesa fortalecer la transparencia y participación, que medios usan?

A los medios de comunicación, les interesa mucho la

liberación de los datos públicos, a punto tal

que se ha conformado una nueva “area”

denominada periodismo basado en

datos o data journalism

También confluyen otros actores de la sociedad civil, un

ejemplo puede ser la Open Knowledge

Foundation

Iniciativa privada, que contando con información de este tipo pueden ajustar su oferta, innovar en cuanto a

productos

El estado!!! Si el objetivo es la

transparencia!!

Page 10: Lasaña de DATA en sopa a la OPEN

Concursos

Page 11: Lasaña de DATA en sopa a la OPEN

Hackat(h)ones

Page 12: Lasaña de DATA en sopa a la OPEN

Algunos condimentos

Hacker…¿En qué momento se convirtió en un mérito ser un hacker?

En verdad, el término pierde su connotación negativa a partir del ethical hacking:

El objetivo fundamental del Ethical Hacking (hackeo ético) es explotar las vulnerabilidades existentes en el sistema de "interés" valiéndose de test de intrusión, que verifican y evalúan la seguridad física y lógica de los sistemas de información, redes de computadoras, aplicaciones web, bases de datos, servidores, etc. Con la

intención de ganar acceso y "demostrar" que un sistema es vulnerable, esta información es de gran ayuda a las organizaciones al momento de tomar las medidas

preventivas en contra de posibles ataques malintencionados.

Dicho lo anterior, el servicio de Ethical Hacking consiste en la simulación de posibles escenarios donde se reproducen ataques de manera controlada, así como actividades propias de los delincuentes cibernéticos, esta forma de actuar tiene su justificación en

la idea de que:

"Para atrapar a un intruso, primero debes pensar como intruso"

Page 13: Lasaña de DATA en sopa a la OPEN

Algunos condimentos

Y qué hace un “hacker ético”?

http://www.seguridad.unam.mx/descarga.dsc?arch=2776

Si bien no hay una definición oficial, un hackatón sería una reunión de diferentes actores pero

principalmente desarrolladores que toman algún objetivo en particular de los planteados y

haciendo uso de los datos públicos generan diferentes herramientas que presentan o evidencian la información subyacente. El

objetivo es conformar comunidades, aprender y superar las aparentes barreras tecnológicas que

los desafíos presentan.

Page 14: Lasaña de DATA en sopa a la OPEN

#Indigestión y polémicasAhora…Las administraciones van a liberar

datos privados míos?

¿Cual es el resguardo de mis datos?

¿Los datos están completamente anonimizados?

Page 15: Lasaña de DATA en sopa a la OPEN
Page 16: Lasaña de DATA en sopa a la OPEN

Privacidad (encuesta en USA)

“..One organisation to express privacy concerns was IBM, which pointed out the risks represented by "real-time open data" in its response. Although real time open data can be highly valuable, the company warned that data on traffic and transport delays and extreme weather reports could be used maliciously. For this reason, it suggested that consumers should be issued with licenses to access live data that could be revoked if necessary…”

“…Some respondents identified new areas where open data would be useful. Network equipment vendor Cisco wrote that the 'Internet of things' will will become a primary generator of information that should be considered open data. "The ever-increasing ability to analyse so-called ‘Big Data’ means that datasets of previously perceived low value will become well worth collecting and publishing," Cisco wrote…”

“…Pharmaceuticals giant AstraZeneca wrote that opening up medical data would allow it to "ask more complex questions around [the] safety, effectiveness and health outcomes of our medicines, [and] enable these questions to be answered earlier in a medicines lifecycle."

“…Other organisations expressed doubts about the ability of the government's current IT infrastructure to support its open data ambitions. "A number of respondents argued a change in ethos in IT delivery at the strategic level is required within government departments if an enhanced right to data is to be realised," the summary revealed.

The government will lay out its transparency strategy in light of the consultation later this year.

http://www.information-age.com/technology/information-management/1688463/open-data-consultation-finds-widespread-privacy-fears

Page 17: Lasaña de DATA en sopa a la OPEN
Page 18: Lasaña de DATA en sopa a la OPEN
Page 19: Lasaña de DATA en sopa a la OPEN

#IndigestiónLa privacidad y anonimato de la

información, las políticas en relación a esto, no siempre están claras (al menos en la información volcada en los catálogos de datos públicos).

Si bien es posible que esté aclarado en el marco regulatorio que dá lugar al portal de datos abiertos, parece buena práctica el hecho de informar acerca de esas políticas en el portal.

Otras controversias.

“Utilidad del dato abierto”.

Page 20: Lasaña de DATA en sopa a la OPEN

¿Cuál es la unidad de “medida” de datos abiertos?

Dataset

– Conjunto de datos, con un licenciamiento, contexto particular de obtención, versionado y soporte tecnológico para su procesamiento.

Catálogo de datos

– Reunión de diferentes datasets en un soporte tecnológico que facilita su búsqueda, agrupamiento, exploración y, claro, descarga.

Page 21: Lasaña de DATA en sopa a la OPEN

El fenómeno es global

http://datos.fundacionctic.org/sandbox/catalog/faceted/

Page 22: Lasaña de DATA en sopa a la OPEN

¿En qué áreas temáticas hay datasets ?

Page 23: Lasaña de DATA en sopa a la OPEN

¿Cuáles son los formatos tecnológicos mas comunes para los datasets? (Solo algunos ejemplos)

España

USA

UK (education)

Argentina

Uruguay

Page 24: Lasaña de DATA en sopa a la OPEN

¿Y las APIs, cuentan? (Claro!)

Page 25: Lasaña de DATA en sopa a la OPEN

#Indigestión

¿Qué sucede cuando la organización libera la información pública en un formato de documento, tal como un PDF?

– Claramente presenta un obstáculo para el procesamiento posterior de esta información.

– Existen herramientas para la extracción de texto de los archivos PDFs, comúnmente utilizadas en las implementaciones de repositorios institucionales o bibliotecas digitales. Ejemplo más común, xpdf.

PDF es la peor opción para liberar datos públicos

<?php

$solucion = $this->callAHackaton();

?>

Page 26: Lasaña de DATA en sopa a la OPEN

¿Se sabe cuál es la frecuencia de actualización del dataset?

Page 27: Lasaña de DATA en sopa a la OPEN

#Indigestión

¿Quién cataloga la información que se sube? ¿Qué criterios / directrices son los que usan para garantizar un servicio adecuado al usuario/ciudadano?¿Los schemas de metadatos son suficientemente descriptivos?

Page 28: Lasaña de DATA en sopa a la OPEN
Page 29: Lasaña de DATA en sopa a la OPEN
Page 30: Lasaña de DATA en sopa a la OPEN

Un ejemplo de indicadores universitarios

Page 31: Lasaña de DATA en sopa a la OPEN

(Algunos) Ejemplos de aplicaciones

Page 32: Lasaña de DATA en sopa a la OPEN
Page 33: Lasaña de DATA en sopa a la OPEN
Page 34: Lasaña de DATA en sopa a la OPEN

¿Es esto una aplicación? Claro, quién mas interesado en conocer los datos, que quien quiere venderle / exportar a

un país

Page 35: Lasaña de DATA en sopa a la OPEN

Rol de la Academia

“…Los avances en TICs están afectando drásticamente al proceso de investigación académica en todas las áreas.

Con el aumento del poder computacional los investigadores pueden procesar y compartir cantidades inmensas de información. Como si de una organización virtual se tratase (Foster, 2001), la investigación multidisciplinar y en colaboración tiene lugar en diversas localizaciones produciendo y utilizando enormes cantidades de datos, lo que se conoce como e-ciencia;

Mientras que la e-infraestructura es la columna vertebral tecnológica y de servicios que la soporta. En su conjunto tienen el potencial de transformar radicalmente las metodologías de las investigaciones (Hey, 2001)…”

Page 36: Lasaña de DATA en sopa a la OPEN

¿Ciencia ficción?¿Como sería una plataforma de e-science?

“…Cloud computing has evolved in the commercial space to support highly asynchronous web 2.0 applications.

Scientific computing has traditionally been supported by centralized federally funded supercomputing centers and grid resources with a focus on bulk-synchronous compute and data-intensive applications.

The scientific computing community has shown increasing interest in exploring cloud computing to serve e-Science applications, with the idea of taking advantage of some of its features such as customizable environments and on-demand resources.

Magellan, a recently funded cloud computing project is investigating how cloud computing can serve the needs of mid-range computing and future data-intensive scientific workloads.

A virtual research environment (VRE) or virtual laboratory is an online system helping researchers collaborate. Features usually include collaboration support (Web forumsand wikis), document hosting,

and some discipline-specific tools, such as data analysis, visualisation, or simulation management. In some instances, publication management, and teaching tools such as presentations and slides may be included

. VREs have become important in fields where research is primarily carried out in teams which span institutions and even countries: the ability to easily share information and research results is valuable.

Page 37: Lasaña de DATA en sopa a la OPEN
Page 38: Lasaña de DATA en sopa a la OPEN

También desde la Academia

Page 39: Lasaña de DATA en sopa a la OPEN

Sumando ingredientes. Big Data?

Big data refers to our ability to collect and analyze the vast amounts of data we are now generating in the world.

The ability to harness the ever-expanding amounts of data is completely transforming our ability to understand the world and everything within it.

The advances in analyzing big data allow us to, for example, decode human DNA in minutes, find cures for cancer, accurately predict human behavior, foil terrorist attacks, pinpoint marketing efforts and prevent diseases.

Las 4 V de Big Data:

• Volume – the vast amounts of data generated every second.

• Velocity – the speed at which new data is generated and moves around (credit card fraud detection is a good example where millions of transactions are checked for unusual patterns in almost real time)

• Variety – the increasingly different types of data (from financial data to social media feeds, from photos to sensor data, from video capture to voice recordings).

• Veracity – the messiness of the data (just think of Twitter posts with hash tags, abbreviations, typos and colloquial speech)

Muchos ejemplos en la Academia• Genoma• Datos climatológicos• Salud (latidos del corazón de un bebé 24 hs post-parto)

Page 40: Lasaña de DATA en sopa a la OPEN

Open Source

Lasaña para la Academia (mas bien fideos)

Conocimiento cienttífico

Open Access

Comunicación tradicional

Open Data

Datos primariosOpen

Research(colaboración)

Modalidad de producción

Valor de importancia:

Reproducibilidad de los resultados

VRE (Virtual Research Environment)

Sustentado tecnológicamente

Big Data

Produciendo cantidades ingentes

de datos

Page 41: Lasaña de DATA en sopa a la OPEN

Open Science

Retomando Open Science

Open Source

Open Access

Open Data

Open Research

(colaboración)

Page 42: Lasaña de DATA en sopa a la OPEN

Repositorios (institucionales) de datos primarios de investigación

• ¿Dónde están situados y quiénes están administrando los datos que los “output” de investigación, en las instituciones se generan?

• ¿Cuáles son las condiciones de preservación digital de los mismos?

• ¿Cuáles son los costos potenciales de pérdidas de los mismos?¿Cuantos son los actores que podrían interpretarlos y reprocesarlos si se mantienen en silos?

• Las conclusiones a las que arriban las comunicaciones tradicionales (artículos, libros, etc) podrían ser reproducidas por otros grupos de investigación? Abriría esto un nuevo panorama al peer-review?

Page 43: Lasaña de DATA en sopa a la OPEN

Proyecto de Ley Creación de Repositorios Digitales.

República Argentina

Page 44: Lasaña de DATA en sopa a la OPEN

¿Y ahora?

Page 45: Lasaña de DATA en sopa a la OPEN

Por suerte, hay varios ejemplos

para estudiar y aprender de las experiencias

Page 46: Lasaña de DATA en sopa a la OPEN
Page 47: Lasaña de DATA en sopa a la OPEN
Page 48: Lasaña de DATA en sopa a la OPEN

Un detalle

Algo más que un detalle

Page 49: Lasaña de DATA en sopa a la OPEN
Page 50: Lasaña de DATA en sopa a la OPEN

…Como se(ría) recomendable la apertura de los datos y qué tiene para

aportar la web semántica…

Linked Data is about using the Web to connect related data that wasn't previously linked, or using the Web to lower the barriers to linking data currently linked using other methods. More

specifically, Wikipedia defines Linked Data as "a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge on the

Semantic Web using URIs and RDF."

http://ec.europa.eu/isa/actions/documents/isa_1.1-how-linked-data-is-transforming-egovernement_en.pdf

Page 51: Lasaña de DATA en sopa a la OPEN

…Como se(ría) recomendable realizar la apertura de los datos y qué tiene para

aportar la web semántica…

Page 52: Lasaña de DATA en sopa a la OPEN

Todo muy lindo, pero para qué sirve?

Page 53: Lasaña de DATA en sopa a la OPEN

Interoperabilidad semántica. Relacionar los datasets

Page 54: Lasaña de DATA en sopa a la OPEN

Mucho esquema pero sigo sin entender para qué sirve

(esto está incomible)

Page 55: Lasaña de DATA en sopa a la OPEN

Todo se trata de relacionar

Yo puedo habilitar mi portal basado en CKAN con tres datasets

IndicadoresEducativos

RecaudaciónImpositiva

SubsidiosAl

transporte

Cada uno de de ellos será un dataset individual sin relaciones entre sí, dejando en manos de la comunidad de usuarios hacer las posibles relaciones y entrecruzamientos.

Page 56: Lasaña de DATA en sopa a la OPEN

Todo se trata de relacionar

O puedo trabajar en la liberación de los mismos dejando las relaciones entre sí y con otros datasets

IndicadoresEducativos

RecaudaciónImpositiva

SubsidiosAl

transporte

GeoNames

PubmedOnt

AgrovocGeoPolmapping

En verdad esta inversión de esfuerzo en realizar la apertura de los datos de acuerdo a los principios de Linked Data, relacionando en los casos posibles con vocabularios (a través de URIs) pre existentes dará como beneficio...

Page 57: Lasaña de DATA en sopa a la OPEN

Poder contestar queries tales como...

“...Quiero saber si el incremento obtenido en la recaudación impositiva de 2013 por

exportación de soja a China ha impactado en la investigación de fertilizantes ecológicos y

si esto ha generado nuevas vías de comunicación hacia las zonas del

centro/oeste del país...”

Y esto, señoras y señores, no es mas ni menos que la Web Semántica o Web Of Data

Page 58: Lasaña de DATA en sopa a la OPEN

Data Cloud (o con qué podríamos conectar?)

Super desactualizado

Page 59: Lasaña de DATA en sopa a la OPEN

Un par de gotas de realidad

Page 60: Lasaña de DATA en sopa a la OPEN

Data curation

En verdad me pregunto a esta altura de la charla, si cabe alguna duda acerca de la necesidad (terrible, urgente, imprescindible)

de un perfil (de RRHH) que sea el “especialista” en datos.

Data Curation

The University of Illinois’ Graduate School of Library and Information Science defines data curation as “the active and ongoing management of data thorugh its life cycle of interest and usefulness to scholarship, science, and education. Data curation activities enable data discovery

and retrieval, maintain its quality, add value, and provide for reuse over time, and this new field includes authentication, archiving, management, preservation, retrieval, and representation.”

Page 61: Lasaña de DATA en sopa a la OPEN

http://www.dcc.ac.uk/resources/curation-lifecycle-model

Page 62: Lasaña de DATA en sopa a la OPEN
Page 63: Lasaña de DATA en sopa a la OPEN

Rol del bibliotecario?

Page 64: Lasaña de DATA en sopa a la OPEN

Más del rol del bibliotecarioGeoSpatial Data Curator (University of California, Santa Barbara)

The University of California, Santa Barbara, one of ten campuses of the University of California system, seeks applications for a GeoSpatial Data Curator (an Associate

Specialist position) to work with faculty, students, researchers, and Library staff to develop strategies and programs for the collection, description, organization, normalization, storage, preservation, integration, visualization and mining of

geospatial data within the Library and across the spectrum of programs on campus. The position will offer its incumbent the chance to help define the emerging

field of geospatial data curation and informatics.

• Developing and implementing best practices for describing geospatial data in all collected formats, including workflows for ingesting geospatial data into the developing Digital Library repository; • Planning, conducting, and overseeing the conversion of legacy data and metadata to contemporary formats;• Maintaining a high level of expertise in descriptive metadata standards for geospatial data, including but not limited to MARC and ISO-191xx;

• Knowledge of library descriptive practices, including XML metadata schemes for specific knowledge domains and MARC cataloging;• Hands-on experience implementing and administering online spatial database applications under architectures such as ArcSDE, Oracle, Postgres, MicrosoftSQL and/or MySQL.;• Familiarity with linked data expressed as RDF, and web mapping techniques such as Leaflet, PolyMaps, and D3

Page 65: Lasaña de DATA en sopa a la OPEN

Datathones para datacurators

In today’s technology-driven society, effective access to and use of information is a key enabler for progress. Driven by the demands for knowledge-based applications and the unprecedented availability of information on the Web, the study of knowledge capture is of crucial importance. Knowledge capture involves the extraction of useful knowledge from vast and diverse online sources as well as its acquisition directly from human experts.

Page 66: Lasaña de DATA en sopa a la OPEN
Page 67: Lasaña de DATA en sopa a la OPEN

Porqué eprints es tan buena como plataforma de repositorios?

Ah, no, yo no hablaba de eprints, eso fué el Martes pasado en

ny Anyway

Page 68: Lasaña de DATA en sopa a la OPEN
Page 69: Lasaña de DATA en sopa a la OPEN

http://eprints.soton.ac.uk/271102/1/Texas.pdf

Page 70: Lasaña de DATA en sopa a la OPEN

http://[email protected]

Agradezco a @fernando__lopez, a @socialbiblio por el espacio, entusiasmo y difusión, a los asistentes y a todos aquellos que en

estos días me escribieron por esta charla.

Creo que la apertura de los datos públicos y académicos cambia en varios órdenes nuestra realidad y nuestro rol como ciudadanos, estudiantes, docentes, investigadores, organizaciones y Estado.

Yo, al igual que ustedes, simplemente estoy intentado comprenderlo y en la medida posible, participar.

Emiliano MarmontiAgosto de 2013

[email protected]@emarmonti