Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

61
Periodismo de datos y herramientas digitales @miguelpaz Bootcamp de Periodismo de Datos Venezuela Carter Center - IPYS Venezuela - ICFJ Knight Fellows Program - Poderomedia Oct 31-Nov 1, 2013

description

Introduccion periodismo de datos bases de datos y herramientas digitales para periodistas-oct2013

Transcript of Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Page 1: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Periodismo de datos y herramientas digitales

@miguelpaz

Bootcamp de Periodismo de Datos Venezuela Carter Center - IPYS Venezuela - ICFJ Knight Fellows Program - Poderomedia

Oct 31-Nov 1, 2013

Page 2: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Qué son datos¶ Miguel Paz (@miguelpaz)

37 años

Hombre

Pelo negro

1,79 cm de estatura

100 kg

*crédito: www.schoolofdata.org

Page 3: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Hola, mi nombre es Miguel Paz (@miguelpaz), tengo 37 años, soy Hombre, tengo pelo negro, mido 1,79 cm y peso 100 kg.

*crédito: www.schoolofdata.org

Page 4: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Nombre Miguel Paz

Edad 37

Sexo Masculino

Color de pelo Negro

Altura (cm) 1,79

Peso (kg) 100

*crédito: www.schoolofdata.org

Page 5: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Tipos de datos¶ Dataset: Una colección de Datos, usualmente el mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones

Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desde cuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc.

Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar, reusar, construir cosas con ellos y compartir los resultados

*crédito: www.schoolofdata.org

Page 6: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Periodismo de datos¶ Nombre que le damos al periodismo que utiliza herramientas y técnicas computacionales para poder sacarle provecho a la gran cantidad de datos existentes que superan nuestra capacidad tradicional de reporteo, haciéndole preguntas a los datos para convertir los resultados en historias, visualizaciones, narraciones interactivas, bases de dato de consulta, aplicaciones de noticias, etc.

(revisa en este enlace otra definición mas extensa)

Page 7: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Pasos a seguir¶ Conocer su audiencia: Quién es su audiencia? Cuáles son sus necesidades? Qué puede hacer para resolver esas necesidades?

Definir la/s pregunta/s de investigación

Buscar datos

Obtener datos

Limpiar / filtrar datos

Analizar y validar datos

Visualizar datos

Comunicar datos

*crédito: Brian Boyer y Mirko Lorenz

Page 8: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

datos abiertosy

gobierno abierto

Page 9: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Datos para todos

Page 10: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Page 11: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Page 12: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Opendatalatinoamerica.org

Page 13: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Un periodista y sus datos (antes)Un periodista de datos, antes¶

Page 14: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Un periodista de datos, hoy¶ Ahora se necesita un periodista...

● Que sepa escribir

● Que sepa sacar fotos

● Que sepa programar

● Que sepa scraping

● Que sepa de estadística

● Que sepa de Excel

● Que sepa visualizar

● Que sepa volar...

Page 15: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

ejemplos

Page 16: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Busca datos (ScraperWiki)

Page 17: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Analiza datos (Google Refine)

Page 18: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

DocumentCloud

Page 19: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Poderopedia

Page 20: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Visualiza datos

Page 21: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Google Fusion Tables

Page 22: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Visualizaciones D3.js

Page 23: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Page 24: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Page 25: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

New York Times

Page 26: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

The Guardian

Page 27: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE
Page 28: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Hack electoral argentino

Page 29: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

organizaciones y medios que invierten en

periodismo de datos

Page 30: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Organizaciones que están invirtiendo en periodismo de datos

Page 31: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Algunos medios que están invirtiendo en periodismo de datos

Page 32: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

buscar datos

Page 33: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Metas del reportero en la web¶ Conseguir la mejor calidad de información en el menor tiempo posible

Acceso a documentos oficiales

Recolectar datos, ponerlos en un contexto y darles un significado

Obtener primicias

Guardar copias (siempre sacar pantallazos, son material de prueba)

*crédito: @sandracrucianelli

Page 34: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Búsquedas¶ Directorio: Remite a la página inicial del sitio Web

Se utilizan con más frecuencia para búsquedas cuando se tiene una vaga idea de lo que se quiere y cuando apreciaría que alguien lo ayude

Motor de Búsqueda: Remite a la página exacta en la que aparece la palabra o frase que se busca

Se usan cuando se quiere llegar a un tema o dato particular de manera rápida

Bases de datos: Remite a sets de datos estructurados sobre tópicos específicos

*crédito: @sandracrucianelli

Page 35: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Documentos en la web¶ De libre acceso en la red (sin costo)

Previo pago (en bases de datos comerciales o institucionales)

Por búsqueda simple (chequeo de fuentes: contrastar lo virtual versus lo real)

Por petición formal o vía correo electrónico

*crédito: @sandracrucianelli

Page 36: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Cómo guardar un documento¶ www.google.com

Busque un documento

Abra el documento

Botón derecho: “guardar destino cómo” Para guardar páginas Web:

Como archivo único (multimedia activa)

Como HTML (solo texto)

Para verlo sin salir del navegador: “abrir como nueva ventana”

*crédito: @sandracrucianelli

Page 37: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Cómo buscar¶ Siempre use Búsqueda Avanzada (ej: http://www.google.com/advanced_search)

Refine sus búsquedas usando operadores

El signo + añade criterios. El signo – los restringe.

Las comillas permiten buscar “frases exactas”

*crédito: @sandracrucianelli

Page 38: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Cómo buscar¶ Siempre use Búsqueda Avanzada (ej: http://www.google.com/advanced_search)

Use comillas para la frase exacta: “corrupción en América Latina”

Combine comillas con años: “corrupción en América Latina” + 2013

Combine dos frases exactas: “corrupción en América Latina” + “mayo de 2013”

¿Conclusión?

*crédito: @sandracrucianelli

Page 39: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Por qué usar búsqueda avanzada¶ Permite buscar formatos específicos:

Excel para estadísticas y datos en columnas/filas (ej: sueldos)PDF cuando busca documentos importantesPPT para buscar presentacionesDoc y RTF para textos en WordKML y KMZ para información geolocalizada

*crédito: @sandracrucianelli

Page 40: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Por qué usar búsqueda avanzada¶ Permite localizar búsquedas a:

IdiomaRegiónFecha de actualizaciónSitio o dominio específicoDecida buscar los documentos más nuevos

Buscar siempre 100 resultados (Evitará cambiar de página cada 10)

*crédito: @sandracrucianelli

Page 41: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Metabuscadores¶ - Alltheweb: http://www.altheweb.com

- Topsy (noticias y menciones redes sociales): http://www.topsy.com

- All4one Search Machine: http://www.all4one.com

- Info.com: http://www.info.com/

- Ixquick: http://www.ixquick.com/

- Mamma.com: http://www.mamma.com/

- MonsterCrawler: http://monstercrawler.com/

- Search: http://www.search.com/

- StartingPoint: http://www.stpt.com/

- Colossus: http://www.searchenginecolossus.com/

Page 42: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Buscadores .PDF¶ - http://www.pdfgeni.com/

- http://www.pdfoo.com/

- http://www.pdf-search-engine.com/

- http://buscador-pdf.com/

- http://pdfdatabase.com/

- http://www.pdf-search-online.com/

- http://www.pdfsearchengine.com/

Buscador .XLS¶- http://www.alldatasheet.es/

Page 43: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Buscadores de redes sociales¶ - Topsy (noticias y menciones redes sociales): http://www.topsy.com

- Booshaka http://www.booshaka.com/

- Greplin https://www.greplin.com/

- Social Mention http://www.socialmention.com/

Page 44: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Bases de datos¶ (Apenas algunas para mencionar)

- Sitios web gubernamentales chilenos mostrados en clase “Cómo y dónde investigar en la web” - Datos Abiertos Gobierno de Chile http://datos.gob.cl - Open Data Latinoamérica http://www.opendatalatinoamerica.org - Datos Abiertos Banco Mundial http://data.worldbank.org - Estadísticas Naciones Unidas http://www.un.org/spanish/databases/databases.htm- Organización Mundial de la Salud http://www.who.int/whr/annexes/es/- Organización Internacional del Trabajo http://www.ilo.org/public/spanish/support/lib/index.htm- Datos Mundiales de Educación http://www.icpsr.umich.edu/IAED/ - OCDE http://www.oecd.org/home/ - Archivos Públicos USA http://publicrecords.onlinesearches.com/- SIPRI (Datos de Defensa de todo el mundo) http://www.sipri.org/contents/milap/milex/mex_database1.html

Page 45: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

obtener datos

Page 46: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Scrapear¶ “To Scrape” o Raspar. Hacer scraping o web scraping básicamente es el acto de extraer datos de sitios web utilizando software, scripts y/o servicios web parahacer minería de datos.

Los “scrapers” pueden automatizarse para que hagan el trabajo de obtener la información repetidamente como si fuese un robot o bot que efectúa la tarea mientras dormimos:)

Como el proceso es levemente complejo de explicar en tan poco tiempo, sugeriremos algunas herramientas y tutoriales que pueden revisar.

Page 47: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Herramientas de scraping¶ - Google Docs: Permite usar fórmulas para scrapear información y organizarla en Spreadsheets- Scrape Similar: Extensión para Chrome. Fácil de usar. Puedes subir los resultados a Google Docs. https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd- Import.IO: Funciona como una aplicación de escritorio que debemos instalar. Después sólo tenemos que indicar las URL´s a rastrear, para que la aplicación nos encuentre los patrones que nos permitan obtener los datos. http://import.io/- Scraperwiki: Plataforma online que permite recabar información pública de la web y agruparla de forma ordenada en una base de datos (Excel, tablas, etc.) https://scraperwiki.com/- OutWit Hub: Recopila y organiza automáticamente los datos http://www.outwit.com/ - Pipes: Sirve para procesar, mezclar, manipular, o filtrar uno o varios feeds RSS, con el objetivo de generar un único feed RSS final, que contiene sólamente la información que nos interesa obtener, ya procesada y filtrada. http://pipes.yahoo.com/pipes/

Page 48: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Tutoriales de scraping¶ - Tutorial Scraping con Google Spreadsheets, Scrape Similar y Refine, Michael Bauer https://docs.google.com/document/d/15hz0BWFSXgGvdgiipdpuo6WN7HHBhthqPgmvQNgQerY/edit?usp=sharing

- Web Scraping without Programming, de Michelle Minkoff http://michelleminkoff.com/web-scraping-without-programming-nicar-2012-hands-on-tutorial/

- Scraping for Journalist, a guide for collecting data, Dan Nguyen http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

- Manual de Scraping para periodistas de Paul Bradshaw https://leanpub.com/scrapingforjournalists

Page 49: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

limpiar y filtrar datos

Page 50: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Limpiar datos del scraping¶ - Open Refine (ex Google Refine): Herramienta para trabajar con datos desordenados, limpiarlos o transformarlos de un formato a otro. No se ejecuta en el navegador, es una aplicación de escritorio. Debes descargarlo. Funciona bien con Chrome y Firefox http://openrefine.org

- Tutoriales de Refine: Cómo usar Open Refine para trabajar una base de datos (La Nación Data), ProPublica (inglés),

- Data Wrangler: Herramienta interactiva para la limpieza y transformación de datos.

http://vis.stanford.edu/wrangler/

Page 51: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Conversión de .PDF`s¶ - Cometdocs: Con una intefaz simple convierte archivos PDF en XLS (Excel), ODS, TXT y otros formatos http://www.cometdocs.com/

- Zamzar: Sube el archivo y recibirás la nueva versión por correo electrónico. Advertencia: al convertir archivos PDF de varias páginas en formatos de hojas de cálculo, los datos son separados en tablas, haciendo que el trabajo de limpieza y organización sea aún mayor. http://www.zamzar.com/

-Cogniview: Crea hojas de cálculo extrayendo datos de archivos PDF a Excel

http://www.cogniview.com/es/pdf-a-excel-convertidor?campaign=Spanish%20Search&adgroup=main&ad=PDFaExcel&gclid=CPaP84z5w7kCFe1_QgodyV0Adw

-Nitro Pro 8: Herramienta que convierte archivos PDF en hojas de cálculo (Excel). Aunque se trata de un servicio pago, ofrece una versión de prueba.

http://www.nitropdf.com/es/sem/2013/nitro-pdf-software?gclid=CMSa__X5w7kCFZFcQgod_GkAhQ

Page 52: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Conversión de .PDF`s¶ - Tabula: Aplicación gratuita y de código abierto que permite subir archivos y seleccionar las tablas que deseas convertir a CSV. Hace un buen trabajo incluso con tablas que tengan gráficas. Su principal obstáculo es su instalación, la cual no es simple para la mayoría de los usuarios.

Introducción

http://source.mozillaopennews.org/en-US/articles/introducing-tabula/

Manual de instalación

https://github.com/jazzido/tabula

Page 53: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

visualizar datos

Page 54: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Herramientas visualización¶ - Datawrapper: Sube datos y arma gráficos. Muy fácil http://www.datawrapper.de. Un ejemplo paso a paso: http://www.mirkolorenz.com/?id=270

- Timeline JS: Línea de tiempo. Permite contar una historia usando múltiples formatos. A través de Google Spreadsheet, facilita la reutilización de los datos. http://timeline.verite.co/

- Global Wamp: Arma mapas a partir de un Google Spreadsheet http://globalwamp.github.io

- Popcorn.js: Permite mezclar video con recursos de la web (mapas, enlaces, redes sociales, etc) https://popcorn.webmaker.org

-Infogr.am (sube excel y crea gráficos de datos) http.//infogr.am Gráficos de tortas, de gente, barras, etc. Fácil de usar. Aún en beta

-Usando Google Charts para visualizaciones http://ruby.bastardsbook.com/chapters/csurgeries-visualization/

- Tutorial Fusion Tables Andy Tow http://blogs.lanacion.com.ar/data/argentina/andy-tow-un-argentino-apasionado-por-los-datos-y-las-visualizaciones/

- Cómo hacer mapas usando Google Fusion Tables http://www.computerworld.com/slideshow/detail/68971

Tutorial de Fusion Tables de Google http://support.google.com/fusiontables/bin/answer.py?hl=en&answer=184641

Making Maps With Fusion Tables http://www.peteraldhous.com/CAR/Making_maps_with_Google_Fusion_Tables.pdf

Page 55: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Herramientas visualización¶ - Overview: Herramienta de código abierto que ayuda a los periodistas a encontrar historias en grandes volúmenes de información a través de la exploración visual de los mismos. Entrega visualizaciones de grupos de documentos y permite búsquedas a partir de nombres y keywords, favoreciendo así establecer relaciones entre temas, personas, lugares y otros datos. http://overview.ap.org/

- Google Fusion Tables http://tables.googlelabs.com

- Tutorial Fusion Tables Andy Tow http://blogs.lanacion.com.ar/data/argentina/andy-tow-un-argentino-apasionado-por-los-datos-y-las-visualizaciones/

- Cómo hacer mapas usando Google Fusion Tables http://www.computerworld.com/slideshow/detail/68971

Tutorial de Fusion Tables de Google http://support.google.com/fusiontables/bin/answer.py?hl=en&answer=184641

Page 57: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Más recursos¶ - Manual de Periodismo de Datos http://interactivos.lanacion.com.ar/manual-data/ - Cómo ser un periodista de datos http://www.guardian.co.uk/news/datablog/2010/oct/01/data-journalism-how-to-guide- Source, el hogar de los news data nerds http://source.mozillaopennews.org - OpenDataHandbook http://opendatahandbook.org/- Manual de Open Data http://opengovdata.io/- Curso de Periodismo de Datos de Derek Willis http://dwillis.github.io/data-reporting/outline.html- Brian Boyer: Welcome to Hacker Journalism 101, take your seats http://www.niemanlab.org/2012/09/brian-boyer-welcome-to-hacker-journalism-101-take-your-seats/- Bastards on Ruby (Tutorial de Ruby escrito por Dan Nguyen) http://ruby.bastardsbook.com/

Page 58: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Más recursos¶ - McDiva: Tools and slides from NICAR 13: http://www.chryswu.com/blog/2013/02/27/tools-slides-links-tutorials-nicar13/

- Tutoriales de NICAR 13 http://ire.org/conferences/nicar-2013/tipsheets/

- Criptoperiodismo (Manual de Seguridad en Internet) http://cryptoperiodismo.org/

- Herramientas ProPublica http://www.propublica.org/tools/

- Listado de aplicaciones de noticias hechas por Chicago Tribune Team

http://blog.apps.chicagotribune.com/2011/09/02/show-your-work/

- NYTimes: Repositorio de aplicaciones de código abierto https://github.com/nytimes

Page 59: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

comunicar datos:)

Page 60: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Gra

cias

!

@miguelpaz I www.poderopedia.org I www.poderomedia.org

Periodismo de datos y herramientas digitales // una

introducción

Page 61: Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Gra

cias

!

@miguelpaz I www.poderopedia.org I www.poderomedia.org

Periodismo de datos y herramientas digitales Bootcamp de Periodismo de Datos Venezuela Carter Center-IPYS Venezuela-ICFJ Knight Fellows Program-Poderomedia Oct 31-Nov 1, 2013 #bootcampve