Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Post on 13-Jun-2015

673 views 1 download

description

Introduccion periodismo de datos bases de datos y herramientas digitales para periodistas-oct2013

Transcript of Presentacion Miguel Paz: Introduccion periodismo de datos-BootCampVE

Periodismo de datos y herramientas digitales

@miguelpaz

Bootcamp de Periodismo de Datos Venezuela Carter Center - IPYS Venezuela - ICFJ Knight Fellows Program - Poderomedia

Oct 31-Nov 1, 2013

Qué son datos¶ Miguel Paz (@miguelpaz)

37 años

Hombre

Pelo negro

1,79 cm de estatura

100 kg

*crédito: www.schoolofdata.org

Hola, mi nombre es Miguel Paz (@miguelpaz), tengo 37 años, soy Hombre, tengo pelo negro, mido 1,79 cm y peso 100 kg.

*crédito: www.schoolofdata.org

Nombre Miguel Paz

Edad 37

Sexo Masculino

Color de pelo Negro

Altura (cm) 1,79

Peso (kg) 100

*crédito: www.schoolofdata.org

Tipos de datos¶ Dataset: Una colección de Datos, usualmente el mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones

Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desde cuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc.

Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar, reusar, construir cosas con ellos y compartir los resultados

*crédito: www.schoolofdata.org

Periodismo de datos¶ Nombre que le damos al periodismo que utiliza herramientas y técnicas computacionales para poder sacarle provecho a la gran cantidad de datos existentes que superan nuestra capacidad tradicional de reporteo, haciéndole preguntas a los datos para convertir los resultados en historias, visualizaciones, narraciones interactivas, bases de dato de consulta, aplicaciones de noticias, etc.

(revisa en este enlace otra definición mas extensa)

Pasos a seguir¶ Conocer su audiencia: Quién es su audiencia? Cuáles son sus necesidades? Qué puede hacer para resolver esas necesidades?

Definir la/s pregunta/s de investigación

Buscar datos

Obtener datos

Limpiar / filtrar datos

Analizar y validar datos

Visualizar datos

Comunicar datos

*crédito: Brian Boyer y Mirko Lorenz

datos abiertosy

gobierno abierto

Datos para todos

Opendatalatinoamerica.org

Un periodista y sus datos (antes)Un periodista de datos, antes¶

Un periodista de datos, hoy¶ Ahora se necesita un periodista...

● Que sepa escribir

● Que sepa sacar fotos

● Que sepa programar

● Que sepa scraping

● Que sepa de estadística

● Que sepa de Excel

● Que sepa visualizar

● Que sepa volar...

ejemplos

Busca datos (ScraperWiki)

Analiza datos (Google Refine)

DocumentCloud

Poderopedia

Visualiza datos

Google Fusion Tables

Visualizaciones D3.js

New York Times

The Guardian

Hack electoral argentino

organizaciones y medios que invierten en

periodismo de datos

Organizaciones que están invirtiendo en periodismo de datos

Algunos medios que están invirtiendo en periodismo de datos

buscar datos

Metas del reportero en la web¶ Conseguir la mejor calidad de información en el menor tiempo posible

Acceso a documentos oficiales

Recolectar datos, ponerlos en un contexto y darles un significado

Obtener primicias

Guardar copias (siempre sacar pantallazos, son material de prueba)

*crédito: @sandracrucianelli

Búsquedas¶ Directorio: Remite a la página inicial del sitio Web

Se utilizan con más frecuencia para búsquedas cuando se tiene una vaga idea de lo que se quiere y cuando apreciaría que alguien lo ayude

Motor de Búsqueda: Remite a la página exacta en la que aparece la palabra o frase que se busca

Se usan cuando se quiere llegar a un tema o dato particular de manera rápida

Bases de datos: Remite a sets de datos estructurados sobre tópicos específicos

*crédito: @sandracrucianelli

Documentos en la web¶ De libre acceso en la red (sin costo)

Previo pago (en bases de datos comerciales o institucionales)

Por búsqueda simple (chequeo de fuentes: contrastar lo virtual versus lo real)

Por petición formal o vía correo electrónico

*crédito: @sandracrucianelli

Cómo guardar un documento¶ www.google.com

Busque un documento

Abra el documento

Botón derecho: “guardar destino cómo” Para guardar páginas Web:

Como archivo único (multimedia activa)

Como HTML (solo texto)

Para verlo sin salir del navegador: “abrir como nueva ventana”

*crédito: @sandracrucianelli

Cómo buscar¶ Siempre use Búsqueda Avanzada (ej: http://www.google.com/advanced_search)

Refine sus búsquedas usando operadores

El signo + añade criterios. El signo – los restringe.

Las comillas permiten buscar “frases exactas”

*crédito: @sandracrucianelli

Cómo buscar¶ Siempre use Búsqueda Avanzada (ej: http://www.google.com/advanced_search)

Use comillas para la frase exacta: “corrupción en América Latina”

Combine comillas con años: “corrupción en América Latina” + 2013

Combine dos frases exactas: “corrupción en América Latina” + “mayo de 2013”

¿Conclusión?

*crédito: @sandracrucianelli

Por qué usar búsqueda avanzada¶ Permite buscar formatos específicos:

Excel para estadísticas y datos en columnas/filas (ej: sueldos)PDF cuando busca documentos importantesPPT para buscar presentacionesDoc y RTF para textos en WordKML y KMZ para información geolocalizada

*crédito: @sandracrucianelli

Por qué usar búsqueda avanzada¶ Permite localizar búsquedas a:

IdiomaRegiónFecha de actualizaciónSitio o dominio específicoDecida buscar los documentos más nuevos

Buscar siempre 100 resultados (Evitará cambiar de página cada 10)

*crédito: @sandracrucianelli

Metabuscadores¶ - Alltheweb: http://www.altheweb.com

- Topsy (noticias y menciones redes sociales): http://www.topsy.com

- All4one Search Machine: http://www.all4one.com

- Info.com: http://www.info.com/

- Ixquick: http://www.ixquick.com/

- Mamma.com: http://www.mamma.com/

- MonsterCrawler: http://monstercrawler.com/

- Search: http://www.search.com/

- StartingPoint: http://www.stpt.com/

- Colossus: http://www.searchenginecolossus.com/

Buscadores .PDF¶ - http://www.pdfgeni.com/

- http://www.pdfoo.com/

- http://www.pdf-search-engine.com/

- http://buscador-pdf.com/

- http://pdfdatabase.com/

- http://www.pdf-search-online.com/

- http://www.pdfsearchengine.com/

Buscador .XLS¶- http://www.alldatasheet.es/

Buscadores de redes sociales¶ - Topsy (noticias y menciones redes sociales): http://www.topsy.com

- Booshaka http://www.booshaka.com/

- Greplin https://www.greplin.com/

- Social Mention http://www.socialmention.com/

Bases de datos¶ (Apenas algunas para mencionar)

- Sitios web gubernamentales chilenos mostrados en clase “Cómo y dónde investigar en la web” - Datos Abiertos Gobierno de Chile http://datos.gob.cl - Open Data Latinoamérica http://www.opendatalatinoamerica.org - Datos Abiertos Banco Mundial http://data.worldbank.org - Estadísticas Naciones Unidas http://www.un.org/spanish/databases/databases.htm- Organización Mundial de la Salud http://www.who.int/whr/annexes/es/- Organización Internacional del Trabajo http://www.ilo.org/public/spanish/support/lib/index.htm- Datos Mundiales de Educación http://www.icpsr.umich.edu/IAED/ - OCDE http://www.oecd.org/home/ - Archivos Públicos USA http://publicrecords.onlinesearches.com/- SIPRI (Datos de Defensa de todo el mundo) http://www.sipri.org/contents/milap/milex/mex_database1.html

obtener datos

Scrapear¶ “To Scrape” o Raspar. Hacer scraping o web scraping básicamente es el acto de extraer datos de sitios web utilizando software, scripts y/o servicios web parahacer minería de datos.

Los “scrapers” pueden automatizarse para que hagan el trabajo de obtener la información repetidamente como si fuese un robot o bot que efectúa la tarea mientras dormimos:)

Como el proceso es levemente complejo de explicar en tan poco tiempo, sugeriremos algunas herramientas y tutoriales que pueden revisar.

Herramientas de scraping¶ - Google Docs: Permite usar fórmulas para scrapear información y organizarla en Spreadsheets- Scrape Similar: Extensión para Chrome. Fácil de usar. Puedes subir los resultados a Google Docs. https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd- Import.IO: Funciona como una aplicación de escritorio que debemos instalar. Después sólo tenemos que indicar las URL´s a rastrear, para que la aplicación nos encuentre los patrones que nos permitan obtener los datos. http://import.io/- Scraperwiki: Plataforma online que permite recabar información pública de la web y agruparla de forma ordenada en una base de datos (Excel, tablas, etc.) https://scraperwiki.com/- OutWit Hub: Recopila y organiza automáticamente los datos http://www.outwit.com/ - Pipes: Sirve para procesar, mezclar, manipular, o filtrar uno o varios feeds RSS, con el objetivo de generar un único feed RSS final, que contiene sólamente la información que nos interesa obtener, ya procesada y filtrada. http://pipes.yahoo.com/pipes/

Tutoriales de scraping¶ - Tutorial Scraping con Google Spreadsheets, Scrape Similar y Refine, Michael Bauer https://docs.google.com/document/d/15hz0BWFSXgGvdgiipdpuo6WN7HHBhthqPgmvQNgQerY/edit?usp=sharing

- Web Scraping without Programming, de Michelle Minkoff http://michelleminkoff.com/web-scraping-without-programming-nicar-2012-hands-on-tutorial/

- Scraping for Journalist, a guide for collecting data, Dan Nguyen http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

- Manual de Scraping para periodistas de Paul Bradshaw https://leanpub.com/scrapingforjournalists

limpiar y filtrar datos

Limpiar datos del scraping¶ - Open Refine (ex Google Refine): Herramienta para trabajar con datos desordenados, limpiarlos o transformarlos de un formato a otro. No se ejecuta en el navegador, es una aplicación de escritorio. Debes descargarlo. Funciona bien con Chrome y Firefox http://openrefine.org

- Tutoriales de Refine: Cómo usar Open Refine para trabajar una base de datos (La Nación Data), ProPublica (inglés),

- Data Wrangler: Herramienta interactiva para la limpieza y transformación de datos.

http://vis.stanford.edu/wrangler/

Conversión de .PDF`s¶ - Cometdocs: Con una intefaz simple convierte archivos PDF en XLS (Excel), ODS, TXT y otros formatos http://www.cometdocs.com/

- Zamzar: Sube el archivo y recibirás la nueva versión por correo electrónico. Advertencia: al convertir archivos PDF de varias páginas en formatos de hojas de cálculo, los datos son separados en tablas, haciendo que el trabajo de limpieza y organización sea aún mayor. http://www.zamzar.com/

-Cogniview: Crea hojas de cálculo extrayendo datos de archivos PDF a Excel

http://www.cogniview.com/es/pdf-a-excel-convertidor?campaign=Spanish%20Search&adgroup=main&ad=PDFaExcel&gclid=CPaP84z5w7kCFe1_QgodyV0Adw

-Nitro Pro 8: Herramienta que convierte archivos PDF en hojas de cálculo (Excel). Aunque se trata de un servicio pago, ofrece una versión de prueba.

http://www.nitropdf.com/es/sem/2013/nitro-pdf-software?gclid=CMSa__X5w7kCFZFcQgod_GkAhQ

Conversión de .PDF`s¶ - Tabula: Aplicación gratuita y de código abierto que permite subir archivos y seleccionar las tablas que deseas convertir a CSV. Hace un buen trabajo incluso con tablas que tengan gráficas. Su principal obstáculo es su instalación, la cual no es simple para la mayoría de los usuarios.

Introducción

http://source.mozillaopennews.org/en-US/articles/introducing-tabula/

Manual de instalación

https://github.com/jazzido/tabula

visualizar datos

Herramientas visualización¶ - Datawrapper: Sube datos y arma gráficos. Muy fácil http://www.datawrapper.de. Un ejemplo paso a paso: http://www.mirkolorenz.com/?id=270

- Timeline JS: Línea de tiempo. Permite contar una historia usando múltiples formatos. A través de Google Spreadsheet, facilita la reutilización de los datos. http://timeline.verite.co/

- Global Wamp: Arma mapas a partir de un Google Spreadsheet http://globalwamp.github.io

- Popcorn.js: Permite mezclar video con recursos de la web (mapas, enlaces, redes sociales, etc) https://popcorn.webmaker.org

-Infogr.am (sube excel y crea gráficos de datos) http.//infogr.am Gráficos de tortas, de gente, barras, etc. Fácil de usar. Aún en beta

-Usando Google Charts para visualizaciones http://ruby.bastardsbook.com/chapters/csurgeries-visualization/

- Tutorial Fusion Tables Andy Tow http://blogs.lanacion.com.ar/data/argentina/andy-tow-un-argentino-apasionado-por-los-datos-y-las-visualizaciones/

- Cómo hacer mapas usando Google Fusion Tables http://www.computerworld.com/slideshow/detail/68971

Tutorial de Fusion Tables de Google http://support.google.com/fusiontables/bin/answer.py?hl=en&answer=184641

Making Maps With Fusion Tables http://www.peteraldhous.com/CAR/Making_maps_with_Google_Fusion_Tables.pdf

Herramientas visualización¶ - Overview: Herramienta de código abierto que ayuda a los periodistas a encontrar historias en grandes volúmenes de información a través de la exploración visual de los mismos. Entrega visualizaciones de grupos de documentos y permite búsquedas a partir de nombres y keywords, favoreciendo así establecer relaciones entre temas, personas, lugares y otros datos. http://overview.ap.org/

- Google Fusion Tables http://tables.googlelabs.com

- Tutorial Fusion Tables Andy Tow http://blogs.lanacion.com.ar/data/argentina/andy-tow-un-argentino-apasionado-por-los-datos-y-las-visualizaciones/

- Cómo hacer mapas usando Google Fusion Tables http://www.computerworld.com/slideshow/detail/68971

Tutorial de Fusion Tables de Google http://support.google.com/fusiontables/bin/answer.py?hl=en&answer=184641

Más recursos¶ - Manual de Periodismo de Datos http://interactivos.lanacion.com.ar/manual-data/ - Cómo ser un periodista de datos http://www.guardian.co.uk/news/datablog/2010/oct/01/data-journalism-how-to-guide- Source, el hogar de los news data nerds http://source.mozillaopennews.org - OpenDataHandbook http://opendatahandbook.org/- Manual de Open Data http://opengovdata.io/- Curso de Periodismo de Datos de Derek Willis http://dwillis.github.io/data-reporting/outline.html- Brian Boyer: Welcome to Hacker Journalism 101, take your seats http://www.niemanlab.org/2012/09/brian-boyer-welcome-to-hacker-journalism-101-take-your-seats/- Bastards on Ruby (Tutorial de Ruby escrito por Dan Nguyen) http://ruby.bastardsbook.com/

Más recursos¶ - McDiva: Tools and slides from NICAR 13: http://www.chryswu.com/blog/2013/02/27/tools-slides-links-tutorials-nicar13/

- Tutoriales de NICAR 13 http://ire.org/conferences/nicar-2013/tipsheets/

- Criptoperiodismo (Manual de Seguridad en Internet) http://cryptoperiodismo.org/

- Herramientas ProPublica http://www.propublica.org/tools/

- Listado de aplicaciones de noticias hechas por Chicago Tribune Team

http://blog.apps.chicagotribune.com/2011/09/02/show-your-work/

- NYTimes: Repositorio de aplicaciones de código abierto https://github.com/nytimes

comunicar datos:)

Gra

cias

!

@miguelpaz I www.poderopedia.org I www.poderomedia.org

Periodismo de datos y herramientas digitales // una

introducción

Gra

cias

!

@miguelpaz I www.poderopedia.org I www.poderomedia.org

Periodismo de datos y herramientas digitales Bootcamp de Periodismo de Datos Venezuela Carter Center-IPYS Venezuela-ICFJ Knight Fellows Program-Poderomedia Oct 31-Nov 1, 2013 #bootcampve