Extracción de datos desde información en la web

16
DDJ Extracción de datos # Aprende a trabajar con datos en la web Aprende a trabajar con datos en la web By @fontanon By @fontanon

description

"Los datos son al periodismo de la era internet lo que la cámara al periodismo de la era mass-media". Esta presentación, orientada a periodistas, mostrará técnicas para conseguir trabajar con datos reutilizables y no-reutilizables. Presentación realizada para el evento X Blogs y Medios #ByMX http://blogsymediosgranada.blogspot.com.es

Transcript of Extracción de datos desde información en la web

Page 1: Extracción de datos desde información en la web

DDJ Extracción de datos#Aprende a trabajar con datos en la webAprende a trabajar con datos en la web

By @fontanonBy @fontanon

Page 2: Extracción de datos desde información en la web

Periodimo de datos DDJ#Periodimo de datos DDJ#Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datos

ComparativasComparativas

Exploraci n óy

Agregados

Exploraci n óy

Agregados

An lisis de ádatos

An lisis de ádatos

Por ProporcionesPor Proporcionesinternas/externasinternas/externasTabla Tabla RankingsRankings

La universidad administra el doble de becas de familia La universidad administra el doble de becas de familia numerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno.

Series temporalesSeries temporalespor categoríaspor categorías

Las becas universitarias a familias numerosas han Las becas universitarias a familias numerosas han descandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñ

Correlación de variablesCorrelación de variablesModelado predictivoModelado predictivo

Las becas universitarias a familias numerosas llegar áLas becas universitarias a familias numerosas llegar áa un 10% del importe actual en 2015.a un 10% del importe actual en 2015.

Page 3: Extracción de datos desde información en la web

EL métodoEL método

Presenta resultadosPresenta resultados

Interpreta resultadosInterpreta resultados

Obtenci n óy

Limpieza

Obtenci n óy

Limpieza

An lisisáAn lisisá

La web como fuente de datosLa web como fuente de datos

Formula la pregunta correcta

Formula la pregunta correcta

Identifica fuentes de

datos

Identifica fuentes de

datos

Page 4: Extracción de datos desde información en la web

EL métodoEL método

Formula la pregunta correcta

Formula la pregunta correcta

Presenta resultadosPresenta resultados

Identifica fuentes de

datos

Identifica fuentes de

datos

Interpreta resultadosInterpreta resultados

Obtenci n óy

Limpieza

Obtenci n óy

Limpieza

An lisisáAn lisisá

La web como fuente de datosLa web como fuente de datos

Nos centra

remos en .

..

Nos centra

remos en .

..

Page 5: Extracción de datos desde información en la web

Objetivo: Un Objetivo: Un datasetdataset limpio limpioCada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó

Page 6: Extracción de datos desde información en la web

FormatosFormatosHacen f cil o dif cil la obtenci n de informaci ná í ó óHacen f cil o dif cil la obtenci n de informaci ná í ó ó

ReutilizableReutilizable

Hojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ...Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ...

Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaá

No reutilizable

No reutilizable

Información contenida en páginas webInformación contenida en páginas webDocumentos: PDF, Imágenes ...Documentos: PDF, Imágenes ...

Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó

Page 7: Extracción de datos desde información en la web

RecomendacionesRecomendaciones … … a tener en cuenta antes que ponerte a trabajar:a tener en cuenta antes que ponerte a trabajar:

Solicitud de acceso a la informaci nó

Solicitud de acceso a la informaci nó

Útil para obtener información públicaÚtil para obtener información pública3 meses para obtener respuesta (ley 30/1992)3 meses para obtener respuesta (ley 30/1992)Existe posibilidad de silencio administrativoExiste posibilidad de silencio administrativo

Necesitamos una ley de transparencia ya¡ !Necesitamos una ley de transparencia ya¡ !Puedes apoyarte en tuderechoasaber.esPuedes apoyarte en tuderechoasaber.es

Licencia de uso

Licencia de uso

Dominio públicoDominio públicoAlgunos derechos reservadosAlgunos derechos reservadosTodos los derechos reservadosTodos los derechos reservados

Aseg rate de informarte y cumplir licencia úAseg rate de informarte y cumplir licencia úantes que reutilizar datos.antes que reutilizar datos.

Page 8: Extracción de datos desde información en la web

1

reutilizables#reutilizables#Un poco de limpieza y a trabajar

Page 9: Extracción de datos desde información en la web

OpenRefineOpenRefineLimpieza profesionalLimpieza profesional al alcance de todos :) al alcance de todos :)

Un poco de magia

Un poco de magia

Algoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering))Enriquecimiento con fuentes externasEnriquecimiento con fuentes externas

No siempre son necesarias, pero cuando lo No siempre son necesarias, pero cuando lo son OpenRefine nos ¡son OpenRefine nos ¡ resuelve la vidaresuelve la vida!!

Funciones b sicasá

Funciones b sicasá

Abre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizablesBúsquedas Búsquedas facetadasfacetadasUnifica/divide columnasUnifica/divide columnasRellena celdas en base a patronesRellena celdas en base a patrones

Dominar estas t cnicas solucionan el 80% de éDominar estas t cnicas solucionan el 80% de élas necesidades de limpieza de datoslas necesidades de limpieza de datos

Page 10: Extracción de datos desde información en la web

Limpieza profesionalLimpieza profesional al alcance de todos :) al alcance de todos :)

Veamos un ejemplo ...Veamos un ejemplo ...

OpenRefineOpenRefine

Los papeles de B rcenasá

Page 11: Extracción de datos desde información en la web

2

No reutilizables#No reutilizables#Va a tocar hacer scrapping

Page 12: Extracción de datos desde información en la web

Ficheros PDFsFicheros PDFsNo siempre es posibleNo siempre es posible

CometDocsConvierte de PDF a varios formatos

CometDocsConvierte de PDF a varios formatos

Google DriveSoporta conversi n ó

OCR desde PDFs

Google DriveSoporta conversi n ó

OCR desde PDFs

Recomendamos:Recomendamos:

Page 13: Extracción de datos desde información en la web

Ficheros PDFsFicheros PDFsNo siempre es posibleNo siempre es posible

Veamos un ejemplo ...Veamos un ejemplo ...

Presus Univ. Granada

Page 14: Extracción de datos desde información en la web

Información en páginas webInformación en páginas webDeber a ser siempre posibleíDeber a ser siempre posibleí

Multip ginaáMultip ginaá

Ruby NokogiriRuby NokogiriPython BeautifulScriptPython BeautifulScript

Consulte a su inform tico áConsulte a su inform tico á de cabecerade cabecera. . Busque ayuda en ScraperWiki.Busque ayuda en ScraperWiki.

Una sola p ginaá

Una sola p ginaá

¿Funciona Copiar / Pegar?¿Funciona Copiar / Pegar?Scraping con Google SpreadsheetScraping con Google SpreadsheetPlugin Scraper de Google ChromePlugin Scraper de Google ChromeDapperDapper

ScrapingScraping sin programar. Limitado a sin programar. Limitado a informaci n contenida en una sola p gina.ó áinformaci n contenida en una sola p gina.ó á

Page 15: Extracción de datos desde información en la web

Información en páginas webInformación en páginas webDeber a ser siempre posibleíDeber a ser siempre posibleí

Veamos un ejemplo ...Veamos un ejemplo ...

US Bank Failures

Page 16: Extracción de datos desde información en la web

Por: J. Félix OntañónPor: J. Félix Ontañón@fontanon@fontanon

S guenosí : http://openkratio.org

Los datos son al periodismo de la era internet lo

que la c mara al áperiodismo de la era mass-media

Para más información consultar:

DDJ Extracción de datos#DDJ Extracción de datos#Aprende a trabajar con datos en la webAprende a trabajar con datos en la web