OpenRefineLimpieza profesional de datosLimpieza profesional de datos
By @fontanonBy @fontanon
OpenRefineOpenRefineLimpieza profesionalLimpieza profesional al alcance de todos :) al alcance de todos :)
Un poco de magia
Un poco de magia
Algoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering))Enriquecimiento con fuentes externasEnriquecimiento con fuentes externas
No siempre son necesarias, pero cuando lo No siempre son necesarias, pero cuando lo son OpenRefine nos ¡son OpenRefine nos ¡ resuelve la vidaresuelve la vida!!
Funciones b sicasá
Funciones b sicasá
Abre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizablesBúsquedas Búsquedas facetadasfacetadasUnifica/divide columnasUnifica/divide columnasRellena celdas en base a patronesRellena celdas en base a patrones
Dominar estas t cnicas solucionan el 80% de éDominar estas t cnicas solucionan el 80% de élas necesidades de limpieza de datoslas necesidades de limpieza de datos
Objetivo: Un Objetivo: Un datasetdataset limpio limpioCada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó
Datasets ¿para qué?Datasets ¿para qué?Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datos
ComparativasComparativas
Exploraci n óy
Agregados
Exploraci n óy
Agregados
An lisis de ádatos
An lisis de ádatos
Por ProporcionesPor Proporcionesinternas/externasinternas/externasTabla Tabla RankingsRankings
La universidad administra el doble de becas de familia La universidad administra el doble de becas de familia numerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno.
Series temporalesSeries temporalespor categoríaspor categorías
Las becas universitarias a familias numerosas han Las becas universitarias a familias numerosas han descandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñ
Correlación de variablesCorrelación de variablesModelado predictivoModelado predictivo
Las becas universitarias a familias numerosas llegar áLas becas universitarias a familias numerosas llegar áa un 10% del importe actual en 2015.a un 10% del importe actual en 2015.
EL métodoEL método
Presenta resultadosPresenta resultados
Interpreta resultadosInterpreta resultados
Obtenci n óy
Limpieza
Obtenci n óy
Limpieza
An lisisáAn lisisá
La web como fuente de datosLa web como fuente de datos
Formula la pregunta correcta
Formula la pregunta correcta
Identifica fuentes de
datos
Identifica fuentes de
datos
EL métodoEL método
Formula la pregunta correcta
Formula la pregunta correcta
Presenta resultadosPresenta resultados
Identifica fuentes de
datos
Identifica fuentes de
datos
Interpreta resultadosInterpreta resultados
Obtenci n óy
Limpieza
Obtenci n óy
Limpieza
An lisisáAn lisisá
La web como fuente de datosLa web como fuente de datos
Nos centra
remos en .
..
Nos centra
remos en .
..
FormatosFormatosSoporta todo lo reutilizable…Soporta todo lo reutilizable…
ReutilizableReutilizable
Hojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ...Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ...
Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaá
No reutilizable
No reutilizable
Información contenida en páginas webInformación contenida en páginas webDocumentos: PDF, Imágenes ...Documentos: PDF, Imágenes ...
Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó
Ejemplo de exploraci nóEjemplo de exploraci nóPlayas MagramaPlayas Magrama
Descarga Descarga dataset original y transformaci nódataset original y transformaci nó (GitHub) (GitHub)
Ejemplo de Armonizado y ClusteringEjemplo de Armonizado y ClusteringLos Papeles de BárcenasLos Papeles de Bárcenas
Descarga Descarga dataset original y transformaci nódataset original y transformaci nó (GitHub) (GitHub)
Ejemplo de enriquecimiento sem nticoáEjemplo de enriquecimiento sem nticoáGanadores de OscarsGanadores de Oscars
Descarga Descarga dataset original y transformaci nódataset original y transformaci nó (GitHub) (GitHub)
Por: J. Félix OntañónPor: J. Félix Ontañón@fontanon@fontanon
S guenosí : http://openkratio.org
OpenRefine en tu kit de
herramientas para hacer de la
web una gran base de datos
Para más información consultar:
● OpenRefine Website
● Tutorial OpenRefine
● Linked Open Data Refine (LodRefine)●
● Using OpenRefine (ebook)
OpenRefineOpenRefineLimpieza profesional de datosLimpieza profesional de datos
Top Related