Visualización de Datos para el Proyecto PEI · El “diagrama de la Visualización de...

20
Visualización de Datos para el Proyecto PEI Víctor Pascual Cid http://www.vpascual.org @vpascual 31/07/2015 Visualización de Datos para el Proyecto PEI El siguiente documento es un resumen de lo expuesto en la sesiones de trabajo remotas realizadas conjuntamente con miembros del equipo de diseño y desarrollo del Proyecto PEI. Además, incluye una serie de recomendaciones para que el equipo pueda tomar decisiones más informadas de cara a diseñar y desarrollar visualizaciones lo más funcionales posibles para el objetivo del proyecto. El presente documento asume que el propio equipo de desarrollo del Proyecto PEI tomará las decisiones más oportunas en relación a las sugerencias expuestas, adaptándolas a las necesidades y al alcance del proyecto. Qué es la Visualización de Datos El diagrama de la Visualización de Datos Tipos de análisis y visualizaciones Análisis temporal Gráfico de barras Gráfico de líneas Análisis de proporciones y ranking Pie chart Treemap Análisis de relaciones Scatter plot Análisis multidimensionales Radar chart Coordenadas paralelas Heatmap Análisis espaciales Consideraciones generales Cómo asistir al usuario en la realización de visualizaciones RAW Tableau Sofware Recomendaciones generales a seguir Lecturas recomendadas 1

Transcript of Visualización de Datos para el Proyecto PEI · El “diagrama de la Visualización de...

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Visualización de Datos para el Proyecto PEI  

El siguiente documento es un resumen de lo expuesto en la sesiones de trabajo remotas                             realizadas conjuntamente con miembros del equipo de diseño y desarrollo del Proyecto PEI.                         Además, incluye una serie de recomendaciones para que el equipo pueda tomar decisiones                         más informadas de cara a diseñar y desarrollar visualizaciones lo más funcionales posibles                         para el objetivo del proyecto. 

El presente documento asume que el propio equipo de desarrollo del Proyecto PEI tomará las                             decisiones más oportunas en relación a las sugerencias expuestas, adaptándolas a las                       necesidades y al alcance del proyecto.   

Qué es la Visualización de Datos El diagrama de la Visualización de Datos 

Tipos de análisis y visualizaciones Análisis temporal 

Gráfico de barras Gráfico de líneas 

Análisis de proporciones y ranking Pie chart Treemap 

Análisis de relaciones Scatter plot 

Análisis multidimensionales Radar chart Coordenadas paralelas Heatmap 

Análisis espaciales Consideraciones generales Cómo asistir al usuario en la realización de visualizaciones 

RAW Tableau Sofware Recomendaciones generales a seguir 

Lecturas recomendadas   

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Qué es la Visualización de Datos La Visualización de Datos o Visualización de Información es la disciplina que se encarga de                             generar representaciones visuales de datos abstractos. En general, se puede definir como:  

“The use of computer-supported, interactive, visual representations  of abstract data to amplify cognition” 

Card et al. 1999  

La diferencias entre “Visualización de Datos” y “Visualización de Información” son mínimas,                       pero en cierto modo pueden llegar a ser importantes. Como se podrá observar, la diferencia                             reside en los conceptos de “dato” e “información”. Mientras los “datos” son esencialmente                         números o incluso texto sin procesar ni manipular; la información es aquello que se obtiene al                               hacerlo. Además, podemos decir que la información es básicamente datos estructurados y                       puestos en contexto . 1

 Por lo que se refiere a la definición de visualización, lo más importante es tener en cuenta que,                                   generalmente, nos encontramos con datos abstractos, que no tienen forma. Representarlos                     visualmente mediante metàforas visuales ayuda a nuestro cerebro a pensar más rápido y                         mejor, favoreciendo la generación de conocimiento. 

El diagrama de la Visualización de Datos 

 El  diagrama de la Visualización  de Información por J.C. Dürsteler y Y. Engelhardt (adaptado por  J. Pérez )  

1 El artículo “Difference between data and information tiene una buena descripción de estos dos                             concpetos. https://blog.udemy.com/difference-between-data-and-information/ 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

  

El “ diagrama de la Visualización de Información ” creado por J.C. Dürsteler y Y. Engelhardt en                             el año 2000 explica el proceso que se debe seguir cuando se visualizan datos. En él podemos                                 ver como el conjunto de datos inicial debe de ser filtrado y procesado para poder llegar a tener                                   información, algo que será más útil para realizar nuestro análisis. Esta información deberá ser                           representada en imágenes, en nuestro caso, eminentemente interactivas, que serán                   consumidas por un usuario influido por su percepción e interpretación. Estos dos factores se                           ven afectados por el esquema notacional del mismo. Esto significa que no todo el mundo                             interpretará del mismo modo todas las representaciones visuales, sino que la experiencia, el                         contexto y la cultura adquirida a lo largo del tiempo nos ayudarán a entender mejor algunas de                                 ellas. Del mismo modo, es siempre muy importante tener en cuenta que el diseñador de la                               visualización puede tener otro esquema notacional distinto a los usuarios finales. Para ello, es                           muy importante poder definir el perfil del usuario consumidor de las visualizaciones para así                           poderlo estudiar y desarrollar soluciones que se adapten a su contexto y cultura. Finalmente, el diagrama muestra cómo el usuario puede influir en cada uno de estos pasos                             mediante la interacción. Es decir, hay que tener en cuenta que en algunos sistemas el usuario                               podrá decidir que representación visual quiere aplicar a los dos, o como limpiar y procesarlos                             para conseguir información. 

Tipos de análisis y visualizaciones El Proyecto PEI tiene como objetivo permitir la exploración visual de cualquier dataset, ya sea                             proporcionado por el propio sistema, o proporcionado por el mismo usuario. A continuación se                           definirán los principales tipos de análisis visuales que existen, enfatizando aquellas                     visualizaciones más importantes a tener en cuenta. 

Análisis temporal En este tipo de análisis se busca entender y descubrir los patrones que pueden tener los datos                                 en el tiempo como por ejemplo ver si una métrica en cuestión crece o decrece, o si existen                                   ciclos estacionales.  

Existen dos tipos principales de visualizaciones para poder hacer este tipo de análisis. Elegir                           una u otra dependerá básicamente del volumen de datos que se disponga y de la extensión                               temporal que estos contemplen. 

Gráfico de barras Éste uno de los tipos de representaciones visuales más comunes. Se usa para comparar                           distintos valores y es muy eficaz puesto que el ojo humano es muy bueno comparando alturas. 

En este caso, la disposición de las barras se deberá hacer de izquierda a derecha, que es                                 como convencionalmente se representa la evolución del tiempo. 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Generalmente utilizaremos este tipo de gráfico cuando dispongamos de datos discretos. Los                       datos temporales pueden ser categorizados entre discretos o continuos. En el caso de los                           discretos, los valores que se disponen se refieren a bloques específicos de tiempo, y existe un                               número finito de valores. 

 Evolución temporal del número de hot dogs comidos en un concurso en USA. Fuente:  Visualize This, Nathan Yau 

 Consejo: Permitir a los usuarios marcar o colorear barras, como en éste último gráfico, puede                             dar un gran valor añadido a la herramienta puesto que permite remarcar valores relevantes en el                               dataset  Consejo: El gráfico de barras es una muy buena visualización para comparar todo tipo de                             valores (temporales o no). En el caso de los valores no temporales, valdrá la pena hacer el                                 gráfico horizontal, en lugar de vertical para permitir una mejor legibilidad de los nombres                           correspondientes a cada barra 

 Gráfico de barras horizontal. Permite leer y posicionar mejor las etiquetas de cada barra. Fuente: 

https://fluidsurveys.com/university/use-different-chart-types/  

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Gráfico de líneas En el caso del análisis de datos, generalmente no se dispone de datos continuos puesto que,                               nuestro volumen de datos siempre es finito (a no ser que dispongamos de un modelo que nos                                 dé una estimación de un valor en cualquier punto en el tiempo). Sin embargo, consideraremos                             que disponemos de datos continuos cuando tenemos un nivel de granularidad muy grande.                         Por ejemplo, cuando tenemos el número de visitas a nuestro sitio web a nivel de hora. Al                                 acumular estos valores a lo largo de muchos días, podremos considerar que disponemos de                           datos continuos.  

El mejor gráfico para representar esta continuidad es el gráfico de líneas. 

 

Gráfico de lineas de la tasa de desempleo en USA. Fuente:  Visualize This, Nathan Yau 

Es importante ver la principal diferencia que existe entre el gráfico de barras y el gráfico de                                 líneas: mientras el primero indica claramente que los datos temporales que se disponen                         corresponden a un bloque en el tiempo (por ejemplo, cuando tenemos datos de un día en                               total, pero no sabemos lo que ha pasado en cada hora); el segundo indica continuidad, de                               modo que cualquier punto de la línea tiene una interpretación en un momento concreto en el                               tiempo. 

Finalmente, también es muy importante, ser consistente del “aspect ratio” de nuestros                       gráficos. El “aspect ratio” es la proporción que existe entre la anchura y la altura del gráfico.                                 Aunque no existe evidencias científicas que nos digan cual es el mejor “aspect ratio” en cada                               caso, será importante buscar tamaños que no allanen demasiado nuestro gráfico (ocultando                       

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

posibles outliers en la tendencia) o que no lo exageren (dando la sensación que pequeños                             outliers son mucho mayores de lo que son). 

 

Aspect ratio con más altura, marca mucho más los picos dando la sensación que los cambios son más bruscos 

 

Aspect ratio con más anchura, allana los picos dando la sensación que los cambios han sido menores 

 

Análisis de proporciones y ranking Dos de los tipos de análisis más utilizados son la comparación de un conjunto de valores que                                 forman parte de un todo y su ranking u ordenación por valor. Por ejemplo, en el dataset de                                   Incidencia Delictiva , sería deseable ver qué porcentaje del total ocupa cada tipología de delito                           (delitos patrimoniales, homicidios, lesiones, …), y cual de ellas es la más importante. 

Pie chart Los pie charts o gráficos de sectores son una de las visualizaciones más clásicas para este                               tipo de análisis. Sin embargo, presentan una serie de problemas que los hacen ser poco útiles                               en la mayoría de los casos. Y es que los pie charts se leen comparando los ángulos y el área                                       de cada sector entre sí, mientras que el ojo humano no está preparado para esta tarea. Dados                                 los problemas perceptuales que estos presentan, se recomienda utilizarlos únicamente cuando                     

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

se disponga de menos de 7 valores, y cuando sea muy importante poder comparar sumas de                               valores. Por ejemplo, en el siguiente pie chart, podemos ver como el valor de “Dogs” es mayor                                 que la suma de “other pets” y “Fish”.   

 El valor de dogs es mayor que “Fish” y “Other pets” sumados 

 La alternativa a este tipo de gráficos es el bar chart. Éste, por defecto, no tiene la capacidad                                   de comprar la suma de valores. Sin embargo, a nivel de percepción es mucho mejor y nos                                 ayuda a poder ordenar los valores fácilmente, además de ayudarnos a descubrir las                         diferencias más sutiles. 

 

               Los mismos valores representados con un pie chart y un bar chart. El pie chart muestra que los cinco valores son 

muy parecidos, pero el bar chart es mejor para ver mejor las diferencias. Fuente:  “Understanding Pie charts”  Consejo: En general, no se recomienda la implementación de pie charts para el Proyecto PEI                             dado el gran número de problemas que presentan, y dado que solo funcionan bien en casos                               muy concretos  

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Treemap Otra alternativa para poder visualizar proporciones, o valores que forman parte de un todo, es                             el Treemap. Este tipo de representación visual es cada vez más común, y tiene la potencia de                                 poder representar jerarquías utilizando el máximo de espacio disponible para el gráfico. La                         siguiente imagen muestra un ejemplo de jerarquía, y como ésta se representa mediante la                           técnica del treemap. 

 Ejemplo de jerarquía y de su representación en forma de Treemap 

 Como se puede observar en la siguiente imagen, el treemap permite tener un buen “overview”                             de un conjunto de datos. En este caso concreto, se está utilizando el tamaño de los                               rectángulos para representar el volumen de facturación de una empresa, y el color para indicar                             si sus acciones están subiendo o bajando. La potencia del Treemap es que visualmente                           permite agregar valores, de modo que, a simple vista, también podemos ver que sector tiene                             un volumen de facturación más alto (Oil & Gas y Financials parecen los sectores con mayor                               volumen en la imagen) y qué sector está aumentando sus ganancias (según la imagen, Oil &                               Gas tiene un color más verde, mientras que hay una empresa con una gran subida en sus                                 acciones en el sector Tecnológico). 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

 Treemap de la desaparecida web SmartMoney.com con el valor de distintas empresas en la bolsa. Fuente: imagen 

extraida del antiguo Map of the Market the SmartMoney.com  Es muy importante tener en cuenta, una vez más, que el Treemap nos “obliga” a comprar                               valores mediante la comparación de rectángulos. Ésta es una tarea difícil para nuestros                         sistemas visual y cognitivo, con lo que esta representación no es la más adecuada si                             necesitamos identificar muy fácilmente las diferencias entre los valores. Por ejemplo, en la                         imagen, resulta difícil saber si el tamaño de “Oil & Gas” es mayor o menor que “Financials”. Sin                                   embargo, el hecho de poder agrupar datos y de disponer de dos atributos visuales (tamaño y                               color) para representar los datos, da una gran flexibilidad que le hace ser una muy buena                               herramienta para visualizar jerarquías. 

Análisis de relaciones A menudo lo que se desea de un dataset es descubrir qué relaciones existen entre dos o más                                   variables que lo forman. Para ello, una de las mejores representaciones visuales que existen es                             el gráfico de dispersión o scatter plot.  

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Scatter plot Éste tipo de gráfico es muy fácil de entender y ayuda al usuario a detectar muy fácilmente la                                   existencia de correlaciones. En el siguiente ejemplo, es muy interesante ver como ambos ejes                           disponen de un “combo box” de selección que permite seleccionar qué variables representar. 

 GDP y esperanza de vida de los países en el mundo. Fuente:  Gapminder.org 

 Además de las dos dimensiones correspondientes a sus dos ejes, los gráficos de dispersión                           permiten utilizar el tamaño y el color para identificar valores de otras métricas. Es muy                             importante tener en cuenta que el mapping entre valores y tamaño del círculo se debe realizar                               a través del cálculo del área, y no a través del cálculo del radio. Más concretamente,                               supongamos que queremos representar los valores 50 y 100 con dos círculos. A menudo, de                             manera intuitiva, da la sensación que si al primero le damos un tamaño de radio X para                                 representar el círculo, al segundo le deberemos asignar un radio de 2X. Sin embargo, dada la                               fórmula del área de un círculo (A = � * radio 2 ), esta será una práctica incorrecta puesto que el                                     área del segundo círculo será cuatro veces mayor que la del primero.  

10 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

 El mapping entre valor y tamaño del círculo debe hacerse a través del área (imágen izquierda), y no del radio 

(imagen derecha)  Consejo: a veces un outlier muy grande en el dataset hace que el resto de valores en un                                   gráfico de dispersión queden muy juntos, dificultando la comprensión de los valores. Las                         escalas logarítmicas son un recurso para evitar este problema. Sin embargo, no son fáciles de                             entender para todo el mundo. Se recomienda la lectura del artículo “ When Should I Use                             Logarithmic Scales on my Graphs and Charts ” 

Análisis multidimensionales Con el gráfico de dispersión hemos visto como podemos ver relaciones entre dos variables o                             dimensiones de un dataset, especialmente en aquellas dimensiones que colocaremos en los                       ejes X e Y. Sin embargo, a veces lo que queremos es poder ver relaciones entre más de dos                                     dimensiones. Aunque este es, a menudo, un problema complejo, existen algunas soluciones                       fácilmente aplicables.  

Radar chart El radar chart sitúa cada dimensión en un eje con coordenadas polares. Cada eje tendrá su                               valores máximos y mínimos, y un registro del dataset se representará uniendo de manera                           circular cada uno de sus valores en las dimensiones. 

  

11 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

A pesar de ser una de las visualizaciones más conocidas para representar datos                         multidimensionales, el radar chart presenta una amplia serie de problemas. El más importante                         y relevante es su difícil legibilidad cuando se disponen de más de 5 o 6 registros a visualizar y                                     más de 4 o 5 dimensiones.   Consejo: En general, se desaconseja el uso de los radar charts . 

Coordenadas paralelas Otra alternativa más compleja a nivel visual, son las coordenadas paralelas.  

 Coordenadas paralelas de universidades. Fuente: Imagen de elaboración propia 

 Este tipo de representación es parecido al radar chart, pero utilizando un único plano donde                             los se sitúa un eje por cada métrica. De este modo, cada uno de nuestros registros se                                 representará con una única línea que uniremos a través del valor que tiene en cada eje o                                 dimensión. Las coordenadas paralelas ayudan a descubrir patrones, pero su verdadera                     potencia radica cuando se utilizan como sistema de filtraje automático como se puede ver en                             este ejemplo . Arrastrando el mouse en cualquier eje podremos seleccionar, de forma                       totalmente visual aquellos elementos que están en un un rango concreto de una dimensión.  

Heatmap Los heatmaps o mapas de calor son tablas donde sus celdas están coloreadas en base al                               valor que albergan.  En la siguiente imagen con un dataset de jugadores de la NBA, podemos observar lo fácil que                                 es encontrar outliers gracias a las diferencias de color.  

12 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

Hay que tener en cuenta que, para maximizar el potencial de un heatmap y poder comparar las                                 distintas dimensiones entre sí, será necesario normalizarlas. Una opción podría ser convertir                       cada celda en el % que supone de su propia columna, o incluso “centrando” cada cada valor                                 en la media de la columna utilizando técnicas como el  z-score . 

 Heatmap que muestra distintas métricas de jugadores de baloncesto. Fuente:  Flowingdata.com 

 A pesar de su sencillez, los heatmap siguen presentando problemas para poder descubrir                         visualmente dos o más filas que tienen aproximadamente los mismos valores. Para                       

13 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

proporcionar heatmaps más útiles, es interesante utilizar algoritmos de clustering que nos                       ayuden a agrupar aquellas filas más similares, garantizando así que la propia visualización                         trasladará ese concepto. 

 Los mismos datos representados en dos heatmaps. El segundo tiene las filas y las columnas ordenadas en función del resultado de un algoritmo de clustering. Gracias a eso se consiguen patrones de color que ayuden a entender y 

descubrir patrones en los datos. Fuente: “ Points of View: heatmaps ”  

Consejo: Dada las grandes limitaciones de los radar charts, y la complejidad de las                           coordenadas paralelas, se recomienda proporcionar heatmaps a los usuarios del Proyecto PEI                       puesto que su versatilidad y facilidad de uso es mucho mayor. 

Análisis espaciales Los mapas son el mejor sistema visual para hacer análisis de datos espaciales. Parte de la                               importancia del mapeo de valores en un mapa depende de la proyección que se utilice. Aquí                               se pueden ver las más conocidas. Sin embargo, la más utilizada es la de  Mercator .   Es muy importante tener en cuenta que, el mero hecho de disponer de datos geográficos no                               significa que la mejor representación a utilizar sea un mapa. Por ejemplo, en el caso de los                                 choropleths , el distinto tamaño de los países crea, claramente, diferencias notables de por sí                           en la percepción visual. Aunque se le otorgue un color muy prominente, si un país o estado es                                   muy pequeño, tendrá muy poca relevancia en un mapa. Este problema es ya muy conocido, e                               incluso se han hecho propuestas que deforman el tamaño de los países en base al valor que                                 se representan. Sin embargo, estas soluciones son más atractivas que no analíticas. 

14 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

.  Mapa del mundo deformado en base a la población de cada país. Imagen extraida de  http://www.worldmapper.org/  Consejo: es muy importante trasladar a los usuarios que un mapa “solo” es útil cuando se                               quieren descubrir patrones geográficos en los datos 

Consideraciones generales A continuación se lista un conjunto de recomendaciones generales a tener en cuenta:  

● Añadir tooltips: los tooltips son “burbujas” de información que aparecen cuando el                       usuario señala un artefacto visual. Éstos son de gran utilidad para permitir al usuario                           ver valores concretos sin que estos “ensucien” el espacio del gráfico 

  

● Añadir etiquetas: a parte de los tooltips, sería deseable que el usuario pueda añadir                           etiquetas que apunten a zonas específicas de una visualización. Esto ayuda mucho a                         mejorar la legibilidad del gráfico y a entender qué cree el propio autor más interesante                             de los datos.  

15 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

 Consumo de agua en Edmonton. En este gráfico, las etiquetas nos ayudan a entender la historia que se esconde 

tras los datos  

● Evitar el uso de gráficos en 3D: a pesar de que suelen ser espectaculares, los gráficos                               en 3D generan grandes problemas de comprensión que se derivan de la perspectiva,                         además de la oclusión que se genera entre objetos que tienen distinta profundidad. En                           general, jamás se deben utilizar gráficos en 3D cuando se plasman en pantallas de dos                             dimensiones 

 ● Dar opciones informadas, minimizar los errores: en general, el Proyecto PEI tiene una                         

oportunidad única a nivel didáctico de enseñar a aquellos usuarios menos expertos el                         correcto uso de los datos. Es por ello que, además de proporcionar visualizaciones que                           formalmente sigan convenciones básicas comentadas en este documento, éstas deben                   intentar minimizar el número de errores. Por ejemplo, si se desarrolla un scatter plot                           con combo boxes para seleccionar qué métrica va en el eje de las X, y cual en el de las                                       Y, al estilo de Gapminder.org , estos combo boxes solo deberían mostrar aquellos                       valores numéricos del dataset, excluyendo aquellos que contengan texto o fechas 

 ● Utilización correcta del color: existe una extensa literatura alrededor del color. El                       

concepto principal a tener en cuenta es que existen dos tipos principales de escalas de                             color:  

○ la numérica, para representar valores numéricos. Ésta está generalmente                 formada por un único color, la saturación del cual cambia en función del valor a                             representar. En el caso de disponer de números centrados en un valor, se                         utilizará un color para aquellos valores por debajo, y otro color para los valores                           por encima. A esto se le llama escala divergente 

16 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

 ● la categórica, para representar distintos grupos entre sí. Para ello se deberán buscar                         

colores que sean lo suficientemente distintos entre sí para poder distinguir los                       elementos que forman parte de cada uno de los grupos.  

 Consejo: el color es un elemento muy importante en las visualizaciones. Se recomienda utilizar                           las escalas de color proporcionadas por D3.js . Se recomienda también la lectura del artículo                           “ Choosing colors for data visualization ”.  

Cómo asistir al usuario en la realización de visualizaciones Un punto clave del Proyecto PEI es cómo permitir que los usuarios visualicen fácilmente y, lo                               más importante, de manera correcta sus datos. Para ello será importante tener un sistema de                             navegación que les ayude en esta tarea.  En este caso, nos fijaremos en dos sistemas ya existentes: 

RAW Ésta es una herramienta online que permite a cualquier persona visualizar su dataset utilizando                           visualizaciones de un catálogo que pretende ir más allá de las representaciones más típicas.                           Es el sistema de visualización público más parecido al Proyecto PEI.   RAW proporciona tres pasos fundamentales:  

- Carga de datos: en este caso, la única opción que da la herramienta es pegar un                               archivo en formato CSV en un text box 

 - Selecciona el tipo de metáfora visual a utilizar: en este caso, se proporciona un listado                             

de visualizaciones, cada una de ellas con una descripción de como funciona  

- Mapea tus dimensiones: en base a las necesidades de la visualización seleccionada, el                         sistema permite arrastrar las distintas dimensiones que tiene el dataset utilizado a cada                         uno de los atributos visuales que dispone la representación 

 En general, RAW es una herramienta interesante cuyo principal objetivo es el de permitir a los                               usuarios realizar visualizaciones que van más allá de lo convencional, fácilmente realizables                       con softwares como Microsoft Excel o Google Sheets.   Los pasos proporcionados son adecuados. Sin embargo, presenta una problemática principal,                     y es que los usuarios no están guiado durante el proceso, de modo que es difícil saber qué                                   

17 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

representación es la más adecuada para un dataset o tarea determinada. Otro problema                         importante es que, para cambiar de visualización, el usuario debe repetir todo el proceso.  

Tableau Sofware  Esta herramienta es una de las más populares hoy en día. Aunque va mucho más allá del                                 alcance del Proyecto PEI, tiene algunas cosas interesantes que se podrían considerar para                         complementar aquellas debilidades comentadas en el sistema RAW.  Tableau proporciona el siguiente flujo de trabajo:  

- Carga de datos: En su versión gratuita, Tableau facilita acceso a ficheros CSV y Excel.                             Además, en su versión profesional, proporciona una larga lista de conectores a todo                         tipo de bases de datos y sistemas de análisis 

 - Selecciona las métricas y dimensiones a visualizar: Tableau sigue un enfoque                     

interesante. Divide las columnas de nuestro dataset en métricas (valores numéricos) y                       dimensiones , que son aquellas columnas que ofrecen una “descripción” de los datos.                       Por ejemplo, si tenemos un dataset con nuestros productos, la columna con el nombre                           del producto será una dimensión , y la columna con el precio será una métrica . La                             categoría a la que pertenece el producto será también una dimensión . Además, las                         métricas podrán ser consideradas como discretas o continuas . Estas dos distinciones                     ayudan al sistema a crear un amplio abanico de visualizaciones basándose en su paleta                           de representaciones principal 

 - Selecciona el tipo de visualización: es muy interesante remarcar que Tableau, por                       

defecto, intento visualizar cualquier métrica o dimensión seleccionada. Eso es porque                     incorpora un sistema muy complejo que decide, en base a los datos proporcionados,                         cuál es la mejor visualización a utilizar. Mientras esta es una tarea muy compleja, si                             que es muy interesante ver el catálogo de visualizaciones proporcionado en la misma                         herramienta y, sobretodo, los requerimientos a nivel de dimensiones y métricas que                       tiene cada una.  

 Como se puede observar en la siguiente imagen, una vez se dispone de un dataset, el sistema                                 puede inferir las visualizaciones que son posibles, y las que no. Por ejemplo, si nuestro dataset                               no contiene datos geográficos, no activará la posibilidad de utilizar un mapa o, si no                             disponemos de datos temporales, no se podrá utilizar el linechart. Esta característica es muy                           útil ayudar a los usuarios no expertos a no generar malas visualizaciones que afecten en el                               proceso de interpretación de los datos. 

18 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

 El catálogo de visualizacines en Tableau está siempre accesible en la interfaz de la herramienta, permitiendo 

cambiar de gráfico en cualquier momento  

Recomendaciones generales a seguir Vistas estas dos herramientas, parece claro que para el Proyecto PEI lo ideal será desarrollar                             algo parecido a RAW, pero aprendiendo de las buenas prácticas que dispone Tableau. Por                           ejemplo la distinción entre métricas y dimensione y la identificación de cuantas de ellas son                             necesarias en cada visualización ayuda a generar, de manera relativamente fácil,                     recomendaciones de qué visualizaciones son las más adecuadas. Además, permitir al usuario                       cambiar de visualización, haciendo que el sistema recoloque las métricas donde toque permite                         que el usuario pueda ver a simple vista cual es el mejor resultado visual para sus datos.  El primer enfoque propuesta para el Sistema PEI es el de mostrar una previsualización de                             como se vería cada una de las representaciones visuales con el dataset que el usuario está                               trabajando. De este modo, unos posibles pasos a considerar podrían ser:  

1. El usuario carga un dataset (preferiblemente un CSV o un xls) al sistema ○ Aquí el sistema debería ocultar aquellas visualizaciones que seguro no serán                     

posibles con los datos que se disponen  

2. El usuario selecciona las métricas que le interesan 

19 

 Visualización de Datos para el Proyecto PEI  Víctor Pascual Cid 

http://www.vpascual.org @vpascual 

31/07/2015 

 

○ El sistema deberá, una vez más, ocultar aquellas visualizaciones que no serán                       posibles con las columnas seleccionadas 

○ El sistema muestra una previsualización de cada representación con los datos                     seleccionados 

 3. El usuario puede, en tiempo real, cambiar el gráfico que quiere visualizar 

 Como se puede observar, esta manera de trabajar es completamente distinta al                       funcionamiento de RAW. Sin embargo, es posible que la complejidad que implica decidir                         automáticamente si una variable es una dimensión o una métrica , haga que este sistema de                             recomendaciones no sea factible. En este caso, un segundo enfoque del sistema se basaría en                             ofrecer amplias y claras instrucciones de como funciona cada visualización, y en qué casos se                             debe utilizar. En este caso, sería interesante también mostrar ejemplos com datasets del                         propio Proyecto PEI para que el usuario tenga una mejor idea de como maximizar la                             comprensión de la representación visual que está a punta de generar.  En ambos enfoques, el Proyecto PEI puede convertirse en una herramienta que ayude a los                             usuarios a hacer visualizaciones correctas. 

Lecturas recomendadas Automating the Design of Graphical Presentations of Relational Information , Jock D. Mackinlay.                       ACM Transactions on Graphics, 5(2, April) Polaris: A System for Query, Analysis and Visualization of Multi-dimensional Relational                     Databases , C. Stole & P. Hanrahan Dynamic Workload Driven Data Integration in Tableau , SIGMOD ‘12, K. Morton et al. Design for Informtion , I. Meirelles, Rockport Publishers, 2013 Now You See It , S. Few, Analytics Press, 2009 

20