Ratos con datos I: oportunidad para mejorar el nivel básico de alfabetización gráfica

El pasado 5 de marzo participe junto a Miren Berasategi, Asier Murciego y Pablo Rey en la jornada “Ratos con datos. El reto de visualizar datos Covid-19 durante la pandemia”. Miren habló sobre la ansiedad matemática, y Pablo y Asier contaron sus experiencias obteniendo, ordenando y visualizando datos sobre la pandemia.

Por mi parte, el planteamiento que aporté (y que traigo ahora aquí en versión ligeramente extendida) es que considero que la situación actual, en la que disponemos de un flujo constante de datos en torno a la pandemia, conforma un entorno muy adecuado para ampliar el nivel básico sobre alfabetización gráfica del común de los mortales.

Los ejemplos que veremos a continuación no son técnicas nuevas que se hayan inventado o diseñado en este último año; sin embargo, hasta ahora solían usarse en entornos comunicativos más específicos (ámbito científico, de empresa…) y lo que ha traido la pandemia es que se hayan empezado a usar con más asiduidad en medios de comunicación generalistas (tradicionalmente reticentes a usar gráficos de datos en sus piezas).

¿Qué visualizamos?

Antes de crear cualquier tipo de gráfico tenemos que decidir qué datos queremos representar.

En los estados iniciales de la pandemia, la mayoría de los datos de los que se informaban solían ser cuentas de diverso tipo (número de personas infectadas, hospitalizadas, en UCI…). Generalmente, este tipo de cuentas no son difíciles de interpretar, más allá de cómo se hayan definido las variables, cómo se hayan recogido los datos, etc. —de esto hablaron largo y tendido tanto Pablo como Asier—.

Sin embargo, este tipo de indicadores ofrecen poco contexto. Por ejemplo, no es lo mismo que haya 100 personas contagiadas en una región de 1 000 habitantes, que el mismo número de casos en otra de 1 000 000 habitantes. De ahí que pronto se pasara a utilizar ratios o porcentajes, como muestra el siguiente ejemplo:

Indicadores de presión hospitalaria (Fuente: Las Provincias)

Otro problema derivado de trabajar con datos diarios consiste en que al fijarnos en las variaciones de un día para otro normalmente obtenemos más ruido (información no pertinente) que señal (información pertinente). Pablo puso algún ejemplo de gráfico de dientes de sierra (gráficos en los que el indicador sube y baja continuamente) y tal y como explicó Miren, esa forma de comunicar los datos puede generar ansiedad en el receptor («¿cómo es posible que si ayer bajamos un 5% hoy hayamos subido un 15%?»).

Para evitar el ruido e intentar detectar la señal, podemos utilizar indicadores móviles, que tienen en cuenta los datos de más de un día (y así reducir la variabilidad diaria). En este ejemplo de RTVE.es todos los indicadores son de este tipo; de hecho, el mismo indicador puede calcularse tomando en cuenta un rango de fechas distinto (por ejemplo, casos a 7 o a 14 días). Cuanto mayor sea el rango temporal, más suave será la evolución, como se puede ver en estos dos ejemplos: los datos de partida son idénticos, pero al sumarse más o menos días los saltos entre las barras se atenúan o acentúan (de hecho, si cada barra mostrara solo los casos cuantificados para el día correspondiente, los saltos entre las barras serían aún más evidentes).

Distintos indicadores de datos acumulados (Fuente: Rtve.es)

¿Cómo visualizamos?

Además de indicadores algo más elaborados que simples cuentas, los gráficos sobre la pandemia han traido también cierta familiarización con determinadas formas de mostrar los datos.

Uno de los ejemplos más evidentes es el uso de la escala logarítmica al mostrar los datos. Esta escala tenemos muchos datos en una zona muy concreta del gráfico, de tal forma que no podemos observar correctamente los patrones en los datos.

En este ejemplo de elpais.es, que permite cambiar entre la escala logarítmica y la lineal, si visualizamos los datos en escala lineal no podemos observar correctamente la evolución de los primeros días, ya que las líneas se solapan unas con otras.

Escala logarítmica (Fuente: El País)

Como ya he comentado, la web de El País permite al usuario elegir cómo quiere ver el gráfico; dado que ofrecer esta opción no es siempre posible (por ejemplo, en el caso de los gráficos en papel), en el caso de que usemos una escala logarítmica recomiendo identificarlo de la forma más evidente posible, para evitar posibles confusiones (más información sobre datos y/o escalas logarítmicas: “3.2 Nonlinear scales” en Fundamentals of Data Visualization de Claus Wilke).

Por otra parte, cada vez es más habitual encontrar gráficos en los que se ha añadido información contextual para facilitar la interpretación de los datos. El siguiente ejemplo (al igual que el de El Pais) añade unas líneas de referencia para conocer el tiempo necesario para duplicar el número de casos.

Líneas de referencia con tiempo necesario para doblar el número de infecciones (Fuente: Reuters)

Este otro ejemplo muestra un gráfico de dispoersión conectado (del que hablaremos más adelante); aunque hay una variable temporal, no está dispuesta de la forma a la que estamos acostumbrados, por lo que la línea con datos se mueve en dos dimensiones, en lugar de izquierda a derecha. Las zonas coloreadas nos ayudan a identificar rápidamente si la situación es, en términos generales, buena o mala.

Diagrama de dispersión con zonas de riesgo de Martí Català, Sergio Alonso, Enric Álvarez, Daniel López, Miquel Marchena, David Conesa, Pere-Joan Cardona y Clara Prats

Por otra parte, muchos de los gráficos sobre la pandemia tienen en cuenta su evolución, por lo que la variable temporal está casi siempre presente. Además de los gráficos más habituales, en los se representa el tiempo a lo largo del eje horizontal, se están popularizando otras formas de visualizar el paso del tiempo.

Este ejemplo de Mariluz Congosto suele recibir el nombre de dumbbell (mancuerna) porque generalmente se suelen dibujar puntos en los extremos de las líneas. Cada línea muestra datos de dos momentos temporales (semanas 4 y 5 de 2021) para distintas zonas, y si el indicador ha mejorado o empeorado (mediante el color y la cabeza de flecha).

Gráfico de tipo dumbbell de Mariluz Congosto

Este otro ejemplo, también de Mariluz Congosto, muestra un gráfico de dispersión conectado. Cada uno de los ejes muestra un indicador (media semanal de hospitalizados y de fallecidos), y se dibuja un punto (conectado con una línea) para cada momento temporal (semana del año).

Diagramas de dispersión conectados de Mariluz Congosto

Finalmente, podemos mostrar la evolución temporal a modo de mapa de calor, como en el ejemplo de Cédric Scherer. La variable temporal se muestra en el eje horizontal pero, a diferencia de los gráficos temporales de línea, el eje vertical no muestra una cifra, sino que se genera una fila para cada elemento de una variable categórica (en el ejemplo, paises del mundo). La información numérica que ofrece el eje vertical en un gráfico tradicional, pasa a estar representada por el color de cada uno de los puntos (cuadrados en este caso). Este tipo de gráfico evita los problemas de interpretación habituales en un gráfico de spaguetti.

Mapa de calor de Scherer

En un momento de su charla Miren comentó la dificultad de trabajar con gráficos en noticiarios de televisión, ya que no pueden dedicarle tiempo a explicar todos los posibles puntos de interés de un gráfico, mientras que si lo vemos impreso podemos dedicarle el tiempo necesario. Sin embargo, es bastante habitual ver gráficos en la sección sobre meteorología, por lo creo que también los medios audiovisuales pueden trabajar con este tipo de gráficos.

De hecho, me parece los gráficos con alguna variable temporal son especialmente adecuados para crear versiones animadas, ya que la propia animación también está basada en el tiempo, por lo que cognitivamente se crea una identificación instantánea.

Ahora bien, no es necesario mostrar todos los datos disponibles a diario; por ejemplo, la sección del tiempo de los informativos de ETB suele mostrar la predicción de temperatura a una semana vista para un par de municipios (distintos cada día). La información gráfica sobre la pandemia podría seguir los mismos criterios, es decir, seleccionar cada día unas pocas zonas de interés y limitar el rango temporal, para que la cantidad de datos sea asimilable y no genere ansiedad por sobreinformación.

Eguraldia en ETB. Traigo este ejemplo para mostrar que en televisión sí se suelen usar gráficos…
pero no voy a entrar a comentar la precisión de este gráfico en concreto.

Ahora bien, ¿hasta qué punto están recogiendo los medios generalistas estos elementos?

Haciendo una revisión rápida de la prensa escrita, se pueden apreciar varios patrones:

  • Algunos medios solo usan gráficos de forma excepcional para informar sobre la pandemia.
  • Otros muestran datos de forma casi diaria, pero en formato tabular.
  • Finalmente, algunos medios muestran un gráfico diario con la evolución de la pandemia.

En cualquiera de los casos, casi siempre se emplean indicadores muy básicos: cuentas de casos, personas hospitalizadas, etc.

Creo que una buena forma de ir familiarizando a la audiencia con indicadores y gráficos como los que hemos tratado puede ser incorporarlos de forma semanal, mejor que diaria (especialmente si se usan datos absolutos), y mostrando indicadores relativos o móviles. Aunque los indicadores y/o gráficos no sean los más básicos, si cada semana se presenta el mismo tipo de análisis, usando los mismos gráficos e indicadores con los datos actualizados, el lector se familiarizará con ellos y podrá, de esta forma, ampliar su alfabetización gráfica.


Más posts