Consideraciones sobre Power BI como herramienta de visualización de datos
Herramientas: Power BI
Esta semana he impartido un pequeño curso de formación interna sobre Power BI. Al tratarse un curso de unas pocas horas, lo que he intentado ha sido ofrecer una idea de conjunto del flujo de trabajo con este tipo de herramientas (ya habrá ocasión para profundizar en los distintos pasos en otros cursos).
Si no conoces Power BI, he resumido mis sensaciones más destacadas sobre esta herramienta tras realizar algunos proyectos con ella.
Podríamos dividir las funcionalidades de Power BI en tres grandes bloques:
A) Importar y preparar los datos B) Realizar los cálculos necesarios para nuestro análisis C) Visualizar los datos de forma que nos ayuden a detectar patrones de interés
Sobre las funcionalidades para importar y preparar los datos (Power Query):
Antes de empezar: da igual la herramienta que uses, a nada que tu análisis sea mínimamente interesante y salvo que tengas un control absoluto en toda la cadena de definición y obtención de los datos, vas a tener que prepararlos y limpiarlos. Y cuantas más fuentes quieras combinar, más tareas de preparación tendrás que afrontar.
Aunque la interfaz de usuario de Power Query cumple muy bien sus funciones, hay ocasiones en las que manipulando directamente el código M nos podemos ahorrar algunos pasos. En cualquier caso, lo verdaderamente importante en esta fase es conocer las distintas técnicas para transformar estructuras (pivotar/despivotar columnas y/o filas, combinar tablas…) y datos (calcular nuevas variables, limpiar textos, trabajar con fechas…).
A modo de ejemplo, teníamos un problema para combinar los datos de dos tablas con una relación lógica entre ellas de 1:1, porque muchos de los valores (de hecho, inicialmente ninguno de ellos) no coincidian en las dos tablas. Hemos visto como crear una tabla usando el tipo de combinación “externa completa” para poder detectar los valores que no coincidían en las dos tablas y así poder corregirlos.
Sobre las funcionalidades para realizar los cálculos (modelado de datos con DAX):
Antes de empezar: da igual la herramienta que uses, vas a tener que lidiar con el hecho de trabajar con datos a distintos niveles de agregación. En Power BI tendrás que lidiar con el contexto de filtrado y el de fila, y las transiciones de contexto; en Tableau te pegarás con las expresiones de nivel de detalle. Y en lenguajes como R lo más probable es que acabes programando tus propias funciones para poder crear los cálculos necesarios.
La implementación del modelo de datos y el trabajo con medidas es la parte que peor resuelta encuentro en Power BI (o Excel). Se trata de la fase más abstracta de las tres y el hecho de no disponer de un área de la herramienta donde centralizar y organizar todas las medidas que creamos me resulta incómodo. Se qué existen herramientas como DAX Studio, pero ahora nos hemos ceñido a las funcionalidades que incorpora Power BI de serie.
Para aprovechar Power BI al 100% es imprescindible comprender DAX y el modelado de datos (los abundantes recursos de todo tipo para aprender DAX dan buena cuenta de esto).
Sobre las funcionalidades para crear gráficos
Aquí tengo que decir que tengo un sesgo importante, y es que llevo años trabajando con herramientas que fueron diseñadas partiendo de los preceptos de la gramática de los gráficos de Wilkinson: ggplot2 y Tableau Desktop. Aunque las implementaciones no tienen las mismas características, la forma de mapear variables a canales gráficos y la forma de trabajar con marcas gráficas son muy parecidas.
Pues bien, Power BI se queda lejos de esta forma de funcionar. Aunque es verdad que está más cerca de la GoG que Excel, sigue teniendo formas raras de combinar variables con canales.
El caso más evidente es la aplicación de color vinculado a una variable. Si usamos una variable textual deberemos llevarla a la “Leyenda” del objeto visual, mientras que si queremos colorear las marcas a partir de una variable cuantitativa deberemos acceder al formato de las marcas (barras, líneas, marcadores -así es como llama a los puntos Power BI-) e indicar que queremos usar un formato condicional para aplicar el color. Es ahí donde podremos indicar que queremos usar un degradado de color basado en una variable cuantitativa.
Algo parecido deberemos hacer en el caso de querer crear un diagrama de dispersión con distintas formas (puntos, rombos, triángulos…), es decir, primero tendremos que asignar una variable cualitativa/dimensión a “Leyenda” para luego poder cambiar manualmente los atributos gráficos / formatos de cada serie.
Conclusiones
Si no has trabajado nunca con una herramienta de estas características es un buen punto de partida, aunque personalmente me gustan más las posibilidades de Tableau Desktop o de Ggplot2 a la hora de crear los gráficos. De todas formas, en la mayoría de los casos no podremos elegir nosotros mismos la herramienta con la que queremos trabajar, sino que tendremos que amoldarnos a la que contrate la organización para la que trabajamos, o aquella que nos indique un posible cliente. Así que mi recomendación es que trabajemos con la herramienta con la que trabajemos aprendamos a usarla, trasteemos todo lo posible e intentemos entender sus particularidades. Casi siempre habrá alguna forma, aunque sea más trabajosa, de conseguir el resultado que buscamos.
En fin, espero que el curso haya servido para despertar el gusanillo de los y las participantes y que aprovechen las ténicas que hemos visto para poder trabajar con sus datos.