Tutorial Tableau 01. Introducción a Tableau Desktop

Herramientas: Tableau

Aviso: Este documento es un complemento a las sesiones que imparto sobre visualización de datos y analítica visual, y en ningún caso pretende ser un manual comprehensivo sobre Tableau.

Fuente de datos

Para este ejercicio vamos a utilizar un conjunto de datos sobre el uso de Bicicletas en Los Ángeles, disponible en Kaggle.com.

La versión del archivo utilizada en este ejercicio fue descargada el 06/09/2018, y contiene los Trip IDs de 1912818 (07/07/2016) a 2379418 (31/03/2017). Si a la hora de seguir los pasos indicados en tu ordenador obtienes resultados distintos, puede deberse a que estés usando una versión distinta del dataset.

Cargar datos en Tableau

  • Cargar datos desde la ventana inicial. Los archivos csv son de tipo Archivo de texto (con Tableau podemos conectarnos a varios formatos de archivos, o a fuentes de bases de datos externas).
  • Una vez cargado el archivo, hacer click en el botón Actualizar ahora para ver cómo ha interpretado Tableau los datos.
  • Antes de poder analizar los datos, observamos que en el ejemplo de metro-bike-share-data.csv hay un problema con la localización del archivo y la de la interfaz de Tableau, que no coinciden (NOTA: si están trabajando con la interfaz de Tableau en inglés, no deberías tener este problema): el separador en einglés suele ser la coma (,), mientras que en español suele ser el punto y coma (;), ya que la coma se usa como separador decimal. Por ese motivo los datos no se han interpretado correctamente. Este problema no se da con archivos de hojas de cálculo, porque suelen incorporar metadatos que ayudan a interpretar los datos que contienen.
Propiedades del archivo de texto

Ejercicio

  • Para solucionar este error de interpretación, seleccionamos la fuente de datos en el editor de relaciones, y hacemos click en el desplegable para abrir la ventana Propiedades del archivo de texto.
Propiedades del archivo de texto
  • Seleccionar fuente de datos en el editor de relaciones, hacer click en el desplegable, y marcar la opción "Los nombres de campo están en la primera fila".
  • Separador de campos: coma.
  • Configuración regional: inglés (EEUU).

Revisar las variables

Vistas

Botón Administrar metadatos

Ofrece una vista resumida centrada en las Variables.

Administrar metadatos

Botón Vista previa de fuente de datos

Ofrece una vista previa de los valores.

Vista previa de la fuente de datos

Tipo de variables

Tableau trabaja con este tipo de variables:

  • Cadena
  • Número (entero, decimal)
  • Fecha, Fecha y tiempo
  • Booleanos

Además, las variables pueden tener un rol geográfico (las bases de datos geográficas de Tableau no disponen del mismo nivel de detalle para todos los paises).

  • Ninguno
  • Aeropuerto
  • Prefijo/Código de área (EE.UU.)
  • CBSA/MSA (EE.UU.)
  • Ciudad
  • Distrito electoral (EE.UU.)
  • País/Región
  • Provincias/Municipio
  • NUTS Europa
  • Estado/Provincia
  • Código postal
Tipos de variables y roles geográficos en Tableau

Ayuda de Tableau: “Data types”

Acciones disponibles

NOTA: Tableau no modifica nunca el archivo de datos original. Todas las modificaciones que realicemos se almacenarán como metadatos en el archivo de Tableau, no en la fuente de datos.

Acciones sobre la variable

  • Cambiar tipo de dato: haciendo click en el icono
  • Asignar rol geográfico
Tipos de variables y roles geográficos en Tableau

Estas dos acciones están disponibles haciendo click en el icono de tipo de dato de cada variable.

  • Renombrar la variable: haciendo doble click sobre el nombre de la variable
Renombrar una variable
  • Ocultar: podemos ocultar aquellas variables que sabemos que no vamos a utilizar, para simplificar la interfaz de Tableau.

Acciones ETL básicas

NOTA: en mayo de 2018 Tableau lanzó la aplicación Tableau Prep, para crear flujos de ETL de forma gráfica. Prep dispone de las funciones que se mencionan a continuación y otras más avanzadas y específicas para ETL. (Ir al tutorial 5: “ETL con Tableau Prep”)
  • División y División personalizada: en el caso de que una celda contenga los valores de más de una variable, podemos dividirla a partir de una cadena dada (solo aparece en las variables de tipo Cadena). División realiza la división de forma automática (a partir de los separadores más comunes), mientras que División personalizada nos permite indicar expresamente el separador y con qué columnas debe quedarse después de realizar la división.
Ventana División personalizada
  • Pivotar: para pasar de una estructura de datos ancha a una estrecha; por ejemplo, si la información de una variable concreta a lo largo del tiempo está repartida en columnas (2010, 2011, 2012…) no podremos utilizar la variable “año” en nuestras visualizaciones, ya que no existe en la fuente de datos. La acción pivotar nos permitirá crear pares clave-valor a partir de varias columnas (ver más ejemplos en la página de ayuda de Tableau ). Para pivotar varias columnas, primero tenemos que seleccionar las columnas que nos interesa pivotar, y hacer click en la opción del menú secundario. Solo se activa en campos que provienen de las fuentes de datos, no sobre campos calculados (esta opción sí está disponible en Prep).
Pivotar columnas

Los nombres de columna pasan a ser un valor de una nueva variable Nombres de campo de tabla dinámica, mientras que los valores de las celdas pasan a ser los valores de una nueva columna llamada Valores de campo de tabla dinámica (por supuesto, podemos renombrar las nuevas columnas para que tengan un nombre más descriptivo).

Resultado
  • Crear campo calculado, muy parecido a las fórmulas de Excel: por ejemplo, podemos crear una nueva variable DuracionCalculadaSegundos con la fórmula [End Time] - [Start Time] * 60 * 60 * 24 para calcular la duración del trayecto.
Ejemplo de campo calculado
NOTA: los campos Start Time y End Time son de tipo fecha hora, y por defecto Tableau calcula la diferencia en la unidad “año”; por eso añadimos las multiplicaciones, para convertir el campo calculado a la unidad “segundo”.
  • Alias (en variables de tipo cadena): permite aplicar un alias a cada valor textual; por ejemplo, si en una variable Municipio tenemos el valor San Sebastián podemos asignarle un alias Donostia.
  • Crear grupo: permite crear una nueva variable de tipo cadena que simplifica los niveles de la variable en cuestión, agrupando sus valores. Por ejemplo, a partir de una variable Municipio podríamos crear una nueva variable de tipo grupo llamada Provincia.
  • Crear agrupaciones (bins): disponible para variables de tipo numérico. Permite crear clases dentro del rango de valores de la variable, que podremos usar para hacer histogramas.
Ventana Crear agrupaciones

Ejercicio

  • Las variables Trip ID, Starting Station ID, Ending Station ID, Bike ID, y Plan Duration no deberían ser de tipo numérico, ya que realmente no son más que códigos de identificación o categorías; hay que cambiarlas al tipo de dato adecuado.
  • Duration: ¿en qué unidades está dada? Crear campo calculado para obtener la diferencia entre Start Time y End Time en minutos.
  • Start Time / End time: están redondeadas a nivel de minuto, pero en este caso no necesitamos una precisión mayor.
  • Latitud y Longitud, Tableau les asigna automáticamente su rol geográfico correspondiente.
  • Trip route category: en el caso de que no tuviéramos esta variable, ¿cómo podríamos obtenerla con un campo calculado?
  • Plan duration parece ser lo mismo que Passholder type, por lo que solo usaremos la segunda. Ocultar Plan duration.
  • En el caso de que no tuviéramos los campos de latitud y longitud correctamente codificados, ¿cómo podríamos obtener esos mismos datos a partir de los campos Starting Lat-Long y Ending Lat-Long?

Crear una vista

Interfaz de usuario de Tableau

Pestaña Datos

Pestaña Datos

La pestaña Datos nos permite acceder a las distintas fuentes de datos a las que estemos conectados; una vez seleccionada una fuente, veremos las variables disponibles, organizadas por dimensiones (variables discretas) y medidas (variables contínuas) (“Blue And Green Pills – What Do They Mean Tableau?" ). Además, y dependiendo de la complejidad de nuestro proyecto, en esa misma pestaña pueden aparecer otros elementos:

  • Campos jerárquicos
  • Campos calculados (el icono tiene el símbolo = a la izquierda)
  • Campos relacionados con otras fuentes de datos (un símbolo de eslabón abierto —en gris— o cerrado —en rojo— a la derecha)
  • Campos calculados por Tableau (en cursiva. Normalmente, Nombres de medidas, Valores de medidas y Número de registros; además, si Tableau se encarga de geocodificar una variable, también aparecerán Latitud (calculado) y Longitud (calculado)).
  • Parámetros
  • Grupos (icono de clip)
  • Conjuntos

Además, y para facilitar nuestro trabajo, podemos visualizar las variables organizadas por carpetas (especialmente útil cuando tenemos muchas variables) o por el orden en el que aparecen en la fuente de datos.

Pestaña Marcas

Pestaña Marcas

La pestaña Marcas permite seleccionar el tipo de marca (desplegable superior) y los canales gráficos que queremos usar en nuestra visualización.

  • Al añadir dimensiones a la vista, indicamos cuántas marcas que va a contener la gráfica.
  • Al añadir dimensiones y/o medidas a los canales, indicamos cómo (tamaño, color…) y/o dónde (filas, columnas) deben mostrarse esas marcas.

En el ejemplo:

  • El tipo de marca se ha puesto automáticamente como texto.
  • Las clases de la dimensión Passholder type sirven para dividir la gráfica en columnas.
  • Las clases de la dimensión Bike ID sirven para dividir la gráfica en filas.
  • La medida Número de registros (en concreto, su suma), se muestra como texto.
  • En esta vista no se usan más canales gráficos.

Área de visualización

Área de visualización

La gráfica que estamos elaborando se verá en el Área de visualización. Dependiendo del tipo de gráfica, podremos acceder a varias acciones, generalmente relacionadas con los ejes: ordenar, cambiar escala…

Desde el área de visualización también podremos seleccionar marcas y realizar acciones sobre ellas: crear grupos, crear conjuntos, filtrar/mantener solamente, ver datos…

Pestaña Mostrarme

Pestaña Mostrarme

La pestaña Mostrarme nos facilita la tarea de crear una visualización ofreciéndonos una serie de gráficas básicas que podemos crear automáticamente a partir de las variables que tengamos seleccionadas en la pestaña Datos, o bien ya estén en la vista. En el caso de que una gráfica concreta aparezca atenuada, Tableau nos indica los componentes mínimos necesarios para poder crear dicha gráfica.

Nivel de detalle de la vista

El Nivel de Detalle de una vista (o LOD por sus siglas en inglés) es el nivel de agregación que estamos aplicando a los datos en una vista determinada, y viene dado por las dimensiones que estemos usando en la vista, tal que el LOD es igual o menor a la dimensionalidad de la tabla de contingencia de las dimensiones utilizadas.

Vídeo “Agregación, granularidad y cálculos de proporción” de la ayuda de Tableau.

Dimensiones

Marcan el nivel de detalle (LOD) de la vista.

  • Passholder type: esta dimensión tiene 4 clases o niveles
  • Bike ID: esta dimensión tiene 764 clases o niveles
  • Si combinamos Passholder type y Bike ID obtenemos 2550 marcas, que es una cifra igual o menor a 3056 (4 * 764). Esto se debe a que no todos los cruces tienen “viajes”; o dicho de hora forma, nadie ha usado la bicicleta 1349 con una tarjeta de tipo Flex pass (ni Staff anualo Walk-up). De ahí que el nivel de detalle sea igual o menor a 3056.

Dependiendo de la fuente de datos, podemos o no tener una dimensión que identifique únicamente cada fila. En este ejemplo sí existe este tipo de dimensión, Trip ID, por lo que si añadimos esta dimensión a la vista obtendremos el número máximo posible de marcas para esta fuente de datos (132427), una marca por cada fila.

NOTA: podemos combinar distintos niveles de detalle (o de agregación de datos) en una misma vista usando expresiones de nivel de detalle (las usaremos en ejercicios más avanzados).

Si no usamos ninguna dimensión en la vista obtendremos el nivel máximo de agregación, es decir, una única marca para todo el dataset.

Por otra parte, podemos vincular las dimensiones con canales gráficos, aunque algunas vinculaciones tienen sentido, mientras que otras no (por ejemplo, una dimensión no debería usarse para establecer el tamaño de las marcas).

Medidas

Podemos decir que usamos las medidas para dar consistencia a las marcas definidas por las dimensiones: tamaño, color, contenido textual, situación…

Las medidas se agregan al nivel de detalle de la vista en la que estemos trabajando. Por defecto se usa como función de agregación la suma, pero podemos cambiarla: promedio, mediana, conteo, máximo, mínimo, percentil, desviación estándar…

  • ¿Qué pasa si agregamos una medida a una vista que no tiene dimensiones añadidas?
  • ¿Y si añadimos más de una medida?

La medida Número de registros la calcula automáticamente Tableau. Internamente, asigna una variable con valor 1 a cada fila del dataset, y al ser la suma la función de agregación por defecto, podemos usar esta variable para contar el número de registros.

Dimensiónes y Medidas

En determinadas ocasiones podemos encontrarnos con dimensiones de color verde, o medidas de color azúl. Por ejemplo, podemos convertir una variable numérica en discreta en lugar de contínua. En este caso aparecera como medida de color azul.

Ejercicio

En esta fase de EDA, queremos conocer las relaciones entre las distintas variables, para lo que vamos a crear una serie de vistas o gráficas básicas que nos ofrezcan un vistazo general.

Utilizando las técnicas y funciones vistas hasta ahora, crear las siguientes visualizaciones:

  • Mostrar gráficamente el número total de viajes
  • Mostrar graficamente el tiempo de uso total en horas
  • Mostrar el promedio de duración de todos los viajes
  • Mostrar el promedio de duración de los viajes por Passholder type.
  • Crear una gráfica que muestre el total de tiempo (en minutos) por Passholder type.
  • Crear una gráfica que muestre el total de tiempo (en minutos) por Passholder type y Trip Route Category.
  • Crear cualquier otra gráfica que nos ayude a conocer las relaciones entre las variables del dataset.

Recursos

Bibliografía

  • Murray, D. (2016). Tableau your data! : Fast and easy visual analysis with Tableau software (2nd. ed.). Indianapolis: Wiley. (Easo 519.22 Tableau M 95 d)
  • Sankhe-Savale, S. (2016), Tableau cookbook. Recipes for data visualization. Pact Publishing.
  • Santos, D. (2016). Tableau 10 Business Intelligence Cookbook. Pact Publishing.
  • Sleeper, R. (2018). Practical Tableau : 100 tips, tutorials, and strategies from a Tableau zen master (1st ed.). Sebastopol, California: O’Reilly. (Easo 519.22 Tableau Sle 2 r)

Recursos on-line


Más posts