Tutorial Tableau 01. Introducción a Tableau Desktop
Herramientas: Tableau
Fuente de datos
Para este ejercicio vamos a utilizar un conjunto de datos sobre el uso de Bicicletas en Los Ángeles, disponible en Kaggle.com.
La versión del archivo utilizada en este ejercicio fue descargada el 06/09/2018, y contiene los Trip ID
s de 1912818 (07/07/2016) a 2379418 (31/03/2017). Si a la hora de seguir los pasos indicados en tu ordenador obtienes resultados distintos, puede deberse a que estés usando una versión distinta del dataset.
Cargar datos en Tableau
- Cargar datos desde la ventana inicial. Los archivos
csv
son de tipoArchivo de texto
(con Tableau podemos conectarnos a varios formatos de archivos, o a fuentes de bases de datos externas). - Una vez cargado el archivo, hacer click en el botón
Actualizar ahora
para ver cómo ha interpretado Tableau los datos. - Antes de poder analizar los datos, observamos que en el ejemplo de
metro-bike-share-data.csv
hay un problema con la localización del archivo y la de la interfaz de Tableau, que no coinciden (NOTA: si están trabajando con la interfaz de Tableau en inglés, no deberías tener este problema): el separador en einglés suele ser la coma (,
), mientras que en español suele ser el punto y coma (;
), ya que la coma se usa como separador decimal. Por ese motivo los datos no se han interpretado correctamente. Este problema no se da con archivos de hojas de cálculo, porque suelen incorporar metadatos que ayudan a interpretar los datos que contienen.
Ejercicio
- Para solucionar este error de interpretación, seleccionamos la fuente de datos en el editor de relaciones, y hacemos click en el desplegable para abrir la ventana
Propiedades del archivo de texto
.
- Seleccionar
fuente de datos
en eleditor de relaciones
, hacer click en el desplegable, y marcar la opción"Los nombres de campo están en la primera fila"
. Separador de campos
: coma.Configuración regional
: inglés (EEUU).
Revisar las variables
Vistas
Botón Administrar metadatos
Ofrece una vista resumida centrada en las Variables.
Botón Vista previa de fuente de datos
Ofrece una vista previa de los valores.
Tipo de variables
Tableau trabaja con este tipo de variables:
- Cadena
- Número (entero, decimal)
- Fecha, Fecha y tiempo
- Booleanos
Además, las variables pueden tener un rol geográfico (las bases de datos geográficas de Tableau no disponen del mismo nivel de detalle para todos los paises).
- Ninguno
- Aeropuerto
- Prefijo/Código de área (EE.UU.)
- CBSA/MSA (EE.UU.)
- Ciudad
- Distrito electoral (EE.UU.)
- País/Región
- Provincias/Municipio
- NUTS Europa
- Estado/Provincia
- Código postal
Ayuda de Tableau: “Data types”
Acciones disponibles
Acciones sobre la variable
Cambiar tipo de dato
: haciendo click en el iconoAsignar rol geográfico
Estas dos acciones están disponibles haciendo click en el icono de tipo de dato de cada variable.
Renombrar la variable
: haciendo doble click sobre el nombre de la variable
Ocultar
: podemos ocultar aquellas variables que sabemos que no vamos a utilizar, para simplificar la interfaz de Tableau.
Acciones ETL básicas
División
yDivisión personalizada
: en el caso de que una celda contenga los valores de más de una variable, podemos dividirla a partir de una cadena dada (solo aparece en las variables de tipoCadena
).División
realiza la división de forma automática (a partir de los separadores más comunes), mientras queDivisión personalizada
nos permite indicar expresamente el separador y con qué columnas debe quedarse después de realizar la división.
Pivotar
: para pasar de una estructura de datos ancha a una estrecha; por ejemplo, si la información de una variable concreta a lo largo del tiempo está repartida en columnas (2010
,2011
,2012
…) no podremos utilizar la variable “año” en nuestras visualizaciones, ya que no existe en la fuente de datos. La acciónpivotar
nos permitirá crear pares clave-valor a partir de varias columnas (ver más ejemplos en la página de ayuda de Tableau ). Para pivotar varias columnas, primero tenemos que seleccionar las columnas que nos interesa pivotar, y hacer click en la opción del menú secundario. Solo se activa en campos que provienen de las fuentes de datos, no sobre campos calculados (esta opción sí está disponible en Prep).
Los nombres de columna pasan a ser un valor de una nueva variable Nombres de campo de tabla dinámica
, mientras que los valores de las celdas pasan a ser los valores de una nueva columna llamada Valores de campo de tabla dinámica
(por supuesto, podemos renombrar las nuevas columnas para que tengan un nombre más descriptivo).
Crear campo calculado
, muy parecido a las fórmulas de Excel: por ejemplo, podemos crear una nueva variableDuracionCalculadaSegundos
con la fórmula[End Time] - [Start Time] * 60 * 60 * 24
para calcular la duración del trayecto.
Start Time
y End Time
son de tipo fecha hora, y por defecto Tableau calcula la diferencia en la unidad “año”; por eso añadimos las multiplicaciones, para convertir el campo calculado a la unidad “segundo”.
Alias
(en variables de tipo cadena): permite aplicar un alias a cada valor textual; por ejemplo, si en una variableMunicipio
tenemos el valorSan Sebastián
podemos asignarle un aliasDonostia
.Crear grupo
: permite crear una nueva variable de tipo cadena que simplifica los niveles de la variable en cuestión, agrupando sus valores. Por ejemplo, a partir de una variableMunicipio
podríamos crear una nueva variable de tipo grupo llamadaProvincia
.Crear agrupaciones
(bins): disponible para variables de tipo numérico. Permite crear clases dentro del rango de valores de la variable, que podremos usar para hacer histogramas.
Ejercicio
- Las variables
Trip ID
,Starting Station ID
,Ending Station ID
,Bike ID
, yPlan Duration
no deberían ser de tipo numérico, ya que realmente no son más que códigos de identificación o categorías; hay que cambiarlas al tipo de dato adecuado. Duration
: ¿en qué unidades está dada? Crear campo calculado para obtener la diferencia entreStart Time
yEnd Time
en minutos.Start Time
/End time
: están redondeadas a nivel de minuto, pero en este caso no necesitamos una precisión mayor.Latitud
yLongitud
, Tableau les asigna automáticamente su rol geográfico correspondiente.Trip route category
: en el caso de que no tuviéramos esta variable, ¿cómo podríamos obtenerla con un campo calculado?Plan duration
parece ser lo mismo quePassholder type
, por lo que solo usaremos la segunda. OcultarPlan duration
.- En el caso de que no tuviéramos los campos de latitud y longitud correctamente codificados, ¿cómo podríamos obtener esos mismos datos a partir de los campos
Starting Lat-Long
yEnding Lat-Long
?
Crear una vista
Interfaz de usuario de Tableau
Pestaña Datos
La pestaña Datos
nos permite acceder a las distintas fuentes de datos a las que estemos conectados; una vez seleccionada una fuente, veremos las variables disponibles, organizadas por dimensiones
(variables discretas) y medidas
(variables contínuas) (“Blue And Green Pills – What Do They Mean Tableau?" ). Además, y dependiendo de la complejidad de nuestro proyecto, en esa misma pestaña pueden aparecer otros elementos:
- Campos jerárquicos
- Campos calculados (el icono tiene el símbolo
=
a la izquierda) - Campos relacionados con otras fuentes de datos (un símbolo de eslabón abierto —en gris— o cerrado —en rojo— a la derecha)
- Campos calculados por Tableau (en cursiva. Normalmente,
Nombres de medidas
,Valores de medidas
yNúmero de registros
; además, si Tableau se encarga de geocodificar una variable, también apareceránLatitud (calculado)
yLongitud (calculado)
). - Parámetros
- Grupos (icono de clip)
- Conjuntos
Además, y para facilitar nuestro trabajo, podemos visualizar las variables organizadas por carpetas (especialmente útil cuando tenemos muchas variables) o por el orden en el que aparecen en la fuente de datos.
Pestaña Marcas
La pestaña Marcas
permite seleccionar el tipo de marca (desplegable superior) y los canales gráficos que queremos usar en nuestra visualización.
- Al añadir dimensiones a la vista, indicamos cuántas marcas que va a contener la gráfica.
- Al añadir dimensiones y/o medidas a los canales, indicamos cómo (tamaño, color…) y/o dónde (filas, columnas) deben mostrarse esas marcas.
En el ejemplo:
- El tipo de marca se ha puesto automáticamente como texto.
- Las clases de la dimensión
Passholder type
sirven para dividir la gráfica en columnas. - Las clases de la dimensión
Bike ID
sirven para dividir la gráfica en filas. - La medida
Número de registros
(en concreto, su suma), se muestra como texto. - En esta vista no se usan más canales gráficos.
Área de visualización
La gráfica que estamos elaborando se verá en el Área de visualización
. Dependiendo del tipo de gráfica, podremos acceder a varias acciones, generalmente relacionadas con los ejes: ordenar, cambiar escala…
Desde el área de visualización también podremos seleccionar marcas y realizar acciones sobre ellas: crear grupos, crear conjuntos, filtrar/mantener solamente, ver datos…
Pestaña Mostrarme
La pestaña Mostrarme
nos facilita la tarea de crear una visualización ofreciéndonos una serie de gráficas básicas que podemos crear automáticamente a partir de las variables que tengamos seleccionadas en la pestaña Datos
, o bien ya estén en la vista. En el caso de que una gráfica concreta aparezca atenuada, Tableau nos indica los componentes mínimos necesarios para poder crear dicha gráfica.
Nivel de detalle de la vista
El Nivel de Detalle de una vista (o LOD por sus siglas en inglés) es el nivel de agregación que estamos aplicando a los datos en una vista determinada, y viene dado por las dimensiones que estemos usando en la vista, tal que el LOD es igual o menor a la dimensionalidad de la tabla de contingencia de las dimensiones utilizadas.
Vídeo “Agregación, granularidad y cálculos de proporción” de la ayuda de Tableau.
Dimensiones
Marcan el nivel de detalle (LOD) de la vista.
Passholder type
: esta dimensión tiene 4 clases o nivelesBike ID
: esta dimensión tiene 764 clases o niveles- Si combinamos
Passholder type
yBike ID
obtenemos 2550 marcas, que es una cifra igual o menor a 3056 (4 * 764). Esto se debe a que no todos los cruces tienen “viajes”; o dicho de hora forma, nadie ha usado la bicicleta1349
con una tarjeta de tipoFlex pass
(niStaff anual
oWalk-up
). De ahí que el nivel de detalle sea igual o menor a 3056.
Dependiendo de la fuente de datos, podemos o no tener una dimensión que identifique únicamente cada fila. En este ejemplo sí existe este tipo de dimensión, Trip ID
, por lo que si añadimos esta dimensión a la vista obtendremos el número máximo posible de marcas para esta fuente de datos (132427), una marca por cada fila.
Si no usamos ninguna dimensión en la vista obtendremos el nivel máximo de agregación, es decir, una única marca para todo el dataset.
Por otra parte, podemos vincular las dimensiones con canales gráficos, aunque algunas vinculaciones tienen sentido, mientras que otras no (por ejemplo, una dimensión no debería usarse para establecer el tamaño de las marcas).
Medidas
Podemos decir que usamos las medidas para dar consistencia a las marcas definidas por las dimensiones: tamaño, color, contenido textual, situación…
Las medidas se agregan al nivel de detalle de la vista en la que estemos trabajando. Por defecto se usa como función de agregación la suma, pero podemos cambiarla: promedio, mediana, conteo, máximo, mínimo, percentil, desviación estándar…
- ¿Qué pasa si agregamos una medida a una vista que no tiene dimensiones añadidas?
- ¿Y si añadimos más de una medida?
La medida Número de registros
la calcula automáticamente Tableau. Internamente, asigna una variable con valor 1 a cada fila del dataset, y al ser la suma la función de agregación por defecto, podemos usar esta variable para contar el número de registros.
Dimensiónes y Medidas
En determinadas ocasiones podemos encontrarnos con dimensiones de color verde, o medidas de color azúl. Por ejemplo, podemos convertir una variable numérica en discreta en lugar de contínua. En este caso aparecera como medida de color azul.
Ejercicio
En esta fase de EDA, queremos conocer las relaciones entre las distintas variables, para lo que vamos a crear una serie de vistas o gráficas básicas que nos ofrezcan un vistazo general.
Utilizando las técnicas y funciones vistas hasta ahora, crear las siguientes visualizaciones:
- Mostrar gráficamente el número total de viajes
- Mostrar graficamente el tiempo de uso total en horas
- Mostrar el promedio de duración de todos los viajes
- Mostrar el promedio de duración de los viajes por
Passholder type
. - Crear una gráfica que muestre el total de tiempo (en minutos) por
Passholder type
. - Crear una gráfica que muestre el total de tiempo (en minutos) por
Passholder type
yTrip Route Category
. - Crear cualquier otra gráfica que nos ayude a conocer las relaciones entre las variables del dataset.
Recursos
Bibliografía
- Murray, D. (2016). Tableau your data! : Fast and easy visual analysis with Tableau software (2nd. ed.). Indianapolis: Wiley. (Easo 519.22 Tableau M 95 d)
- Sankhe-Savale, S. (2016), Tableau cookbook. Recipes for data visualization. Pact Publishing.
- Santos, D. (2016). Tableau 10 Business Intelligence Cookbook. Pact Publishing.
- Sleeper, R. (2018). Practical Tableau : 100 tips, tutorials, and strategies from a Tableau zen master (1st ed.). Sebastopol, California: O’Reilly. (Easo 519.22 Tableau Sle 2 r)
Recursos on-line
- Solicitar licencia de estudiante (1 año gratis)
- Sección Learning de la web de Tableau
- Videoteca de la Tableau Conference 2017 (previo registro)
- Galería de Tableau Public
- Foros de Tableau
- Makeover Monday: “Each week we post a link to a chart, and its data, and then you rework the chart. Maybe you retell the story more effectively, or find a new story in the data. We’re curious to see the different approaches you all take.”
- Workout Wednesday: Do you think you’re good with Tableau? Are you looking for an additional challenge? Workout Wednesday might be what you need. Workout Wednesday is a set of weekly challenges designed to test your knowledge of Tableau and help you kick-start your development.
- #SWDchallenge: “Each month will have a different topic—I’m planning to start with some different graph types, but may change this up as we go along.”