En este artículo explicaremos qué es un box plot, para qué sirve y por qué es útil. Además, le mostraremos paso a paso cómo crear un box plot en Tableau. Un diagrama de cajas es un gráfico que se utiliza para representar de forma compacta la distribución de un conjunto de datos continuos a lo largo de un eje, resumiendo las principales medidas estadísticas. Se presta muy bien para comparar varios conjuntos de datos en la misma escala.
¿Qué es un Box Plot?
Un box plot (o diagrama de cajas y bigotes) es un gráfico utilizado para representar la distribución de un conjunto de datos a lo largo de un eje de forma visual, concisa e informativa. Se aplica a variables cuantitativas continuas y tiene sentido utilizarlo si el rango de datos es lo suficientemente grande, ya que de lo contrario sería difícil de leer y, por tanto, poco útil. En general, es una herramienta muy potente para la interpretación de las características más destacadas de los datos y resulta útil para comparar varios conjuntos de datos en la misma escala.
Anatomía
Como su nombre indica, el box plot o diagrama de caja se asemeja a una caja, que podemos imaginar como un contenedor real de datos, y puede representarse tanto vertical como horizontalmente. A continuación, analizaremos sus principales elementos:
- Box: donde recae el 50% de los datos, compuesto por varios elementos:
- Q1: el borde inferior del recuadro indica el primer cuartil, es decir, el valor por debajo del cual se sitúa el 25% de los datos.
- Q3: el borde superior del recuadro indica el tercer cuartil, es decir, el valor por debajo del cual se sitúa el 75% de los datos.
- IQR: el Rango Intercuartílico, representa la longitud de la caja (Q3 – Q1). Este valor da una indicación de la dispersión de los datos: un IQR más bajo indica una distribución más compacta en torno al valor central, mientras que un IQR más alto sugiere una distribución más dispersa. En la práctica, el IQR indica el intervalo de valores en el que se sitúa el 50% de los datos.
- Línea mediana: línea que divide la caja en dos (puede coincidir con uno o ambos extremos de la caja). Representa la mediana de los datos, es decir, el valor que divide la distribución por la mitad (por debajo y por encima del cual cae el 25% de los datos de la caja).
- Bigotes: se extienden desde los bordes de la caja hasta los datos que no se consideran atípicos (normalmente 1,5 * IQR), lo que permite resaltar la dispersión de los datos.
- Valores atípicos (Outliers): Si están presentes, son valores extremos representados como puntos únicos más allá de los bigotes. Son considerablemente mayores o menores que en la mayoría de los datos y dan una idea de cuánto se desvían del resto de los datos.
Utilidad del Box Plot
Con un box plot es posible sintetizar un conjunto de datos en una serie de valores que nos ayuden a comprender dónde se encuentra la mayor parte de los datos. Puede utilizarse como herramienta visual para:
- Visualización de la distribución: gracias a su representación visual, es posible estudiar la simetría de una distribución, la posición central y la dispersión de los datos.
- Comparación de grupos: la ventaja de un gráfico de caja es que representa un gran número de datos de forma compacta y explícita. Esto lo hace muy útil para comparar grupos de datos o categorías, sin crear sobrecarga visual.
- Identificación de outliers: facilita la identificación de outliers que pueden requerir una investigación más profunda.
- Síntesis de datos: representa de forma concisa las principales características de un conjunto de datos (distribución, variabilidad, valores extremos), sin tener que examinar todos los valores individuales.
Cómo creae un Box Plot en Tableau
Veamos ahora los distintos pasos para crear un gráfico de cajas en Tableau, utilizando el conjunto de datos World Indicators integrado en Tableau Desktop. Analizaremos la distribución de la esperanza de vida media de las mujeres en diferentes zonas geográficas en un año determinado.
Step 1: Seleccionar la medida de interés
- Conectar con la fuente de datos World Indicators (Connect Data Pane -> Saved Data Sources) de datos guardadas) y crear una nueva hoja (Sheet)
- Arrastrar (o hacer doble clic) la variable Life Expectancy Female en las filas
- Seleccionar Analysis en la pestaña superior, hacer clic en Aggregate Measures y asegurarse de que el indicador de selección desaparece del elemento que se acabas de seleccionar.
Step 2: Crear el box plot (Show Me)
- En la pestaña Show Me, seleccionar el gráfico box-and-whisker plot y yá está
- Arrastrar (o hacer doble clic) la dimensión Región sobre las columnas
Step 2 (bonus): Crear el box plot (Analytics)
- En el panel Analytics, arrastrar (o hacer doble clic) el elemento Box Plot en la vista
- Cambiar el tipo de marca a Círculo y ajustar el tamaño del punto
- Arrastrar (o hacer doble clic) el tamaño de la región en las columnas
Step 3: Filtrar y personalizar la visualización
- Arrastrar el campo Year a la sección de filtros y seleccionar un año de interés
- Hacer clic con el botón derecho del ratón sobre el número de valores nulos que aparecen en la vista inferior derecha y ocultar el indicador
- Para visualizar mejor el gráfico recién creado, seleccionar Entire View en la lista desplegable de la barra de herramientas
Como ya se ha mencionado, los box plots se representan a lo largo de un eje. Por lo tanto, es posible visualizarlos tanto vertical como horizontalmente, y cambiar de una vista a otra es muy sencillo. Sólo tiene que seleccionar el icono Swap Rows and Columns (Intercambiar filas y columnas) de la barra de herramientas, como se ve a continuación:
Ya está. Acabas de hacer un box plot que, para un año determinado, muestra la distribución de la esperanza de vida media de distintas zonas geográficas. Ahora puedes analizar qué regiones tienen valores más altos o compararlas entre sí.
Conclusiones
Hemos visto qué es un box plot, para qué sirve y por qué es útil, incluyendo un ejemplo práctico en Tableau.
El box plot es una herramienta eficaz para obtener una visión compacta e informativa de las características más destacadas de un conjunto de datos. Su capacidad de síntesis es su punto fuerte, lo que lo convierte en un candidato excelente para comparar grupos de datos o categorías en una escala común.
Lee todos nuestros artículos sobre Tableau
¿Quieres conocer las últimas novedades o profundizar en algunas características para convertirte en un experto?
Visualitics Team
Este artículo ha sido escrito y editado por uno de nuestros consultores.
Fuentes:
Box Plots – openstax.org
Box Plot – www.jmp.com
Build a Box Plot – www.help.salesforce.com
whisker of boxplot – www.r-bloggers.com
Compártelo ahora en tus redes sociales o por correo electrónico: