Tableau

Best practices para mejorar el rendimiento de los flujos de datos en Tableau Prep

Aunque no hay un límite real para el número de filas que se pueden importar en Tableau Prep, es aconsejable aplicar algunos trucos para mejorar el rendimiento de los flujos en Tableau Prep. No sólo es importante limitar el número de filas, importando sólo los datos que realmente se necesitan, sino también la ordenación y la forma en que se realizan las operaciones y los pasos en la construcción del flujo.

En este artículo hemos tratado de recopilar aquellas best practices que creemos que es útil conocer a la hora de utilizar una herramienta como Tableau Prep.

Filtrado de datos en el input step

El primer consejo es filtrar los datos en el input step, seleccionando sólo los necesarios para el workbook.

Trabajar con Data Sample

También dentro del input step, se puede definir una muestra de la fuente de datos. Cuando se inicia el flujo, Tableau Prep realizará las operaciones de limpieza utilizando toda la fuente de datos y no sólo la muestra utilizada para crear el flujo. Esto mejora la eficiencia sin perder nada en términos de integridad.

Tableau establece un umbral por defecto de un millón de filas. Si deseas establecer un umbral más bajo para mejorar el rendimiento, puedes hacerlo dentro del input step seleccionando Data Sample y estableciendo el número de filas.

Existen dos métodos para crear la muestra: » Quick select «, que tiene en cuenta las primeras N filas de la fuente de datos, y » Random sample «, que pretende crear una representación de todo el conjunto de datos. Ambos pueden ser eficaces, pero el primero sigue siendo más eficiente que el segundo en términos de rendimiento.

Pausar el flujo

Tableau Prep tiene la gran ventaja de proporcionar feedback cada vez que se realiza una operación de limpieza dentro del flujo. Sin embargo, para mejorar el rendimiento, es posible desactivar esta retroalimentación haciendo clic en el cilindro de la parte superior de la barra de navegación.

Presta atención al formato de los datos

Las cadenas pesan más que los datos en formato numérico. Por lo tanto, es útil prestar atención a la forma en que Tableau define los campos y posiblemente, cuando sea posible, cambiar los campos de cadena a numéricos para reducir la carga.

Best practices para crear un flujo

Gestión del flujo

La separación de las operaciones de limpieza en distintos flujos permite organizar el trabajo de forma eficaz. Los step individuales, o incluso flujos enteros, se pueden fusionar posteriormente utilizando union step, join step o copiando y pegando directamente los steps cuando sea necesario.

Los steps también pueden guardarse localmente en Tableau Server y Tableau Online, para poder reutilizarlos en diferentes flujos. Esto puede ser útil cuando se realiza el mismo clean step u operación compleja dentro de varios flujos.

Pasos de limpieza

Dentro de los clean steps es posible filtrar los datos innecesarios y así garantizar un mejor rendimiento.

Comentarios sobre las operaciones

Cambiar el nombre de los pasos, añadir descripciones y cambiar los colores facilita la comprensión del flujo.

También se pueden dejar comentarios dentro del panel de cambios.

Además de ayudar a otras personas que puedan estar trabajando en el flujo, los comentarios son una gran manera de hacer un seguimiento del propio trabajo.

Best practices para la ejecución del flujo

Output step

El output step permite ejecutar el flujo y exportar los datos fuera de Tableau Prep. Antes del output step, un clean step permite eliminar todas las filas y columnas que no son necesarias para la construcción del workbook. Cuando se ejecuta el flujo, se consulta toda la base de datos. Al filtrar los datos que no se utilizan, es posible conseguir una ganancia de rendimiento.

El formato del archivo de salida

De los distintos formatos, el .hyper parece ser el más eficiente, lo que lo convierte en el candidato ideal para gestionar grandes fuentes de datos.

Uso de Tableau Server con Prep Conductor

Los servidores suelen ser máquinas mucho más potentes que nuestros ordenadores. Por lo tanto, al utilizar Tableau Prep Conductor, es posible hacer que el servidor ejecute el flujo, de modo que tenga más potencia de cálculo y, en consecuencia, se reduzca el tiempo de creación del flujo.

Actualización incremental

Utilizando la actualización incremental, cuando se actualiza la fuente de datos, sólo se añaden las filas nuevas, sin actualizar toda la fuente de datos. Para aplicar la actualización incremental,  debemos marcar esta opción dentro de la configuración del input step.

De los distintos formatos, el .hyper es el más eficiente, por lo que es el candidato ideal para manejar grandes fuentes de datos.

Fuentes: https://www.tableau.com/about/blog/2020/5/under-tableau-prep-hood-how-it-helps-you-build-performant-data-prep-flows

Si te has perdido nuestros artículos anteriores, ponte al día en nuestro blog y síguenos en LinkedIn.

Suscríbete al boletín

Para estar informado sobre las novedades de Tableau y Alteryx, sobre nuestros productos y servicios y sobre los próximos eventos de Visualitics, suscríbete a nuestro boletín. ¡Puedes elegir el tipo de envío que prefieres y darte de baja en cualquier momento!
¿Qué novedades quieres recibir?
¿Qué empresa trata tus datos?

VISUALITICS PARTNERS, S.L. (en adelante, “VISUALITICS“)

¿Por qué tratamos los datos que te pedimos?

Únicamente tratamos tus datos para poder prestarte los servicios de VISUALITICS + info

¿Cuál es la legitimación para este tratamiento de tus datos?

Estos datos son necesarios para llevar a cabo la prestación de los servicios ofrecidos por VISUALITICS + info

¿Se van a hacer cesiones o transferencias con tus datos?

Si así lo consientes, tus datos podrán ser cedidos a terceras empresas. + info

¿Cuáles son mis derechos?

El interesado tiene derecho a ejercitar su derecho de:

– Acceso, rectificación, supresión, oposición, portabilidad de los Datos, limitación del tratamiento y a no ser objeto de decisiones automatizadas individualizadas + info

¿Tienes dudas?

Tanto si tienes alguna o sugerencia como si quieres darte de baja ponte en contacto con nosotros enviando un email a la siguiente dirección: info@visualitics.es