Agrupación
Dentro de Tableau Prep Builder tenemos varias opciones para realizar operaciones de limpieza en nuestra fuente de datos. Una de estas operaciones es la posibilidad de agrupar campos que se escriben de forma diferente, pero que tienen el mismo significado.
Como el campo «Abrams». Además de la selección manual, Tableau Prep ofrece una serie de opciones que, mediante la aplicación de algoritmos, realizan estas operaciones de limpieza de forma automática, sobre todos los campos de la variable considerada para el análisis.
Sin embargo, sigue siendo una buena práctica revisar manualmente los resultados obtenidos al aplicar el algoritmo.
Algoritmos
Pronunciación
Este algoritmo agrupa palabras con la misma pronunciación, como «Albuquerque» y «Albuquerqee». El requisito es que los campos considerados para el análisis estén escritos en inglés.
Características comunes
Este algoritmo, en cambio, permite la agrupación de campos que tienen números y letras en común. Por lo tanto, es muy útil para agrupar palabras que difieren en mayúsculas, formato, orden, como «John Smith» y «Smith, John».
El algoritmo crea una cadena formada por cada carácter único, ya sea una letra o un número. En el caso del ejemplo anterior, para ambos campos la cadena generada será «hijmnost».
Este algoritmo no tiene en cuenta la pronunciación como el anterior.
Spelling
Definido como un umbral, el algoritmo agrupa palabras que pueden diferir en una o más características. El umbral define el número máximo de operaciones que deben realizarse para que las dos palabras sean idénticas. Las operaciones pueden incluir la eliminación de una coma, la adición de una letra y otras de este tipo. Al cambiar el control deslizante se puede ajustar el umbral.
Pronunciation + Spelling
Finalmente, este último algoritmo, a diferencia de los anteriores, se puede aplicar para encontrar el Rol de Datos más adecuado para asignar a los campos que no coinciden, y que por tanto son marcados por Tableau con un signo de exclamación rojo. Los campos pueden ser los siguientes: Email, Url y Roles Geográficos.
Si te has perdido nuestros artículos anteriores, ponte al día en nuestro blog y síguenos en nuestros canal social de LinkedIn.