«Datapedia» es nuestra columna mensual en la que explicamos el significado de términos que a menudo se malinterpretan y confunden en el mundo del Business Intelligence (BI) y la Visualización de Datos.
Muchos conceptos pueden parecer similares, pero tienen objetivos y aplicaciones distintos. A menudo se utilizan de forma imprecisa, lo que provoca confusión incluso entre los profesionales del sector.
En este artículo, exploraremos 4 pares de términos como Data Warehouse vs. Data Lake y explicaremos claramente qué son y cuándo utilizarlos.
El texto describe cuatro pares de conceptos en el campo de los datos, destacando sus definiciones, objetivos, casos de uso y diferencias.
Data Warehouse vs Data Lake: almacenamiento de datos
Cuando hay que analizar datos, es esencial entender primero dónde están contenidos. Los datos, ya sean corporativos, sanitarios o de cualquier otro tipo, se almacenan en instalaciones para garantizar su conservación y uso cuando sea necesario.
Por ejemplo, los datos pueden estar contenidos en un Data Warehouse, es decir, un sistema de almacenamiento digital que enlaza grandes cantidades de datos procedentes de distintas fuentes. El almacén de datos es, por tanto, la fuente única y fiable de datos para la organización que lo ha implantado. Puede contener datos estructurados (datos organizados en esquemas tabulares) o semiestructurados (por ejemplo, archivos XML, JSON), normalizados y cuya fiabilidad y calidad han sido validadas. A partir de este repositorio centralizado, se pueden extraer datos para satisfacer las necesidades más comunes de Business Intelligence: así, realizar análisis, establecer informes de seguimiento y crear visualizaciones gráficas exploratorias.
Cuando, por el contrario, los datos están en un formato no estructurado (por ejemplo, imágenes, audio, vídeo, correo electrónico) no pueden contenerse en una estructura rígida y normalizada como la que acabamos de ver, por lo que es necesario explotar el potencial del Data Lake. En efecto, se trata de un repositorio centralizado que puede contener datos de cualquier origen y estructura, procesados o no. El potencial de análisis en este caso es mayor que el del Data Warehouse y abarca todos los ámbitos posibles, desde la salud a las finanzas, pero esta mayor flexibilidad de análisis también conlleva mayores riesgos en cuanto a la calidad de los datos, que no están normalizados.
SQL vs NoSQL: lenguajes para gestionar datos
Una vez almacenados, los datos deben poder analizarse para que aporten valor a la organización que los posee, pero para proceder a su análisis hay que extraerlos del repositorio en el que están contenidos. Aquí es donde entra en juego el llamado SQL (Structured Query Language). En efecto, este tipo de lenguaje de programación permite tanto el almacenamiento como el tratamiento de datos contenidos en una estructura relacional, es decir, donde los datos están contenidos en tablas con filas y columnas para representar los atributos de los datos (como los que se ven en el caso del Data Warehouse). Se trata de un lenguaje fácil de escribir y entender que permite almacenar, modificar y buscar información dentro de la base de datos para poder proceder después a su análisis.
Si, por el contrario, los datos son semiestructurados, como se ha visto antes, el lenguaje SQL ya no se presta a su manipulación, y se hace necesario el uso del lenguaje NoSQL: éste permite acceder a los datos y gestionarlos sin contar con la estructura relacional que proporciona el lenguaje SQL. Se presta bien a aplicaciones en el ámbito móvil o web o en el sector del juego y garantiza mucha más flexibilidad y escalabilidad de análisis. Por estas razones, se convierte en un lenguaje preferible cuando se trata de volúmenes masivos de datos, como en el caso del Big Data.
Data Migration vs Data Mining: migración y exploración de datos
Como decíamos antes, una vez que los datos están dentro de una base de datos, se puede proceder a su análisis. Sin embargo, hay casos en los que la información debe trasladarse a otra estructura, quizá por motivos legislativos (por ejemplo, cambios en la normativa de protección y tratamiento de datos) o logísticos (por ejemplo, la necesidad de centralizar todos los datos en un nuevo repositorio): es lo que se conoce como Migración de Datos («Data Migration»). Como su nombre indica, la migración de datos consiste en transferir datos de un sistema de almacenamiento a otro. La migración puede realizarse, por ejemplo, de una base de datos a otra, pero también a la nube; en todos los casos, sin embargo, sigue siendo una práctica delicada en la que hay que tener cuidado para garantizar el correcto almacenamiento de la información.
Un término similar con el que puede ser fácil confundirse, pero que tiene un significado completamente distinto es Minería de Datos («Data Mining»): este término se refiere a la extracción de información útil a partir de datos. Lo que se hace cuando se habla de minería de datos es identificar tendencias, patrones y relaciones para apoyar los procesos de toma de decisiones. Hay muchas técnicas que pueden utilizarse, desde algoritmos de aprendizaje automático a redes neuronales, y otros tantos ámbitos de aplicación, desde el marketing a la demografía. Por ejemplo, el objetivo podría ser comprender mejor la demanda del mercado de un determinado producto: estas técnicas de análisis proporcionan las herramientas para responder a la pregunta.
Análisis prescriptivo vs descriptivo: análisis de datos
Podríamos decir, por tanto, que la minería de datos ofrece herramientas útiles para lo que se denomina análisis prescriptivo. Esto incluye todas las prácticas que hacen uso de hipótesis, ensayos, modelos, simulaciones, análisis matemáticos y estadísticos para refinar el proceso de toma de decisiones, indicando qué hacer y cómo tomar decisiones óptimas. El objetivo de estos análisis es precisamente ayudar a los responsables a tomar decisiones correctas basadas en datos, es decir, según criterios objetivos, con vistas a la optimización y la minimización de riesgos.
Por el contrario, el Análisis Descriptivo tiene la tarea de describir procesos, encontrar correlaciones entre el pasado y el presente sin explicar las causas de los fenómenos y, por tanto, sin poder hacer recomendaciones sobre qué hacer, como hace el análisis introducido anteriormente. El análisis descriptivo tiene como objetivo identificar cómo cambian ciertos parámetros clave (KPI: Key Performance Indicators) a lo largo del tiempo y, por tanto, identificar tendencias históricas y actuales a través del análisis estadístico. Por tanto, se considera la forma más sencilla de Business Intelligence, ya que trata de responder a la pregunta «¿qué ha pasado/qué está pasando?», mientras que la Analítica Prescriptiva trata de responder a la pregunta «¿cuál es la mejor acción que puedo emprender?».
Conclusiones
En resumen, hemos repasado gran parte del proceso de análisis de datos, explicando en primer lugar la diferencia entre Data Warehouse y Data Lake. Ambos son repositorios de datos: el primero con una estructura estandarizada adecuada para análisis recurrentes en los que la calidad y la fiabilidad de los datos deben ser seguras; el segundo, en cambio, decididamente más flexible y escalable, diseñado para contener también datos no estructurados, como archivos de audio y vídeo.
Para que los datos tengan un valor real, primero hay que extraerlos para poder analizarlos. Aquí es donde entra en juego el lenguaje SQL, necesario para insertar, modificar o extraer información contenida en bases de datos relacionales (es decir, formadas por tablas relacionadas entre sí). Si, por el contrario, los datos no están contenidos en estas estructuras, el uso del lenguaje NoSQL se hace imprescindible para garantizar la correcta utilización incluso de datos semiestructurados.
A veces ocurre que los datos deben trasladarse a otro repositorio y es en estos casos cuando hablamos de Migración de Datos. Cuestión distinta es la Minería de Datos, que engloba todas las técnicas para extraer información útil de los datos.
Es precisamente este conjunto de técnicas el que hace posible la Analítica Prescriptiva, es decir, el tipo de análisis que pretende responder a la pregunta «¿cómo puedo actuar?». De hecho, un estudio de este tipo permite encontrar soluciones óptimas a la pregunta en cuestión precisamente mediante el uso eficiente de los datos. Si, por el contrario, necesitamos simplemente describir el statu quo del fenómeno analizado, entra en juego la Analítica Descriptiva: gracias a ella, podemos observar las tendencias pasadas y presentes de un fenómeno para estudiar su comportamiento.
Hazte experto en BI y visualización de datos
Si deseas aprender los fundamentos de las principales herramientas de BI o convertirte en un experto en Analítica Visual, descubre nuestras formaciones.
Visualitics Team
Este artículo ha sido escrito y editado por uno de nuestros consultores
Fuentes:
Che cos’è un data lake? – www.azure.microsoft.com
Cos’è il data mining? – www.sap.com
Cos’è NoSQL? – www.aws.amazon.com
Cos’è SQL (Structured Query Language)? – www.aws.amazon.com
Data migration: cos’è, come si esegue e le best practice – www.bnova.it
Prescriptive analytics, definizione e come funziona l’analisi prescrittiva – www.bigdata4innovation.it
Compártelo ahora en tus redes sociales o por correo electrónico: