Descubre los Data Lakehouses: una guía completa

La semana pasada estaba cenando en un restaurante y miraba a mi alrededor. El lugar estaba lleno y todos recibían sus pedidos a tiempo. No pude evitar pensar en la logística que implica un restaurante: convertir ingredientes crudos en deliciosas comidas. Así que pensemos en esto por un momento. En una cocina comercial, los ingredientes crudos son entregados por camiones a nuestro muelle de carga en grandes paletas. El camión llega al muelle, deja la paleta y vuelve a la carretera para entregar más ingredientes a otros restaurantes. Hasta ahí todo bien. Ahora tenemos que desempaquetar esa paleta y procesar los ingredientes. Debemos clasificar todo, etiquetar cada ingrediente y asegurarnos de que cada uno se dirija al área de almacenamiento correcta. Algunos ingredientes van al despensa de alimentos secos, otros a las neveras y congeladores para las verduras y carnes frescas. También debemos organizar esas áreas de almacenamiento. Debemos asegurarnos de que los ingredientes que están a punto de caducar sean utilizados primero, de que ciertos ingredientes estén separados para evitar la contaminación y de que ciertos ingredientes alcancen cierta temperatura para garantizar la seguridad alimentaria. Por cierto, todo esto debe hacerse lo más rápido posible para minimizar el desperdicio de alimentos y el deterioro de los ingredientes mientras están en el camión o en la paleta. Sin este proceso, los cocineros en la cocina no pueden hacer su trabajo de manera efectiva o segura. Pasarían mucho tiempo buscando ingredientes y menos tiempo cocinando y sirviendo las comidas a los clientes. ¿Y qué tiene que ver esto con los datos?

Índice

1 La misma lógica para los datos
2 Los Data Lakes
3 Los desafíos
4 El surgimiento de la Data Lake House
5 Aplicaciones de un Data Lake House
6 Preguntas frecuentes

La misma lógica para los datos

Bueno, si lo pensamos, este mismo proceso también existe en las arquitecturas de datos de las organizaciones. Tenemos diferentes tipos de datos proviniendo de diferentes fuentes, como diferentes ambientes en la nube, diferentes aplicaciones operativas e incluso datos de redes sociales. Todo esto llega a nuestra organización, al igual que los ingredientes llegan a la cocina desde diferentes proveedores. Constantemente llegan datos y necesitamos un lugar rápido para almacenar todo tipo de datos en diferentes formatos para su uso posterior. Es aquí donde entran en juego los Data Lakes.

Los Data Lakes

Los Data Lakes nos permiten capturar de manera rápida y económica datos en bruto, estructurados, no estructurados e incluso semiestructurados. Es como si en la cocina no estuviéramos cocinando en el muelle de carga, pero necesitamos organizar y transformar los datos. Debemos convertirlos de su estado en bruto a algo utilizable para generar ideas y análisis que nuestra empresa necesita. Para esto, utilizamos los Enterprise Data Warehouses o EDWs. En estos almacenes cargamos los datos desde el Data Lake o desde otras fuentes, como las aplicaciones operativas, y los optimizamos y organizamos para ejecutar tareas analíticas específicas. Puede ser para generar inteligencia empresarial a través de paneles de control e informes, o puede alimentar otras herramientas analíticas. Así como en la cocina organizamos los ingredientes en despensas y neveras, en el almacén de datos limpiamos, organizamos y damos confianza a los datos para mantener la integridad.

Los desafíos

Este enfoque también presenta desafíos. Los Data Lakes son excelentes para capturar grandes cantidades de datos de manera rentable, pero nos enfrentamos a desafíos en la gobernanza y calidad de los datos. A menudo, los Data Lakes se convierten en pantanos de datos cuando hay datos duplicados, inexactos o incompletos, lo que dificulta el seguimiento y gestión de los activos. Además, si esos datos se vuelven obsoletos, pierden su valor para generar ideas, de la misma manera que los ingredientes se echan a perder con el tiempo si no los usamos. Los Data Lakes también tienen desafíos con el rendimiento de las consultas, ya que no están diseñados y optimizados para manejar consultas analíticas complejas. A veces, puede ser difícil obtener información directamente de los Data Lakes.

Por otro lado, los Data Warehouses son geniales en cuanto a rendimiento de consultas, pero pueden ser costosos de mantener, al igual que las grandes neveras. No podemos ponerlo todo en un Data Warehouse. Si bien pueden estar mejor optimizados para mantener la gobernanza y la calidad de los datos, tienen soporte limitado para fuentes de datos semiestructuradas y no estructuradas, que son las que más están creciendo y las que llegan a nuestras organizaciones. También pueden ser demasiado lentos para ciertos tipos de aplicaciones que requieren los datos más actualizados, ya que lleva tiempo ordenar, limpiar y cargar los datos en el almacén.

El surgimiento de la Data Lake House

En vista de estos desafíos, los desarrolladores han dado un paso atrás y han creado una nueva tecnología que combina lo mejor tanto de los Data Lakes como de los Data Warehouses. Esta nueva tecnología se llama Data Lake House. Nos permite almacenar datos de diversas fuentes de manera económica y aprovechar las capas de gestión y gobernanza de datos incorporadas para alimentar tanto las cargas de trabajo de inteligencia empresarial como las de aprendizaje automático de alto rendimiento. Pero hablaré más específicamente sobre la arquitectura de un Data Lake House en un futuro video.

Aplicaciones de un Data Lake House

Existen muchas formas de utilizar un Data Lake House. Podemos modernizar nuestros Data Lakes existentes o complementar nuestros Data Warehouses para admitir algunos de los nuevos tipos de cargas de trabajo impulsadas por inteligencia artificial y aprendizaje automático. Pero hablaremos más sobre eso en próximos videos.

Así que la próxima vez que estés en un restaurante, espero que pienses en cómo llegó la comida a tu plato y en los pasos que los ingredientes tomaron desde la cocina hasta la comida en tu plato. Gracias por leer este artículo y si te gustó por favor ¡suscríbete! Si tienes alguna pregunta, déjala en los comentarios a continuación. Para más contenido relacionado, puedes visitar nuestra lista de artículos relacionados en nuestro sitio web.

Artículo	Tipo	Desafíos	Ventajas
Data Lakes	Captura de datos en bruto, estructurados, no estructurados y semiestructurados de diversas fuentes	– Desafíos de gobernanza y calidad de datos – Pérdida de valor de datos obsoletos – Rendimiento de consultas limitado	Económico Captura rápida de datos Flexibilidad de formatos Almacenamiento de grandes cantidades de datos
Data Warehouses	Almacenamiento optimizado y organizado de datos para tareas analíticas específicas	– Costo de mantenimiento elevado – Soporte limitado para datos semiestructurados y no estructurados – Lentitud en la carga de datos frescos	Rendimiento de consultas excepcional Mantenimiento de la gobernanza y calidad de datos Datos confiables y de integridad
Data Lake House	Almacenamiento económico y flexible de datos de diversas fuentes con rendimiento y estructura mejorados	– Desafíos de gobernanza y calidad de datos – Dificultad en la obtención directa de información de los Lakes	Flexibilidad Bajo costo Rendimiento mejorado Capacidad de gestionar datos estructurados y no estructurados

Preguntas frecuentes

A continuación, encontrarás algunas preguntas frecuentes sobre Data Lakes, Data Warehouses y Data Lake Houses:

1. ¿Cómo puedo evitar que un Data Lake se convierta en un pantano de datos?

Puedes asegurarte de tener políticas de gobernanza de datos claras, eliminar datos duplicados o inexactos, y realizar una limpieza regular para mantener la calidad de los datos.

2. ¿Cuál es la principal diferencia entre un Data Warehouse y una Data Lake House?

La principal diferencia radica en la capacidad de almacenar y procesar datos tanto estructurados como no estructurados. La Data Lake House combina la flexibilidad y el bajo costo del Data Lake con el rendimiento y la estructura del Data Warehouse.

3. ¿Cuándo es recomendable utilizar un Data Warehouse en lugar de un Data Lake House?

Un Data Warehouse es más adecuado cuando se requiere un rendimiento excepcional en consultas y cuando se necesita mantener la integridad y gobernanza de los datos. Sin embargo, puede ser costoso y no es óptimo para almacenar datos semiestructurados o no estructurados.

4. ¿Cuándo es recomendable utilizar un Data Lake en lugar de un Data Lake House?

Un Data Lake es más adecuado cuando se necesita capturar grandes cantidades de datos de manera rápida y económica, especialmente cuando provienen de diversas fuentes y en diferentes formatos. Sin embargo, es importante establecer políticas claras de gobernanza y calidad de datos para evitar que se convierta en un pantano de datos.

Espero que estas preguntas frecuentes te hayan ayudado a aclarar tus dudas sobre los Data Lakes, los Data Warehouses y las Data Lake Houses. Si tienes más preguntas, no dudes en dejarlas en los comentarios. ¡Gracias por leer!

Hasta la próxima y no olvides visitar nuestros artículos relacionados para seguir aprendiendo sobre este fascinante tema.

¿Te ha resultado útil??

0 / 0

Mila y César

Hola, somos Mila Jiménez y César Sánchez. Dos apasionados de la ciberseguridad con muchos años de experiencia. Hemos trabajado en muchas empresas del mundo TI y ahora nos apetece compartir nuestro conocimiento con cualquiera que lo necesite.

¡Si te gusta nuestro contenido puedes invitarnos a un café AQUÍ!

Deja una respuesta 0

Otras preguntas sobre <a href="https://todoforti.net/redes/">Redes</a>

Diferencia entre APM y Observabilidad
Seguramente has escuchado hablar sobre el monitoreo del rendimiento de aplicaciones, o APM. Y es posible que también hayas oído hablar de la observabilidad. Y es posible que hayas escuchado que la observabilidad es una evolución de APM. Sin embargo, la observabilidad no es simplemente un nuevo nombre para APM ni tampoco una evolución de Leer
Todo sobre IaaS
¿Qué es IaaS y cómo funciona en la nube? Bienvenidos a todoforti.net. En este artículo, hablaremos sobre IaaS (Infraestructura como Servicio) y cómo funciona en el ámbito de la nube. Si te has preguntado qué significa IaaS o has visto esta sigla en varios lugares, ¡has llegado al lugar indicado! Índice1 ¿Qué es IaaS?2 ¿Cómo Leer
Networking virtual simplificado
Hola, mi nombre es Frank Shiitake y soy parte del equipo de IBM Cloud. Estoy aquí para explicar los conceptos básicos de la virtualización de redes. La virtualización de redes se utiliza principalmente en la nube, por lo que es importante comprender al menos los conceptos básicos. En este artículo, vamos a hablar sobre los Leer
Descubre GitOps en Multicloud
¿Deseas que tus implementaciones en múltiples nubes sean aburridas o emocionantes como una montaña rusa? Soy Chris Lozaro de IBM y voy a hablar sobre GitOps para multi-cloud, pero antes de hacerlo, asegúrate de darle like y suscribirte. Índice1 Una forma sencilla, consistente y segura de gestionar tus entornos2 Uniendo desarrollo y operaciones a través Leer
Escasez de direcciones IP: beneficios de las direcciones IP privadas
En el año 1996, internet se encontraba en una situación crítica. Había una escasez grave de direcciones IP y parecía que no había una solución a la vista. Pero entonces llegó RFC 1918, un verdadero héroe que salvó el día y nos permitió tener internet tal como lo conocemos hoy en día. Sin RFC 1918, Leer