Data Lakehouse Architecture: El futuro de almacenamiento y análisis de datos

En un artículo anterior hablamos sobre el concepto de la casa del lago de datos y compartimos una historia sobre cómo las casas del lago de datos son muy parecidas a las operaciones de una cocina comercial en un restaurante, así que definitivamente echa un vistazo a ese artículo si aún no lo has visto. Hoy me gustaría discutir más sobre los principales impulsores y valores entregados por una arquitectura de casa del lago de datos abierta, así como compartir un par de ejemplos. Para ayudarme con eso, estoy muy emocionado de invitar a Edward Calisburt, director de gestión de productos de las bases de datos de IBM, a unirse a nosotros. Edward, gracias por estar aquí.

Principales tendencias y cambios en el uso de los datos

Comencemos hablando sobre las principales tendencias macro que estamos viendo y que están llevando a las organizaciones a modernizar sus infraestructuras de análisis. ¿Cómo ha cambiado drásticamente el uso de los datos en los últimos años?

Bueno, hay tres principales tendencias macro que estamos viendo en el mercado. Primero, la cantidad y el costo de los datos están aumentando. Segundo, los patrones de consumo de datos están expandiéndose y cambiando. Y tercero, la arquitectura de datos está siendo interrumpida y transformada. ¿Podrías hablar brevemente sobre cada una de estas tendencias?

Por supuesto. No hay duda de que la cantidad de datos está aumentando rápidamente, pero también proviene de una variedad de fuentes diferentes y en todo tipo de nuevos formatos de datos. Lo que esto significa es que las empresas están gastando más dinero para gestionar todos estos datos, y algunas estimaciones sitúan ese gasto en alrededor del 30% interanual.

Entonces, cuando hablas del costo de los datos, ¿te refieres solo al costo de almacenarlos en diferentes repositorios como los lagos de datos, almacenes de datos u otros sistemas de almacenamiento? ¿O también te refieres al costo de gestionar y gobernar el ciclo de vida de esos datos?

En realidad, se trata de ambos. Hablemos ahora de los patrones de consumo de datos. Existe una demanda cada vez mayor de uso de datos, especialmente por parte de los usuarios empresariales. No hay duda de que el análisis se ha convertido en un componente esencial para casi todos los puestos de trabajo, y ciertamente la inteligencia artificial (IA) está expandiéndose rápidamente. Esto no significa que cada usuario empresarial tenga que convertirse en un experto en IA, pero sí significa que cada vez más estamos viendo cómo la IA se utiliza para automatizar y optimizar ciertas decisiones a gran escala, como campañas publicitarias o redes de cadena de suministro. La IA también se utiliza para complementar la toma de decisiones humana, como la evaluación del riesgo crediticio. Esto significa que las empresas siempre están buscando más datos y usándolos para obtener nuevos conocimientos, ¿verdad?

Artículos relacionados  ¿Por qué las tuplas son importantes en programación?

Así es. Y, ¿qué hay de las preocupaciones de privacidad y regulación de datos en torno a la IA?

Cuando se combina esto con mayores estándares regulatorios, las empresas necesitarán niveles más altos de seguridad y gobernabilidad de datos integrados para permitir el intercambio y consumo de estos datos, definitivamente.

La democratización de los datos y la importancia del tiempo de valor

Otra cosa que escuchamos mucho es la democratización de los datos. Es decir, se trata de crear, de tener acceso al dato lo más rápido posible, ¿verdad?

Efectivamente. Los usuarios empresariales necesitan datos, pero los necesitan «para ayer». No beneficia mucho al usuario ni a la organización si se requieren procesos complicados y largos para que los usuarios accedan a los datos. Para obtener el máximo valor de los datos, deben ser consumidos lo más rápido posible, pero siempre cumpliendo con las políticas de gobierno y cumplimiento, ¿no estás de acuerdo?

Definitivamente. Eso nos lleva a nuestro tercer punto, que es la arquitectura. Las organizaciones se están dando cuenta de que la forma en que se gestionan los datos debe cambiar. La aparición del almacenamiento en la nube, los formatos de datos abiertos y la adopción de esos formatos están permitiendo que las empresas aumenten el retorno de la inversión en la gestión de datos. Esto se logra mediante la optimización del rendimiento y costo de sus cargas de trabajo de análisis en diferentes niveles de almacenamiento y computación.

¿Qué significa eso? Significa que las organizaciones pueden beneficiarse de tener la herramienta adecuada para el trabajo adecuado y al costo correcto, en lugar de recurrir automáticamente a un almacén de datos que puede ser apropiado en algunos casos pero que también puede resultar muy costoso e ineficiente en otros, ¿verdad?

Artículos relacionados  Equivocaciones al usar Linux: Lecciones valiosas

Entonces, lo que estoy escuchando es que hay más datos, más usuarios y más usos de esos datos, y todo esto mientras se buscan mejores formas de compartir y gestionar el acceso a ellos. ¿Es así?

Sí, exactamente. Y, ¿cómo se relacionan estos aspectos con los valores clave que se entregan mediante una arquitectura de casa del lago de datos abierta?

Los valores de una casa del lago de datos abierta

Excelente pregunta. Vemos tres valores clave que se entregan mediante una casa del lago de datos abierta. Primero, una casa del lago de datos abierta proporciona la base para que los usuarios accedan, almacenen, gestionen y unifiquen grandes cantidades de datos de manera fácil y rentable, provenientes de diferentes fuentes y en diferentes formatos. En segundo lugar, una casa del lago de datos abierta puede ser fácil de implementar dentro de entornos existentes, lo que brinda a los usuarios acceso rápido a más datos sin requerir largos procesos de adquisición y configuración, lo que facilita su consumo. Y en tercer lugar, las casas del lago de datos abiertas pueden optimizar las cargas de trabajo de análisis para que se ejecuten donde tengan un mejor rendimiento y sean más eficientes en cuanto a costos. Todo esto como parte de una arquitectura integrada.

Vaya, eso suena muy emocionante. Edward, ¿podrías explicarnos qué significa la palabra «abierta» en este contexto?

Me alegra que lo hayas mencionado. Una casa del lago de datos debe aprovechar las capacidades de los entornos de datos y análisis existentes. Si ya tienes cargas de trabajo de datos y análisis en un almacén de datos o en un lago de datos Hadoop, está bien. No deberías ser obligado a migrar o reemplazar ese entorno para empezar con la casa del lago de datos. Pero, ¿qué hay de los datos y las cargas de trabajo nuevos?

Una casa del lago de datos debe ser el punto de partida tanto para los datos como para las nuevas cargas de trabajo, además de proporcionar una ruta de modernización para los entornos existentes a lo largo del tiempo. Además, también escuchamos con frecuencia acerca de los clientes que se quedan atrapados con un único proveedor. Abrir también significa que siempre tienes el control de tus datos y no estás obligado a usar formatos de datos patentados o herramientas especializadas para utilizarlos. También significa que puedes maximizar el uso de tus datos sin tener que hacer copias y moverlos, lo que reduce los costos, aumenta la productividad y mejora la gobernabilidad. En definitiva, esto conduce a lo que las empresas buscan: decisiones más confiables.

Artículos relacionados  Introducción al Grafo del Conocimiento

Resumen de la información

Principales tendencias y cambios en el uso de los datosLos valores de una casa del lago de datos abierta
  • Incremento en la cantidad y costo de los datos
  • Cambio en los patrones de consumo de datos
  • Disrupción y transformación de la arquitectura de datos
  • Acceso rentable y fácil a grandes cantidades de datos
  • Rápido acceso a más datos sin procesos largos
  • Optimización de cargas de trabajo de análisis

Preguntas frecuentes

Aquí hay algunas preguntas frecuentes sobre las casas del lago de datos:

  1. ¿Cuál es la diferencia entre una casa del lago de datos y un almacén de datos?
  2. ¿Cuáles son las ventajas de utilizar una arquitectura de casa del lago de datos abierta?
  3. ¿Cómo se puede optimizar el costo y rendimiento de las cargas de trabajo de análisis en una casa del lago de datos?
  4. ¿Cuáles son los desafíos de implementar una casa del lago de datos abierta en una organización?

Si tienes más preguntas, déjalas en los comentarios a continuación.

En conclusión, una casa del lago de datos abierta ofrece una solución sólida para gestionar y aprovechar grandes cantidades de datos, satisfaciendo las necesidades de los usuarios empresariales y optimizando tanto los costos como el rendimiento. Esto, a su vez, permite a las empresas tomar decisiones más confiables y obtener insights valiosos de sus datos. Si te interesó este artículo, te invito a que explores nuestros otros artículos relacionados para obtener más información sobre este fascinante tema.

Gracias por tu atención y nos vemos en el próximo artículo.

¿Te ha resultado útil??

0 / 0

Deja una respuesta 0

Your email address will not be published. Required fields are marked *