Aumenta la calidad de tus datos con una plataforma unificada de datos e IA

Las empresas de todo el mundo están buscando formas de mejorar su eficiencia operativa al permitir la toma de decisiones basadas en datos. Sin embargo, para lograr esto de manera precisa y responsable, se requiere el uso de datos relevantes, de alta calidad y gobernados. ¡Hola! Mi nombre es Love Auger Wall y soy un ingeniero de soluciones para IBM Data and AI. Hoy estoy aquí para hablarles sobre cómo su organización puede ofrecer datos de calidad utilizando nuestra metodología de DataOps. Así que empecemos por qué es DataOps.

¿Qué es DataOps?

DataOps es la orquestación de personas, procesos y tecnología para ofrecer datos confiables y de alta calidad a los usuarios de datos de manera rápida. Esta práctica se enfoca en fomentar la colaboración en toda la organización para impulsar la agilidad, la velocidad y las nuevas iniciativas de datos a gran escala. Desde una perspectiva operativa, DataOps integra un proceso continuo de descubrimiento, transformación, gobernabilidad, integración y curación de datos, así como su catalogación para el autoservicio. Nuestra plataforma de datos híbrida, unificada y flexible, IBM Cloud Pak for Data, ofrece todos los servicios que mencioné y más como parte de una cadena de herramientas de DataOps.

Demostración rápida

Ahora veamos una demostración rápida de cómo tanto un ingeniero de datos como un consumidor de datos en una organización utilizarían las capacidades de DataOps de IBM Cloud Pak for Data. Comenzaremos con el ingeniero de datos.

Rol del ingeniero de datos

Como ingeniero de datos, mi objetivo es conectar diversas fuentes de datos, evaluar su calidad y publicar los activos de datos en un catálogo empresarial para que los consumidores de datos puedan acceder a ellos de manera rápida y fácil.

Primero, inicio sesión en IBM Cloud Pak for Data como ingeniero de datos y comienzo agregando algunas fuentes de datos. Voy a la pestaña de conexiones de la plataforma y hago clic en Nueva conexión. Ahí puedo ver la amplia variedad de fuentes de datos de IBM y de terceros a las que puedo conectarme. En este caso, quiero conectarme a una instancia de DB2, así que ingreso mis credenciales y creo la conexión. Ahora que tenemos nuestra conexión definida, veamos cómo podemos descubrir información sobre la calidad de los datos.

Artículos relacionados  IBM Cloud sin compromisos, premio Satellite UX y desafío IBM Build-a-Bot

Salto a la pestaña de descubrimiento de datos y tenemos la opción entre un análisis rápido, que analiza una muestra de cada tabla o archivo para proporcionar rápidamente resultados de análisis, o un descubrimiento automatizado, que proporciona resultados de análisis detallados de todos los activos de datos de la fuente y que normalmente es adecuado para un subconjunto de datos. Por ahora, ejecutaré un descubrimiento automatizado. Selecciono la conexión de datos que configuré y los parámetros que deseo, incluida la publicación del activo de datos en nuestro catálogo empresarial para que los consumidores puedan encontrar estos datos, y hago clic en Descubrir.

Mientras esto se está ejecutando, la plataforma está extrayendo metadatos de nuestra fuente y evaluándolos en cuanto a calidad mediante métricas como clases de datos, formatos, distribución de frecuencias y más. Ahora, quiero mostrarles cómo se ve ese análisis. Abro los resultados y podemos ver un panel de control que resume la calidad de nuestros datos y nos permite profundizar en los activos y las relaciones específicas.

Gobierno de los activos de datos

Ahora veamos cómo podemos gobernar nuestros activos de datos. Hay dos puntos que me gustaría abordar aquí: las clases de datos y las reglas de protección de datos.

Las clases de datos nos permiten definir atributos de datos específicos y diferenciar diferentes tipos de datos en función de nuestro lenguaje empresarial. Por ejemplo, podemos tener algo como el número de cliente o la dirección de correo electrónico, como se muestra aquí con un formato específico.

Una vez que hemos definido nuestras clases, pasamos a las reglas de protección de datos. Estas nos permiten definir reglas personalizadas sobre cómo manejar datos sensibles. En este caso, ya tengo algunas reglas configuradas, como la enmascaramiento de correo electrónico, que recorta completamente cualquier campo de datos que coincida con la clase de datos «correo electrónico». También podría reemplazarlo por otros valores o simplemente obfuscarlo.

Rol del consumidor de datos

Ahora, cambio de sombrero y inicio sesión en la plataforma como consumidor de datos. Como consumidor de datos, estoy buscando datos específicos que necesito para realizar algún tipo de análisis. Voy a mi catálogo empresarial de datos y ahora puedo buscar exactamente lo que necesito mediante términos comerciales, clases de datos y otros atributos. La búsqueda abarca todo el panorama de datos, sin importar si esas fuentes de datos se encuentran en diferentes nubes o in situ. Todo está en el catálogo.

Artículos relacionados  Nuevas características de IBM Cloud: Aceleradores Industriales, Extensión Visual Studio Code y IBM Cloud LinuxONE VPC

Ahora que encontré el conjunto de datos que estoy buscando, puedo previsualizarlo para asegurarme de que es lo que necesito. Si te has dado cuenta, en realidad no puedo ver todos los datos. Hay columnas enmascaradas para mí. Esto se debe a las reglas de protección de datos que configuramos previamente y que se aplican a todos los activos de datos en el catálogo. Esto permite que nuestra organización mantenga la gobernancia y el cumplimiento de datos al mismo tiempo que expone los datos que necesitan nuestros analistas y científicos de datos. También puedo echar un vistazo rápido al perfil del conjunto de datos, lo que me permite analizarlo aún más en términos de calidad y asegurarme de que los valores coinciden con una clase específica, que no haya valores faltantes o inconsistentes, y revisar estadísticas sobre el activo.

Así que esto me parece bien y lo agregaré a mi proyecto de ciencia de datos para comenzar a construir conocimientos. Una vez que estoy en mi proyecto y decido realizar cambios en el conjunto de datos, no tengo que volver a mi ingeniero de datos para solicitar esos cambios. Puedo usar otra herramienta de autoservicio para hacer esos cambios en mi proyecto.

En resumen, como ingeniero de datos, pude aprovechar la plataforma para conectar diversas fuentes de datos, evaluar su calidad, definir reglas de protección de datos específicas y luego publicar los activos en un catálogo de conocimientos empresariales para que todos nuestros consumidores de datos puedan acceder a ellos. Y como consumidor de datos, pude utilizar la misma plataforma para buscar los datos que necesito y obtener acceso a ellos rápidamente para mi proyecto de análisis. Pude realizar cambios en cómo se comporta mi conjunto de datos sin tener que pasar por un proceso largo de solicitar esos cambios a un ingeniero de datos. Todo esto en una sola plataforma, pudimos llevar a cabo varias actividades diferentes del ciclo de vida de DataOps y convertir un proceso que tradicionalmente lleva días en uno que se puede completar en horas. Aunque solo vimos algunas de las capacidades de DataOps hoy, puedes descubrir el resto solicitando una prueba gratuita de IBM Cloud Pak for Data en el enlace debajo. Gracias por ver el video. Si tienes alguna pregunta, déjanos un comentario a continuación. Si deseas ver más videos como este en el futuro, no olvides darle me gusta y suscribirte. Y no olvides, si deseas obtener más información sobre IBM Cloud Pak for Data, consulta los enlaces a continuación.

Artículos relacionados  El futuro laboral para un ingeniero de infraestructura IT tradicional

Resumen

TemasDescripción
¿Qué es DataOps?La orquestación de personas, procesos y tecnología para ofrecer datos confiables y de alta calidad a los usuarios de datos de manera rápida.
Rol del ingeniero de datosConectar diversas fuentes de datos, evaluar su calidad y publicar los activos en un catálogo empresarial.
Gobierno de los activos de datosDefinir clases de datos y reglas de protección de datos personalizadas.
Rol del consumidor de datosBuscar datos específicos en el catálogo empresarial y acceder a ellos para análisis.

Preguntas frecuentes

1. ¿Qué es DataOps?
DataOps es la orquestación de personas, procesos y tecnología para ofrecer datos confiables y de alta calidad a los usuarios de datos de manera rápida.

2. ¿Qué es IBM Cloud Pak for Data?
IBM Cloud Pak for Data es una plataforma de datos híbrida, unificada y flexible que ofrece servicios para la implementación de DataOps.

3. ¿Cómo puedo acceder al catálogo empresarial de datos?
Puedes acceder al catálogo empresarial de datos a través de IBM Cloud Pak for Data, donde puedes buscar datos específicos y obtener acceso a ellos.

4. ¿Cómo puedo gobernar los activos de datos?
Puedes gobernar los activos de datos definiendo clases de datos y reglas de protección de datos personalizadas.

5. ¿Cómo puedo hacer cambios en un conjunto de datos sin la ayuda de un ingeniero de datos?
Puedes utilizar herramientas de autoservicio en IBM Cloud Pak for Data para realizar cambios menores en un conjunto de datos y guardar esos cambios en tu proyecto.

Espero que este artículo te haya dado una idea clara de cómo puedes implementar DataOps en tu organización utilizando IBM Cloud Pak for Data. Si tienes más preguntas o deseas obtener más información, no dudes en dejar un comentario o consultar los enlaces relacionados a continuación. ¡Gracias por leer!

Enlaces relacionados:

[Enlace de prueba gratuita de IBM Cloud Pak for Data] [Enlace a otros artículos relacionados]

¿Te ha resultado útil??

0 / 0

Deja una respuesta 0

Your email address will not be published. Required fields are marked *