En primer lugar, las buenas noticias: las estrategias de desarrollo en la nube permiten despliegues más rápidos y frecuentes. Ahora, las malas noticias: estos despliegues pueden afectar al equipo de operaciones de TI, aumentando el tiempo necesario para resolver incidentes. Esto podría significar clientes insatisfechos y más recursos dedicados a mantener sus sistemas en funcionamiento sin problemas. Hola, soy Dan Kehn de IBM Cloud®. Entonces, ¿qué puede hacer su equipo de operaciones ante esto? Explicaré esa pregunta en dos rápidas demostraciones, pero primero revisemos brevemente las fases de resolución de incidentes y luego explicaré cómo la automatización y la IA pueden ayudar. El tiempo medio de resolución es el panorama general. Cubre todo desde el momento en que comienza un problema hasta que finalmente se resuelve. Cuanto más tiempo lleve resolverlo, peor impacto tendrá en su organización. Algunas partes del tiempo de resolución son consistentes, como el tiempo medio de reparación (MTTF, por sus siglas en inglés). Otras varían significativamente, como el tiempo medio de identificación (MTTI, por sus siglas en inglés), que puede durar desde horas hasta días. Esto se debe a que depende de la experiencia y conocimiento de los operadores sobre las relaciones del sistema. Para ayudar a reducir el MTTI, IBM Cloud Pak® for Watson AIOps cuenta con estrategias de identificación incorporadas que utilizan el aprendizaje automático. Por supuesto, el aprendizaje automático funciona mejor cuando hay una gran cantidad de datos variados y de alta calidad. Es por eso que Cloud Pak for Watson AIOps consume datos de muchas fuentes y utiliza IA para descubrir relaciones entre estas diferentes fuentes de datos y ponderar posibles causas. Este aprendizaje no supervisado reduce el tiempo necesario para obtener el valor de la IA, por lo que en lugar de requerir un entrenamiento extenso, puede comenzar de inmediato con modelos preentrenados y listos para usar.
Índice
Resolución de incidentes de forma más rápida
De acuerdo, con esa introducción fuera del camino, me gustaría mostrarle dos incidentes y cómo Cloud Pak for Watson AIOps puede ayudarlo a resolverlos más rápidamente. El primero lo llamo día de suerte. Con la búsqueda inteligente de soluciones anteriores, cierra el incidente utilizando los pasos documentados en un libro de ejecución. El segundo, que desafortunadamente ocurre con más frecuencia de lo que nos gustaría admitir, lo llamo día no tan afortunado. Este es un problema no descubierto que requiere investigar en servidores problemáticos y confirmar la causa raíz. Imagine que está almorzando y recibe una notificación de Cloud Pak for Watson AIOps. Hace clic para verla. En el resumen del problema, reconoce uno de los servicios que monitoriza, así que decide investigar. Cloud Pak for Watson AIOps le muestra una vista resumida basada en datos recopilados directamente de los registros de supervisión de su aplicación y de herramientas integradas como PagerDuty, Splunk y ServiceNow. La entrada de chat le muestra varios campos distintos. En primer lugar, la aplicación afectada, la aplicación de venta de billetes de tren. A continuación, se muestra una hipótesis de origen del problema, el servicio de información de billetes. También se muestran la gravedad y el estado del incidente. Finalmente, puede ver un resumen de ticket que fue generado automáticamente por Watson AIOps. Dos preguntas clave para resolver un problema son qué cambió y qué sucedió cerca. Cloud Pak for Watson AIOps agrupa eventos que representan cambios y un mapa de topología que representa los servicios conectados cercanos. Saber qué cambió, cuándo cambió recientemente y con qué frecuencia lo hizo le brinda indicios sobre la fuente del problema. Con la topología inteligente y una comprensión del contexto, ahora sabe por dónde empezar.
Consolidación de información
De acuerdo, le he mostrado cómo Cloud Pak for Watson AIOps proporciona un resumen de información de diagnóstico clave, pero también ayuda a consolidar información de múltiples herramientas y fuentes de datos diferentes. Esta vista muestra un resumen de las anomalías que subyacen al informe del problema. Esto ayuda a reducir la sobrecarga de información y evitar la inundación de notificaciones. También le ahorra la molestia de perseguir problemas en diferentes herramientas. Ahora que tiene una mejor comprensión del incidente, pasa a tomar medidas para resolverlo. Cloud Pak for Watson AIOps ha identificado tickets similares en base a datos interpretados con procesamiento del lenguaje natural y modelos de IA preentrenados. Esto puede ayudarlo a identificar rápidamente tickets relevantes con posibles soluciones. Al señalar acciones específicas que su equipo ha tomado en el pasado, no tiene que lidiar con la tediosa tarea de revisar manualmente una lista de tickets anteriores. Confirma que el libro de ejecución coincide con el problema actual y resuelve el incidente. Excelente. En la investigación anterior, tuvimos suerte. El problema ya se había resuelto una vez, por lo que solo tuvimos que ejecutar el libro de ejecución. Pero, ¿qué pasa si no fuera tan fácil? Y ahí es donde la IA y el aprendizaje automático realmente brillan. Cloud Pak for Watson AIOps consume grandes volúmenes de sus datos del sistema, datos estructurados como la topología de configuración, datos semi-estructurados como los registros y la información del ticket e incluso datos no estructurados como comentarios de compromiso. En base a estos datos, aprende cómo se ve lo normal, por lo que puede alertarlo cuando las métricas están fuera de los límites esperados. Pero el administrador de métricas en Cloud Pak for Watson AIOps no se basa en un seguimiento de umbrales fijos. Esto evita la trampa en la que un umbral fijo alto genera muy pocas alertas y se ignoran los problemas reales hasta que se vuelven graves, o un umbral bajo genera demasiadas alertas y sus operadores simplemente las pasan por alto. En cambio, Cloud Pak for Watson AIOps utiliza aprendizaje automático para entender cuál es el comportamiento normal para las métricas clave de rendimiento y establece automáticamente umbrales adaptativos basados en la experiencia del sistema real.
Optimizando la resolución de problemas
Ahora veamos cómo Cloud Pak for Watson AIOps lo ayuda en su día no tan afortunado. Estamos más avanzados en la semana y está tratando con otro incidente. Esta vez es una aplicación de reclamaciones y los usuarios informan tiempos de respuesta muy lentos. Comienza su investigación abriendo el tablero de eventos. Cloud Pak for Watson AIOps reconoce muchas fuentes de datos para la correlación de eventos. Por ejemplo, datos de Log DNA, ServiceNow, PagerDuty y cientos de otras integraciones. El tablero agrupa eventos relacionados en función de asociaciones inferidas como la topología, el momento de ocurrencia y la ubicación. Echemos un vistazo más de cerca al evento que lleva a la ralentización de la aplicación de reclamaciones. Esta línea de tiempo de métricas puede ayudarlo a determinar el problema y evaluar los posibles impactos. El verde indica el comportamiento normal a lo largo del tiempo. Puede visualizar el rendimiento de referencia en comparación con los datos capturados recientemente. La vista secundaria muestra métricas basadas en la observabilidad de la aplicación. Estas son métricas descubiertas e identificadas como relacionadas con el tiempo de respuesta de la aplicación. Aquí se muestra que la métrica de actividad del disco está inestable, así que la agregamos a la línea de tiempo para una investigación más detallada. Ahora, la revisión principal muestra que justo antes de los problemas de tiempo de respuesta, la actividad del disco para el servicio de almacenamiento subió casi al 100% de utilización y se mantuvo allí. Eso nunca es algo bueno. Según este breve análisis, sabe que el almacén de datos de la base de datos estaba sobrecargado. Es un candidato principal para la causa raíz de la ralentización de la aplicación. El siguiente paso es confirmar su análisis revisando los registros del servicio y luego proponer una solución adecuada. El análisis de las relaciones entre estas métricas le ayuda a comprender el alcance completo del problema. Una vez que se implementa la solución, puede decir con confianza que ha identificado y resuelto la verdadera causa.
Optimizando la resolución de problemas
Okay, resumamos. En lo que respecta a las operaciones de TI, es mejor ser proactivo que estar constantemente en modo reactivo. Con reglas determinadas dinámicamente, el análisis de datos realizado por Cloud Pak for Watson AIOps lo ayuda a llegar a una resolución más rápida, potencialmente antes de que sus usuarios ni siquiera noten un problema. Y no tiene que administrar reglas, considerar cómo interactúan entre sí o preocuparse por cómo deberían cambiar las reglas cuando el entorno cambia. ¿Qué puede significar la automatización para su empresa? ¿Qué tal un 25% más de tiempo dedicado a trabajos que impulsan su negocio o una reducción del 50% en los costos de trabajo manual? Gracias por ver. Si desea ver más videos como este en el futuro, haga clic en Me gusta y suscríbase. Si desea obtener más información sobre Cloud Pak for Watson AIOps, asegúrese de verificar los enlaces en la descripción.
Tabla de Contenido:
Contenido | Resumen |
---|---|
Introducción | Información sobre la importancia de la resolución rápida de incidentes en la nube |
Incidente 1: Día de suerte | Explicación de cómo Cloud Pak for Watson AIOps ayuda a cerrar incidentes utilizando soluciones anteriores |
Incidente 2: Día no tan afortunado | Descripción de cómo Cloud Pak for Watson AIOps ayuda a identificar y resolver problemas desconocidos mediante el análisis de datos y la correlación de eventos |
Beneficios de Cloud Pak for Watson AIOps | Resumen de cómo la automatización y la IA pueden optimizar la resolución de incidentes y generar beneficios empresariales |
Preguntas frecuentes:
1. ¿Qué es Cloud Pak for Watson AIOps?
Cloud Pak for Watson AIOps es una plataforma de IBM que utiliza aprendizaje automático y análisis de datos para ayudar a resolver incidentes de TI de manera más rápida y eficiente.
2. ¿Qué fuentes de datos utiliza Cloud Pak for Watson AIOps?
Cloud Pak for Watson AIOps consume datos de varios sistemas y herramientas, como registros de supervisión de aplicaciones, PagerDuty, Splunk y ServiceNow, para proporcionar una vista completa del problema.
3. ¿Cómo puede ayudar Cloud Pak for Watson AIOps a reducir el tiempo de resolución de incidentes?
Cloud Pak for Watson AIOps utiliza técnicas de aprendizaje automático para identificar patrones anómalos y establecer umbrales adaptativos, lo que permite una detección y resolución más rápidas de problemas antes de que afecten a los usuarios finales.
Gracias por leer este artículo sobre cómo Cloud Pak for Watson AIOps ayuda a optimizar la resolución de incidentes en la nube. Espero que esta información le haya resultado útil. Si desea obtener más detalles sobre este tema o explorar otros temas relacionados, le animo a que consulte los artículos relacionados en nuestra página web. ¡Hasta la próxima!
¿Te ha resultado útil??
0 / 0
Hola, somos Mila Jiménez y César Sánchez. Dos apasionados de la ciberseguridad con muchos años de experiencia. Hemos trabajado en muchas empresas del mundo TI y ahora nos apetece compartir nuestro conocimiento con cualquiera que lo necesite.
¡Si te gusta nuestro contenido puedes invitarnos a un café AQUÍ!