Simplifica el monitoreo de aplicaciones con señales cruciales SRE

Hoy me gustaría hablar un poco sobre la disciplina de confiabilidad del sitio o SRE (Site Reliability Engineering) y cómo podemos aplicarla para simplificar el monitoreo de aplicaciones modernas y complejas. Esto nos ayudará a identificar las causas raíz más rápidamente y reducir drásticamente el tiempo medio de recuperación, para así mantener el rendimiento deseado para nuestras aplicaciones y usuarios finales.

Índice

1 Problemas anteriores al aplicar los principios SRE
2 Los beneficios de aplicar los principios SRE
3 Resumen
4 Preguntas frecuentes (FAQs)
5 Tabla resumen

Problemas anteriores al aplicar los principios SRE

Imaginemos que soy el propietario de una aplicación y recibo una alerta que indica que existe un problema de latencia. Dado que mi aplicación es muy importante para mi negocio, necesito encontrar rápidamente la causa raíz. Sin embargo, debido a la complejidad de la topología de microservicios, puede ser realmente difícil determinar exactamente de dónde proviene la causa raíz. Además, todas mis dependencias pueden estar basadas en diferentes tecnologías. Por ejemplo, una puede estar construida con Node.js, otra puede ser una base de datos DB2 y otra puede estar escrita en Swift, entre otras. Cada una de estas tecnologías tiene diferentes métricas que normalmente se monitorean y no necesariamente soy un experto en todas estas tecnologías.

Por lo tanto, podría necesitar llamar a un experto por cada una de estas tecnologías. Como puedes imaginar, esto consume mucho tiempo y esfuerzo para todos, ya que cada persona debe revisar su servicio para determinar si existe un problema o si deben seguir buscando en dependencias posteriores, mientras mis usuarios experimentan aún el problema de latencia.

Los beneficios de aplicar los principios SRE

Afortunadamente, existe una mejor manera de abordar esta situación. La disciplina de SRE nos dice que solo hay cuatro indicadores clave de rendimiento que necesitamos monitorear, en lugar de todas las diferentes métricas para cada tecnología. A estos indicadores los llamamos «señales doradas» o «golden signals». Estas señales doradas son:

– Latencia: el tiempo que lleva atender una solicitud.

– Errores: la tasa de errores en las solicitudes.

– Tráfico: la demanda que se coloca en el sistema.

– Saturación: la utilización del sistema en comparación con su capacidad máxima.

Volviendo a nuestro ejemplo inicial, veamos cómo funcionaría el monitoreo aplicando estas señales doradas. Supongamos que mi servicio (llamémoslo «servicio A») tiene un problema de latencia. Sabemos que la latencia suele ser un síntoma y, si examinamos el servicio A, vemos que no hay indicios de causas. Por lo tanto, sabemos que debemos seguir buscando en servicios posteriores, pero no queremos volver a esa complicada topología de microservicios e intentar resolverlo todo desde allí.

Algunas herramientas de APM (Administración del desempeño de aplicaciones) pueden ayudarte con esto, al identificar solo los servicios que están a un «salto» de distancia de mi servicio en cuestión. Supongamos que tenemos los servicios B, C y D conectados a mi servicio A que está teniendo problemas. No importa qué tecnología utilicen estos servicios, lo único que necesitamos hacer es revisar las señales doradas. Por ejemplo, si revisamos las señales doradas para el servicio B y todo parece estar bien, sabemos que el servicio B no es el problema. Lo mismo para el servicio C. Sin embargo, para el servicio D, veamos que estamos experimentando problemas de saturación que están aumentando. Inmediatamente, después de solo unos minutos, hemos identificado que el servicio D es probablemente la causa raíz del problema.

Ahora, en lugar de tener que llamar a expertos para cada una de estas tecnologías diferentes, podemos ir directamente al servicio D y comunicarles que hemos identificado que probablemente sean la causa de este problema que estamos experimentando. Ellos podrán ocuparse de solucionar el problema. Y lo que es aún mejor, si ya están utilizando señales doradas en su servicio, es muy probable que ya hayan identificado este problema y estén trabajando en la solución.

Como puedes ver, este proceso mejora drásticamente el tiempo que lleva recorrer esta compleja topología y diversas tecnologías para determinar dónde se encuentran las causas raíz y cómo solucionarlas. Al elegir una herramienta de APM, asegúrate de que ofrezca la capacidad de utilizar estas señales doradas y una vista de dependencias de un solo salto, para que puedas identificar rápidamente las causas raíz y restaurar tu servicio lo más rápido posible.

Resumen

En resumen, la disciplina de confiabilidad del sitio (SRE) nos enseña que al monitorear solo cuatro indicadores clave de rendimiento, conocidos como señales doradas, podemos identificar rápidamente las causas raíz de los problemas en nuestras aplicaciones. Esto reduce significativamente el tiempo medio de recuperación y nos permite mantener el rendimiento deseado para nuestros usuarios finales. Al elegir una herramienta de administración del desempeño de aplicaciones (APM), es importante asegurarnos de que admita estas señales doradas y una vista de dependencias de un solo salto.

Preguntas frecuentes (FAQs)

A continuación, responderé algunas preguntas frecuentes relacionadas con la disciplina de confiabilidad del sitio (SRE) y el monitoreo de aplicaciones:

1. ¿Qué es SRE?

SRE (Site Reliability Engineering) es una disciplina que combina ingeniería de software y operaciones para mantener y mejorar la confiabilidad de los sistemas y aplicaciones.

2. ¿Por qué son importantes las señales doradas?

Las señales doradas son indicadores clave de rendimiento que nos permiten identificar rápidamente las causas raíz de los problemas en nuestras aplicaciones. Al monitorear estas señales, podemos reducir el tiempo medio de recuperación y mantener un rendimiento óptimo.

3. ¿Cómo puedo implementar las señales doradas en mi aplicación?

Para implementar las señales doradas en tu aplicación, debes seleccionar las métricas adecuadas para cada una de las señales (latencia, errores, tráfico y saturación) y configurar una herramienta de APM que te permita monitorear y visualizar estas métricas de manera eficiente.

4. ¿Debo utilizar herramientas de APM para aplicar SRE en mi aplicación?

Aunque no es obligatorio utilizar herramientas de APM para aplicar SRE, estas herramientas pueden ser extremadamente útiles para monitorear y analizar las señales doradas de manera eficiente. Ayudan a identificar rápidamente las causas raíz de los problemas y aceleran el tiempo de recuperación.

Tabla resumen

Indicador	Descripción
Latencia	Tiempo que lleva atender una solicitud.
Errores	Tasa de errores en las solicitudes.
Tráfico	Demanda colocada en el sistema.
Saturación	Utilización del sistema en comparación con su capacidad máxima.

En conclusión, aplicar los principios SRE y utilizar las señales doradas nos permite simplificar el monitoreo de aplicaciones modernas y complejas, identificar rápidamente las causas raíz de los problemas y restaurar el servicio en el menor tiempo posible. Asegúrate de seleccionar una herramienta de APM que soporte estas señales y una vista de dependencias de un solo salto para optimizar el monitoreo y el tiempo de recuperación. ¡Gracias por leer este artículo y no dudes en consultar nuestros artículos relacionados para obtener más información!

¿Te ha resultado útil??

0 / 0

Mila y César

Hola, somos Mila Jiménez y César Sánchez. Dos apasionados de la ciberseguridad con muchos años de experiencia. Hemos trabajado en muchas empresas del mundo TI y ahora nos apetece compartir nuestro conocimiento con cualquiera que lo necesite.

¡Si te gusta nuestro contenido puedes invitarnos a un café AQUÍ!

Deja una respuesta 0

Otras preguntas sobre <a href="https://todoforti.net/ciberseguridad-tecnica/">Ciberseguridad Técnica</a>

Programando computadoras cuánticas con Qiskit
Índice1 Introducción al cómputo cuántico2 Escribiendo código cuántico con Qiskit3 Resultados del programa cuántico4 Otras funcionalidades de Qiskit5 Tabla de resumen de información6 Preguntas frecuentes Introducción al cómputo cuántico En mi artículo anterior, hablé sobre qué es el cómputo cuántico y qué lo hace especial. Como desarrollador, estoy seguro de que quieres saber cómo escribir Leer
¿Qué es un Análisis de Vulnerabilidad en una Empresa?
Descubre cómo evaluar y gestionar los riesgos asociados a la seguridad de una empresa mediante un análisis de vulnerabilidad. Conoce las mejores prácticas para identificar amenazas y proteger los datos y activos de la empresa.
Actualización de ciberseguridad
Hola, soy Bob Kalka de IBM Security y me gustaría hablarte hoy sobre un tema fascinante. Y eso es cómo los programas de ciberseguridad se están modernizando. Creo que es obvio señalar que la mayoría de las organizaciones y sus inversiones en TI se están migrando hacia la nube híbrida y aprovechando más la inteligencia Leer
El enfoque detallado de los niveles de seguridad SOC 1 en TryHackMe
¡Hola a todos! Gracias por leer el segundo artículo de Try Hack Me SOC Level 1, donde revisaremos el módulo de Try Hack Me que te ayudará a conseguir ese puesto de analista de seguridad. Sin más preámbulos, adentrémonos en la Pirámide del dolor. Índice1 La Pirámide del Dolor2 IPS3 Nombres de dominio4 Artefactos de Leer
La arquitectura de ciberseguridad en aplicaciones
Bienvenidos de nuevo a la serie de arquitectura de ciberseguridad. En videos anteriores, hemos hablado sobre los principios de seguridad y los conceptos fundamentales, así como de diferentes dominios de ciberseguridad como la gestión de identidad y acceso, la seguridad de endpoints y la seguridad de redes. Hoy vamos a hablar sobre la seguridad de Leer