Simplifica el monitoreo de aplicaciones con señales cruciales SRE

Hoy me gustaría hablar un poco sobre la disciplina de confiabilidad del sitio o SRE (Site Reliability Engineering) y cómo podemos aplicarla para simplificar el monitoreo de aplicaciones modernas y complejas. Esto nos ayudará a identificar las causas raíz más rápidamente y reducir drásticamente el tiempo medio de recuperación, para así mantener el rendimiento deseado para nuestras aplicaciones y usuarios finales.

Problemas anteriores al aplicar los principios SRE

Imaginemos que soy el propietario de una aplicación y recibo una alerta que indica que existe un problema de latencia. Dado que mi aplicación es muy importante para mi negocio, necesito encontrar rápidamente la causa raíz. Sin embargo, debido a la complejidad de la topología de microservicios, puede ser realmente difícil determinar exactamente de dónde proviene la causa raíz. Además, todas mis dependencias pueden estar basadas en diferentes tecnologías. Por ejemplo, una puede estar construida con Node.js, otra puede ser una base de datos DB2 y otra puede estar escrita en Swift, entre otras. Cada una de estas tecnologías tiene diferentes métricas que normalmente se monitorean y no necesariamente soy un experto en todas estas tecnologías.

Por lo tanto, podría necesitar llamar a un experto por cada una de estas tecnologías. Como puedes imaginar, esto consume mucho tiempo y esfuerzo para todos, ya que cada persona debe revisar su servicio para determinar si existe un problema o si deben seguir buscando en dependencias posteriores, mientras mis usuarios experimentan aún el problema de latencia.

Los beneficios de aplicar los principios SRE

Afortunadamente, existe una mejor manera de abordar esta situación. La disciplina de SRE nos dice que solo hay cuatro indicadores clave de rendimiento que necesitamos monitorear, en lugar de todas las diferentes métricas para cada tecnología. A estos indicadores los llamamos «señales doradas» o «golden signals». Estas señales doradas son:

Artículos relacionados  Cómo protegerte contra el ransomware

– Latencia: el tiempo que lleva atender una solicitud.

– Errores: la tasa de errores en las solicitudes.

– Tráfico: la demanda que se coloca en el sistema.

– Saturación: la utilización del sistema en comparación con su capacidad máxima.

Volviendo a nuestro ejemplo inicial, veamos cómo funcionaría el monitoreo aplicando estas señales doradas. Supongamos que mi servicio (llamémoslo «servicio A») tiene un problema de latencia. Sabemos que la latencia suele ser un síntoma y, si examinamos el servicio A, vemos que no hay indicios de causas. Por lo tanto, sabemos que debemos seguir buscando en servicios posteriores, pero no queremos volver a esa complicada topología de microservicios e intentar resolverlo todo desde allí.

Algunas herramientas de APM (Administración del desempeño de aplicaciones) pueden ayudarte con esto, al identificar solo los servicios que están a un «salto» de distancia de mi servicio en cuestión. Supongamos que tenemos los servicios B, C y D conectados a mi servicio A que está teniendo problemas. No importa qué tecnología utilicen estos servicios, lo único que necesitamos hacer es revisar las señales doradas. Por ejemplo, si revisamos las señales doradas para el servicio B y todo parece estar bien, sabemos que el servicio B no es el problema. Lo mismo para el servicio C. Sin embargo, para el servicio D, veamos que estamos experimentando problemas de saturación que están aumentando. Inmediatamente, después de solo unos minutos, hemos identificado que el servicio D es probablemente la causa raíz del problema.

Ahora, en lugar de tener que llamar a expertos para cada una de estas tecnologías diferentes, podemos ir directamente al servicio D y comunicarles que hemos identificado que probablemente sean la causa de este problema que estamos experimentando. Ellos podrán ocuparse de solucionar el problema. Y lo que es aún mejor, si ya están utilizando señales doradas en su servicio, es muy probable que ya hayan identificado este problema y estén trabajando en la solución.

Artículos relacionados  Superando el síndrome del impostor en la tecnología de la información

Como puedes ver, este proceso mejora drásticamente el tiempo que lleva recorrer esta compleja topología y diversas tecnologías para determinar dónde se encuentran las causas raíz y cómo solucionarlas. Al elegir una herramienta de APM, asegúrate de que ofrezca la capacidad de utilizar estas señales doradas y una vista de dependencias de un solo salto, para que puedas identificar rápidamente las causas raíz y restaurar tu servicio lo más rápido posible.

Resumen

En resumen, la disciplina de confiabilidad del sitio (SRE) nos enseña que al monitorear solo cuatro indicadores clave de rendimiento, conocidos como señales doradas, podemos identificar rápidamente las causas raíz de los problemas en nuestras aplicaciones. Esto reduce significativamente el tiempo medio de recuperación y nos permite mantener el rendimiento deseado para nuestros usuarios finales. Al elegir una herramienta de administración del desempeño de aplicaciones (APM), es importante asegurarnos de que admita estas señales doradas y una vista de dependencias de un solo salto.

Preguntas frecuentes (FAQs)

A continuación, responderé algunas preguntas frecuentes relacionadas con la disciplina de confiabilidad del sitio (SRE) y el monitoreo de aplicaciones:

1. ¿Qué es SRE?

SRE (Site Reliability Engineering) es una disciplina que combina ingeniería de software y operaciones para mantener y mejorar la confiabilidad de los sistemas y aplicaciones.

2. ¿Por qué son importantes las señales doradas?

Las señales doradas son indicadores clave de rendimiento que nos permiten identificar rápidamente las causas raíz de los problemas en nuestras aplicaciones. Al monitorear estas señales, podemos reducir el tiempo medio de recuperación y mantener un rendimiento óptimo.

3. ¿Cómo puedo implementar las señales doradas en mi aplicación?

Artículos relacionados  Garantizar la Seguridad en Sistemas Distribuidos

Para implementar las señales doradas en tu aplicación, debes seleccionar las métricas adecuadas para cada una de las señales (latencia, errores, tráfico y saturación) y configurar una herramienta de APM que te permita monitorear y visualizar estas métricas de manera eficiente.

4. ¿Debo utilizar herramientas de APM para aplicar SRE en mi aplicación?

Aunque no es obligatorio utilizar herramientas de APM para aplicar SRE, estas herramientas pueden ser extremadamente útiles para monitorear y analizar las señales doradas de manera eficiente. Ayudan a identificar rápidamente las causas raíz de los problemas y aceleran el tiempo de recuperación.

Tabla resumen

IndicadorDescripción
LatenciaTiempo que lleva atender una solicitud.
ErroresTasa de errores en las solicitudes.
TráficoDemanda colocada en el sistema.
SaturaciónUtilización del sistema en comparación con su capacidad máxima.

En conclusión, aplicar los principios SRE y utilizar las señales doradas nos permite simplificar el monitoreo de aplicaciones modernas y complejas, identificar rápidamente las causas raíz de los problemas y restaurar el servicio en el menor tiempo posible. Asegúrate de seleccionar una herramienta de APM que soporte estas señales y una vista de dependencias de un solo salto para optimizar el monitoreo y el tiempo de recuperación. ¡Gracias por leer este artículo y no dudes en consultar nuestros artículos relacionados para obtener más información!

¿Te ha resultado útil??

0 / 0

Deja una respuesta 0

Your email address will not be published. Required fields are marked *