Cómo solucionar el bucle de estado SENT-IMAGE en la actualización de Alta Disponibilidad (HA) de FortiGate

En este artículo, abordaremos un problema común que puede ocurrir durante el proceso de actualización de un par de FortiGate en alta disponibilidad (HA). Cuando el dispositivo primario se atasca en el estado «SENT-IMAGE», puede causar interrupciones en el servicio y afectar la seguridad de la red. A continuación, proporcionaremos una guía detallada sobre cómo diagnosticar y resolver este problema, asegurando que su configuración de HA funcione de manera óptima.

Descripción del problema

Este artículo describe un escenario donde la actualización de un par de FortiGate en alta disponibilidad (HA) se queda atascada en el estado «SENT-IMAGE». Durante la Fase #1 del proceso de actualización, el FortiGate primario transmite la imagen del software objetivo al FortiGate secundario. El procedimiento estándar implica que el FortiGate secundario se reinicie después de recibir la imagen, seguido por el avance del dispositivo primario a la Fase #2. Sin embargo, en ciertos casos, a pesar de que el FortiGate secundario completa su ciclo de reinicio con la nueva imagen, la unidad primaria no logra avanzar a la siguiente etapa.

Alcance

Este problema tiene implicaciones directas en las implementaciones de FortiGate dentro de entornos que requieren alta disponibilidad. Una actualización fallida puede llevar a caídas en el servicio y comprometer la seguridad.

Diagnóstico paso a paso

En este escenario, el FortiGate primario mostrará los siguientes mensajes de depuración (después de habilitar ‘diagnose debug application hatalk -1‘ y diagnose debug enable‘) en un bucle interminable:

<hatalk> entering hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> leaving hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> entering hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> leaving hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> entering hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000

Solución recomendada

Pre-requisitos: Comprensión del proceso de actualización en alta disponibilidad como se documenta en el Consejos Técnicos: procedimiento de actualización de FortiGate HA y el estado durante la actualización.

Artículos relacionados  Cómo resolver cambios importantes en la gestión de tráfico en FortiGate con el módulo QTM basado en colas NP7

Análisis de configuración:

Las configuraciones relevantes de alta disponibilidad (HA) incluyen:

config system ha
    set group-id 100
    set group-name "NAME"
    set mode a-p
    set hbdev "port4" 100 
    set hb-interval 20
    set hb-lost-threshold 60

Notas adicionales

Causa raíz:

La configuración establece un intervalo de latido (heartbeat) de 2 segundos con un umbral de pérdida de 60 intervalos (120 segundos en total). El análisis revela que la recepción de paquetes de latido en el FortiGate primario cesó temporalmente durante el reinicio de la unidad secundaria. Sin embargo, la recepción de paquetes se reanudó antes de alcanzar el umbral de pérdida de 120 segundos, resultando en un fallo de actualización.

El diseño del protocolo de alta disponibilidad (HA) requiere que las duraciones de reinicio de los miembros superen el temporizador del umbral de pérdida de latido para una detección adecuada del reinicio. Cuando el reinicio se completa antes de este umbral, como se observó en este escenario, el FortiGate primario no puede detectar la finalización del reinicio y permanece en el estado «SENT-IMAGE».

Comandos CLI utilizados

Los comandos CLI utilizados para esta diagnóstica y resolución son:

  • diagnose debug application hatalk -1 – Habilita el modo de depuración para el daemon hatalk.
  • diagnose debug enable – Activa la depuración general en el FortiGate.

Buenas prácticas y recomendaciones

Para evitar problemas similares en el futuro, es recomendable:

  • Monitorear cuidadosamente el estado de los dispositivos FortiGate durante las actualizaciones de HA.
  • Configurar adecuados intervalos de latido y umbral de pérdida basados en el tiempo requerido para el reinicio de las unidades.
  • Realizar pruebas de recuperación y respaldo de configuraciones antes de cualquier actualización crítica.
Artículos relacionados  Cómo solucionar problemas de conectividad en dispositivos Fortinet con tiempos de ping de 0.1 ms

¿Te ha resultado útil??

0 / 0

Deja una respuesta 0

Your email address will not be published. Required fields are marked *