Cómo solucionar el bucle de estado SENT-IMAGE en la actualización de Alta Disponibilidad (HA) de FortiGate

En este artículo, abordaremos un problema común que puede ocurrir durante el proceso de actualización de un par de FortiGate en alta disponibilidad (HA). Cuando el dispositivo primario se atasca en el estado «SENT-IMAGE», puede causar interrupciones en el servicio y afectar la seguridad de la red. A continuación, proporcionaremos una guía detallada sobre cómo diagnosticar y resolver este problema, asegurando que su configuración de HA funcione de manera óptima.

Índice

1 Descripción del problema
2 Alcance
3 Diagnóstico paso a paso
4 Solución recomendada
5 Notas adicionales
6 Comandos CLI utilizados
7 Buenas prácticas y recomendaciones

Descripción del problema

Este artículo describe un escenario donde la actualización de un par de FortiGate en alta disponibilidad (HA) se queda atascada en el estado «SENT-IMAGE». Durante la Fase #1 del proceso de actualización, el FortiGate primario transmite la imagen del software objetivo al FortiGate secundario. El procedimiento estándar implica que el FortiGate secundario se reinicie después de recibir la imagen, seguido por el avance del dispositivo primario a la Fase #2. Sin embargo, en ciertos casos, a pesar de que el FortiGate secundario completa su ciclo de reinicio con la nueva imagen, la unidad primaria no logra avanzar a la siguiente etapa.

Alcance

Este problema tiene implicaciones directas en las implementaciones de FortiGate dentro de entornos que requieren alta disponibilidad. Una actualización fallida puede llevar a caídas en el servicio y comprometer la seguridad.

Diagnóstico paso a paso

En este escenario, el FortiGate primario mostrará los siguientes mensajes de depuración (después de habilitar ‘diagnose debug application hatalk -1‘ y diagnose debug enable‘) en un bucle interminable:

<hatalk> entering hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> leaving hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> entering hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> leaving hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000
<hatalk> entering hatalk_upgrade_timer_func: uprade_state=3(SENT-IMAGE), daemon_bits=0x00000000

Solución recomendada

Pre-requisitos: Comprensión del proceso de actualización en alta disponibilidad como se documenta en el Consejos Técnicos: procedimiento de actualización de FortiGate HA y el estado durante la actualización.

Análisis de configuración:

Las configuraciones relevantes de alta disponibilidad (HA) incluyen:

config system ha
    set group-id 100
    set group-name "NAME"
    set mode a-p
    set hbdev "port4" 100 
    set hb-interval 20
    set hb-lost-threshold 60

Notas adicionales

Causa raíz:

La configuración establece un intervalo de latido (heartbeat) de 2 segundos con un umbral de pérdida de 60 intervalos (120 segundos en total). El análisis revela que la recepción de paquetes de latido en el FortiGate primario cesó temporalmente durante el reinicio de la unidad secundaria. Sin embargo, la recepción de paquetes se reanudó antes de alcanzar el umbral de pérdida de 120 segundos, resultando en un fallo de actualización.

El diseño del protocolo de alta disponibilidad (HA) requiere que las duraciones de reinicio de los miembros superen el temporizador del umbral de pérdida de latido para una detección adecuada del reinicio. Cuando el reinicio se completa antes de este umbral, como se observó en este escenario, el FortiGate primario no puede detectar la finalización del reinicio y permanece en el estado «SENT-IMAGE».

Comandos CLI utilizados

Los comandos CLI utilizados para esta diagnóstica y resolución son:

diagnose debug application hatalk -1 – Habilita el modo de depuración para el daemon hatalk.
diagnose debug enable – Activa la depuración general en el FortiGate.

Buenas prácticas y recomendaciones

Para evitar problemas similares en el futuro, es recomendable:

Monitorear cuidadosamente el estado de los dispositivos FortiGate durante las actualizaciones de HA.
Configurar adecuados intervalos de latido y umbral de pérdida basados en el tiempo requerido para el reinicio de las unidades.
Realizar pruebas de recuperación y respaldo de configuraciones antes de cualquier actualización crítica.

¿Te ha resultado útil??

0 / 0

Mila y César

Hola, somos Mila Jiménez y César Sánchez. Dos apasionados de la ciberseguridad con muchos años de experiencia. Hemos trabajado en muchas empresas del mundo TI y ahora nos apetece compartir nuestro conocimiento con cualquiera que lo necesite.

¡Si te gusta nuestro contenido puedes invitarnos a un café AQUÍ!

Deja una respuesta 0

Otras preguntas sobre <a href="https://todoforti.net/fortigate/">FortiGate</a>

Cómo resolver el error de carga de la página de reglas SD-WAN en el dispositivo secundario de un clúster HA
En este artículo, abordamos un problema donde la página de reglas SD-WAN no se carga en el dispositivo secundario dentro de un clúster de Alta Disponibilidad (HA). Este asunto es crucial, ya que puede afectar la gestión y configuración de redes criticadas que dependen de SD-WAN, complicando la administración y el rendimiento de la red. Leer
Cómo resolver el bloqueo de inicio de sesión, carga y descarga en Zoom mientras se permite unirse a la reunión
En este artículo, abordaremos un problema común relacionado con el control de aplicaciones en FortiGate, específicamente la configuración para bloquear el inicio de sesión en Zoom, así como la carga y descarga de archivos, sin impedir que los usuarios se unan a las reuniones. Solucionar este problema es crucial para mantener la seguridad de la Leer
Cómo resolver el error de TACACS+ en SSL VPN de Fortinet
En este artículo, abordaremos la limitación de utilizar TACACS+ como método de autenticación para las VPN SSL en dispositivos FortiGate. Este problema es relevante porque afecta la capacidad de los usuarios para acceder a servicios seguros de manera eficaz. A lo largo del artículo, explicaremos por qué no se recomienda TACACS+ en este contexto y Leer
Cómo verificar las rutas anunciadas y recibidas de BGP en un fortigate
Descripción Este artículo explica cómo verificar las rutas anunciadas y recibidas de BGP en un FortiGate. Solución Topología: El emparejamiento EBGP entre FGT1 y FGT2 está activo. En esta configuración de laboratorio, ambas unidades FGT anuncian sus interfaces Loopback a través de eBGP entre sí. Salidas de FGT1: # FGT1# obtener información del enrutador resumen Leer
Cómo resolver el error ERR_SSL_PROTOCOL_ERROR al usar Deep Inspection basado en flujo con intercambio de claves TLS post-cuántico ML-KEM en Fortinet
Este artículo aborda un problema conocido relacionado con el intercambio de claves TLS de post-cuántica, específicamente el uso de ML-KEM, que se ha comenzado a soportar en versiones recientes de algunos navegadores. Este problema es relevante porque puede impedir la carga de ciertos sitios web, generando errores de protocolo SSL. A continuación, se detalla el Leer