ALM-12010 Interrupción del latido del corazón de Manager entre los nodos activo y en espera
Descripción
Esta alarma se genera cuando el Manager activo no recibe la señal de latido del Manager de espera en 7 segundos.
Esta alarma se borra cuando el Manager activo recibe señales de latidos del Manager en espera.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
12010 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
Cuando el proceso activo de Manager es anormal, no se puede realizar una conmutación por error activa/en espera y los servicios se ven afectados.
Causas posibles
- El enlace entre el Manager activo y en espera es anormal.
- La configuración del nombre de nodo es incorrecta.
- El puerto está deshabilitado por el firewall.
Procedimiento
Comprobar si la red entre el servidor Manager activo y en espera es normal.
- En el portal del FusionInsight Manager, haga clic en O&M > Alarm > Alarms, haga clic en en la fila que contiene la alarma y vea la dirección IP del servidor del Manager de espera (Peer Manager) en los detalles de la alarma.
- Inicie sesión en el servidor de Manager activo como usuario root.
- Ejecute el comando ping standby Manager heartbeat IP address para comprobar si el servidor de Manager en espera es accesible.
- Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.
- Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
- Ejecute el siguiente comando para ir al directorio de instalación del software:
cd /opt
- Ejecute el siguiente comando para encontrar el directorio del archivo de configuración de los nodos activo y en espera.
find -name hacom_local.xml
- Ejecute el siguiente comando para ir al directorio workspace:
cd${BIGDATA_HOME}/om-server/OMS/workspace0/ha/local/hacom/conf/
- Ejecute el comando vim para abrir el archivo hacom_local.xml. Compruebe si los nodos local y de otro extremo están configurados correctamente. El nodo local se configura como el nodo activo, y el nodo peer se configura como el nodo en espera.
- Modifique la configuración de los nodos activo y en espera en el archivo hacom_local.xml y pulse Esc para volver al modo de comando. Ejecute el comando :wq para guardar la modificación y salir.
- Compruebe si la alarma se borra automáticamente.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 12.
Comprobar si el puerto está deshabilitado por el firewall.
- Ejecute el comando lsof -i :20012 para comprobar si los puertos de latido de corazón de los nodos activo y en espera están habilitados. Si se muestra la salida del comando, los puertos están habilitados. De lo contrario, el firewall deshabilita los puertos.
- Ejecute el comando iptables -P INPUT ACCEPT para evitar la desconexión del servidor.
- Ejecute el siguiente comando para borrar el firewall:
iptables -F
- Compruebe si la alarma está borrada de la lista de alarmas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 16.
Recopilar información de fallas.
- En el FusionInsight Manager, elija O&M > Log > Download.
- Seleccione los siguientes nodos en el Service y haga clic en OK:
- OmmServer
- Controller
- NodeAgent
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe la información de registro recopilada.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna