Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> MapReduce Service> Guía del usuario> Referencia de alarma (aplicable a MRS 3.x)> ALM-12010 Interrupción del latido del corazón de Manager entre los nodos activo y en espera
Actualización más reciente 2023-11-20 GMT+08:00

ALM-12010 Interrupción del latido del corazón de Manager entre los nodos activo y en espera

Descripción

Esta alarma se genera cuando el Manager activo no recibe la señal de latido del Manager de espera en 7 segundos.

Esta alarma se borra cuando el Manager activo recibe señales de latidos del Manager en espera.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

12010

Importante

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

Cuando el proceso activo de Manager es anormal, no se puede realizar una conmutación por error activa/en espera y los servicios se ven afectados.

Causas posibles

  • El enlace entre el Manager activo y en espera es anormal.
  • La configuración del nombre de nodo es incorrecta.
  • El puerto está deshabilitado por el firewall.

Procedimiento

Comprobar si la red entre el servidor Manager activo y en espera es normal.

  1. En el portal del FusionInsight Manager, haga clic en O&M > Alarm > Alarms, haga clic en en la fila que contiene la alarma y vea la dirección IP del servidor del Manager de espera (Peer Manager) en los detalles de la alarma.
  2. Inicie sesión en el servidor de Manager activo como usuario root.
  3. Ejecute el comando ping standby Manager heartbeat IP address para comprobar si el servidor de Manager en espera es accesible.

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 4.

  4. Póngase en contacto con el administrador de la red para comprobar si la red es defectuosa.

    • En caso afirmativo, vaya a 5.
    • Si no, vaya a 6.

  5. Rectifique la falla de la red y compruebe si la alarma está borrada de la lista de alarmas.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 6.

  6. Ejecute el siguiente comando para ir al directorio de instalación del software:

    cd /opt

  7. Ejecute el siguiente comando para encontrar el directorio del archivo de configuración de los nodos activo y en espera.

    find -name hacom_local.xml

  8. Ejecute el siguiente comando para ir al directorio workspace:

    cd${BIGDATA_HOME}/om-server/OMS/workspace0/ha/local/hacom/conf/

  9. Ejecute el comando vim para abrir el archivo hacom_local.xml. Compruebe si los nodos local y de otro extremo están configurados correctamente. El nodo local se configura como el nodo activo, y el nodo peer se configura como el nodo en espera.

    • En caso afirmativo, vaya a 12.
    • Si no, vaya a 10.

  10. Modifique la configuración de los nodos activo y en espera en el archivo hacom_local.xml y pulse Esc para volver al modo de comando. Ejecute el comando :wq para guardar la modificación y salir.
  11. Compruebe si la alarma se borra automáticamente.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 12.

Comprobar si el puerto está deshabilitado por el firewall.

  1. Ejecute el comando lsof -i :20012 para comprobar si los puertos de latido de corazón de los nodos activo y en espera están habilitados. Si se muestra la salida del comando, los puertos están habilitados. De lo contrario, el firewall deshabilita los puertos.

    • En caso afirmativo, vaya a 13.
    • Si no, vaya a 16.

  2. Ejecute el comando iptables -P INPUT ACCEPT para evitar la desconexión del servidor.
  3. Ejecute el siguiente comando para borrar el firewall:

    iptables -F

  4. Compruebe si la alarma está borrada de la lista de alarmas.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 16.

Recopilar información de fallas.

  1. En el FusionInsight Manager, elija O&M > Log > Download.
  2. Seleccione los siguientes nodos en el Service y haga clic en OK:

    • OmmServer
    • Controller
    • NodeAgent

  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe la información de registro recopilada.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna