Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> MapReduce Service> Guía del usuario> Referencia de alarma (aplicable a MRS 3.x)> ALM-18002 Latidos del corazón de NodeManager perdidos
Actualización más reciente 2023-11-20 GMT+08:00

ALM-18002 Latidos del corazón de NodeManager perdidos

Descripción

El sistema comprueba el número de nodos de NodeManager perdidos cada 30 segundos, y compara el número con el umbral. El indicador Número de nodos perdidos tiene un umbral predeterminado. La alarma se genera cuando el valor de Número de Nodos Perdidos excede el umbral.

Para cambiar el umbral, en FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn. En la página mostrada, elija Configurations > All Configurations y cambie el valor de yarn.nodemanager.lost.alarm.threshold. No es necesario reiniciar Yarn para que el cambio surta efecto.

El umbral predeterminado es 0. La alarma se genera cuando el número de nodos perdidos excede el umbral, y se borra cuando el número de nodos perdidos es menor que el umbral.

Atributo

ID de alarma

Gravedad de la alarma

Borrado automáticamente

18002

Importante

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Lost Host

Especifica la lista de hosts con nodos perdidos.

Impacto en el sistema

  • El nodo NodeManager perdido no puede proporcionar el servicio Yarn.
  • El número de contenedores disminuye, por lo que el rendimiento del clúster se deteriora.

Causas posibles

  • NodeManager se elimina por la fuerza sin darse de baja.
  • Todas las instancias NodeManager se detienen o el proceso NodeManager es defectuoso.
  • El host donde reside el nodo NodeManager es defectuoso.
  • La red entre el NodeManager y el ResourceManager está desconectada u ocupada.

Procedimiento

Comprobar el estado de NodeManager.

  1. En el FusionInsight Manager, elija O&M >Alarm > Alarms. Haga clic en antes de la alarma y obtenga los nodos perdidos de Additional Information.
  2. Compruebe si los nodos perdidos son hosts que se han eliminado manualmente sin darse de baja.

    • En caso afirmativo, vaya a 3.
    • Si no, vaya a 5.

  3. Después de la configuración, elija Cluster > Name of the desired cluster > Services > Yarn. En la página mostrada, elija Configurations > All Configurations. Busque yarn.nodemanager.lost.alarm.threshold y cambie su valor por el número de hosts que no están fuera de servicio y que se eliminan de forma proactiva. Después de la configuración, compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 4.

  4. Borre la alarma manualmente. Tenga en cuenta que el desmantelamiento debe realizarse antes de eliminar los hosts.
  5. En el portal de FusionInsight Manager, elija Cluster > Hosts y compruebe si los nodos obtenidos en 1 están sanos.

    • En caso afirmativo, vaya a 7.
    • Si no, vaya a 6.

  6. Rectifique la falla del nodo basado en el ALM-12006 Falla de nodo y verifique si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 7.

Comprobar el estado de proceso.

  1. En el FusionInsight Manager, seleccione Cluster > Name of the desired cluster > Services > Yarn > Instance y compruebe si NodeManager hay instancias cuyo estado no es Good.

    • En caso afirmativo, vaya a 10.
    • Si no, vaya a 8.

  2. Compruebe si se ha eliminado la instancia NodeManager.

    • En caso afirmativo, vaya a 9.
    • Si no, vaya a 11.

  3. Reinicie las instancias de ResourceManager activa y en espera y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 13.

Comprobar el estado de instancia.

  1. Seleccione instancias de NodeManager cuyo estado de ejecución no sea Normal y reinícielas. Verifique si la alarma se ha borrado.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 11.

Comprobar el estado de red.

  1. Inicie sesión en el nodo de gestión, haga ping a la dirección IP del nodo de NodeManager perdido para comprobar si la red está desconectada u ocupada.

    • En caso afirmativo, vaya a 12.
    • Si no, vaya a 13.

  2. Rectifique la red y compruebe si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 13.

Recopilar información de fallas.

  1. En el FusionInsight Manager del clúster activo, elija O&M > Log > Download.
  2. Seleccione Yarn en el clúster requerido en el Service.
  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe los registros recopilados.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna