Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-18002 Pérdida de latido de NodeManager (Para MRS 2.x o anterior)

Descripción

El sistema comprueba el número de nodos de NodeManager perdidos cada 30 segundos, y compara el número de nodos perdidos con el umbral. El indicador Lost Nodes tiene un umbral predeterminado. Esta alarma se genera cuando el valor del indicador Lost Nodes excede el umbral.

Esta alarma se borra cuando el valor de Lost Nodes es menor o igual que el umbral.

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

18002

Grave

Parámetros

Parámetro

Descripción

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Trigger condition

Genera una alarma cuando el valor real del indicador excede el umbral especificado.

Impacto en el sistema

  • El nodo NodeManager perdido no puede proporcionar el servicio Yarn.
  • El número de contenedores disminuye, por lo que el rendimiento del clúster se deteriora.

Causas posibles

  • NodeManager se elimina por la fuerza sin darse de baja.
  • Todas las instancias de NodeManager se detienen o el proceso NodeManager es defectuoso.
  • El host donde reside el nodo NodeManager es defectuoso.
  • La red entre el NodeManager y el ResourceManager está desconectada u ocupada.

Procedimiento

  1. Recopile información de fallas.

    1. En MRS Manager, elija System > Export Log.
    2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Referencia

Ninguna