Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-18003 NodeManager de mal funcionamiento (para MRS 2.x o anterior)

Descripción

El sistema comprueba el número de nodos anormales de NodeManager cada 30 segundos y compara el número de nodos anormales con el umbral. El indicador Unhealthy Nodes tiene un umbral predeterminado. Esta alarma se genera cuando el valor del indicador Unhealthy Nodes excede el umbral.

Esta alarma se borra cuando el valor de Unhealthy Nodes es menor o igual que el umbral.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

18003

Grave

Parámetros

Parámetro

Descripción

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Trigger condition

Genera una alarma cuando el valor real del indicador excede el umbral especificado.

Impacto en el sistema

  • El nodo de NodeManager defectuoso no puede proporcionar el servicio Yarn.
  • El número de contenedores disminuye, por lo que el rendimiento del clúster se deteriora.

Causas posibles

  • El espacio en disco del host donde reside el nodo NodeManager es insuficiente.
  • El usuario omm no tiene permiso para acceder a un directorio local en el nodo de NodeManager.

Procedimiento

  1. Recopile información de fallas.

    1. En MRS Manager, elija System > Export Log.
    2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Referencia

Ninguna