Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-18000 Servicio de Yarn no disponible

Descripción

Esta alarma se genera cuando el servicio Yarn no está disponible. El módulo de alarma comprueba el estado del servicio de Yarn cada 60 segundos.

La alarma se borra cuando se recupera el servicio Yarn.

Atributo

ID de alarma

Gravedad de la alarma

Borrado automáticamente

18000

Crítica

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceNam

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Impacto en el sistema

El clúster no puede proporcionar servicios de Yarn. Los usuarios no pueden ejecutar aplicaciones nuevas. Las aplicaciones enviadas no se pueden ejecutar.

Causas posibles

  • El servicio ZooKeeper es anormal.
  • El servicio HDFS es anormal.
  • No hay ninguna instancia de ResourceManager activa en el clúster de Yarn.
  • Todos los NodeManagers en el clúster de Yarn son anormales.

Procedimiento

Verificar el estado del servicio de ZooKeeper.

  1. En el FusionInsight Manager, compruebe si la lista de alarmas contiene ALM-13000 Servicio ZooKeeper no disponible.

    • En caso afirmativo, vaya a 2.
    • Si no, vaya a 3.

  2. Rectifique la falla siguiendo los pasos en ALM-13000 Servicio ZooKeeper Service no disponible y compruebe si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 3.

Comprobar el estado de servicio HDFS.

  1. En el FusionInsight Manager, compruebe si la lista de alarmas contiene las alarmas HDFS.

    • En caso afirmativo, vaya a 4.
    • Si no, vaya a 5.

  2. Elija O&M > Alarm > Alarms y maneje las alarmas HDFS en función de la ayuda de alarma y compruebe si la alarma de Yarn está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 5.

Verificar el estado de ResourceManager en el clúster de Yarn.

  1. En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn.
  2. En Dashboard, compruebe si hay una instancia de ResourceManager activa en el clúster de Yarn.

    • En caso afirmativo, vaya a 7.
    • Si no, vaya a 10.

Comprobar el estado del nodo NodeManager en el clúster de Yarn.

  1. En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn > Instance.
  2. Consulte el Running Status de NodeManager y compruebe si hay nodos en mal estado.

    • En caso afirmativo, vaya a 9.
    • Si no, vaya a 10.

  3. Rectifique la falla siguiendo los pasos de ALM-18002 El latido de corazón de NodeManager perdido y ALM-18003 NodeManager en mal estado. Después de rectificar la falla, compruebe si la alarma de Yarn está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 10.

Recopilar información de fallas.

  1. En el portal del FusionInsight Manager del clúster activo, seleccione O&M > Log > Download.
  2. Seleccione Yarn en el clúster requerido en el Service.
  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe los registros recopilados.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna