ALM-18000 Servicio de Yarn no disponible
Descripción
Esta alarma se genera cuando el servicio Yarn no está disponible. El módulo de alarma comprueba el estado del servicio de Yarn cada 60 segundos.
La alarma se borra cuando se recupera el servicio Yarn.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automáticamente |
---|---|---|
18000 |
Crítica |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceNam |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Impacto en el sistema
El clúster no puede proporcionar servicios de Yarn. Los usuarios no pueden ejecutar aplicaciones nuevas. Las aplicaciones enviadas no se pueden ejecutar.
Causas posibles
- El servicio ZooKeeper es anormal.
- El servicio HDFS es anormal.
- No hay ninguna instancia de ResourceManager activa en el clúster de Yarn.
- Todos los NodeManagers en el clúster de Yarn son anormales.
Procedimiento
Verificar el estado del servicio de ZooKeeper.
- En el FusionInsight Manager, compruebe si la lista de alarmas contiene ALM-13000 Servicio ZooKeeper no disponible.
- Rectifique la falla siguiendo los pasos en ALM-13000 Servicio ZooKeeper Service no disponible y compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 3.
Comprobar el estado de servicio HDFS.
- En el FusionInsight Manager, compruebe si la lista de alarmas contiene las alarmas HDFS.
- Elija O&M > Alarm > Alarms y maneje las alarmas HDFS en función de la ayuda de alarma y compruebe si la alarma de Yarn está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 5.
Verificar el estado de ResourceManager en el clúster de Yarn.
- En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn.
- En Dashboard, compruebe si hay una instancia de ResourceManager activa en el clúster de Yarn.
Comprobar el estado del nodo NodeManager en el clúster de Yarn.
- En el portal del FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn > Instance.
- Consulte el Running Status de NodeManager y compruebe si hay nodos en mal estado.
- Rectifique la falla siguiendo los pasos de ALM-18002 El latido de corazón de NodeManager perdido y ALM-18003 NodeManager en mal estado. Después de rectificar la falla, compruebe si la alarma de Yarn está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 10.
Recopilar información de fallas.
- En el portal del FusionInsight Manager del clúster activo, seleccione O&M > Log > Download.
- Seleccione Yarn en el clúster requerido en el Service.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna