ALM-18026 El número de tareas de Yarn fallidas supera el umbral
Descripción
El módulo de alarma comprueba el número de aplicaciones fallidas en la cola de Yarn root cada 60 segundos. La alarma se genera cuando el número excede de 50 por tres veces consecutivas.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automático |
---|---|---|
18026 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Cluster Name |
Especifica el clúster para el que se genera la alarma. |
Service Name |
Especifica el servicio para el que se genera la alarma. |
Role Name |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
- No se puede ejecutar un gran número de tareas de aplicación.
- Las tareas fallidas deben enviarse de nuevo.
Causas posibles
La tarea no se puede ejecutar debido a algún error.
Procedimiento
Comprobar detalles de la alarma.
- En el portal del administrador de FusionInsight, seleccione O&M > Alarm > Alarms para ir a la página de alarma.
- Vea Additional Information en los detalles de la alarma para comprobar si el umbral de alarma es demasiado pequeño.
- Elija O&M > Alarm > Thresholds > Name of the desired cluster > Yarn > Other > Failed Applications of root queue para modificar el umbral. Vaya a 6.
- Elija Cluster > Name of the desired cluster > Services > Yarn > ResourceManager(Active) para acceder a la interfaz de usuario web ResourceManager.
- Haga clic en FAILED en Applications y haga clic en la tarea en la parte superior. Vea la descripción de Diagnostics y rectifique el error basándose en las causas del error de la tarea.
Figura 1 Haga clic en FAILED
- Espere 3 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Recopilar información de fallas.
- En el FusionInsight Manager, seleccione O&M > Log > Download.
- Expanda la lista desplegable Service y seleccione Yarn para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna