ALM-18025 El número de tareas de Yarn terminadas supera el umbral
Descripción
El módulo de alarma comprueba el número de aplicaciones terminadas en la cola raíz de Yarn cada 60 segundos. La alarma se genera cuando el número excede de 50 por tres veces consecutivas.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
18025 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Cluster Name |
Especifica el clúster para el que se genera la alarma. |
Service Name |
Especifica el servicio para el que se genera la alarma. |
Role Name |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
Un gran número de tareas de aplicación se terminan por la fuerza.
Causas posibles
- El usuario termina por la fuerza un gran número de tareas.
- El sistema termina las tareas debido a algún error.
Procedimiento
Comprobar detalles de la alarma.
- En el portal del FusionInsight Manager, seleccione O&M > Alarm > Alarms para ir a la página de alarma.
- Vea Additional Information en los detalles de la alarma para comprobar si el umbral de alarma es demasiado pequeño.
- Elija O&M > Alarm > Thresholds > Name of the desired cluster > Yarn > Other > Terminated Applications of root queue para modificar el umbral. Vaya a 6.
- Elija Cluster > Name of the desired cluster > Services > Yarn > ResourceManager(Active) para acceder a la interfaz de usuario web ResourceManager.
- Haga clic en KILLED en Applications y haga clic en la tarea en la parte superior. Vea la descripción de Diagnostics y rectifique el error basándose en los detalles de terminación de la tarea (por ejemplo, la tarea es terminada por un usuario).
Figura 1 Haga clic en KILLED
- Espere 3 minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 7.
Recopilar información de fallas.
- En el FusionInsight Manager, seleccione O&M > Log > Download.
- Expanda la lista desplegable Service y seleccione Yarn para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna