ALM-18023 El número de tareas pendientes de Yarn supera el umbral
Descripción
El módulo de alarma comprueba el número de aplicaciones pendientes en la cola root de Yarn cada 60 segundos. La alarma se genera cuando el número excede de 60.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
18023 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
QueueName |
Identifica la cola para la que se genera la alarma. |
QueueMetric |
Identifica el indicador de cola para el que se genera la alarma. |
Impacto en el sistema
- Se necesita mucho tiempo para finalizar una solicitud.
- Una nueva aplicación no se puede ejecutar después del envío.
Causas posibles
- Los recursos del nodo de NodeManager son insuficientes.
- La capacidad máxima de recursos de la cola y el porcentaje máximo de recursos de AM son demasiado pequeños.
- El umbral de supervisión es demasiado pequeño.
Procedimiento
Comprobar los recursos de NodeManager.
- En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn > ResourceManager (Active) para acceder a la interfaz de usuario web de ResourceManager.
- Haga clic en Scheduler y compruebe si los recursos de cola raíz se utilizan en Application Queues.
- Amplíe la capacidad de la instancia NodeManager del servicio Yarn. Después de la ampliación de la capacidad, compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
Comprobar la capacidad máxima de recursos de la cola y el porcentaje máximo de recursos de AM.
- Compruebe si los recursos de la cola correspondientes a la tarea pendiente están agotados.
- En FusionInsight Manager, elija Tenant Resources > Dynamic Resource Plan y agregue recursos según sea necesario. Compruebe si las alarmas están desactivadas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
Ajustar los umbrales de monitoreo.
- En FusionInsight Manager, elija O&M > Alarm > Thresholds > Name of the desired cluster > Yarn > Applications > Pending Applications, y aumente los umbrales según sea necesario.
- Compruebe si la alarma se borra 5 minutos más tarde.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 8.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione Yarn para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna