ALM-18024 El uso de memoria de Yarn pendiente supera el umbral
Descripción
El módulo de alarma comprueba la memoria pendiente de Yarn cada 60 segundos. La alarma se genera cuando la memoria pendiente excede el umbral. La memoria pendiente indica la memoria total que no está asignada a las aplicaciones de Yarn enviadas.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
18024 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
QueueName |
Identifica la cola para la que se genera la alarma. |
QueueMetric |
Identifica el indicador de cola para el que se genera la alarma. |
Impacto en el sistema
- Se necesita mucho tiempo para finalizar una solicitud.
- Una nueva aplicación no se puede ejecutar después del envío.
Causas posibles
- Los recursos del nodo de NodeManager son insuficientes.
- La capacidad máxima de recursos de la cola y el porcentaje máximo de recursos de AM son demasiado pequeños.
- El umbral de supervisión es demasiado pequeño.
Procedimiento
Comprobar los recursos de NodeManager.
- En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn > ResourceManager (Active) para acceder a la interfaz de usuario web de ResourceManager.
- Haga clic en Scheduler y compruebe si los recursos de cola raíz se utilizan en Application Queues.
- Amplíe la capacidad de la instancia de NodeManager del servicio Yarn. Después de la ampliación de la capacidad, compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
Comprobar la capacidad máxima de recursos de la cola y el porcentaje máximo de recursos de AM.
- Compruebe si los recursos de la cola correspondientes a la tarea pendiente están agotados.
- En FusionInsight Manager, elija Tenant Resources > Dynamic Resource Plan y agregue recursos según sea necesario. Compruebe si las alarmas están desactivadas.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
Ajustar los umbrales de monitoreo.
- En FusionInsight Manager, elija O&M > Alarm > Thresholds > Name of the desired cluster > Yarn > CPU and Memory > Pending Memory, y aumentar el umbral según sea necesario.
- Compruebe si la alarma se borra 5 minutos más tarde.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 8.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione Yarn para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna