ALM-18022 Recursos de cola de Yarn insuficientes
Descripción
El módulo de alarma comprueba los recursos de cola de Yarn cada 60 segundos. Esta alarma se genera cuando los recursos disponibles o los recursos de ApplicationMaster (AM) de una cola son insuficientes.
Esta alarma se borra cuando los recursos disponibles son suficientes.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
18022 |
Leves |
Sí |
Parámetros
Nombre del parámetro |
Descripción |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
QueueName |
Especifica la cola para la que se genera la alarma. |
QueueMetric |
Especifica la métrica de la cola para la que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
- Una aplicación que se está ejecutando lleva más tiempo.
- Una aplicación no se ejecuta durante mucho tiempo después de haber sido enviada.
Causas posibles
- Los recursos del nodo de NodeManager son insuficientes.
- La capacidad de recursos máxima configurada de la cola es excesivamente pequeña.
- El porcentaje de recursos de AM máximo configurado es excesivamente pequeño.
Procedimiento
Ver detalles de alarma.
- En el FusionInsight Manager, elija O&M > Alarm > Alarms.
- Vea la información de ubicación de esta alarma y compruebe si QueueName es root y QueueMetric es Memory o QueueName es root y QueueMetric es vCores.
- La memoria o la CPU del clúster de Yarn es insuficiente. En este caso, inicie sesión en el nodo donde reside NodeManager y ejecute los comandos free -g y cat /proc/cpuinfo para consultar la memoria disponible y la CPU disponible del nodo, respectivamente. En FusionInsight Manager, aumente los valores de yarn.NodeManager.resource.memory-mb y yarn.NodeManager.resource.cpu-vcores para el NodeManager de Yarn en función de los resultados de la consulta. A continuación, reinicie la instancia de NodeManager. Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 4.
- Vea la información de ubicación de esta alarma y comprobar si QueueName es <Tenant Queue> y QueueMetric es Memory, o QueueName es <Tenant Queue> y QueueMetric es vCores en Location, compruebe si available Memory = o available vCores = está incluido en Additional Information.
- La memoria o CPU de la cola de tenant es insuficiente. En este caso, elija Tenant Resources > Dynamic Resource Plan > Resource Distribution Policy y aumente el valor de Maximum Capacity. Luego, verifique si la alarma se rectificó.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 6.
- Elija Cluster > Name of the desired cluster > Services > Yarn > Configurations > All Configurations. Introduce la palabra clave "threshold" y haga clic en ResourceManager. Ajuste los valores de umbral de los siguientes parámetros:
Si Additional Information contiene available Memory =, cambie el valor de yarn.queue.memory.alarm.threshold a un valor menor que el de available Memory = de Additional Information.
Si Additional Information contiene available vCores =, cambie el valor de yarn.queue.vcore.alarm.threshold a un valor menor que el de available vCores = de Additional Information.
Espere cinco minutos y compruebe si la alarma está desactivada.- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.
- Si available AmMemory = or available AmvCores = is included in Additional Information, la memoria de ApplicationMaster o CPU de la cola de tenant es insuficiente. En este caso, elija Tenant Resources > Dynamic Resource Plan > Queue Configuration y aumente el valor de Maximum Am Resource Percent. A continuación, compruebe si esta alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 8.
- Elija Cluster > Name of the desired cluster > Services > Yarn > Configurations > All Configurations. Introduce la palabra clave "threshold" y haga clic en ResourceManager. Ajuste los valores de umbral de los siguientes parámetros:
Si Additional Information contiene available AmMemory =, cambie el valor de yarn.queue.memory.alarm.threshold a un valor menor que el de available AmMemory = de Additional Information.
Si Additional Information contiene available AmvCores =, cambie el valor de yarn.queue.vcore.alarm.threshold a un valor menor que el de available AmvCores = de Additional Information.
Espere cinco minutos y compruebe si la alarma está desactivada.- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.
Recopilar información de fallas.
- Inicie sesión en el FusionInsight Manager del clúster activo y elija O&M > Log > Download.
- Seleccione Yarn en el clúster requerido en el Service.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Referencia
Ninguna