Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-18022 Recursos de cola de Yarn insuficientes

Descripción

El módulo de alarma comprueba los recursos de cola de Yarn cada 60 segundos. Esta alarma se genera cuando los recursos disponibles o los recursos de ApplicationMaster (AM) de una cola son insuficientes.

Esta alarma se borra cuando los recursos disponibles son suficientes.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

18022

Leves

Parámetros

Nombre del parámetro

Descripción

Source

Especifica el clúster para el que se genera la alarma.

QueueName

Especifica la cola para la que se genera la alarma.

QueueMetric

Especifica la métrica de la cola para la que se genera la alarma.

Trigger Condition

Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma.

Impacto en el sistema

  • Una aplicación que se está ejecutando lleva más tiempo.
  • Una aplicación no se ejecuta durante mucho tiempo después de haber sido enviada.

Causas posibles

  • Los recursos del nodo de NodeManager son insuficientes.
  • La capacidad de recursos máxima configurada de la cola es excesivamente pequeña.
  • El porcentaje de recursos de AM máximo configurado es excesivamente pequeño.

Procedimiento

Ver detalles de alarma.

  1. En el FusionInsight Manager, elija O&M > Alarm > Alarms.
  2. Vea la información de ubicación de esta alarma y compruebe si QueueName es root y QueueMetric es Memory o QueueName es root y QueueMetric es vCores.

    • En caso afirmativo, vaya a 3.
    • Si no, vaya a 4.

  1. La memoria o la CPU del clúster de Yarn es insuficiente. En este caso, inicie sesión en el nodo donde reside NodeManager y ejecute los comandos free -g y cat /proc/cpuinfo para consultar la memoria disponible y la CPU disponible del nodo, respectivamente. En FusionInsight Manager, aumente los valores de yarn.NodeManager.resource.memory-mb y yarn.NodeManager.resource.cpu-vcores para el NodeManager de Yarn en función de los resultados de la consulta. A continuación, reinicie la instancia de NodeManager. Verifique si la alarma se ha borrado.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 4.

  1. Vea la información de ubicación de esta alarma y comprobar si QueueName es <Tenant Queue> y QueueMetric es Memory, o QueueName es <Tenant Queue> y QueueMetric es vCores en Location, compruebe si available Memory = o available vCores = está incluido en Additional Information.

    • En caso afirmativo, vaya a 5.
    • Si no, vaya a 7.

  1. La memoria o CPU de la cola de tenant es insuficiente. En este caso, elija Tenant Resources > Dynamic Resource Plan > Resource Distribution Policy y aumente el valor de Maximum Capacity. Luego, verifique si la alarma se rectificó.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 6.

  1. Elija Cluster > Name of the desired cluster > Services > Yarn > Configurations > All Configurations. Introduce la palabra clave "threshold" y haga clic en ResourceManager. Ajuste los valores de umbral de los siguientes parámetros:

    Si Additional Information contiene available Memory =, cambie el valor de yarn.queue.memory.alarm.threshold a un valor menor que el de available Memory = de Additional Information.

    Si Additional Information contiene available vCores =, cambie el valor de yarn.queue.vcore.alarm.threshold a un valor menor que el de available vCores = de Additional Information.

    Espere cinco minutos y compruebe si la alarma está desactivada.
    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 9.

  2. Si available AmMemory = or available AmvCores = is included in Additional Information, la memoria de ApplicationMaster o CPU de la cola de tenant es insuficiente. En este caso, elija Tenant Resources > Dynamic Resource Plan > Queue Configuration y aumente el valor de Maximum Am Resource Percent. A continuación, compruebe si esta alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 8.

  3. Elija Cluster > Name of the desired cluster > Services > Yarn > Configurations > All Configurations. Introduce la palabra clave "threshold" y haga clic en ResourceManager. Ajuste los valores de umbral de los siguientes parámetros:

    Si Additional Information contiene available AmMemory =, cambie el valor de yarn.queue.memory.alarm.threshold a un valor menor que el de available AmMemory = de Additional Information.

    Si Additional Information contiene available AmvCores =, cambie el valor de yarn.queue.vcore.alarm.threshold a un valor menor que el de available AmvCores = de Additional Information.

    Espere cinco minutos y compruebe si la alarma está desactivada.
    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 9.

Recopilar información de fallas.

  1. Inicie sesión en el FusionInsight Manager del clúster activo y elija O&M > Log > Download.
  2. Seleccione Yarn en el clúster requerido en el Service.
  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe los registros recopilados.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Referencia

Ninguna