Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-18003 NodeManager en mal estado

Descripción

El sistema comprueba el número de nodos de NodeManager no saludables cada 30 segundos y compara el número con el umbral. El indicador de nodos no saludables tiene un umbral predeterminado. Esta alarma se genera cuando el valor del indicador de nodos no saludables excede el umbral.

Para cambiar el umbral, en FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > Yarn. En la página mostrada, elija Configurations > All Configurations, y cambie el valor de yarn.nodemanager.unhealthy.alarm.threshold. No es necesario reiniciar Yarn para que el cambio surta efecto.

El umbral predeterminado es 0. La alarma se genera cuando el número de nodos no sanos excede el umbral, y se borra cuando el número de nodos no sanos es menor que el umbral.

Atributo

ID de alarma

Gravedad de la alarma

Borrado automáticamente

18003

Importante

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Unhealthy Host

Especifica la lista de hosts con nodos no saludables.

Impacto en el sistema

  • El nodo NodeManager defectuoso no puede proporcionar el servicio Yarn.
  • El número de contenedores disminuye, por lo que el rendimiento del clúster se deteriora.

Causas posibles

  • El espacio en disco duro del host donde reside el nodo de NodeManager es insuficiente.
  • El usuario omm no tiene permiso para acceder a un directorio local en el nodo NodeManager.

Procedimiento

Comprobar el espacio en el disco duro del host.

  1. En el FusionInsight Manager, elija O&M >Alarm > Alarms. Haga clic en antes de la alarma y obtenga nodos no saludables de Additional Information.
  2. Elija Cluster > Name of the desired cluster > Services > Yarn > Instance, seleccione la instancia de NodeManager correspondiente al host, elija Instance Configurations > All Configurations y vea los discos correspondientes al yarn.nodemanager.local-dirs y yarn.nodemanager.log-dirs.
  3. Elija O&M > Alarm > Alarms. En la lista de alarmas, compruebe si el disco relacionado tiene la alarma ALM-12017 Capacidad de disco insuficiente.

    • En caso afirmativo, vaya a 4.
    • Si no, vaya a 5.

  4. Rectifique la falla del disco basado en ALM-12017 Capacidad de disco insuficiente y compruebe si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 7.

  5. Elija Hosts > Name of the desired host. En la página Dashboard, compruebe el uso del disco de la partición correspondiente. Compruebe si el porcentaje del espacio usado del disco montado excede el valor de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage

    • En caso afirmativo, vaya a 6.
    • Si no, vaya a 7.

  6. Reduzca el uso del disco a menos que el valor de yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage, espere de 10 a 20 minutos y compruebe si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 7.

Verificar el permiso de acceso del directorio local en cada nodo de NodeManager.

  1. Obtenga el directorio NodeManager visto en 2, inicie sesión en cada nodo de NodeManager como usuario root y vaya al directorio obtenido.
  2. Ejecute el comando ll para comprobar si el permiso de las carpetas localdir y containerlogs es 755 y si User:Group es omm:ficommon.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 9.

  3. Ejecute el siguiente comando para establecer el permiso para 755 y User:Group para omm:ficommon:

    chmod 755 <folder_name>

    chown omm:ficommon <folder_name>

  4. Espere de 10 a 20 minutos y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 11.

Recopilar información de fallas.

  1. En el FusionInsight Manager del clúster activo, elija O&M > Log > Download.
  2. Seleccione Yarn en el clúster requerido en el Service.
  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe los registros recopilados.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna