Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-12061 El uso del proceso supera el umbral

Descripción

El sistema comprueba el uso del proceso omm cada 30 segundos. Los usuarios pueden ejecutar el comando ps -o nlwp, pid, args, -u omm | awk '{sum+=$1} END {print "", sum}' para obtener el número de procesos simultáneos de omm de usuario. Ejecute el comando ulimit -u para obtener el máximo número de procesos que puede abrir simultáneamente el omm de usuario. Dividir el número de procesos simultáneos por el número máximo para obtener el uso de procesos de omm de usuario. El uso del proceso tiene un umbral predeterminado. Esta alarma se genera cuando el uso del proceso excede el umbral.

Si Trigger Count es 3 y el uso del proceso es menor o igual que el umbral, esta alarma se borra. Si Trigger Count es mayor que 1 y el uso del proceso es menor o igual al 90% del umbral, esta alarma se borra.

Atributo

ID de alarma

Gravedad de la alarma

Borrado automático

12061

Importante

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Trigger Condition

Especifica el umbral para activar la alarma.

Impacto en el sistema

  • El cambio al omm de usuario falla.
  • No se puede crear un nuevo proceso de omm.

Causas posibles

  • El umbral de alarma está configurado incorrectamente.
  • El número máximo de procesos (incluidos los subprocesos) que puede abrir simultáneamente el usuario omm es inapropiado.
  • Un número excesivo de subprocesos se abren al mismo tiempo.

Procedimiento

Compruebe si el umbral de alarma o el número de aciertos de alarma están configurados correctamente.

  1. En el FusionInsight Manager, cambie el umbral de alarma y Trigger Count según el uso real de la CPU.

    Específicamente, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host> Process > omm Process Usage para cambiar Trigger Count, como se muestra en Figura 1.

    La alarma se genera cuando el uso del proceso excede el umbral para los tiempos especificados por Trigger Count.

    Figura 1 Configuración de Trigger Count

    Establezca el umbral de alarma basado en el uso real del proceso. Para comprobar el uso del proceso, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host> Process > omm Process Usage, como se muestra en Figura 2.

    Figura 2 Establecer un umbral de alarma

  2. 2 minutos más tarde, compruebe si la alarma está desactivada.

    • Si lo es, no se requiere ninguna otra acción.
    • Si no es así, vaya a 3.

Compruebe si el número máximo de procesos (incluidos los subprocesos) abiertos por el usuario omm es adecuado.

  1. En la lista de alarmas del FusionInsight Manager, localice la fila que contiene la alarma y vea la dirección IP del host para el que se genera la alarma.
  2. Inicie sesión en el host donde se genera la alarma como usuario root.
  3. Ejecute el comando su - omm para cambiar a usuario omm.
  4. Ejecute el comando ulimit -u para obtener el número máximo de subprocesos que puede abrir el usuario omm y compruebe si el número es mayor o igual a 60000.

    • Si lo es, vaya a 8.
    • Si no es así, vaya a 7.

  5. Ejecute el comando ulimit -u 60000 para cambiar el número máximo a 60000. Dos minutos más tarde, compruebe si la alarma está desactivada.

    • Si lo es, no se requiere ninguna otra acción.
    • Si no es así, vaya a 12.

Compruebe si se abre un número excesivo de procesos al mismo tiempo.

  1. En la lista de alarmas del FusionInsight Manager, localice la fila que contiene la alarma y vea la dirección IP del host para el que se genera la alarma.
  2. Inicie sesión en el host donde se genera la alarma como usuario root.
  3. Ejecute el comando ps -o nlwp, pid, lwp, args, -u omm|sort -n para comprobar el número de subprocesos utilizados por el sistema. El resultado se ordena en función del número de subproceso. Analice los 5 números principales de subprocesos y verifique si los subprocesos se utilizan incorrectamente. Si lo son, póngase en contacto con el personal de mantenimiento para rectificar la falla. Si no lo son, ejecute el comando ulimit -u para cambiar el número máximo para que sea mayor de 60000.
  4. Cinco minutos más tarde, compruebe si la alarma está borrada.

    • Si lo es, no se requiere ninguna otra acción.
    • Si no es así, vaya a 12.

Recopilar información de fallas.

  1. En la página de inicio del Administrador FusionInsight de los clústeres activos, seleccione O&M > Log > Download.
  2. Seleccione OmmServer y NodeAgent en el Service y haga clic en OK.
  3. Haga clic en en la esquina superior derecha. En el cuadro de diálogo que se muestra, establezca Start Date y End Date en 10 minutos antes y después del tiempo de generación de alarmas respectivamente y haga clic en OK. A continuación, haga clic en Download.
  4. Póngase en contacto con el y envíe la información de registro recopilada.

Eliminación de alarmas

Esta alarma se borrará automáticamente después de que se corrija la falla.

Información relacionada

Ninguna