ALM-12061 El uso del proceso supera el umbral
Descripción
El sistema comprueba el uso del proceso omm cada 30 segundos. Los usuarios pueden ejecutar el comando ps -o nlwp, pid, args, -u omm | awk '{sum+=$1} END {print "", sum}' para obtener el número de procesos simultáneos de omm de usuario. Ejecute el comando ulimit -u para obtener el máximo número de procesos que puede abrir simultáneamente el omm de usuario. Dividir el número de procesos simultáneos por el número máximo para obtener el uso de procesos de omm de usuario. El uso del proceso tiene un umbral predeterminado. Esta alarma se genera cuando el uso del proceso excede el umbral.
Si Trigger Count es 3 y el uso del proceso es menor o igual que el umbral, esta alarma se borra. Si Trigger Count es mayor que 1 y el uso del proceso es menor o igual al 90% del umbral, esta alarma se borra.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrado automático |
---|---|---|
12061 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
- El cambio al omm de usuario falla.
- No se puede crear un nuevo proceso de omm.
Causas posibles
- El umbral de alarma está configurado incorrectamente.
- El número máximo de procesos (incluidos los subprocesos) que puede abrir simultáneamente el usuario omm es inapropiado.
- Un número excesivo de subprocesos se abren al mismo tiempo.
Procedimiento
Compruebe si el umbral de alarma o el número de aciertos de alarma están configurados correctamente.
- En el FusionInsight Manager, cambie el umbral de alarma y Trigger Count según el uso real de la CPU.
Específicamente, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host> Process > omm Process Usage para cambiar Trigger Count, como se muestra en Figura 1.
La alarma se genera cuando el uso del proceso excede el umbral para los tiempos especificados por Trigger Count.
Establezca el umbral de alarma basado en el uso real del proceso. Para comprobar el uso del proceso, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host> Process > omm Process Usage, como se muestra en Figura 2.
- 2 minutos más tarde, compruebe si la alarma está desactivada.
- Si lo es, no se requiere ninguna otra acción.
- Si no es así, vaya a 3.
Compruebe si el número máximo de procesos (incluidos los subprocesos) abiertos por el usuario omm es adecuado.
- En la lista de alarmas del FusionInsight Manager, localice la fila que contiene la alarma y vea la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el host donde se genera la alarma como usuario root.
- Ejecute el comando su - omm para cambiar a usuario omm.
- Ejecute el comando ulimit -u para obtener el número máximo de subprocesos que puede abrir el usuario omm y compruebe si el número es mayor o igual a 60000.
- Ejecute el comando ulimit -u 60000 para cambiar el número máximo a 60000. Dos minutos más tarde, compruebe si la alarma está desactivada.
- Si lo es, no se requiere ninguna otra acción.
- Si no es así, vaya a 12.
Compruebe si se abre un número excesivo de procesos al mismo tiempo.
- En la lista de alarmas del FusionInsight Manager, localice la fila que contiene la alarma y vea la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el host donde se genera la alarma como usuario root.
- Ejecute el comando ps -o nlwp, pid, lwp, args, -u omm|sort -n para comprobar el número de subprocesos utilizados por el sistema. El resultado se ordena en función del número de subproceso. Analice los 5 números principales de subprocesos y verifique si los subprocesos se utilizan incorrectamente. Si lo son, póngase en contacto con el personal de mantenimiento para rectificar la falla. Si no lo son, ejecute el comando ulimit -u para cambiar el número máximo para que sea mayor de 60000.
- Cinco minutos más tarde, compruebe si la alarma está borrada.
- Si lo es, no se requiere ninguna otra acción.
- Si no es así, vaya a 12.
Recopilar información de fallas.
- En la página de inicio del Administrador FusionInsight de los clústeres activos, seleccione O&M > Log > Download.
- Seleccione OmmServer y NodeAgent en el Service y haga clic en OK.
- Haga clic en en la esquina superior derecha. En el cuadro de diálogo que se muestra, establezca Start Date y End Date en 10 minutos antes y después del tiempo de generación de alarmas respectivamente y haga clic en OK. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe la información de registro recopilada.
Eliminación de alarmas
Esta alarma se borrará automáticamente después de que se corrija la falla.
Información relacionada
Ninguna