ALM-12028 Número de procesos en el Estado D en un host supera el umbral
Descripción
El sistema comprueba el número de procesos en el estado D del usuario omm en el host cada 30 segundos y compara el número real con el umbral. El número de procesos en el estado D en el host tiene un rango de umbral predeterminado. Esta alarma se genera cuando el número de procesos excede el umbral.
Esta alarma se borra cuando el Trigger Count es 1 y el número total de procesos en el estado D del usuario omm en el host no excede el umbral. Esta alarma se borra cuando el Trigger Count es mayor que 1 y el número total de procesos en el estado D del usuario omm en el host es menor o igual al 90% del umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
12028 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
Se utilizan recursos excesivos del sistema y los procesos de servicio responden lentamente.
Causas posibles
El host responde lentamente a las solicitudes de E/S (E/S de disco y E/S de red) y algunos procesos están en estado D y estado Z.
Procedimiento
Comprobar el proceso en el estado D.
- En la lista de alarmas del FusionInsight Manager, busque la fila que contiene la alarma y haga clic en para ver la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el host para el que se genera la alarma como usuario root. () A continuación, ejecute el comando su - omm para cambiar a usuario omm.
- Ejecute el siguiente comando como usuario omm para ver el PID del proceso que está en el estado D:
ps -elf | grep -v "\[thread_checkio\]" | awk 'NR!=1 {print $2, $3, $4}' | grep omm | awk -F' ' '{print $1, $3}' | grep -E "Z|D" | awk '{print $2}'
- Compruebe si la salida del comando está vacía.
- Cambie a usuario root y ejecute el comando reboot para reiniciar el host para el que se genera la alarma. (Reiniciar un host es arriesgado. Asegúrese de que el proceso de servicio es normal después del reinicio.)
- Compruebe si la alarma se borra 5 minutos más tarde.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Seleccione OMS para Service y haga clic en OK.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 1 hora antes y después del tiempo de generación de alarma, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna