ALM-12053 El uso del handle de archivos del host supera el umbral
Descripción
El sistema comprueba el uso del handle de archivos cada 30 segundos y compara el uso real con el umbral (el umbral predeterminado es 80%). Esta alarma se genera cuando el uso del handle de archivo del host excede el umbral varias veces (5 veces por defecto) consecutivamente.
Para cambiar el umbral, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host > Host Status > Host File Handle Usage.
Cuando el Trigger Count es 1, esta alarma se borra cuando el uso del handle del archivo de host es menor o igual que el umbral. Cuando el Trigger Count es mayor que 1, esta alarma se borra cuando el uso del handle del archivo de host es menor o igual al 90% del umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
12053 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
Las operaciones de E/S, como abrir un archivo o conectarse a la red, no se pueden realizar y los programas son anormales.
Causas posibles
- El proceso de solicitud es anormal. Por ejemplo, el archivo abierto o el socket no está cerrado.
- El número de handles de archivo no puede cumplir los requisitos de servicio actuales.
- El sistema no funciona normalmente.
Procedimiento
Verificar información sobre archivos abiertos en procesos.
- En FusionInsight Manager, haga clic en en la fila donde se encuentra la alarma en la lista de alarmas en tiempo real y obtenga la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el host para el que se genera la alarma como usuario root.
- Ejecute el comando lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more para comprobar el proceso que ocupa demasiados handles de archivo.
- Compruebe si los procesos en los que se abren un gran número de archivos son normales. Por ejemplo, compruebe si hay archivos o sockets no cerrados.
- Libere los procesos anormales que ocupan demasiados handles de archivo.
- Cinco minutos más tarde, compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Aumentar el número de handles de archivo.
- En FusionInsight Manager, haga clic en en la fila donde se encuentra la alarma en la lista de alarmas en tiempo real y obtenga la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el host para el que se genera la alarma como usuario root.
- Póngase en contacto con el administrador del sistema para aumentar el número de handles de archivo del sistema.
- Ejecute el comando cat /proc/sys/fs/file-nr para ver los handles usados y el número máximo de handles de archivo. El primer valor es el número de handles usados, el tercer valor es el número máximo. Compruebe si el uso excede el umbral.
- Espere 5 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 12.
Comprobar si el entorno del sistema es anormal.
- Póngase en contacto con el administrador del sistema para comprobar si el sistema operativo es anormal.
- Espere 5 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 14.
Recopilar información de fallas.
- En la página principal del FusionInsight Manager del clúster activo, elija O&M > Log > Download.
- Seleccione OMS en el Service y haga clic en OK.
- Establezca Host en el nodo para el que se genera la alarma y en el nodo OMS activo.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 30 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe la información de registro recopilada.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna