Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> MapReduce Service> Guía del usuario> Referencia de alarma (aplicable a MRS 3.x)> ALM-12053 El uso del handle de archivos del host supera el umbral
Actualización más reciente 2023-11-20 GMT+08:00

ALM-12053 El uso del handle de archivos del host supera el umbral

Descripción

El sistema comprueba el uso del handle de archivos cada 30 segundos y compara el uso real con el umbral (el umbral predeterminado es 80%). Esta alarma se genera cuando el uso del handle de archivo del host excede el umbral varias veces (5 veces por defecto) consecutivamente.

Para cambiar el umbral, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host > Host Status > Host File Handle Usage.

Cuando el Trigger Count es 1, esta alarma se borra cuando el uso del handle del archivo de host es menor o igual que el umbral. Cuando el Trigger Count es mayor que 1, esta alarma se borra cuando el uso del handle del archivo de host es menor o igual al 90% del umbral.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

12053

Importante

Parámetros

Nombre

Significado

Source

Especifica el clúster o sistema para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Trigger Condition

Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma.

Impacto en el sistema

Las operaciones de E/S, como abrir un archivo o conectarse a la red, no se pueden realizar y los programas son anormales.

Causas posibles

  • El proceso de solicitud es anormal. Por ejemplo, el archivo abierto o el socket no está cerrado.
  • El número de handles de archivo no puede cumplir los requisitos de servicio actuales.
  • El sistema no funciona normalmente.

Procedimiento

Verificar información sobre archivos abiertos en procesos.

  1. En FusionInsight Manager, haga clic en en la fila donde se encuentra la alarma en la lista de alarmas en tiempo real y obtenga la dirección IP del host para el que se genera la alarma.
  2. Inicie sesión en el host para el que se genera la alarma como usuario root.
  3. Ejecute el comando lsof -n|awk '{print $2}'|sort|uniq -c|sort -nr|more para comprobar el proceso que ocupa demasiados handles de archivo.
  4. Compruebe si los procesos en los que se abren un gran número de archivos son normales. Por ejemplo, compruebe si hay archivos o sockets no cerrados.

    • En caso afirmativo, vaya a 5.
    • Si no, vaya a 7.

  5. Libere los procesos anormales que ocupan demasiados handles de archivo.
  6. Cinco minutos más tarde, compruebe si la alarma está borrada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 7.

Aumentar el número de handles de archivo.

  1. En FusionInsight Manager, haga clic en en la fila donde se encuentra la alarma en la lista de alarmas en tiempo real y obtenga la dirección IP del host para el que se genera la alarma.
  2. Inicie sesión en el host para el que se genera la alarma como usuario root.
  3. Póngase en contacto con el administrador del sistema para aumentar el número de handles de archivo del sistema.
  4. Ejecute el comando cat /proc/sys/fs/file-nr para ver los handles usados y el número máximo de handles de archivo. El primer valor es el número de handles usados, el tercer valor es el número máximo. Compruebe si el uso excede el umbral.

    • En caso afirmativo, vaya a 9.
    • Si no, vaya a 11.
      # cat /proc/sys/fs/file-nr
      12704 0 640000

  5. Espere 5 minutos y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 12.

Comprobar si el entorno del sistema es anormal.

  1. Póngase en contacto con el administrador del sistema para comprobar si el sistema operativo es anormal.

    • En caso afirmativo, vaya a 13 para rectificar la falla.
    • Si no, vaya a 14.

  2. Espere 5 minutos y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 14.

Recopilar información de fallas.

  1. En la página principal del FusionInsight Manager del clúster activo, elija O&M > Log > Download.
  2. Seleccione OMS en el Service y haga clic en OK.
  3. Establezca Host en el nodo para el que se genera la alarma y en el nodo OMS activo.
  4. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 30 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  5. Póngase en contacto con el y envíe la información de registro recopilada.

Eliminación de alarmas

Después de rectificar la falla, el sistema borra automáticamente esta alarma.

Información relacionada

Ninguna