Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-14009 El número de DataNodes defectuoso supera el umbral (para MRS 2.x o anterior)

Descripción

El sistema comprueba periódicamente el número de DataNodes defectuosos en el clúster HDFS cada 30 segundos y compara el número con el umbral. El número de DataNodes defectuosos tiene un umbral predeterminado. Esta alarma se genera cuando el número de DataNodes defectuosos en el clúster HDFS excede el umbral.

Esta alarma se borra cuando el número de DataNodes defectuosos en el clúster HDFS es menor o igual que el umbral.

Atributo

ID de alarma

Severidad de alarma

Borrar automáticamente

14009

Grave

Parámetros

Parámetro

Descripción

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Trigger condition

Genera una alarma cuando el valor real del indicador excede el umbral especificado.

Impacto en el sistema

Los DataNodes defectuosos no pueden proporcionar servicios HDFS.

Causas posibles

  • DataNodes están defectuosos o sobrecargados.
  • La red entre el NameNode y el DataNode está desconectada u ocupada.
  • Los NameNodes están sobrecargados.

Procedimiento

  1. Compruebe si los DataNodes son defectuosos.

    1. Utilice el cliente en el nodo del clúster y ejecute el comando hdfs dfsadmin -report para comprobar si las DataNodes son defectuosas.
      • En caso afirmativo, vaya a 1.b.
      • Si no, vaya a 2.a.
    2. En la página de detalles del clúster MRS, elija Components > HDFS > Instances para comprobar si el DataNode está detenido.
      • En caso afirmativo, vaya a 1.c.
      • Si no, vaya a 2.a.
    3. Seleccione la instancia DataNode y elija More > Restart Instance para reiniciarla. Espere 5 minutos y compruebe si la alarma está desactivada.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 2.a.

  2. Compruebe el estado de la red entre el NameNode y el DataNode.

    1. Inicie sesión en la dirección IP del servicio del nodo donde se encuentra el DataNode defectuoso y ejecute el comando ping IP address of the NameNode para comprobar si la red entre el DataNode y el NameNode es anormal.
      • En caso afirmativo, vaya a 2.b.
      • Si no, vaya a 3.a.
    2. Rectifique el fallo de la red. Espere 5 minutos y compruebe si la alarma está desactivada.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 3.a.

  3. Compruebe si el DataNode está sobrecargado.

    1. En la página de detalles del clúster MRS, haga clic en Alarms y compruebe si existe la alarma ALM-14008 El uso de memoria de HDFS DataNode supera el umbral.
      • En caso afirmativo, vaya a 3.b.
      • Si no, vaya a 4.a.
    2. Siga los procedimientos de ALM-14008 El uso de memoria de HDFS DataNode supera el umbral (para MRS 2.x o anterior) para manejar la alarma y comprobar si la alarma está desactivada.
      • En caso afirmativo, vaya a 3.c.
      • Si no, vaya a 4.a.
    3. Espere 5 minutos y compruebe si la alarma está desactivada.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 4.a.

  4. Compruebe si el NameNode está sobrecargado.

    1. En la página de detalles del clúster MRS, haga clic en Alarms y compruebe si la alarma ALM-14007 El uso de memoria de HDFS NameNode supera el umbral.
      • En caso afirmativo, vaya a 4.b.
      • Si no, vaya a 5.
    2. Siga los procedimientos de ALM-14007 El uso de memoria de NameNode de HDFS supera el umbral (Para MRS 2.x o anterior) para manejar la alarma y comprobar si la alarma está desactivada.
      • En caso afirmativo, vaya a 4.c.
      • Si no, vaya a 5.
    3. Espere 5 minutos y compruebe si la alarma está desactivada.
      • En caso afirmativo, no es necesario hacer nada más.
      • Si no, vaya a 5.

  5. Recopile información de fallas.

    1. En MRS Manager, seleccione System > Export Log.
    2. Póngase en contacto con el personal de O&M y envíe los registros recopilados.

Referencia

Ninguna