Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

ALM-14027 Falla de disco de DataNode

Descripción

El sistema comprueba el estado del disco de DataNodes cada 60 segundos. Esta alarma se genera cuando un disco está defectuoso.

Después de recuperar todos los discos defectuosos en el DataNode, debe borrar manualmente la alarma y reiniciar el DataNode.

Atributo

ID de alarma

Gravedad de la alarma

Borrar automáticamente

14027

Importante

No

Parámetros

Nombre

Significado

Source

Especifica el clúster para el que se genera la alarma.

ServiceName

Especifica el servicio para el que se genera la alarma.

RoleName

Especifica el rol para el que se genera la alarma.

HostName

Especifica el host para el que se genera la alarma.

Failed Volumes

Especifica la lista de discos defectuosos.

Impacto en el sistema

Si se informa de esta alarma, en el DataNode hay particiones de disco anormales. Esto puede causar la pérdida de archivos escritos.

Causas posibles

  • El disco duro presenta fallas.
  • Los permisos de disco están configurados incorrectamente.

Procedimiento

Comprobar si se genera una alarma de disco.

  1. En FusionInsight Manager, seleccione O&M > Alarm > Alarms y compruebe si existe ALM-12014 Partición perdida o ALM-12033 Error de disco lento.

    • En caso afirmativo, vaya a 2.
    • Si no, vaya a 4.

  2. Rectifique la falla consultando el procedimiento de manejo de ALM-12014 Partición perdida o ALM-12033 Error de disco lento. Luego, verifique si la alarma se rectificó.

    • En caso afirmativo, vaya a 3.
    • Si no, vaya a 4.

  3. Espere 5 minutos y compruebe si la alarma está desactivada.

    • De ser así, no se requiere ninguna acción adicional.
    • Si no, vaya a 4.

Modificar permisos de disco.

  1. Elija O&M > Alarm > Alarms y vea Location e Additional Information de la alarma para obtener la ubicación del disco defectuoso.
  2. Inicie sesión en el nodo para el que se genera la alarma como usuario root. Vaya al directorio donde se encuentra el disco defectuoso y ejecute el comando ll para comprobar si el permiso del disco defectuoso es de 711 y si el usuario es de omm.

    • En caso afirmativo, vaya a 8.
    • Si no, vaya a 6.

  3. Modifique el permiso del disco defectuoso. Por ejemplo, si el disco defectuoso es de data1, ejecute los siguientes comandos:

    chown omm:wheel data1

    chmod 711 data1

  4. En la lista de alarmas del Manager, haga clic en Clear en la columna Operation de la alarma para borrarla manualmente. Seleccione Cluster > Services > HDFS > Instance, seleccione DataNode, elija More > Restart Instance, espere 5 minutos y compruebe si se notifica una nueva alarma.

    • En caso negativo, no se requiere ninguna otra acción.
    • En caso afirmativo, vaya a 8.

Recopilar información de fallas.

  1. En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
  2. Expanda la lista desplegable Service y seleccione HDFS y OMS para el clúster de destino.
  3. Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 20 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
  4. Póngase en contacto con y proporcione los registros recopilados.

Eliminación de alarmas

Después de rectificar la falla, el sistema no borra automáticamente esta alarma y es necesario borrar manualmente la alarma.

Información relacionada

Ninguna