Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-14027 Falla de disco de DataNode

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-14027 Falla de disco de DataNode

Descripción

El sistema comprueba el estado del disco de DataNodes cada 60 segundos. Esta alarma se genera cuando un disco está defectuoso.

Después de recuperar todos los discos defectuosos en el DataNode, debe borrar manualmente la alarma y reiniciar el DataNode.

Atributo

ID de alarma	Gravedad de la alarma	Borrar automáticamente
14027	Importante	No

Parámetros

Nombre	Significado
Source	Especifica el clúster para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.
Failed Volumes	Especifica la lista de discos defectuosos.

Impacto en el sistema

Si se informa de esta alarma, en el DataNode hay particiones de disco anormales. Esto puede causar la pérdida de archivos escritos.

Causas posibles

El disco duro presenta fallas.
Los permisos de disco están configurados incorrectamente.

Procedimiento

Comprobar si se genera una alarma de disco.

En FusionInsight Manager, seleccione O&M > Alarm > Alarms y compruebe si existe ALM-12014 Partición perdida o ALM-12033 Error de disco lento.
- En caso afirmativo, vaya a 2.
- Si no, vaya a 4.
Rectifique la falla consultando el procedimiento de manejo de ALM-12014 Partición perdida o ALM-12033 Error de disco lento. Luego, verifique si la alarma se rectificó.
- En caso afirmativo, vaya a 3.
- Si no, vaya a 4.
Espere 5 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 4.

Modificar permisos de disco.

Elija O&M > Alarm > Alarms y vea Location e Additional Information de la alarma para obtener la ubicación del disco defectuoso.
Inicie sesión en el nodo para el que se genera la alarma como usuario root. Vaya al directorio donde se encuentra el disco defectuoso y ejecute el comando ll para comprobar si el permiso del disco defectuoso es de 711 y si el usuario es de omm.
- En caso afirmativo, vaya a 8.
- Si no, vaya a 6.
Modifique el permiso del disco defectuoso. Por ejemplo, si el disco defectuoso es de data1, ejecute los siguientes comandos:

chown omm:wheel data1

chmod 711 data1
En la lista de alarmas del Manager, haga clic en Clear en la columna Operation de la alarma para borrarla manualmente. Seleccione Cluster > Services > HDFS > Instance, seleccione DataNode, elija More > Restart Instance, espere 5 minutos y compruebe si se notifica una nueva alarma.
- En caso negativo, no se requiere ninguna otra acción.
- En caso afirmativo, vaya a 8.

Recopilar información de fallas.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
Expanda la lista desplegable Service y seleccione HDFS y OMS para el clúster de destino.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 20 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con y proporcione los registros recopilados.