ALM-14027 Falla de disco de DataNode
Descripción
El sistema comprueba el estado del disco de DataNodes cada 60 segundos. Esta alarma se genera cuando un disco está defectuoso.
Después de recuperar todos los discos defectuosos en el DataNode, debe borrar manualmente la alarma y reiniciar el DataNode.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
14027 |
Importante |
No |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Failed Volumes |
Especifica la lista de discos defectuosos. |
Impacto en el sistema
Si se informa de esta alarma, en el DataNode hay particiones de disco anormales. Esto puede causar la pérdida de archivos escritos.
Causas posibles
- El disco duro presenta fallas.
- Los permisos de disco están configurados incorrectamente.
Procedimiento
Comprobar si se genera una alarma de disco.
- En FusionInsight Manager, seleccione O&M > Alarm > Alarms y compruebe si existe ALM-12014 Partición perdida o ALM-12033 Error de disco lento.
- Rectifique la falla consultando el procedimiento de manejo de ALM-12014 Partición perdida o ALM-12033 Error de disco lento. Luego, verifique si la alarma se rectificó.
- Espere 5 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 4.
Modificar permisos de disco.
- Elija O&M > Alarm > Alarms y vea Location e Additional Information de la alarma para obtener la ubicación del disco defectuoso.
- Inicie sesión en el nodo para el que se genera la alarma como usuario root. Vaya al directorio donde se encuentra el disco defectuoso y ejecute el comando ll para comprobar si el permiso del disco defectuoso es de 711 y si el usuario es de omm.
- Modifique el permiso del disco defectuoso. Por ejemplo, si el disco defectuoso es de data1, ejecute los siguientes comandos:
chown omm:wheel data1
chmod 711 data1
- En la lista de alarmas del Manager, haga clic en Clear en la columna Operation de la alarma para borrarla manualmente. Seleccione Cluster > Services > HDFS > Instance, seleccione DataNode, elija More > Restart Instance, espere 5 minutos y compruebe si se notifica una nueva alarma.
- En caso negativo, no se requiere ninguna otra acción.
- En caso afirmativo, vaya a 8.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable Service y seleccione HDFS y OMS para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 20 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Después de rectificar la falla, el sistema no borra automáticamente esta alarma y es necesario borrar manualmente la alarma.
Información relacionada
Ninguna