ALM-14003 El número de bloques HDFS perdidos supera el umbral
Descripción
El sistema comprueba los bloques perdidos cada 30 segundos y compara los bloques perdidos reales con el umbral. El indicador de bloques perdidos tiene un umbral predeterminado. Esta alarma se genera cuando el número de bloques HDFS perdidos excede el umbral.
Para cambiar el umbral, elija O&M >Alarm > Thresholds > Name of the desired cluster > HDFS.
Si Trigger Count es de 1, esta alarma se borra cuando el valor de los bloques HDFS perdidos es menor o igual que el umbral. Si Trigger Count es mayor que 1, esta alarma se borra cuando el valor de los bloques HDFS perdidos es menor o igual al 90% del umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
14003 |
Importante
NOTA:
La gravedad de la alarma en MRS 3.1.5 es de Critical. |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
NameServiceName |
Especifica el NameService para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
Los datos almacenados en HDFS se pierden. HDFS puede entrar en el modo de seguridad y no puede proporcionar servicios de escritura. Los datos de bloques perdidos no se pueden restaurar.
Causas posibles
- La instancia DataNode es anormal.
- Los datos se eliminan.
Procedimiento
Comprobar la instancia de DataNode.
- En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HDFS > Instance.
- Comprueba si el Running Status de todas las instancias de DataNode es de tipo Normal.
- Reinicie la instancia DataNode y compruebe si la instancia DataNode se reinicia correctamente.
- Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 5.
Eliminar el archivo dañado.
- En FusionInsight Manager, seleccione Cluster > Name of the desired cluster > Services > HDFS > NameNode(Active). En la página WebUI del HDFS, vea la información sobre los bloques perdidos.
- Si se pierde un bloque, se muestra una línea en rojo en el WebUI.
- De forma predeterminada, el usuario admin no tiene los permisos para gestionar otros componentes. Si la página no se puede abrir o el contenido mostrado está incompleto al acceder a la interfaz de usuario nativa de un componente debido a la falta de permisos, puede crear manualmente un usuario con los permisos para gestionar ese componente.
- El usuario comprueba si el archivo que contiene el bloque de datos perdido es útil.
Los archivos generados en los directorios /mr-history, /tmp/hadoop-yarn y /tmp/logs durante la ejecución de tareas de MapReduce son innecesarios.
- El usuario comprueba si el archivo que contiene el bloque de datos perdido está respaldado.
- Inicie sesión en el cliente HDFS como usuario root. La contraseña de usuario la define el usuario antes de la instalación. Póngase en contacto con el administrador del clúster MRS para obtener la contraseña. Ejecute los siguientes comandos:
- En el cliente de nodo, ejecute hdfs fsck / -delete para eliminar el archivo perdido. Si el archivo donde se encuentra el bloque perdido es un archivo útil, debe volver a escribir el archivo para restaurar los datos.
- Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 11.
Recopilar información de fallas.
- En FusionInsight Manager, elija O&M > Log > Download.
- Expanda la lista desplegable junto al campo Service. En el cuadro de diálogo Services que se muestra, seleccione HDFS para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna