Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-14003 El número de bloques HDFS perdidos supera el umbral

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-14003 El número de bloques HDFS perdidos supera el umbral

Descripción

El sistema comprueba los bloques perdidos cada 30 segundos y compara los bloques perdidos reales con el umbral. El indicador de bloques perdidos tiene un umbral predeterminado. Esta alarma se genera cuando el número de bloques HDFS perdidos excede el umbral.

Para cambiar el umbral, elija O&M >Alarm > Thresholds > Name of the desired cluster > HDFS.

Si Trigger Count es de 1, esta alarma se borra cuando el valor de los bloques HDFS perdidos es menor o igual que el umbral. Si Trigger Count es mayor que 1, esta alarma se borra cuando el valor de los bloques HDFS perdidos es menor o igual al 90% del umbral.

Atributo

ID de alarma	Gravedad de la alarma	Borrar automáticamente
14003	Importante NOTA: La gravedad de la alarma en MRS 3.1.5 es de Critical.	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.
NameServiceName	Especifica el NameService para el que se genera la alarma.
Trigger Condition	Especifica el umbral para activar la alarma.

Impacto en el sistema

Los datos almacenados en HDFS se pierden. HDFS puede entrar en el modo de seguridad y no puede proporcionar servicios de escritura. Los datos de bloques perdidos no se pueden restaurar.

Causas posibles

La instancia DataNode es anormal.
Los datos se eliminan.

Procedimiento

Comprobar la instancia de DataNode.

En FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > HDFS > Instance.
Comprueba si el Running Status de todas las instancias de DataNode es de tipo Normal.
- En caso afirmativo, vaya a 11.
- Si no, vaya a 3.
Reinicie la instancia DataNode y compruebe si la instancia DataNode se reinicia correctamente.
- En caso afirmativo, vaya a 4.
- Si no, vaya a 5.
Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 5.

Eliminar el archivo dañado.

En FusionInsight Manager, seleccione Cluster > Name of the desired cluster > Services > HDFS > NameNode(Active). En la página WebUI del HDFS, vea la información sobre los bloques perdidos.
- Si se pierde un bloque, se muestra una línea en rojo en el WebUI.
- De forma predeterminada, el usuario admin no tiene los permisos para gestionar otros componentes. Si la página no se puede abrir o el contenido mostrado está incompleto al acceder a la interfaz de usuario nativa de un componente debido a la falta de permisos, puede crear manualmente un usuario con los permisos para gestionar ese componente.
El usuario comprueba si el archivo que contiene el bloque de datos perdido es útil.

Los archivos generados en los directorios /mr-history, /tmp/hadoop-yarn y /tmp/logs durante la ejecución de tareas de MapReduce son innecesarios.
- En caso afirmativo, vaya a 7.
- Si no, vaya a 8.
El usuario comprueba si el archivo que contiene el bloque de datos perdido está respaldado.
- En caso afirmativo, vaya a 8.
- Si no, vaya a 11.
Inicie sesión en el cliente HDFS como usuario root. La contraseña de usuario la define el usuario antes de la instalación. Póngase en contacto con el administrador del clúster MRS para obtener la contraseña. Ejecute los siguientes comandos:
- Modo de seguridad:
  cd Client installation directory
  
  source bigdata_env
  
  kinit hdfs
- Modo normal:
  su - omm
  
  cd Client installation directory
  
  source bigdata_env
En el cliente de nodo, ejecute hdfs fsck / -delete para eliminar el archivo perdido. Si el archivo donde se encuentra el bloque perdido es un archivo útil, debe volver a escribir el archivo para restaurar los datos.
Elija O&M > Alarm > Alarms y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 11.

Recopilar información de fallas.

En FusionInsight Manager, elija O&M > Log > Download.
Expanda la lista desplegable junto al campo Service. En el cuadro de diálogo Services que se muestra, seleccione HDFS para el clúster de destino.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con y proporcione los registros recopilados.