Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-14028 El número de bloques a complementar supera el umbral

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-14028 El número de bloques a complementar supera el umbral

Descripción

El sistema comprueba el número de bloques a complementar cada 30 segundos y compara el número con el umbral. El número de bloques que se van a complementar tiene un umbral por defecto. Esta alarma se genera cuando el número de bloques a complementar excede el umbral.

Puede cambiar el umbral especificado por Blocks Under Replicated (NameNode) seleccionando O&M > Alarm > Thresholds > Name of the desired cluster > HDFS > File and Block.

Si Trigger Count se establece en 1 y el número de bloques a complementar es menor o igual que el umbral, esta alarma se borra. Si Trigger Count es mayor que 1 y el número de bloques a complementar es menor o igual al 90% del umbral, esta alarma se borra.

Atributo

ID de alarma	Gravedad de la alarma	Borrar automáticamente
14028	Minor	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.
NameServiceName	Especifica el NameService para el que se genera la alarma.
Trigger Condition	Especifica el umbral para activar la alarma.

Impacto en el sistema

Los datos almacenados en HDFS se pierden. HDFS puede entrar en el modo de seguridad y no puede proporcionar servicios de escritura. Los datos de bloques perdidos no se pueden restaurar.

Causas posibles

La instancia DataNode es anormal.
Los datos se eliminan.
El número de réplicas escritas en el archivo es mayor que el número de DataNodes.

Procedimiento

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Alarm > Alarms. En la página que se muestra, compruebe si se genera la alarma ALM-14003 El número de bloques HDFS perdidos supera el umbral.
- En caso afirmativo, vaya a 2.
- Si no, vaya a 3.
Rectifique la falla de acuerdo con el procedimiento de manejo de ALM-14003 El número de bloques HDFS perdidos supera el umbral. Cinco minutos más tarde, compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 3.

Inicie sesión en el cliente HDFS como usuario root. La contraseña de usuario la define el usuario antes de la instalación. Póngase en contacto con el administrador del clúster MRS para obtener la contraseña. Ejecute los siguientes comandos:
- Modo de seguridad:
  cd Client installation directory
  
  source bigdata_env
  
  kinit hdfs
- Modo normal:
  su - omm
  
  cd Client installation directory
  
  source bigdata_env
Ejecute el comando hdfs fsck / >> fsck.log para obtener el estado del clúster actual.
Ejecute el siguiente comando para contar el número (M) de bloques a replicar:

cat fsck.log | grep "Under-replicated"
Ejecute el siguiente comando para contar el número (N) de bloques a replicar en el directorio /tmp/hadoop-yarn/staging/:

cat fsck.log | grep "Under replicated" | grep "/tmp/hadoop-yarn/staging/" | wc -l

/tmp/hadoop-yarn/staging/ es el directorio predeterminado. Si se modifica el directorio, obtenerlo del elemento de configuración yarn.app.mapreduce.am.staging-dir en el archivo mapred-site.xml.
Compruebe si el porcentaje de N es superior al 50% (N/M > 50%).
- En caso afirmativo, vaya a 8.
- Si no, vaya a 9.
Ejecute el siguiente comando para reconfigurar el número de réplicas de archivos en el directorio (establezca el número de réplicas de archivos en el número de DataNodes o el número predeterminado de réplicas de archivos):

hdfs dfs -setrep -w Number of file replicas/tmp/hadoop-yarn/staging/

Para obtener el número predeterminado de réplicas de archivos:

Inicie sesión en el FusionInsight Manager, elija Cluster > Services > HDFS > Configurations > All Configurations y busque el parámetro dfs.replication. El valor de este parámetro es el número predeterminado de réplicas de archivos.

Compruebe si la alarma se borra 5 minutos más tarde.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.

Recopilar información de fallas.

En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
Expanda la lista desplegable junto al campo Service. En el cuadro de diálogo Services que se muestra, seleccione HDFS para el clúster de destino.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con y proporcione los registros recopilados.