ALM-14028 El número de bloques a complementar supera el umbral
Descripción
El sistema comprueba el número de bloques a complementar cada 30 segundos y compara el número con el umbral. El número de bloques que se van a complementar tiene un umbral por defecto. Esta alarma se genera cuando el número de bloques a complementar excede el umbral.
Puede cambiar el umbral especificado por Blocks Under Replicated (NameNode) seleccionando O&M > Alarm > Thresholds > Name of the desired cluster > HDFS > File and Block.
Si Trigger Count se establece en 1 y el número de bloques a complementar es menor o igual que el umbral, esta alarma se borra. Si Trigger Count es mayor que 1 y el número de bloques a complementar es menor o igual al 90% del umbral, esta alarma se borra.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
14028 |
Minor |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
NameServiceName |
Especifica el NameService para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
Los datos almacenados en HDFS se pierden. HDFS puede entrar en el modo de seguridad y no puede proporcionar servicios de escritura. Los datos de bloques perdidos no se pueden restaurar.
Causas posibles
- La instancia DataNode es anormal.
- Los datos se eliminan.
- El número de réplicas escritas en el archivo es mayor que el número de DataNodes.
Procedimiento
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Alarm > Alarms. En la página que se muestra, compruebe si se genera la alarma ALM-14003 El número de bloques HDFS perdidos supera el umbral.
- Rectifique la falla de acuerdo con el procedimiento de manejo de ALM-14003 El número de bloques HDFS perdidos supera el umbral. Cinco minutos más tarde, compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 3.
- Inicie sesión en el cliente HDFS como usuario root. La contraseña de usuario la define el usuario antes de la instalación. Póngase en contacto con el administrador del clúster MRS para obtener la contraseña. Ejecute los siguientes comandos:
- Ejecute el comando hdfs fsck / >> fsck.log para obtener el estado del clúster actual.
- Ejecute el siguiente comando para contar el número (M) de bloques a replicar:
cat fsck.log | grep "Under-replicated"
- Ejecute el siguiente comando para contar el número (N) de bloques a replicar en el directorio /tmp/hadoop-yarn/staging/:
cat fsck.log | grep "Under replicated" | grep "/tmp/hadoop-yarn/staging/" | wc -l
/tmp/hadoop-yarn/staging/ es el directorio predeterminado. Si se modifica el directorio, obtenerlo del elemento de configuración yarn.app.mapreduce.am.staging-dir en el archivo mapred-site.xml.
- Compruebe si el porcentaje de N es superior al 50% (N/M > 50%).
- Ejecute el siguiente comando para reconfigurar el número de réplicas de archivos en el directorio (establezca el número de réplicas de archivos en el número de DataNodes o el número predeterminado de réplicas de archivos):
hdfs dfs -setrep -w Number of file replicas/tmp/hadoop-yarn/staging/
Para obtener el número predeterminado de réplicas de archivos:
Inicie sesión en el FusionInsight Manager, elija Cluster > Services > HDFS > Configurations > All Configurations y busque el parámetro dfs.replication. El valor de este parámetro es el número predeterminado de réplicas de archivos.
Compruebe si la alarma se borra 5 minutos más tarde.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 9.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable junto al campo Service. En el cuadro de diálogo Services que se muestra, seleccione HDFS para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna