ALM-14029 Número de bloques en una réplica supera el umbral
Descripción
El sistema comprueba el número de bloques en una sola réplica cada cuatro horas y compara el número con el umbral. Existe un umbral para el número de bloques en una sola réplica. Esta alarma se genera cuando el número real de bloques en una única réplica excede el umbral.
Esta alarma se borra cuando el número de bloques a complementar es menor que el umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
14029 |
Leves |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
NameServiceName |
Especifica el NameService para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral para activar la alarma. |
Impacto en el sistema
Los datos de réplicas tienden a perderse cuando un nodo está defectuoso. Demasiados archivos de una sola réplica afectan a la seguridad del sistema de archivos HDFS.
Causas posibles
- El DataNode está defectuoso.
- El disco está defectuoso.
- Los archivos se escriben en una sola réplica.
Procedimiento
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Alarm > Alarms. En la página que se muestra, compruebe si se genera la alarma ALM-14003 El número de bloques HDFS perdidos supera el umbral.
- Rectifique la falla de acuerdo con el procedimiento de manejo de ALM-14003 El número de bloques HDFS perdidos supera el umbral. En el siguiente periodo de detección, compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 3.
- Compruebe si los archivos de una sola réplica se han escrito en el servicio.
- Inicie sesión en el cliente HDFS como usuario root. La contraseña de usuario la define el usuario antes de la instalación. Póngase en contacto con el administrador del clúster MRS para obtener la contraseña. Ejecute los siguientes comandos:
- Ejecute el siguiente comando en el nodo cliente para aumentar el número de réplicas de un solo archivo de réplica:
hdfs dfs -setrep -w file replica number file name or file path
- En el siguiente periodo de detección, compruebe si la alarma está borrada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Recopilar información de fallas.
- En FusionInsight Manager, seleccione O&M. En el panel de navegación de la izquierda, elija Log > Download.
- Expanda la lista desplegable junto al campo Service. En el cuadro de diálogo Services que se muestra, seleccione HDFS para el clúster de destino.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con y proporcione los registros recopilados.
Eliminación de alarmas
Esta alarma se borra automáticamente después de rectificar la falla.
Información relacionada
Ninguna