ALM-14009 El número de DataNodes defectuoso supera el umbral (para MRS 2.x o anterior)
Descripción
El sistema comprueba periódicamente el número de DataNodes defectuosos en el clúster HDFS cada 30 segundos y compara el número con el umbral. El número de DataNodes defectuosos tiene un umbral predeterminado. Esta alarma se genera cuando el número de DataNodes defectuosos en el clúster HDFS excede el umbral.
Esta alarma se borra cuando el número de DataNodes defectuosos en el clúster HDFS es menor o igual que el umbral.
Atributo
ID de alarma |
Severidad de alarma |
Borrar automáticamente |
---|---|---|
14009 |
Grave |
Sí |
Parámetros
Parámetro |
Descripción |
---|---|
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger condition |
Genera una alarma cuando el valor real del indicador excede el umbral especificado. |
Impacto en el sistema
Los DataNodes defectuosos no pueden proporcionar servicios HDFS.
Causas posibles
- DataNodes están defectuosos o sobrecargados.
- La red entre el NameNode y el DataNode está desconectada u ocupada.
- Los NameNodes están sobrecargados.
Procedimiento
- Compruebe si los DataNodes son defectuosos.
- Utilice el cliente en el nodo del clúster y ejecute el comando hdfs dfsadmin -report para comprobar si las DataNodes son defectuosas.
- En la página de detalles del clúster MRS, elija Components > HDFS > Instances para comprobar si el DataNode está detenido.
- Seleccione la instancia DataNode y elija More > Restart Instance para reiniciarla. Espere 5 minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 2.a.
- Compruebe el estado de la red entre el NameNode y el DataNode.
- Inicie sesión en la dirección IP del servicio del nodo donde se encuentra el DataNode defectuoso y ejecute el comando ping IP address of the NameNode para comprobar si la red entre el DataNode y el NameNode es anormal.
- Rectifique el fallo de la red. Espere 5 minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 3.a.
- Compruebe si el DataNode está sobrecargado.
- En la página de detalles del clúster MRS, haga clic en Alarms y compruebe si existe la alarma ALM-14008 El uso de memoria de HDFS DataNode supera el umbral.
- Siga los procedimientos de ALM-14008 El uso de memoria de HDFS DataNode supera el umbral (para MRS 2.x o anterior) para manejar la alarma y comprobar si la alarma está desactivada.
- Espere 5 minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 4.a.
- Compruebe si el NameNode está sobrecargado.
- En la página de detalles del clúster MRS, haga clic en Alarms y compruebe si la alarma ALM-14007 El uso de memoria de HDFS NameNode supera el umbral.
- Siga los procedimientos de ALM-14007 El uso de memoria de NameNode de HDFS supera el umbral (Para MRS 2.x o anterior) para manejar la alarma y comprobar si la alarma está desactivada.
- Espere 5 minutos y compruebe si la alarma está desactivada.
- En caso afirmativo, no es necesario hacer nada más.
- Si no, vaya a 5.
- Recopile información de fallas.
- En MRS Manager, seleccione .
- Póngase en contacto con el personal de O&M y envíe los registros recopilados.
Referencia
Ninguna