告警解释
系统每30秒周期性检测HDFS集群处于故障状态的DataNode数量,并把实际的故障状态的DataNode数量和阈值相比较。故障状态的DataNode数量指标默认提供一个阈值范围。当HDFS集群故障状态的DataNode数量超出阈值范围时,产生该告警。
故障状态的DataNode数量小于或等于阈值时,告警恢复。
告警参数
参数名称 | 参数含义 |
|---|
ServiceName | 产生告警的服务名称。 |
RoleName | 产生告警的角色名称。 |
HostName | 产生告警的主机名。 |
Trigger condition | 系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
故障状态的DataNode节点无法提供HDFS服务。
可能原因
- DataNode故障或者负荷过高。
- NameNode和DataNode之间的网络断连或者繁忙。
- NameNode负荷过高。
处理步骤
- 查看DataNode是否故障。
- 在集群节点使用客户端,执行hdfs dfsadmin -report命令,可以查看Dead datanodes项对应的数量显示以及处于故障状态的DataNode信息。
- 在MRS集群详情页面,单击“组件管理 > HDFS > 实例”,检查对应DataNode是否处于停止状态。
- 勾选对应的DataNode实例,单击“更多 > 重启实例”进行重启,等待5分钟后,然后查看本告警是否恢复。
- 查看NameNode和DataNode之间的网络情况。
- 登录处于故障状态DataNode的业务平面IP节点,执行pingNameNode的IP地址命令以检查DataNode和NameNode之间的网络是否异常。
- 修复网络故障,等待5分钟后,查看该告警是否恢复。
- 查看DataNode是否负荷过高。
- 在MRS集群详情页面单击“告警管理”,查看否存在“ALM-14008 HDFS DataNode内存使用率超过阈值”的告警。
- 参考ALM-14008 HDFS DataNode内存使用率超过阈值(2.x及以前版本)的处理步骤,对该异常告警进行处理,查看是否消除该告警。
- 等待5分钟后,在告警列表中查看本告警是否恢复。
- 查看NameNode是否负荷过高。
- 在MRS集群详情页面单击“告警管理”,查看是否存在“ALM-14007 HDFS NameNode内存使用率超过阈值”的告警。
- 参考ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本)的处理步骤,对该异常告警进行处理,查看是否消除告警。
- 等待5分钟后,在告警列表中查看本告警是否恢复。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。