告警解释
系统每180秒周期性检测NameService服务状态,当检测到NameService服务不可用时产生该告警。
NameService服务恢复时,告警清除。
告警属性
告警ID |
告警级别 |
可自动清除 |
14010 |
严重 |
是 |
告警参数
参数名称 |
参数含义 |
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
NSName |
产生告警的NameService名称 |
对系统的影响
无法为基于该NameService服务的HBase和MapReduce等上层部件提供服务。用户无法读写文件。
可能原因
- JournalNode节点故障。
- DataNode节点故障。
- 磁盘容量不足。
- NameNode节点进入安全模式。
处理步骤
- 检查JournalNode实例状态。
- 在MRS Manager首页,单击“组件管理”。
- 单击“HDFS”。
- 单击“实例”。
- 在页面中,查看JournalNode的“健康状态”是否为“良好”。
- 选择故障的JournalNode,单击“更多 > 重启实例”。查看JournalNode能否成功启动。
- 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。
- 检查DataNode实例状态。
- 在MRS集群详情页面,单击“组件管理”。
- 单击“HDFS”。
- 在“操作状态和健康状态”中,查看所有DataNode节点的“健康状态”是否为“良好”。
- 单击“实例”。在DataNode管理页面,选择故障DataNode,单击“更多 > 重启实例”。查看DataNode能否成功启动。
- 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。
- 检查磁盘状态。
- 在MRS集群详情页面,单击“节点管理”并展开节点组信息。
- 在“磁盘使用率”列,检查磁盘空间是否不足。
- 对磁盘进行扩容。
- 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。
- 检查NameNode节点是否进入安全模式。
- 在集群节点使用客户端,执行hdfs dfsadmin -safemode get命令:“Safe mode is ON.”。
“Safe mode is ON.”表示安全模式已打开,后面的提示信息为告警信息,根据实际情况展现。
- 在集群节点使用客户端,执行hdfs dfsadmin -safemode leave。
- 等待5分钟后,在“告警管理”页签,查看该告警是否恢复。
- 收集故障信息。
- 在MRS Manager界面,单击“系统设置 > 日志导出”。
- 请联系运维人员,并发送已收集的故障日志信息。