查看MRS集群事件
在MRS集群中,告警和事件是保障系统稳定性、可靠性和性能的重要机制。
事件指系统运行中发生的状态变化或系统操作记录,用于系统行为的审计或者追踪。例如MRS集群中组件实例的启动、停止或主备倒换;MRS集群中节点慢盘隔离变化等。
MRS集群内常见的事件请参考表2。
通常来说,事件并不需要人工处理,但重要及以上级别的事件,需要用户关注相关的组件是否运行正常、是否存在相关的告警并进行处理,请参考查看MRS集群告警。
操作视频
本视频将分别为您介绍查看告警和事件信息及配置告警阈值的操作。
因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。
通过管理控制台查看集群事件
- 登录MRS管理控制台。
- 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群概览信息页面。
- 在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
- 选择“告警管理 > 事件”查看当前集群的事件信息。
图1 查看MRS集群事件
在告警事件列表中,可查看当前集群已产生的事件,包含事件名称、级别以及生成时间等信息。
单击事件名称前的箭头,可展开事件详情。
- 如需导出当前事件信息,可单击“导出”,选择对应的导出文件格式后,导出事件文件到本地。
通过Manager查看集群事件
- 登录MRS集群Manager界面。
登录集群Manager界面请参考访问MRS集群Manager。
- 选择
,进入事件界面,用户可以查看集群中所有事件信息,包括名称、ID、级别、产生时间、对象、定位信息等,每页默认显示最近的十条事件。
- MRS 2.x及之前版本的集群,选择“告警管理 > 事件”。
- 单击“导出全部”可导出全部事件详情。
- 单击
手动刷新当前页面,也可在
修改事件表格显示的列。
- 支持通过指定对象或集群来筛选指定的事件。
- 单击“高级搜索”显示事件搜索区域,搜索条件包括事件ID、事件名称、事件级别、开始时间和结束时间。
单击指定事件名称左侧的
,展开完整信息参数,各项说明如表1所示。
MRS集群常见事件列表
事件ID |
组件 |
事件名称 |
事件级别 |
---|---|---|---|
12019 |
Manager |
停止服务 |
提示 |
12021 |
Manager |
停止实例 |
提示 |
12023 |
Manager |
删除节点 |
提示 |
12024 |
Manager |
重启服务 |
提示 |
12025 |
Manager |
重启实例 |
提示 |
12026 |
Manager |
Manager主备倒换 |
次要 |
12065 |
Manager |
进程重新启动 |
次要 |
12070 |
Manager |
作业执行成功 |
提示 |
12071 |
Manager |
作业执行失败 |
提示 |
12072 |
Manager |
作业被终止 |
提示 |
12082 |
Manager |
慢盘自动隔离中止 |
重要 |
12083 |
Manager |
慢盘隔离成功 |
重要 |
12084 |
Manager |
慢盘数据均衡失败 |
重要 |
12085 |
Manager |
慢盘隔离恢复 |
重要 |
12086 |
Manager |
Agent进程重启 |
提示 |
12087 |
Manager |
慢盘取消隔离失败 |
重要 |
12088 |
Manager |
慢盘取消隔离成功 |
重要 |
12089 |
Manager |
慢盘隔离失败 |
重要 |
12090 |
Manager |
慢盘节点隔离成功 |
重要 |
12091 |
Manager |
慢盘节点取消隔离成功 |
重要 |
12092 |
Manager |
慢盘节点实例启动成功 |
重要 |
12093 |
Manager |
慢盘节点隔离失败 |
重要 |
12094 |
Manager |
慢盘节点实例启动失败 |
重要 |
12095 |
Manager |
慢盘节点取消隔离失败 |
重要 |
12096 |
Manager |
慢盘节点已恢复 |
重要 |
12097 |
Manager |
连接OMS节点网络异常 |
重要 |
12152 |
Manager |
启动周期性复制 |
次要 |
12153 |
Manager |
周期性复制完成 |
次要 |
12154 |
Manager |
启动流式复制 |
次要 |
12155 |
Manager |
重启流式复制 |
次要 |
12156 |
Manager |
停止流式复制 |
次要 |
12157 |
Manager |
周期性同步跳过 |
次要 |
12158 |
Manager |
主机信息丢失 |
次要 |
14005 |
HDFS |
NameNode主备倒换 |
次要 |
14028 |
HDFS |
HDFS磁盘均衡任务 |
次要 |
14029 |
HDFS |
主NameNode进入安全模式并生成新的FSimage |
次要 |
17001 |
Oozie |
Oozie工作流执行失败 |
重要 |
17002 |
Oozie |
Oozie定时任务执行失败 |
重要 |
18001 |
Yarn |
ResourceManager主备倒换 |
次要 |
18004 |
Mapreduce |
JobHistoryServer主备倒换 |
次要 |
18029 |
Yarn |
作业占用存储资源过多 |
次要 |
19001 |
HBase |
HMaster主备倒换 |
次要 |
19027 |
HBase |
RegionServer级别热点转移 |
重要 |
19028 |
HBase |
热点Region分裂 |
重要 |
19029 |
HBase |
热点Region隔离 |
重要 |
20003 |
Hue |
Hue发生主备切换 |
次要 |
23002 |
Loader |
Loader主备倒换 |
重要 |
24002 |
Flume |
Flume Channel溢出 |
重要 |
25001 |
LdapServer |
LdapServer主备倒换 |
次要 |
27000 |
DBService |
DBServer主备倒换 |
次要 |
38003 |
Kafka |
Topic数据保存周期配置调整 |
提示 |
43014 |
Spark |
Spark 数据倾斜 |
提示 |
43015 |
Spark |
Spark SQL 超大查询结果 |
提示 |
43016 |
Spark |
Spark SQL执行超时 |
提示 |
43024 |
Spark |
启动JDBCServer |
提示 |
43025 |
Spark |
停止JDBCServer |
提示 |
43026 |
Spark |
ZooKeeper连接成功 |
提示 |
43027 |
Spark |
ZooKeeper连接异常 |
提示 |
43601 |
GraphBase |
GraphBase主备切换 |
次要 |
45002 |
HetuEngine |
QAS主备倒换 |
次要 |
45597 |
IoTDB |
Region 副本补齐事件 |
提示 |
45651 |
Flink |
FlinkServer主备切换 |
次要 |
相关文档
- 如果需要配置告警事件消息通知,实现一站式集成多种推送通知方式(例如短信和邮件通知),请参考配置MRS集群告警事件消息通知。
- MRS云服务相关行为日志,可在管理控制台进行查看,请参考查看MRS云服务操作日志。