查看MRS集群事件
在MRS集群中,告警和事件是保障系统稳定性、可靠性和性能的重要机制。
事件指系统运行中发生的状态变化或系统操作记录,用于系统行为的审计或者追踪。例如MRS集群中组件实例的启动、停止或主备倒换;MRS集群中节点慢盘隔离变化等。
MRS集群内常见的事件请参考表2。
通常来说,事件并不需要人工处理,但重要及以上级别的事件,需要用户关注相关的组件是否运行正常、是否存在相关的告警并进行处理,请参考查看MRS集群告警。
操作视频
本视频将分别为您介绍查看告警和事件信息及配置告警阈值的操作。
因不同版本操作界面可能存在差异,相关视频供参考,具体以实际环境为准。
通过管理控制台查看集群事件
- 登录MRS管理控制台。
- 选择“现有集群”,选中一个待操作的运行中的集群并单击集群名称,进入集群概览信息页面。
- 在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步。
- 选择“告警管理 > 事件”查看当前集群的事件信息。图1 查看MRS集群事件

在告警事件列表中,可查看当前集群已产生的事件,包含事件名称、级别以及生成时间等信息。
单击事件名称前的箭头,可展开事件详情。
- 如需导出当前事件信息,可单击“导出”,选择对应的导出文件格式后,导出事件文件到本地。
通过Manager查看集群事件
- 登录MRS集群Manager界面。
登录集群Manager界面请参考访问MRS集群Manager。
- 选择,进入事件界面,用户可以查看集群中所有事件信息,包括名称、ID、级别、产生时间、对象、定位信息等,每页默认显示最近的十条事件。
- MRS 2.x及之前版本的集群,选择“告警管理 > 事件”。
- 单击“导出全部”可导出全部事件详情。
- 单击
手动刷新当前页面,也可在
修改事件表格显示的列。 - 支持通过指定对象或集群来筛选指定的事件。
- 单击“高级搜索”显示事件搜索区域,搜索条件包括事件ID、事件名称、事件级别、开始时间和结束时间。
单击指定事件名称左侧的
,展开完整信息参数,各项说明如表1所示。
MRS集群常见事件列表
事件ID | 组件 | 事件名称 | 事件级别 |
|---|---|---|---|
12019 | Manager | 停止服务 | 提示 |
12021 | Manager | 停止实例 | 提示 |
12023 | Manager | 删除节点 | 提示 |
12024 | Manager | 重启服务 | 提示 |
12025 | Manager | 重启实例 | 提示 |
12026 | Manager | Manager主备倒换 | 次要 |
12065 | Manager | 进程重新启动 | 次要 |
12070 | Manager | 作业执行成功 | 提示 |
12071 | Manager | 作业执行失败 | 提示 |
12072 | Manager | 作业被终止 | 提示 |
12082 | Manager | 慢盘自动隔离中止 | 重要 |
12083 | Manager | 慢盘隔离成功 | 重要 |
12084 | Manager | 慢盘数据均衡失败 | 重要 |
12085 | Manager | 慢盘隔离恢复 | 重要 |
12086 | Manager | Agent进程重启 | 提示 |
12087 | Manager | 慢盘取消隔离失败 | 重要 |
12088 | Manager | 慢盘取消隔离成功 | 重要 |
12089 | Manager | 慢盘隔离失败 | 重要 |
12090 | Manager | 慢盘节点隔离成功 | 重要 |
12091 | Manager | 慢盘节点取消隔离成功 | 重要 |
12092 | Manager | 慢盘节点实例启动成功 | 重要 |
12093 | Manager | 慢盘节点隔离失败 | 重要 |
12094 | Manager | 慢盘节点实例启动失败 | 重要 |
12095 | Manager | 慢盘节点取消隔离失败 | 重要 |
12096 | Manager | 慢盘节点已恢复 | 重要 |
12097 | Manager | 连接OMS节点网络异常 | 重要 |
12152 | Manager | 启动周期性复制 | 次要 |
12153 | Manager | 周期性复制完成 | 次要 |
12154 | Manager | 启动流式复制 | 次要 |
12155 | Manager | 重启流式复制 | 次要 |
12156 | Manager | 停止流式复制 | 次要 |
12157 | Manager | 周期性同步跳过 | 次要 |
12158 | Manager | 主机信息丢失 | 次要 |
14005 | HDFS | NameNode主备倒换 | 次要 |
14028 | HDFS | HDFS磁盘均衡任务 | 次要 |
14029 | HDFS | 主NameNode进入安全模式并生成新的FSimage | 次要 |
17001 | Oozie | Oozie工作流执行失败 | 重要 |
17002 | Oozie | Oozie定时任务执行失败 | 重要 |
18001 | Yarn | ResourceManager主备倒换 | 次要 |
18004 | Mapreduce | JobHistoryServer主备倒换 | 次要 |
18029 | Yarn | 作业占用存储资源过多 | 次要 |
19001 | HBase | HMaster主备倒换 | 次要 |
19027 | HBase | RegionServer级别热点转移 | 重要 |
19028 | HBase | 热点Region分裂 | 重要 |
19029 | HBase | 热点Region隔离 | 重要 |
20003 | Hue | Hue发生主备切换 | 次要 |
23002 | Loader | Loader主备倒换 | 重要 |
24002 | Flume | Flume Channel溢出 | 重要 |
25001 | LdapServer | LdapServer主备倒换 | 次要 |
27000 | DBService | DBServer主备倒换 | 次要 |
38003 | Kafka | Topic数据保存周期配置调整 | 提示 |
43014 | Spark | Spark 数据倾斜 | 提示 |
43015 | Spark | Spark SQL 超大查询结果 | 提示 |
43016 | Spark | Spark SQL执行超时 | 提示 |
43024 | Spark | 启动JDBCServer | 提示 |
43025 | Spark | 停止JDBCServer | 提示 |
43026 | Spark | ZooKeeper连接成功 | 提示 |
43027 | Spark | ZooKeeper连接异常 | 提示 |
43601 | GraphBase | GraphBase主备切换 | 次要 |
45002 | HetuEngine | QAS主备倒换 | 次要 |
45597 | IoTDB | Region 副本补齐事件 | 提示 |
45651 | Flink | FlinkServer主备切换 | 次要 |
相关文档
- 如果需要配置告警事件消息通知,实现一站式集成多种推送通知方式(例如短信和邮件通知),请参考配置MRS集群告警事件消息通知。
- MRS云服务相关行为日志,可在管理控制台进行查看,请参考查看MRS云服务操作日志。

