查看MRS集群事件
事件列表显示了集群中的所有事件信息,如重启服务、停止服务等。
事件列表默认按时间顺序排列,时间最近的事件显示在最前端。
前提条件
- 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
- 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。
通过管理控制台查看集群事件
- 登录MRS管理控制台。
- 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
- 选择“告警管理 > 事件”查看事件信息。
- 单击“全部导出”。在弹框内选择保存类型,单击“确定”可导出事件。
通过Manager查看集群事件
MRS 3.x及之后版本:
- 登录FusionInsight Manager。
- 选择
,进入事件界面,用户可以查看集群中所有事件信息,包括名称、ID、级别、产生时间、对象、定位信息等,每页默认显示最近的十条事件。
- 单击“导出全部”可导出全部事件详情。
- 单击手动刷新当前页面,也可在修改事件表格显示的列。
- 支持通过指定对象或集群来筛选指定的事件。
- 单击“高级搜索”显示事件搜索区域,搜索条件包括事件ID、事件名称、事件级别、开始时间和结束时间。
单击指定事件名称左侧的,展开完整信息参数,各项说明如表1所示。
MRS 2.x及之前版本:
- 登录MRS Manager。
- 选择“告警管理 > 事件”,进入事件界面,用户可以查看集群中所有事件信息,包括名称、ID、级别、产生时间等。
单击指定事件名称左侧的,展开完整信息参数,各项说明如表2所示。
MRS集群常见事件列表
事件ID |
组件 |
事件名称 |
事件级别 |
---|---|---|---|
12019 |
Manager |
停止服务 |
提示 |
12021 |
Manager |
停止实例 |
提示 |
12023 |
Manager |
删除节点 |
提示 |
12024 |
Manager |
重启服务 |
提示 |
12025 |
Manager |
重启实例 |
提示 |
12026 |
Manager |
Manager主备倒换 |
次要 |
12065 |
Manager |
进程重新启动 |
次要 |
12070 |
Manager |
作业执行成功 |
提示 |
12071 |
Manager |
作业执行失败 |
提示 |
12072 |
Manager |
作业被终止 |
提示 |
12082 |
Manager |
慢盘自动隔离中止 |
重要 |
12083 |
Manager |
慢盘隔离成功 |
重要 |
12084 |
Manager |
慢盘数据均衡失败 |
重要 |
12085 |
Manager |
慢盘隔离恢复 |
重要 |
12086 |
Manager |
Agent进程重启 |
提示 |
12087 |
Manager |
慢盘取消隔离失败 |
重要 |
12088 |
Manager |
慢盘取消隔离成功 |
重要 |
12089 |
Manager |
慢盘隔离失败 |
重要 |
12090 |
Manager |
慢盘节点隔离成功 |
重要 |
12091 |
Manager |
慢盘节点取消隔离成功 |
重要 |
12092 |
Manager |
慢盘节点实例启动成功 |
重要 |
12093 |
Manager |
慢盘节点隔离失败 |
重要 |
12094 |
Manager |
慢盘节点实例启动失败 |
重要 |
12095 |
Manager |
慢盘节点取消隔离失败 |
重要 |
12096 |
Manager |
慢盘节点已恢复 |
重要 |
12152 |
Manager |
启动周期性复制 |
次要 |
12153 |
Manager |
周期性复制完成 |
次要 |
12154 |
Manager |
启动流式复制 |
次要 |
12155 |
Manager |
重启流式复制 |
次要 |
12156 |
Manager |
停止流式复制 |
次要 |
12157 |
Manager |
周期性同步跳过 |
次要 |
12158 |
Manager |
主机信息丢失 |
次要 |
14005 |
HDFS |
NameNode主备倒换 |
次要 |
14028 |
HDFS |
HDFS磁盘均衡任务 |
次要 |
14029 |
HDFS |
主NameNode进入安全模式并生成新的FSimage |
次要 |
17001 |
Oozie |
Oozie工作流执行失败 |
重要 |
17002 |
Oozie |
Oozie定时任务执行失败 |
重要 |
18001 |
Yarn |
ResourceManager主备倒换 |
次要 |
18004 |
Mapreduce |
JobHistoryServer主备倒换 |
次要 |
18029 |
Yarn |
作业占用存储资源过多 |
次要 |
19001 |
HBase |
HMaster主备倒换 |
次要 |
19027 |
HBase |
RegionServer级别热点转移 |
重要 |
19028 |
HBase |
热点Region分裂 |
重要 |
19029 |
HBase |
热点Region隔离 |
重要 |
20003 |
Hue |
Hue发生主备切换 |
次要 |
23002 |
Loader |
Loader主备倒换 |
重要 |
24002 |
Flume |
Flume Channel溢出 |
重要 |
25001 |
LdapServer |
LdapServer主备倒换 |
次要 |
27000 |
DBService |
DBServer主备倒换 |
次要 |
38003 |
Kafka |
Topic数据保存周期配置调整 |
提示 |
43014 |
Spark |
Spark 数据倾斜 |
提示 |
43015 |
Spark |
Spark SQL 超大查询结果 |
提示 |
43016 |
Spark |
Spark SQL执行超时 |
提示 |
43024 |
Spark |
启动JDBCServer |
提示 |
43025 |
Spark |
停止JDBCServer |
提示 |
43026 |
Spark |
ZooKeeper连接成功 |
提示 |
43027 |
Spark |
ZooKeeper连接异常 |
提示 |
43601 |
GraphBase |
GraphBase主备切换 |
次要 |
45002 |
HetuEngine |
QAS主备倒换 |
次要 |
45597 |
IoTDB |
Region 副本补齐事件 |
提示 |
45651 |
Flink |
FlinkServer主备切换 |
次要 |