更新时间:2024-11-12 GMT+08:00

查看MRS集群事件

事件列表显示了集群中的所有事件信息,如重启服务、停止服务等。

事件列表默认按时间顺序排列,时间最近的事件显示在最前端。

前提条件

  • 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)
  • 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager

通过管理控制台查看集群事件

  1. 登录MRS管理控制台。
  2. 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
  3. 选择“告警管理 > 事件”查看事件信息。
  4. 单击“全部导出”。在弹框内选择保存类型,单击“确定”可导出事件。

通过Manager查看集群事件

MRS 3.x及之后版本

  1. 登录FusionInsight Manager。
  2. 选择运维 > 告警 > 事件,进入事件界面,用户可以查看集群中所有事件信息,包括名称、ID、级别、产生时间、对象、定位信息等,每页默认显示最近的十条事件。

    • 单击“导出全部”可导出全部事件详情。
    • 单击手动刷新当前页面,也可在修改事件表格显示的列。
    • 支持通过指定对象或集群来筛选指定的事件。
    • 单击“高级搜索”显示事件搜索区域,搜索条件包括事件ID、事件名称、事件级别、开始时间和结束时间。

    单击指定事件名称左侧的,展开完整信息参数,各项说明如表1所示。

    表1 事件参数

    事件参数

    说明

    事件ID

    事件信息的ID。

    事件名称

    事件信息的名称。

    事件级别

    事件级别。分为紧急、重要、次要、提示四个级别。

    产生时间

    事件产生的时间。

    对象

    事件可能的原因提示。

    序列号

    系统产生的事件计数。

    定位信息

    定位事件的详细信息。主要包含以下信息:

    • 来源:产生事件的集群名称
    • 服务名:产生事件的服务名称
    • 角色名:产生事件的角色名称
    • 主机名:产生事件的主机名

    附加信息

    相关报错信息。

    事件原因

    事件可能的原因提示。

    来源

    集群名称。

MRS 2.x及之前版本:

  1. 登录MRS Manager。
  2. 选择“告警管理 > 事件”,进入事件界面,用户可以查看集群中所有事件信息,包括名称、ID、级别、产生时间等。

    单击指定事件名称左侧的,展开完整信息参数,各项说明如表2所示。
    表2 事件参数

    参数

    参数说明

    事件ID

    事件的ID。

    事件级别

    事件级别。分为致命、严重、一般、提示四个级别。

    事件名称

    产生事件的名称。

    生成时间

    产生事件的时间。

    定位信息

    定位事件的详细信息。

MRS集群常见事件列表

表3 MRS集群事件列表

事件ID

组件

事件名称

事件级别

12019

Manager

停止服务

提示

12021

Manager

停止实例

提示

12023

Manager

删除节点

提示

12024

Manager

重启服务

提示

12025

Manager

重启实例

提示

12026

Manager

Manager主备倒换

次要

12065

Manager

进程重新启动

次要

12070

Manager

作业执行成功

提示

12071

Manager

作业执行失败

提示

12072

Manager

作业被终止

提示

12082

Manager

慢盘自动隔离中止

重要

12083

Manager

慢盘隔离成功

重要

12084

Manager

慢盘数据均衡失败

重要

12085

Manager

慢盘隔离恢复

重要

12086

Manager

Agent进程重启

提示

12087

Manager

慢盘取消隔离失败

重要

12088

Manager

慢盘取消隔离成功

重要

12089

Manager

慢盘隔离失败

重要

12090

Manager

慢盘节点隔离成功

重要

12091

Manager

慢盘节点取消隔离成功

重要

12092

Manager

慢盘节点实例启动成功

重要

12093

Manager

慢盘节点隔离失败

重要

12094

Manager

慢盘节点实例启动失败

重要

12095

Manager

慢盘节点取消隔离失败

重要

12096

Manager

慢盘节点已恢复

重要

12152

Manager

启动周期性复制

次要

12153

Manager

周期性复制完成

次要

12154

Manager

启动流式复制

次要

12155

Manager

重启流式复制

次要

12156

Manager

停止流式复制

次要

12157

Manager

周期性同步跳过

次要

12158

Manager

主机信息丢失

次要

14005

HDFS

NameNode主备倒换

次要

14028

HDFS

HDFS磁盘均衡任务

次要

14029

HDFS

主NameNode进入安全模式并生成新的FSimage

次要

17001

Oozie

Oozie工作流执行失败

重要

17002

Oozie

Oozie定时任务执行失败

重要

18001

Yarn

ResourceManager主备倒换

次要

18004

Mapreduce

JobHistoryServer主备倒换

次要

18029

Yarn

作业占用存储资源过多

次要

19001

HBase

HMaster主备倒换

次要

19027

HBase

RegionServer级别热点转移

重要

19028

HBase

热点Region分裂

重要

19029

HBase

热点Region隔离

重要

20003

Hue

Hue发生主备切换

次要

23002

Loader

Loader主备倒换

重要

24002

Flume

Flume Channel溢出

重要

25001

LdapServer

LdapServer主备倒换

次要

27000

DBService

DBServer主备倒换

次要

38003

Kafka

Topic数据保存周期配置调整

提示

43014

Spark

Spark 数据倾斜

提示

43015

Spark

Spark SQL 超大查询结果

提示

43016

Spark

Spark SQL执行超时

提示

43024

Spark

启动JDBCServer

提示

43025

Spark

停止JDBCServer

提示

43026

Spark

ZooKeeper连接成功

提示

43027

Spark

ZooKeeper连接异常

提示

43601

GraphBase

GraphBase主备切换

次要

45002

HetuEngine

QAS主备倒换

次要

45597

IoTDB

Region 副本补齐事件

提示

45651

Flink

FlinkServer主备切换

次要