更新时间:2024-12-06 GMT+08:00

配置MRS集群告警阈值

集群Manager支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发一条告警信息,并在告警页面中出现此告警信息。

配置MRS集群告警阈值(MRS 3.x及之后版本)

  1. 登录FusionInsight Manager。
  2. 选择运维 > 告警 > 阈值设置
  3. 在监控分类中选择集群内指定主机或服务的监控指标。

    图1 配置指标阈值
    例如“主机内存使用率”,界面显示此阈值的信息:
    • 发送告警开关开启时表示将触发告警。
    • “分级告警开关”开启时启用分级告警,系统会根据实时监控指标值和分级阈值,动态上报相应级别的告警。(MRS 3.3.0及之后版本支持该功能)
    • “告警ID”“告警名称”包含阈值将触发的告警信息。
    • Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。
    • “检查周期(秒)”表示Manager检查监控指标的时间间隔。
    • 规则列表中的条目为触发告警的规则。

  4. 单击“添加规则”,可以新增指标的监控行为。

    表1 监控指标规则参数

    参数名

    参数解释

    参数示例

    规则名称

    规则名称

    CPU_MAX

    告警级别

    选择告警级别。开启“分级告警开关”后,需在“阈值设置”参数中配置告警级别。告警级别包括:

    • 紧急
    • 重要
    • 次要
    • 提示

    重要

    阈值类型

    选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。

    最大值

    日期

    设置规则生效的日期,即哪一天运行规则。取值范围为:

    • 每天
    • 每周
    • 其他

    开启“分级告警开关”后,仅支持“每天”。

    每天

    添加日期

    仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。

    09-30

    阈值设置

    设置规则运行的具体时间范围。

    开启“分级告警开关”后,不支持设置起止时间,默认为00:00-23:59。

    起止时间:00:00-8:30

    设置规则监控指标的阈值

    开启“分级告警开关”后,集群支持根据不同的阈值设置不同的告警级别。

    阈值:10

    支持单击设置多个阈值时间条件,或单击删除。

  5. 单击“确定”保存规则。
  6. 在新添加规则所在的行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。

    当前已创建的规则单击“取消应用”后,才能应用新规则。

配置MRS集群告警阈值(MRS 2.x及之前版本)

  1. 在MRS Manager,单击“系统设置”。
  2. 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。
  3. 单击某一指标例如“CPU使用率”,单击“添加规则”。
  4. 在“配置”对话框中填写监控指标规则参数。

    表2 监控指标规则参数

    参数名

    参数解释

    参数示例

    规则名称

    规则名称

    CPU_MAX

    参考日期

    查看某指标的历史参考数据

    2014/11/06

    阈值类型

    选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。

    最大值

    告警级别

    告警级别,包括:

    • 致命
    • 严重
    • 一般
    • 提示

    重要

    时间范围

    设置规则生效时监控指标的具体时间段

    从00:00到23:59

    阈值

    设置规则监控指标的阈值

    设置数值80

    日期

    设置规则生效的日期类型,包括:

    • 工作日
    • 周末
    • 其它

    工作日

    添加日期

    日期选择“其他”时该参数生效。可选择多个日期。

    11/30

  5. 单击“确定”。界面右上角弹出提示“模板保存成功。”。

    “发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。

  6. 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。

监控指标参考(MRS 3.x及之后版本)

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。

MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。

表3 节点信息监控指标转告警列表

监控指标组名称

监控指标名称

指标含义

默认阈值

CPU

主机CPU使用率

描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。

90.0%

磁盘

磁盘使用率

描述主机磁盘的使用率。

90.0%

磁盘inode使用率

统计采集周期内磁盘inode使用率。

80.0%

内存

主机内存使用率

统计当前时间点的内存平均使用率。

90.0%

主机状态

主机文件句柄使用率

统计采集周期内该主机的文件句柄使用率。

80.0%

主机PID使用率

主机PID使用率。

90%

网络状态

TCP临时端口使用率

统计采集周期内该主机的TCP临时端口使用率。

80.0%

网络读信息

读包错误率

统计采集周期内该主机上该网口的读包错误率。

0.5%

读包丢包率

统计采集周期内该主机上该网口的读包丢包率。

0.5%

读吞吐率

统计周期内网口的平均读吞吐率(MAC层)。

80%

网络写信息

写包错误率

统计采集周期内该主机上该网口的写包错误率。

0.5%

写包丢包率

统计采集周期内该主机上该网口的写包丢包率。

0.5%

写吞吐率

统计周期内网口的平均写吞吐率(MAC层)。

80%

进程

D状态进程总数

统计周期内主机上D状态进程数量。

0

omm进程使用率

统计周期内omm进程使用率。

90

表4 集群监控指标转告警列表

服务

监控指标组名称

监控指标名称

指标含义

默认阈值

DBService

数据库

数据库连接数使用率

数据库连接数使用率统计。

90%

数据目录磁盘空间使用率

数据目录磁盘空间使用率统计。

80%

Flume

Agent

Flume堆内存使用率

Flume堆内存使用百分比统计。

95.0%

Flume直接内存使用率

Flume直接内存使用百分比统计。

80.0%

Flume非堆内存使用率

Flume非堆内存使用百分比统计。

80.0%

Flume垃圾回收(GC)总时间

Flume垃圾回收(GC)总时间。

12000ms

HBase

GC

GC中回收old区所花时长

RegionServer的总GC时间。

5000ms

GC中回收old区所花时长

HMaster的总GC时间。

5000ms

CPU和内存

RegionServer直接内存使用率统计

RegionServer直接内存使用率统计。

90%

RegionServer堆内存使用率统计

RegionServer堆内存使用率统计。

90%

HMaster直接内存使用率统计

HMaster直接内存使用率统计。

90%

HMaster堆内存使用率统计

HMaster堆内存使用率统计。

90%

服务

单个RegionServer的region数目

单个RegionServer的Region数目。

2000

处在RIT状态达到阈值时长的region数

处在RIT状态达到阈值时长的region数。

1

容灾

容灾同步失败次数

同步容灾数据失败次数。

1

主集群等待同步的日志文件数量

主集群等待同步的日志文件数量。

128

主集群等待同步的HFile文件数量

主集群等待同步的HFile文件数量。

128

队列

Compaction操作队列大小

Compaction操作队列大小。

100

HDFS

文件和块

HDFS缺失的块数量

HDFS文件系统中缺少副本块数量。

0

需要复制副本的块总数

NameNode需要复制副本的块总数。

1000

RPC

主NameNode RPC处理平均时间

NameNode RPC处理平均时间。

100ms

主NameNode RPC队列平均时间

NameNode RPC队列平均时间。

200ms

磁盘

HDFS磁盘空间使用率

HDFS磁盘空间使用率。

80%

DataNode磁盘空间使用率

HDFS文件系统中DataNode可以使用的磁盘空间率。

80%

总副本预留磁盘空间所占比率

总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。

90%

资源

故障的DataNode总数

出故障的DataNode节点数量。

3

NameNode非堆内存使用百分比统计

NameNode非堆内存使用百分比统计。

90%

NameNode直接内存使用百分比统计

NameNode直接内存使用百分比统计。

90%

NameNode堆内存使用百分比统计

NameNode堆内存使用百分比统计。

95%

DataNode直接内存使用百分比统计

DataNode直接内存使用百分比统计。

90%

DataNode堆内存使用百分比统计

DataNode堆内存使用百分比统计。

95%

DataNode非堆内存使用百分比统计

DataNode非堆内存使用百分比统计。

90%

垃圾回收

垃圾回收时间统计(GC)

NameNode每分钟的垃圾回收(GC)所占用的时间。

12000ms

垃圾回收时间统计(GC)

DataNode每分钟的垃圾回收(GC)所占用的时间。

12000ms

Hive

HQL

Hive执行成功的HQL百分比

Hive执行成功的HQL百分比。

90.0%

Background

Background线程使用率

Background线程使用率。

90%

GC

MetaStore的总GC时间

MetaStore的总GC时间。

12000ms

HiveServer的总GC时间

HiveServer的总GC时间。

12000ms

容量

Hive已经使用的HDFS空间占可使用空间的百分比

Hive已经使用的HDFS空间占可使用空间的百分比。

85.0%

CPU和内存

MetaStore直接内存使用率统计

MetaStore直接内存使用率统计。

95%

MetaStore非堆内存使用率统计

MetaStore非堆内存使用率统计。

95%

MetaStore堆内存使用率统计

MetaStore堆内存使用率统计。

95%

HiveServer直接内存使用率统计

HiveServer直接内存使用率统计。

95%

HiveServer非堆内存使用率统计

HiveServer非堆内存使用率统计。

95%

HiveServer堆内存使用率统计

HiveServer堆内存使用率统计。

95%

Session

连接到HiveServer的session数占最大允许session数的百分比

连接到HiveServer的session数占最大允许session数的百分比。

90.0%

Kafka

分区

未完全同步的Partition百分比

未完全同步的Partition数占Partition总数的百分比。

50%

其他

Partition不可用百分比

Kafka各个Topic的Partition不可用占比。

40%

broker上用户连接数使用率

broker上用户连接数使用率。

80%

磁盘

Broker磁盘使用率

Broker数据目录所在磁盘的磁盘使用率。

80.0%

Broker磁盘IO使用率

Broker数据目录所在磁盘的磁盘IO使用率。

80%

进程

Broker每分钟的垃圾回收时间统计(GC)

Broker进程每分钟垃圾回收(GC)所占用的时间。

12000ms

Kafka堆内存使用率

Kafka堆内存使用百分比统计。

95%

Kafka直接内存使用率

Kafka直接内存使用百分比统计。

95%

Loader

内存

Loader堆内存使用率

Loader堆内存使用率。

95%

Loader直接内存使用率统计

Loader直接内存使用率统计。

80.0%

Loader非堆内存使用率

Loader非堆内存使用率。

80%

GC

Loader的总GC时间

Loader的总GC时间。

12000ms

Mapreduce

垃圾回收

垃圾回收时间统计(GC)

垃圾回收时间统计(GC)。

12000ms

资源

JobHistoryServer直接内存使用百分比统计

JobHistoryServer直接内存使用百分比统计。

90%

JobHistoryServer非堆内存使用百分比统计

JobHistoryServer非堆内存使用百分比统计。

90%

JobHistoryServer堆内存使用百分比统计

JobHistoryServer堆内存使用百分比统计。

95%

Oozie

内存

Oozie堆内存使用率

Oozie堆内存使用率。

95.0%

Oozie直接内存使用率

Oozie直接内存使用率。

80.0%

Oozie非堆内存使用率

Oozie非堆内存使用率。

80%

GC

Oozie垃圾回收(GC)总时间

Oozie垃圾回收(GC)总时间。

12000ms

Spark/Spark2x

内存

JDBCServer2x堆内存使用率统计

JDBCServer2x堆内存使用率统计。

95%

JDBCServer2x直接内存使用率统计

JDBCServer2x直接内存使用率统计。

95%

JDBCServer2x非堆内存使用率统计

JDBCServer2x非堆内存使用率统计

95%

JobHistory2x直接内存使用率统计

JobHistory2x直接内存使用率统计。

95%

JobHistory2x非堆内存使用率统计

JobHistory2x非堆内存使用率统计。

95%

JobHistory2x堆内存使用率统计

JobHistory2x堆内存使用率统计。

95%

IndexServer2x直接内存使用率统计

IndexServer2x直接内存使用率统计。

95%

IndexServer2x堆内存使用率统计

IndexServer2x堆内存使用率统计。

95%

IndexServer2x非堆内存使用率统计

IndexServer2x非堆内存使用率统计。

95%

GC次数

JDBCServer2x的Full GC次数

JDBCServer2x进程的Full GC次数。

12

JobHistory2x的Full GC次数

JobHistory2x进程的Full GC次数。

12

IndexServer2x的Full GC次数

IndexServer2x进程的Full GC次数。

12

GC时间

JDBCServer2x的总GC时间

JDBCServer2x的总GC时间。

12000ms

JobHistory2x的总GC时间

JobHistory2x的总GC时间。

12000ms

IndexServer2x的总GC时间

IndexServer2x的总GC时间。

12000ms

Storm

集群

Supervisor数

统计周期内集群中可用的Supervisor数目。

1

已用Slot比率

统计周期内集群中可用的slot使用率。

80.0%

Nimbus

Nimbus堆内存使用率

Nimbus堆内存使用百分比统计。

80%

Yarn

资源

NodeManager直接内存使用百分比统计

NodeManager直接内存使用百分比统计。

90%

NodeManager堆内存使用百分比统计

NodeManager堆内存使用百分比统计。

95%

NodeManager非堆内存使用百分比统计

NodeManager非堆内存使用百分比统计。

90%

ResourceManager直接内存使用百分比统计

ResourceManager直接内存使用百分比统计。

90%

ResourceManager堆内存使用百分比统计

ResourceManager堆内存使用百分比统计。

95%

ResourceManager非堆内存使用百分比统计

ResourceManager非堆内存使用百分比统计。

90%

垃圾回收

垃圾回收时间统计(GC)

NodeManager每分钟的垃圾回收(GC)所占用的时间。

12000ms

垃圾回收时间统计(GC)

ResourceManager每分钟的垃圾回收(GC)所占用的时间。

12000ms

其他

root队列下失败的任务数

root队列下失败的任务数。

50

root队列下被杀死的任务数

root队列下被杀死的任务数。

50

CPU和内存

挂起的内存量

挂起的内存量。

83886080MB

任务

正在挂起的任务

正在挂起的任务。

60

ZooKeeper

连接

ZooKeeper连接数使用率

ZooKeeper连接数使用百分比统计。

80%

CPU和内存

ZooKeeper堆内存使用率

ZooKeeper堆内存使用百分比统计。

95%

ZooKeeper直接内存使用率

ZooKeeper直接内存使用百分比统计。

80%

GC

ZooKeeper每分钟的垃圾回收时间统计(GC)

ZooKeeper每分钟的垃圾回收时间统计(GC)。

12000ms

Ranger

GC

UserSync垃圾回收(GC)时间

UserSync垃圾回收(GC)时间。

12000ms

RangerAdmin垃圾回收(GC)时间

RangerAdmin垃圾回收(GC)时间。

12000ms

TagSync垃圾回收(GC)时间

TagSync垃圾回收(GC)时间。

12000ms

CPU和内存

UserSync非堆内存使用率

UserSync非堆内存使用百分比统计。

80.0%

UserSync直接内存使用率

UserSync直接内存使用百分比统计。

80.0%

UserSync堆内存使用率

UserSync堆内存使用百分比统计。

95.0%

RangerAdmin非堆内存使用率

RangerAdmin非堆内存使用百分比统计。

80.0%

RangerAdmin堆内存使用率

RangerAdmin堆内存使用百分比统计。

95.0%

RangerAdmin直接内存使用率

RangerAdmin直接内存使用百分比统计。

80.0%

TagSync直接内存使用率

TagSync直接内存使用百分比统计。

80.0%

TagSync非堆内存使用率

TagSync非堆内存使用百分比统计。

80.0%

TagSync堆内存使用率

TagSync堆内存使用百分比统计。

95.0%

ClickHouse

集群配额

Clickhouse服务在ZooKeeper的数量配额使用率

ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。

90%

Clickhouse服务在ZooKeeper的容量配额使用率

ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。

90%

IoTDB

GC

IoTDBServer垃圾回收时间

IoTDBServer垃圾回收所占用的时间

12000ms

CPU和内存

IoTDBServer堆内存使用率

IoTDBServer堆内存使用百分比统计

90%

IoTDBServer直接内存使用率

IoTDBServer直接内存使用百分比统计

90%