更新时间:2024-11-29 GMT+08:00

配置告警阈值

操作场景

FusionInsight Manager支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发一条告警信息,并在告警页面中出现此告警信息。

操作步骤

  1. 登录FusionInsight Manager。
  2. 选择运维 > 告警 > 阈值设置
  3. 在监控分类中选择集群内指定主机或服务的监控指标。

    图1 配置指标阈值
    例如“主机内存使用率”,界面显示此阈值的信息:
    • “阈值告警开关”开启时将触发告警。
    • “分级告警开关”开启时启用分级告警,系统会根据实时监控指标值和分级阈值,动态上报相应级别的告警。
    • “告警ID”“告警名称”包含阈值将触发的告警信息。
    • Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。
    • “检查周期(秒)”表示Manager检查监控指标的时间间隔。
    • 规则列表中的条目为触发告警的规则。

  4. 单击“添加规则”,可以新增指标的监控行为。

    表1 监控指标规则参数

    参数名

    参数解释

    参数值

    规则名称

    设置规则名称。

    CPU_MAX(举例)

    告警级别

    选择告警级别。

    开启“分级告警开关”后,需在“阈值设置”参数中配置告警级别。

    • 紧急
    • 重要
    • 次要
    • 提示

    阈值类型

    选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。

    • 最大值
    • 最小值

    日期

    设置规则生效的日期,即哪一天运行规则。

    开启“分级告警开关”后,仅支持“每天”。

    • 每天
    • 每周
    • 其他

    添加日期

    仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。

    09-30

    阈值设置

    设置规则运行的具体时间范围。

    开启“分级告警开关”后,不支持设置起止时间,默认为00:00-23:59。

    起止时间:00:00-8:30

    设置规则监控指标的阈值。

    开启“分级告警开关”后,集群支持根据不同的阈值设置不同的告警级别。

    • 告警级别
    • 阈值

    支持单击设置多个阈值时间条件,或单击删除。

  5. 单击“确定”保存规则。
  6. 在新添加规则所在的行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。

    当前已创建的规则单击“取消应用”后,才能应用新规则。

监控指标参考

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标。

表2 节点信息监控指标转告警列表

监控指标组名称

监控指标名称

指标含义

默认阈值

CPU

主机CPU使用率

描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。

90.0%

磁盘

磁盘使用率

描述主机磁盘的使用率。

95%(紧急)

85%(重要)

磁盘inode使用率

统计采集周期内磁盘inode使用率。

95%(紧急)

80%(重要)

内存

主机内存使用率

统计当前时间点的内存平均使用率。

95%(紧急)

90%(重要)

主机状态

主机文件句柄使用率

统计采集周期内该主机的文件句柄使用率。

95%(紧急)

80%(重要)

主机PID使用率

主机PID使用率。

95%(紧急)

90%(重要)

网络状态

TCP临时端口使用率

统计采集周期内该主机的TCP临时端口使用率。

95%(紧急)

80%(重要)

网络读信息

读包错误率

统计采集周期内该主机上该网口的读包错误率。

5%(紧急)

0.5%(重要)

读包丢包率

统计采集周期内该主机上该网口的读包丢包率。

5%(紧急)

0.5%(重要)

读吞吐率

统计周期内网口的平均读吞吐率(MAC层)。

80%

网络写信息

写包错误率

统计采集周期内该主机上该网口的写包错误率。

5%(紧急)

0.5%(重要)

写包丢包率

统计采集周期内该主机上该网口的写包丢包率。

5%(紧急)

0.5%(重要)

写吞吐率

统计周期内网口的平均写吞吐率(MAC层)。

80%

进程

D状态和Z状态进程总数

统计周期内主机上D状态和Z状态进程数量。

0

omm进程使用率

统计周期内omm进程使用率。

95(紧急)

90(重要)

表3 集群监控指标转告警列表

服务

监控指标组名称

监控指标名称

指标含义

默认阈值

DBService

数据库

数据库连接数使用率

数据库连接数使用率统计。

95%(紧急)

90%(重要)

数据目录磁盘空间使用率

数据目录磁盘空间使用率统计。

85%(紧急)

80%(重要)

MOTService

数据库

MOT库连接数使用率

MOTService数据库连接数使用率统计。

90%

MOT数据目录磁盘空间使用率

MOTService数据目录磁盘空间使用率统计。

80%

MOT内存空间使用率

MOTService内存空间使用率。

85%

MOT CPU使用率

MOTService CPU使用率。

80%

Elasticsearch

磁盘

数据目录使用率

Elasticsearch数据目录使用率。

80%

垃圾回收

GC时间

Elasticsearch实例进程的垃圾回收占用时间。

30000ms

内存

堆内存使用率

Elasticsearch堆内存使用率。

90%

分片

Elasticsearch分片文档数

Elasticsearch分片文档数

100000000

Elasticsearch分片数据量

Elasticsearch分片数据存储量。

41943040

实例总分片数

Elasticsearch实例总分片数。

400

分片数量统计

总分片数

统计Elasticsearch状态为down的主分片。

70000

Flume

Agent

Flume堆内存使用率

Flume堆内存使用百分比统计。

95.0%(紧急)

90.0%(重要)

Flume直接内存使用率

Flume直接内存使用百分比统计。

90.0%(紧急)

80.0%(重要)

Flume非堆内存使用率

Flume非堆内存使用百分比统计。

80.0%

Flume垃圾回收(GC)总时间

Flume垃圾回收(GC)总时间。

12000ms

FTP-Server

进程

FTP-Server堆内存使用率

FTP-Server堆内存使用百分比统计。

95.0%

FTP-Server直接内存使用率

FTP-Server直接内存使用百分比统计。

80.0%

FTP-Server非堆内存使用率

FTP-Server非堆内存使用百分比统计。

80.0%

FTP-Server垃圾回收(GC)总时间

FTP-Server垃圾回收(GC)总时间。

12000ms

HBase

GC

GC中回收old区所花时长

RegionServer的总GC时间。

5000ms

GC中回收old区所花时长

HMaster的总GC时间。

5000ms

CPU和内存

RegionServer直接内存使用率统计

RegionServer直接内存使用率统计。

90%

RegionServer堆内存使用率统计

RegionServer堆内存使用率统计。

90%

HMaster直接内存使用率统计

HMaster直接内存使用率统计。

90%

HMaster堆内存使用率统计

HMaster堆内存使用率统计。

90%

服务

单个RegionServer的region数目

单个RegionServer的Region数目。

5000(紧急)

2000(重要)

处在RIT状态达到阈值时长的region数

处在RIT状态达到阈值时长的region数。

1

Handler

RegionServer的handler使用率

RegionServer的handler使用率。

100%(紧急)

90%(重要)

容灾

容灾同步失败次数

同步容灾数据失败次数。

1

主集群等待同步的日志文件数量

主集群等待同步的日志文件数量。

128

主集群等待同步的HFile文件数量

主集群等待同步的HFile文件数量。

128

RPC

RegionServer RPC打开连接数

RegionServer的RPC打开连接数。

200(紧急)

100(重要)

P99 RegionServer的RPC请求响应时间

RegionServer实例的RPC请求响应时间的P99。

10000ms(紧急)

5000ms(重要)

P99 RegionServer的RPC请求处理时间

RegionServer实例的RPC请求处理时间的P99。

10000ms(紧急)

5000ms(重要)

操作统计

RegionServer WAL写入超时个数

RegionServer WAL写入超时个数。

500(紧急)

300(重要)

队列

RegionServer RPC写队列数

RegionServer RPC写队列数。

2000(紧急)

1600(重要)

RegionServer RPC读队列数

RegionServer RPC读队列数。

2000(紧急)

1600(重要)

RegionServer Call队列大小

RegionServer Call队列大小。

838860800(紧急)

629145600(重要)

Compaction操作队列大小

Compaction操作队列大小。

100

HDFS

文件和块

HDFS缺失的块数量

HDFS文件系统中缺少副本块数量。

0

需要复制副本的块总数

NameNode需要复制副本的块总数。

1000

RPC

主NameNode RPC处理平均时间

NameNode RPC处理平均时间。

100ms(重要)

200ms(紧急)

主NameNode RPC队列平均时间

NameNode RPC队列平均时间。

200ms(重要)

300ms(紧急)

磁盘

HDFS磁盘空间使用率

HDFS磁盘空间使用率。

80%(重要)

90%(紧急)

DataNode磁盘空间使用率

HDFS文件系统中DataNode可以使用的磁盘空间率。

80%

总副本预留磁盘空间所占比率

总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。

90%

资源

故障的DataNode总数

出故障的DataNode节点数量。

3

NameNode非堆内存使用百分比统计

NameNode非堆内存使用百分比统计。

90%

NameNode直接内存使用百分比统计

NameNode直接内存使用百分比统计。

90%

NameNode堆内存使用百分比统计

NameNode堆内存使用百分比统计。

95%

DataNode直接内存使用百分比统计

DataNode直接内存使用百分比统计。

90%

DataNode堆内存使用百分比统计

DataNode堆内存使用百分比统计。

95%

DataNode非堆内存使用百分比统计

DataNode非堆内存使用百分比统计。

90%

垃圾回收

垃圾回收时间统计(GC)

NameNode每分钟的垃圾回收(GC)所占用的时间。

10000ms(重要)

15000ms(紧急)

垃圾回收时间统计(GC)

DataNode每分钟的垃圾回收(GC)所占用的时间。

12000ms(重要)

20000ms(紧急)

Hive

HQL

Hive执行成功的HQL百分比

Hive执行成功的HQL百分比。

90%(紧急)

80%(重要)

连接数

连接到MetaStore的session数占最大允许session数的百分比

连接到MetaStore的session数占最大允许session数的百分比。

90%(紧急)

80%(重要)

Background

Background线程使用率

Background线程使用率。

90%(紧急)

80%(重要)

GC

MetaStore的总GC时间

MetaStore的总GC时间。

12000ms

HiveServer的总GC时间

HiveServer的总GC时间。

12000ms

容量

Hive已经使用的HDFS空间占可使用空间的百分比

Hive已经使用的HDFS空间占可使用空间的百分比。

95%(紧急)

85%(重要)

CPU和内存

MetaStore直接内存使用率统计

MetaStore直接内存使用率统计。

95%(紧急)

85%(重要)

MetaStore非堆内存使用率统计

MetaStore非堆内存使用率统计。

95%(紧急)

85%(重要)

MetaStore堆内存使用率统计

MetaStore堆内存使用率统计。

95%(紧急)

85%(重要)

HiveServer直接内存使用率统计

HiveServer直接内存使用率统计。

95%(紧急)

85%(重要)

HiveServer非堆内存使用率统计

HiveServer非堆内存使用率统计。

95%(紧急)

85%(重要)

HiveServer堆内存使用率统计

HiveServer堆内存使用率统计。

95%(紧急)

85%(重要)

Session

连接到HiveServer的session数占最大允许session数的百分比

连接到HiveServer的session数占最大允许session数的百分比。

90%(紧急)

80%(重要)

Kafka

分区

未完全同步的Partition百分比

未完全同步的Partition数占Partition总数的百分比。

60%(紧急)

50%(重要)

磁盘

Broker磁盘使用率

Broker数据目录所在磁盘的磁盘使用率。

90%(紧急)

85%(重要)

Broker磁盘IO使用率

Broker数据目录所在磁盘的磁盘IO使用率。

80%

进程

Broker每分钟的垃圾回收时间统计(GC)

Broker进程每分钟垃圾回收(GC)所占用的时间。

12000ms

Kafka堆内存使用率

Kafka堆内存使用百分比统计。

95%

Kafka直接内存使用率

Kafka直接内存使用百分比统计。

100%(紧急)

95%(重要)

其他

broker上用户连接数使用率

broker上用户连接数使用率。

90%(紧急)

85%(重要)

Loader

内存

Loader堆内存使用率

Loader堆内存使用率。

95%(紧急)

80%(重要)

Loader直接内存使用率统计

Loader直接内存使用率统计。

95%(紧急)

80%(重要)

Loader非堆内存使用率

Loader非堆内存使用率。

95%(紧急)

80%(重要)

GC

Loader的总GC时间

Loader的总GC时间。

20000ms(紧急)

12000ms(重要)

Mapreduce

垃圾回收

垃圾回收时间统计(GC)

垃圾回收时间统计(GC)。

20000ms(紧急)

12000ms(重要)

资源

JobHistoryServer直接内存使用百分比统计

JobHistoryServer直接内存使用百分比统计。

95%(紧急)

90%(重要)

JobHistoryServer非堆内存使用百分比统计

JobHistoryServer非堆内存使用百分比统计。

95%(紧急)

90%(重要)

JobHistoryServer堆内存使用百分比统计

JobHistoryServer堆内存使用百分比统计。

95%(紧急)

90%(重要)

Metadata

其他

Metadata堆内存使用率

Metadata堆内存使用百分比统计。

95%

Metadata直接内存使用率统计

Metadata直接内存使用百分比统计。

80.0%

Metadata非堆内存使用率

Metadata非堆内存使用百分比统计。

80.0%

Metadata的总GC时间

Metadata的总GC时间。

20000ms(紧急)

12000ms(重要)

Oozie

内存

Oozie堆内存使用率

Oozie堆内存使用率。

95%

Oozie直接内存使用率

Oozie直接内存使用率。

90%

Oozie非堆内存使用率

Oozie非堆内存使用率。

90%

GC

Oozie垃圾回收(GC)总时间

Oozie垃圾回收(GC)总时间。

20000ms(紧急)

12000ms(重要)

Solr

Replica数量统计

Bad Replica数

Solr实例Bad Replica数统计。

0

垃圾回收

GC时间

Solr实例进程的垃圾回收(GC)占用时间

12000ms

内存

堆内存使用率

堆内存使用率。

99%(紧急)

95%(重要)

分片

Solr分片数据量

Solr分片数据量。

83886080(紧急)

41943040(重要)

Solr分片文档数

Solr分片文档数。

400000000

Spark

内存

JDBCServer堆内存使用率统计

JDBCServer堆内存使用率统计。

95%(紧急)

85%(重要)

JDBCServer直接内存使用率统计

JDBCServer直接内存使用率统计。

95%(紧急)

85%(重要)

JDBCServer非堆内存使用率统计

JDBCServer非堆内存使用率统计

95%(紧急)

85%(重要)

JobHistory直接内存使用率统计

JobHistory直接内存使用率统计。

95%(重要)

85%(次要)

JobHistory非堆内存使用率统计

JobHistory非堆内存使用率统计。

95%(重要)

85%(次要)

JobHistory堆内存使用率统计

JobHistory堆内存使用率统计。

95%(重要)

85%(次要)

IndexServer直接内存使用率统计

IndexServer直接内存使用率统计。

95%(紧急)

85%(重要)

IndexServer堆内存使用率统计

IndexServer堆内存使用率统计。

95%(紧急)

85%(重要)

IndexServer非堆内存使用率统计

IndexServer非堆内存使用率统计。

95%(紧急)

85%(重要)

GC次数

JDBCServer的Full GC次数

JDBCServer进程的Full GC次数。

12(紧急)

9(重要)

JobHistory的Full GC次数

JobHistory进程的Full GC次数。

12(紧急)

9(重要)

IndexServer的Full GC次数

IndexServer进程的Full GC次数。

12(紧急)

9(重要)

GC时间

JDBCServer的总GC时间

JDBCServer的总GC时间。

12000ms(紧急)

9600ms(重要)

JobHistory的总GC时间

JobHistory的总GC时间。

12000ms(重要)

9600ms(次要)

IndexServer的总GC时间

IndexServer的总GC时间。

12000ms(紧急)

9600ms(重要)

Yarn

资源

NodeManager直接内存使用百分比统计

NodeManager直接内存使用百分比统计。

90%

NodeManager堆内存使用百分比统计

NodeManager堆内存使用百分比统计。

95%

NodeManager非堆内存使用百分比统计

NodeManager非堆内存使用百分比统计。

90%

ResourceManager直接内存使用百分比统计

ResourceManager直接内存使用百分比统计。

90%

ResourceManager堆内存使用百分比统计

ResourceManager堆内存使用百分比统计。

95%

ResourceManager非堆内存使用百分比统计

ResourceManager非堆内存使用百分比统计。

90%

垃圾回收

垃圾回收时间统计(GC)

NodeManager每分钟的垃圾回收(GC)所占用的时间。

12000ms(重要)

20000ms(紧急)

垃圾回收时间统计(GC)

ResourceManager每分钟的垃圾回收(GC)所占用的时间。

10000ms(重要)

15000ms(紧急)

其他

root队列下失败的任务数

root队列下失败的任务数。

50

root队列下被杀死的任务数

root队列下被杀死的任务数。

50

CPU和内存

挂起的内存量

挂起的内存量。

83886080MB

任务

正在挂起的任务

正在挂起的任务。

60

ZooKeeper

连接

ZooKeeper连接数使用率

ZooKeeper连接数使用百分比统计。

80%(重要)

90%(紧急)

CPU和内存

ZooKeeper堆内存使用率

ZooKeeper堆内存使用百分比统计。

95%

ZooKeeper直接内存使用率

ZooKeeper直接内存使用百分比统计。

80%

GC

ZooKeeper每分钟的垃圾回收时间统计(GC)

ZooKeeper每分钟的垃圾回收时间统计(GC)。

5000ms(重要)

10000ms(紧急)

meta

OBS数据写操作

OBS的write接口调用失败总数

OBS的write接口调用失败总数。

10

OBS异常

OBS上报OBSFileConflictException总数

OBS上报OBSFileConflictException总数。

5

OBS上报AccessControlException总数

OBS上报AccessControlException总数。

5

OBS上报EOFException总数

OBS上报EOFException总数。

5

OBS上报OBSMethodNotAllowedException总数

OBS上报OBSMethodNotAllowedException总数。

5

OBS上报OBSIOException总数

OBS上报OBSIOException总数。

5

OBS上报FileNotFoundException总数

OBS上报FileNotFoundException总数。

5

OBS操作被流控总数

OBS操作被流控总数。

5

OBS上报OBSIllegalArgumentException总数

OBS上报OBSIllegalArgumentException总数。

5

OBS上报的其他异常总数

OBS上报的其他异常总数。

5

OBS数据读操作

OBS的read接口调用失败总数

OBS的read接口调用失败总数。

10

OBS的readFully接口调用失败总数

OBS的readFully接口调用失败总数

10

Ranger

GC

UserSync垃圾回收(GC)时间

UserSync垃圾回收(GC)时间。

20000ms(紧急)

12000ms(重要)

PolicySync垃圾回收(GC)时间

PolicySync垃圾回收(GC)时间

20000ms(紧急)

12000ms(重要)

RangerAdmin垃圾回收(GC)时间

RangerAdmin垃圾回收(GC)时间。

20000ms(紧急)

12000ms(重要)

TagSync垃圾回收(GC)时间

TagSync垃圾回收(GC)时间。

20000ms(紧急)

12000ms(重要)

CPU和内存

UserSync非堆内存使用率

UserSync非堆内存使用百分比统计。

80.0%

UserSync直接内存使用率

UserSync直接内存使用百分比统计。

80.0%

UserSync堆内存使用率

UserSync堆内存使用百分比统计。

95.0%

PolicySync直接内存使用率

PolicySync直接内存使用百分比统计。

80.0%

PolicySync堆内存使用率

PolicySync堆内存使用百分比统计。

95.0%

PolicySync非堆内存使用率

PolicySync非堆内存使用百分比统计。

80.0%

RangerAdmin非堆内存使用率

RangerAdmin非堆内存使用百分比统计。

80.0%

RangerAdmin堆内存使用率

RangerAdmin堆内存使用百分比统计。

95.0%

RangerAdmin直接内存使用率

RangerAdmin直接内存使用百分比统计。

80.0%

TagSync直接内存使用率

TagSync直接内存使用百分比统计。

80.0%

TagSync非堆内存使用率

TagSync非堆内存使用百分比统计。

80.0%

TagSync堆内存使用率

TagSync堆内存使用百分比统计。

95.0%

ClickHouse

集群配额

Clickhouse服务在ZooKeeper的数量配额使用率

ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。

95%(紧急)

90%(重要)

Clickhouse服务在ZooKeeper的容量配额使用率

ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。

95%(紧急)

90%(重要)

并发数

并发数 (ClickHouseServer)

ClickHouse服务的实际SQL并发数。

90

IoTDB

合并

合并任务 (空间内合并) 的最大时延

IoTDBServer空间内合并执行最大时延统计。

300000ms

合并任务 (Flush) 的最大时延

IoTDBServer Flush执行最大时延统计。

300000ms

合并任务 (跨空间合并) 的最大时延

IoTDBServer跨空间合并执行最大时延统计。

300000ms

RPC

RPC (executeStatement) 的最大时延

IoTDBServer RPC执行最大时延统计。

10000s

GC

IoTDBServer垃圾回收(GC)总时间

IoTDBServer垃圾回收(GC)所占用的总时间。

30000ms(紧急)

12000ms(重要)

ConfigNode垃圾回收(GC)总时间

ConfigNode垃圾回收(GC)所占用的总时间。

30000ms(紧急)

12000ms(重要)

内存

IoTDBServer堆内存使用率

IoTDBServer堆内存使用百分比统计

100%(紧急)

90%(重要)

IoTDBServer直接内存使用率

IoTDBServer直接内存使用百分比统计

100%(紧急)

90%(重要)

ConfigNode堆内存使用率

ConfigNode堆内存使用百分比统计。

100%(紧急)

90%(重要)

ConfigNode直接内存使用率

ConfigNode直接内存使用百分比统计。

100%(紧急)

90%(重要)

Containers

其他

元空间使用率

WebContainer元空间使用率。

75.0%

非堆内存使用率

WebContainer非堆内存使用率。

75.0%

堆内存使用率

WebContainer堆内存使用率。

95.0%

应用服务调用失败率统计

应用服务调用失败率统计(SGP)。

10.0

应用服务调用时延统计

应用服务调用时延统计(SGP)。

10000.0

应用服务最大并发数统计

应用服务最大并发数统计(SGP)。

120

blu健康状态

blu健康状态统计。

50.0%

LdapServer

其他

SlapdServer进程连接数

SlapdServer进程连接数统计。

1000

SlapdServer CPU使用率

SlapdServer CPU使用率统计。

1200%

Guardian

GC

TokenServer垃圾回收(GC)时间

TokenServer垃圾回收(GC)时间

12000ms

CPU和内存

TokenServer堆内存使用率

TokenServer堆内存使用百分比统计

95.0%

TokenServer非堆内存使用率

TokenServer非堆内存使用百分比统计

80.0%

TokenServer直接内存使用率

TokenServer直接内存使用百分比统计

80.0%

Doris

JVM

老年代GC耗时累计值

FE进程的老年代GC耗时累计值统计。

3000ms

连接

FE的MySQL端口连接数的比例

FE的MySQL端口连接数的比例统计。

95%

磁盘

BE数据盘的使用率

BE数据盘的使用率统计。

95%

指定数据目录的磁盘状态

BE中指定数据目录的磁盘状态异常统计。

1

性能

所有BE节点中最大的compaction score值

所有BE节点中最大的compaction score值统计。

10

FE thrift接口各个方法接收的RPC请求中最长的耗时

FE thrift接口各个方法接收的RPC请求中最长的耗时统计。

5000ms

队列

BE的各种定期汇报任务在FE端的队列长度

BE的各种定期汇报任务在FE端的队列长度统计。

10

FE中和BE交互的线程池中正在排队的任务数

FE中和BE交互的线程池中正在排队的任务数统计。

10

FE中处理任务的线程池中正在排队的任务数

FE中处理任务的线程池中正在排队的任务数统计。

10

当前查询执行线程池等待队列的长度

当前查询执行线程池等待队列的长度统计。

20

异常

生成元数据镜像文件失败的次数

FE生成元数据镜像文件失败的次数统计。

1

清理历史元数据镜像文件失败的次数

FE清理历史元数据镜像文件失败的次数统计。

1

Doris FE实例的状态

Doris FE实例的进程状态统计。

0

Doris BE实例的状态

Doris BE实例的进程状态统计。

0

tcp包接收错误的次数的比率

tcp包接收错误的次数的比率统计。

5%

是否存在某种类型的任务的失败的次数有增长趋势

BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势统计。

1

CPU和内存

FE的CPU使用率

FE的CPU使用率统计。

95%(紧急)

90%(重要)

FE的内存使用率

FE的内存使用率统计。

90%(紧急)

85%(重要)

FE节点使用的内存比率

FE节点使用的内存比率统计。

95%

FE节点堆内存的使用率

FE节点堆内存的使用率统计。

95%

BE的内存使用率

BE的内存使用率统计。

90%(紧急)

85%(重要)

BE最大内存与机器剩余内存的关系

BE所需最大内存大于机器剩余可用内存统计。

1

BE的CPU使用率

BE的CPU使用率统计。

95%(紧急)

90%(重要)