配置告警阈值
操作场景
FusionInsight Manager支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发一条告警信息,并在告警页面中出现此告警信息。
操作步骤
- 登录FusionInsight Manager。
- 选择 。
- 在监控分类中选择集群内指定主机或服务的监控指标。
图1 配置指标阈值
例如“主机内存使用率”,界面显示此阈值的信息:- “阈值告警开关”开启时将触发告警。
- “分级告警开关”开启时启用分级告警,系统会根据实时监控指标值和分级阈值,动态上报相应级别的告警。
- “告警ID”和“告警名称”包含阈值将触发的告警信息。
- Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。
- “检查周期(秒)”表示Manager检查监控指标的时间间隔。
- 规则列表中的条目为触发告警的规则。
- 单击“添加规则”,可以新增指标的监控行为。
表1 监控指标规则参数 参数名
参数解释
参数值
规则名称
设置规则名称。
CPU_MAX(举例)
告警级别
选择告警级别。
开启“分级告警开关”后,需在“阈值设置”参数中配置告警级别。
- 紧急
- 重要
- 次要
- 提示
阈值类型
选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。
- 最大值
- 最小值
日期
设置规则生效的日期,即哪一天运行规则。
开启“分级告警开关”后,仅支持“每天”。
- 每天
- 每周
- 其他
添加日期
仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。
09-30
阈值设置
设置规则运行的具体时间范围。
开启“分级告警开关”后,不支持设置起止时间,默认为00:00-23:59。
起止时间:00:00-8:30
设置规则监控指标的阈值。
开启“分级告警开关”后,集群支持根据不同的阈值设置不同的告警级别。
- 告警级别
- 阈值
支持单击设置多个阈值时间条件,或单击删除。
- 单击“确定”保存规则。
- 在新添加规则所在的行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。
当前已创建的规则单击“取消应用”后,才能应用新规则。
监控指标参考
FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标。
监控指标组名称 |
监控指标名称 |
指标含义 |
默认阈值 |
---|---|---|---|
CPU |
主机CPU使用率 |
描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 |
90.0% |
磁盘 |
磁盘使用率 |
描述主机磁盘的使用率。 |
95%(紧急) 85%(重要) |
磁盘inode使用率 |
统计采集周期内磁盘inode使用率。 |
95%(紧急) 80%(重要) |
|
内存 |
主机内存使用率 |
统计当前时间点的内存平均使用率。 |
95%(紧急) 90%(重要) |
主机状态 |
主机文件句柄使用率 |
统计采集周期内该主机的文件句柄使用率。 |
95%(紧急) 80%(重要) |
主机PID使用率 |
主机PID使用率。 |
95%(紧急) 90%(重要) |
|
网络状态 |
TCP临时端口使用率 |
统计采集周期内该主机的TCP临时端口使用率。 |
95%(紧急) 80%(重要) |
网络读信息 |
读包错误率 |
统计采集周期内该主机上该网口的读包错误率。 |
5%(紧急) 0.5%(重要) |
读包丢包率 |
统计采集周期内该主机上该网口的读包丢包率。 |
5%(紧急) 0.5%(重要) |
|
读吞吐率 |
统计周期内网口的平均读吞吐率(MAC层)。 |
80% |
|
网络写信息 |
写包错误率 |
统计采集周期内该主机上该网口的写包错误率。 |
5%(紧急) 0.5%(重要) |
写包丢包率 |
统计采集周期内该主机上该网口的写包丢包率。 |
5%(紧急) 0.5%(重要) |
|
写吞吐率 |
统计周期内网口的平均写吞吐率(MAC层)。 |
80% |
|
进程 |
D状态和Z状态进程总数 |
统计周期内主机上D状态和Z状态进程数量。 |
0 |
omm进程使用率 |
统计周期内omm进程使用率。 |
95(紧急) 90(重要) |
服务 |
监控指标组名称 |
监控指标名称 |
指标含义 |
默认阈值 |
---|---|---|---|---|
DBService |
数据库 |
数据库连接数使用率 |
数据库连接数使用率统计。 |
95%(紧急) 90%(重要) |
数据目录磁盘空间使用率 |
数据目录磁盘空间使用率统计。 |
85%(紧急) 80%(重要) |
||
MOTService |
数据库 |
MOT库连接数使用率 |
MOTService数据库连接数使用率统计。 |
90% |
MOT数据目录磁盘空间使用率 |
MOTService数据目录磁盘空间使用率统计。 |
80% |
||
MOT内存空间使用率 |
MOTService内存空间使用率。 |
85% |
||
MOT CPU使用率 |
MOTService CPU使用率。 |
80% |
||
Elasticsearch |
磁盘 |
数据目录使用率 |
Elasticsearch数据目录使用率。 |
80% |
垃圾回收 |
GC时间 |
Elasticsearch实例进程的垃圾回收占用时间。 |
30000ms |
|
内存 |
堆内存使用率 |
Elasticsearch堆内存使用率。 |
90% |
|
分片 |
Elasticsearch分片文档数 |
Elasticsearch分片文档数 |
100000000 |
|
Elasticsearch分片数据量 |
Elasticsearch分片数据存储量。 |
41943040 |
||
实例总分片数 |
Elasticsearch实例总分片数。 |
400 |
||
分片数量统计 |
总分片数 |
统计Elasticsearch状态为down的主分片。 |
70000 |
|
Flume |
Agent |
Flume堆内存使用率 |
Flume堆内存使用百分比统计。 |
95.0%(紧急) 90.0%(重要) |
Flume直接内存使用率 |
Flume直接内存使用百分比统计。 |
90.0%(紧急) 80.0%(重要) |
||
Flume非堆内存使用率 |
Flume非堆内存使用百分比统计。 |
80.0% |
||
Flume垃圾回收(GC)总时间 |
Flume垃圾回收(GC)总时间。 |
12000ms |
||
FTP-Server |
进程 |
FTP-Server堆内存使用率 |
FTP-Server堆内存使用百分比统计。 |
95.0% |
FTP-Server直接内存使用率 |
FTP-Server直接内存使用百分比统计。 |
80.0% |
||
FTP-Server非堆内存使用率 |
FTP-Server非堆内存使用百分比统计。 |
80.0% |
||
FTP-Server垃圾回收(GC)总时间 |
FTP-Server垃圾回收(GC)总时间。 |
12000ms |
||
HBase |
GC |
GC中回收old区所花时长 |
RegionServer的总GC时间。 |
5000ms |
GC中回收old区所花时长 |
HMaster的总GC时间。 |
5000ms |
||
CPU和内存 |
RegionServer直接内存使用率统计 |
RegionServer直接内存使用率统计。 |
90% |
|
RegionServer堆内存使用率统计 |
RegionServer堆内存使用率统计。 |
90% |
||
HMaster直接内存使用率统计 |
HMaster直接内存使用率统计。 |
90% |
||
HMaster堆内存使用率统计 |
HMaster堆内存使用率统计。 |
90% |
||
服务 |
单个RegionServer的region数目 |
单个RegionServer的Region数目。 |
5000(紧急) 2000(重要) |
|
处在RIT状态达到阈值时长的region数 |
处在RIT状态达到阈值时长的region数。 |
1 |
||
Handler |
RegionServer的handler使用率 |
RegionServer的handler使用率。 |
100%(紧急) 90%(重要) |
|
容灾 |
容灾同步失败次数 |
同步容灾数据失败次数。 |
1 |
|
主集群等待同步的日志文件数量 |
主集群等待同步的日志文件数量。 |
128 |
||
主集群等待同步的HFile文件数量 |
主集群等待同步的HFile文件数量。 |
128 |
||
RPC |
RegionServer RPC打开连接数 |
RegionServer的RPC打开连接数。 |
200(紧急) 100(重要) |
|
P99 RegionServer的RPC请求响应时间 |
RegionServer实例的RPC请求响应时间的P99。 |
10000ms(紧急) 5000ms(重要) |
||
P99 RegionServer的RPC请求处理时间 |
RegionServer实例的RPC请求处理时间的P99。 |
10000ms(紧急) 5000ms(重要) |
||
操作统计 |
RegionServer WAL写入超时个数 |
RegionServer WAL写入超时个数。 |
500(紧急) 300(重要) |
|
队列 |
RegionServer RPC写队列数 |
RegionServer RPC写队列数。 |
2000(紧急) 1600(重要) |
|
RegionServer RPC读队列数 |
RegionServer RPC读队列数。 |
2000(紧急) 1600(重要) |
||
RegionServer Call队列大小 |
RegionServer Call队列大小。 |
838860800(紧急) 629145600(重要) |
||
Compaction操作队列大小 |
Compaction操作队列大小。 |
100 |
||
HDFS |
文件和块 |
HDFS缺失的块数量 |
HDFS文件系统中缺少副本块数量。 |
0 |
需要复制副本的块总数 |
NameNode需要复制副本的块总数。 |
1000 |
||
RPC |
主NameNode RPC处理平均时间 |
NameNode RPC处理平均时间。 |
100ms(重要) 200ms(紧急) |
|
主NameNode RPC队列平均时间 |
NameNode RPC队列平均时间。 |
200ms(重要) 300ms(紧急) |
||
磁盘 |
HDFS磁盘空间使用率 |
HDFS磁盘空间使用率。 |
80%(重要) 90%(紧急) |
|
DataNode磁盘空间使用率 |
HDFS文件系统中DataNode可以使用的磁盘空间率。 |
80% |
||
总副本预留磁盘空间所占比率 |
总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 |
90% |
||
资源 |
故障的DataNode总数 |
出故障的DataNode节点数量。 |
3 |
|
NameNode非堆内存使用百分比统计 |
NameNode非堆内存使用百分比统计。 |
90% |
||
NameNode直接内存使用百分比统计 |
NameNode直接内存使用百分比统计。 |
90% |
||
NameNode堆内存使用百分比统计 |
NameNode堆内存使用百分比统计。 |
95% |
||
DataNode直接内存使用百分比统计 |
DataNode直接内存使用百分比统计。 |
90% |
||
DataNode堆内存使用百分比统计 |
DataNode堆内存使用百分比统计。 |
95% |
||
DataNode非堆内存使用百分比统计 |
DataNode非堆内存使用百分比统计。 |
90% |
||
垃圾回收 |
垃圾回收时间统计(GC) |
NameNode每分钟的垃圾回收(GC)所占用的时间。 |
10000ms(重要) 15000ms(紧急) |
|
垃圾回收时间统计(GC) |
DataNode每分钟的垃圾回收(GC)所占用的时间。 |
12000ms(重要) 20000ms(紧急) |
||
Hive |
HQL |
Hive执行成功的HQL百分比 |
Hive执行成功的HQL百分比。 |
90%(紧急) 80%(重要) |
连接数 |
连接到MetaStore的session数占最大允许session数的百分比 |
连接到MetaStore的session数占最大允许session数的百分比。 |
90%(紧急) 80%(重要) |
|
Background |
Background线程使用率 |
Background线程使用率。 |
90%(紧急) 80%(重要) |
|
GC |
MetaStore的总GC时间 |
MetaStore的总GC时间。 |
12000ms |
|
HiveServer的总GC时间 |
HiveServer的总GC时间。 |
12000ms |
||
容量 |
Hive已经使用的HDFS空间占可使用空间的百分比 |
Hive已经使用的HDFS空间占可使用空间的百分比。 |
95%(紧急) 85%(重要) |
|
CPU和内存 |
MetaStore直接内存使用率统计 |
MetaStore直接内存使用率统计。 |
95%(紧急) 85%(重要) |
|
MetaStore非堆内存使用率统计 |
MetaStore非堆内存使用率统计。 |
95%(紧急) 85%(重要) |
||
MetaStore堆内存使用率统计 |
MetaStore堆内存使用率统计。 |
95%(紧急) 85%(重要) |
||
HiveServer直接内存使用率统计 |
HiveServer直接内存使用率统计。 |
95%(紧急) 85%(重要) |
||
HiveServer非堆内存使用率统计 |
HiveServer非堆内存使用率统计。 |
95%(紧急) 85%(重要) |
||
HiveServer堆内存使用率统计 |
HiveServer堆内存使用率统计。 |
95%(紧急) 85%(重要) |
||
Session |
连接到HiveServer的session数占最大允许session数的百分比 |
连接到HiveServer的session数占最大允许session数的百分比。 |
90%(紧急) 80%(重要) |
|
Kafka |
分区 |
未完全同步的Partition百分比 |
未完全同步的Partition数占Partition总数的百分比。 |
60%(紧急) 50%(重要) |
磁盘 |
Broker磁盘使用率 |
Broker数据目录所在磁盘的磁盘使用率。 |
90%(紧急) 85%(重要) |
|
Broker磁盘IO使用率 |
Broker数据目录所在磁盘的磁盘IO使用率。 |
80% |
||
进程 |
Broker每分钟的垃圾回收时间统计(GC) |
Broker进程每分钟垃圾回收(GC)所占用的时间。 |
12000ms |
|
Kafka堆内存使用率 |
Kafka堆内存使用百分比统计。 |
95% |
||
Kafka直接内存使用率 |
Kafka直接内存使用百分比统计。 |
100%(紧急) 95%(重要) |
||
其他 |
broker上用户连接数使用率 |
broker上用户连接数使用率。 |
90%(紧急) 85%(重要) |
|
Loader |
内存 |
Loader堆内存使用率 |
Loader堆内存使用率。 |
95%(紧急) 80%(重要) |
Loader直接内存使用率统计 |
Loader直接内存使用率统计。 |
95%(紧急) 80%(重要) |
||
Loader非堆内存使用率 |
Loader非堆内存使用率。 |
95%(紧急) 80%(重要) |
||
GC |
Loader的总GC时间 |
Loader的总GC时间。 |
20000ms(紧急) 12000ms(重要) |
|
Mapreduce |
垃圾回收 |
垃圾回收时间统计(GC) |
垃圾回收时间统计(GC)。 |
20000ms(紧急) 12000ms(重要) |
资源 |
JobHistoryServer直接内存使用百分比统计 |
JobHistoryServer直接内存使用百分比统计。 |
95%(紧急) 90%(重要) |
|
JobHistoryServer非堆内存使用百分比统计 |
JobHistoryServer非堆内存使用百分比统计。 |
95%(紧急) 90%(重要) |
||
JobHistoryServer堆内存使用百分比统计 |
JobHistoryServer堆内存使用百分比统计。 |
95%(紧急) 90%(重要) |
||
Metadata |
其他 |
Metadata堆内存使用率 |
Metadata堆内存使用百分比统计。 |
95% |
Metadata直接内存使用率统计 |
Metadata直接内存使用百分比统计。 |
80.0% |
||
Metadata非堆内存使用率 |
Metadata非堆内存使用百分比统计。 |
80.0% |
||
Metadata的总GC时间 |
Metadata的总GC时间。 |
20000ms(紧急) 12000ms(重要) |
||
Oozie |
内存 |
Oozie堆内存使用率 |
Oozie堆内存使用率。 |
95% |
Oozie直接内存使用率 |
Oozie直接内存使用率。 |
90% |
||
Oozie非堆内存使用率 |
Oozie非堆内存使用率。 |
90% |
||
GC |
Oozie垃圾回收(GC)总时间 |
Oozie垃圾回收(GC)总时间。 |
20000ms(紧急) 12000ms(重要) |
|
Solr |
Replica数量统计 |
Bad Replica数 |
Solr实例Bad Replica数统计。 |
0 |
垃圾回收 |
GC时间 |
Solr实例进程的垃圾回收(GC)占用时间 |
12000ms |
|
内存 |
堆内存使用率 |
堆内存使用率。 |
99%(紧急) 95%(重要) |
|
分片 |
Solr分片数据量 |
Solr分片数据量。 |
83886080(紧急) 41943040(重要) |
|
Solr分片文档数 |
Solr分片文档数。 |
400000000 |
||
Spark |
内存 |
JDBCServer堆内存使用率统计 |
JDBCServer堆内存使用率统计。 |
95%(紧急) 85%(重要) |
JDBCServer直接内存使用率统计 |
JDBCServer直接内存使用率统计。 |
95%(紧急) 85%(重要) |
||
JDBCServer非堆内存使用率统计 |
JDBCServer非堆内存使用率统计 |
95%(紧急) 85%(重要) |
||
JobHistory直接内存使用率统计 |
JobHistory直接内存使用率统计。 |
95%(重要) 85%(次要) |
||
JobHistory非堆内存使用率统计 |
JobHistory非堆内存使用率统计。 |
95%(重要) 85%(次要) |
||
JobHistory堆内存使用率统计 |
JobHistory堆内存使用率统计。 |
95%(重要) 85%(次要) |
||
IndexServer直接内存使用率统计 |
IndexServer直接内存使用率统计。 |
95%(紧急) 85%(重要) |
||
IndexServer堆内存使用率统计 |
IndexServer堆内存使用率统计。 |
95%(紧急) 85%(重要) |
||
IndexServer非堆内存使用率统计 |
IndexServer非堆内存使用率统计。 |
95%(紧急) 85%(重要) |
||
GC次数 |
JDBCServer的Full GC次数 |
JDBCServer进程的Full GC次数。 |
12(紧急) 9(重要) |
|
JobHistory的Full GC次数 |
JobHistory进程的Full GC次数。 |
12(紧急) 9(重要) |
||
IndexServer的Full GC次数 |
IndexServer进程的Full GC次数。 |
12(紧急) 9(重要) |
||
GC时间 |
JDBCServer的总GC时间 |
JDBCServer的总GC时间。 |
12000ms(紧急) 9600ms(重要) |
|
JobHistory的总GC时间 |
JobHistory的总GC时间。 |
12000ms(重要) 9600ms(次要) |
||
IndexServer的总GC时间 |
IndexServer的总GC时间。 |
12000ms(紧急) 9600ms(重要) |
||
Yarn |
资源 |
NodeManager直接内存使用百分比统计 |
NodeManager直接内存使用百分比统计。 |
90% |
NodeManager堆内存使用百分比统计 |
NodeManager堆内存使用百分比统计。 |
95% |
||
NodeManager非堆内存使用百分比统计 |
NodeManager非堆内存使用百分比统计。 |
90% |
||
ResourceManager直接内存使用百分比统计 |
ResourceManager直接内存使用百分比统计。 |
90% |
||
ResourceManager堆内存使用百分比统计 |
ResourceManager堆内存使用百分比统计。 |
95% |
||
ResourceManager非堆内存使用百分比统计 |
ResourceManager非堆内存使用百分比统计。 |
90% |
||
垃圾回收 |
垃圾回收时间统计(GC) |
NodeManager每分钟的垃圾回收(GC)所占用的时间。 |
12000ms(重要) 20000ms(紧急) |
|
垃圾回收时间统计(GC) |
ResourceManager每分钟的垃圾回收(GC)所占用的时间。 |
10000ms(重要) 15000ms(紧急) |
||
其他 |
root队列下失败的任务数 |
root队列下失败的任务数。 |
50 |
|
root队列下被杀死的任务数 |
root队列下被杀死的任务数。 |
50 |
||
CPU和内存 |
挂起的内存量 |
挂起的内存量。 |
83886080MB |
|
任务 |
正在挂起的任务 |
正在挂起的任务。 |
60 |
|
ZooKeeper |
连接 |
ZooKeeper连接数使用率 |
ZooKeeper连接数使用百分比统计。 |
80%(重要) 90%(紧急) |
CPU和内存 |
ZooKeeper堆内存使用率 |
ZooKeeper堆内存使用百分比统计。 |
95% |
|
ZooKeeper直接内存使用率 |
ZooKeeper直接内存使用百分比统计。 |
80% |
||
GC |
ZooKeeper每分钟的垃圾回收时间统计(GC) |
ZooKeeper每分钟的垃圾回收时间统计(GC)。 |
5000ms(重要) 10000ms(紧急) |
|
meta |
OBS数据写操作 |
OBS的write接口调用失败总数 |
OBS的write接口调用失败总数。 |
10 |
OBS异常 |
OBS上报OBSFileConflictException总数 |
OBS上报OBSFileConflictException总数。 |
5 |
|
OBS上报AccessControlException总数 |
OBS上报AccessControlException总数。 |
5 |
||
OBS上报EOFException总数 |
OBS上报EOFException总数。 |
5 |
||
OBS上报OBSMethodNotAllowedException总数 |
OBS上报OBSMethodNotAllowedException总数。 |
5 |
||
OBS上报OBSIOException总数 |
OBS上报OBSIOException总数。 |
5 |
||
OBS上报FileNotFoundException总数 |
OBS上报FileNotFoundException总数。 |
5 |
||
OBS操作被流控总数 |
OBS操作被流控总数。 |
5 |
||
OBS上报OBSIllegalArgumentException总数 |
OBS上报OBSIllegalArgumentException总数。 |
5 |
||
OBS上报的其他异常总数 |
OBS上报的其他异常总数。 |
5 |
||
OBS数据读操作 |
OBS的read接口调用失败总数 |
OBS的read接口调用失败总数。 |
10 |
|
OBS的readFully接口调用失败总数 |
OBS的readFully接口调用失败总数 |
10 |
||
Ranger |
GC |
UserSync垃圾回收(GC)时间 |
UserSync垃圾回收(GC)时间。 |
20000ms(紧急) 12000ms(重要) |
PolicySync垃圾回收(GC)时间 |
PolicySync垃圾回收(GC)时间 |
20000ms(紧急) 12000ms(重要) |
||
RangerAdmin垃圾回收(GC)时间 |
RangerAdmin垃圾回收(GC)时间。 |
20000ms(紧急) 12000ms(重要) |
||
TagSync垃圾回收(GC)时间 |
TagSync垃圾回收(GC)时间。 |
20000ms(紧急) 12000ms(重要) |
||
CPU和内存 |
UserSync非堆内存使用率 |
UserSync非堆内存使用百分比统计。 |
80.0% |
|
UserSync直接内存使用率 |
UserSync直接内存使用百分比统计。 |
80.0% |
||
UserSync堆内存使用率 |
UserSync堆内存使用百分比统计。 |
95.0% |
||
PolicySync直接内存使用率 |
PolicySync直接内存使用百分比统计。 |
80.0% |
||
PolicySync堆内存使用率 |
PolicySync堆内存使用百分比统计。 |
95.0% |
||
PolicySync非堆内存使用率 |
PolicySync非堆内存使用百分比统计。 |
80.0% |
||
RangerAdmin非堆内存使用率 |
RangerAdmin非堆内存使用百分比统计。 |
80.0% |
||
RangerAdmin堆内存使用率 |
RangerAdmin堆内存使用百分比统计。 |
95.0% |
||
RangerAdmin直接内存使用率 |
RangerAdmin直接内存使用百分比统计。 |
80.0% |
||
TagSync直接内存使用率 |
TagSync直接内存使用百分比统计。 |
80.0% |
||
TagSync非堆内存使用率 |
TagSync非堆内存使用百分比统计。 |
80.0% |
||
TagSync堆内存使用率 |
TagSync堆内存使用百分比统计。 |
95.0% |
||
ClickHouse |
集群配额 |
Clickhouse服务在ZooKeeper的数量配额使用率 |
ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 |
95%(紧急) 90%(重要) |
Clickhouse服务在ZooKeeper的容量配额使用率 |
ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 |
95%(紧急) 90%(重要) |
||
并发数 |
并发数 (ClickHouseServer) |
ClickHouse服务的实际SQL并发数。 |
90 |
|
IoTDB |
合并 |
合并任务 (空间内合并) 的最大时延 |
IoTDBServer空间内合并执行最大时延统计。 |
300000ms |
合并任务 (Flush) 的最大时延 |
IoTDBServer Flush执行最大时延统计。 |
300000ms |
||
合并任务 (跨空间合并) 的最大时延 |
IoTDBServer跨空间合并执行最大时延统计。 |
300000ms |
||
RPC |
RPC (executeStatement) 的最大时延 |
IoTDBServer RPC执行最大时延统计。 |
10000s |
|
GC |
IoTDBServer垃圾回收(GC)总时间 |
IoTDBServer垃圾回收(GC)所占用的总时间。 |
30000ms(紧急) 12000ms(重要) |
|
ConfigNode垃圾回收(GC)总时间 |
ConfigNode垃圾回收(GC)所占用的总时间。 |
30000ms(紧急) 12000ms(重要) |
||
内存 |
IoTDBServer堆内存使用率 |
IoTDBServer堆内存使用百分比统计 |
100%(紧急) 90%(重要) |
|
IoTDBServer直接内存使用率 |
IoTDBServer直接内存使用百分比统计 |
100%(紧急) 90%(重要) |
||
ConfigNode堆内存使用率 |
ConfigNode堆内存使用百分比统计。 |
100%(紧急) 90%(重要) |
||
ConfigNode直接内存使用率 |
ConfigNode直接内存使用百分比统计。 |
100%(紧急) 90%(重要) |
||
Containers |
其他 |
元空间使用率 |
WebContainer元空间使用率。 |
75.0% |
非堆内存使用率 |
WebContainer非堆内存使用率。 |
75.0% |
||
堆内存使用率 |
WebContainer堆内存使用率。 |
95.0% |
||
应用服务调用失败率统计 |
应用服务调用失败率统计(SGP)。 |
10.0 |
||
应用服务调用时延统计 |
应用服务调用时延统计(SGP)。 |
10000.0 |
||
应用服务最大并发数统计 |
应用服务最大并发数统计(SGP)。 |
120 |
||
blu健康状态 |
blu健康状态统计。 |
50.0% |
||
LdapServer |
其他 |
SlapdServer进程连接数 |
SlapdServer进程连接数统计。 |
1000 |
SlapdServer CPU使用率 |
SlapdServer CPU使用率统计。 |
1200% |
||
Guardian |
GC |
TokenServer垃圾回收(GC)时间 |
TokenServer垃圾回收(GC)时间 |
12000ms |
CPU和内存 |
TokenServer堆内存使用率 |
TokenServer堆内存使用百分比统计 |
95.0% |
|
TokenServer非堆内存使用率 |
TokenServer非堆内存使用百分比统计 |
80.0% |
||
TokenServer直接内存使用率 |
TokenServer直接内存使用百分比统计 |
80.0% |
||
Doris |
JVM |
老年代GC耗时累计值 |
FE进程的老年代GC耗时累计值统计。 |
3000ms |
连接 |
FE的MySQL端口连接数的比例 |
FE的MySQL端口连接数的比例统计。 |
95% |
|
磁盘 |
BE数据盘的使用率 |
BE数据盘的使用率统计。 |
95% |
|
指定数据目录的磁盘状态 |
BE中指定数据目录的磁盘状态异常统计。 |
1 |
||
性能 |
所有BE节点中最大的compaction score值 |
所有BE节点中最大的compaction score值统计。 |
10 |
|
FE thrift接口各个方法接收的RPC请求中最长的耗时 |
FE thrift接口各个方法接收的RPC请求中最长的耗时统计。 |
5000ms |
||
队列 |
BE的各种定期汇报任务在FE端的队列长度 |
BE的各种定期汇报任务在FE端的队列长度统计。 |
10 |
|
FE中和BE交互的线程池中正在排队的任务数 |
FE中和BE交互的线程池中正在排队的任务数统计。 |
10 |
||
FE中处理任务的线程池中正在排队的任务数 |
FE中处理任务的线程池中正在排队的任务数统计。 |
10 |
||
当前查询执行线程池等待队列的长度 |
当前查询执行线程池等待队列的长度统计。 |
20 |
||
异常 |
生成元数据镜像文件失败的次数 |
FE生成元数据镜像文件失败的次数统计。 |
1 |
|
清理历史元数据镜像文件失败的次数 |
FE清理历史元数据镜像文件失败的次数统计。 |
1 |
||
Doris FE实例的状态 |
Doris FE实例的进程状态统计。 |
0 |
||
Doris BE实例的状态 |
Doris BE实例的进程状态统计。 |
0 |
||
tcp包接收错误的次数的比率 |
tcp包接收错误的次数的比率统计。 |
5% |
||
是否存在某种类型的任务的失败的次数有增长趋势 |
BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势统计。 |
1 |
||
CPU和内存 |
FE的CPU使用率 |
FE的CPU使用率统计。 |
95%(紧急) 90%(重要) |
|
FE的内存使用率 |
FE的内存使用率统计。 |
90%(紧急) 85%(重要) |
||
FE节点使用的内存比率 |
FE节点使用的内存比率统计。 |
95% |
||
FE节点堆内存的使用率 |
FE节点堆内存的使用率统计。 |
95% |
||
BE的内存使用率 |
BE的内存使用率统计。 |
90%(紧急) 85%(重要) |
||
BE最大内存与机器剩余内存的关系 |
BE所需最大内存大于机器剩余可用内存统计。 |
1 |
||
BE的CPU使用率 |
BE的CPU使用率统计。 |
95%(紧急) 90%(重要) |