配置告警阈值

操作场景

FusionInsight Manager支持配置监控指标阈值用于关注各指标的健康情况，如果出现异常的数据并满足预设条件后，系统将会触发一条告警信息，并在告警页面中出现此告警信息。

操作步骤

登录FusionInsight Manager。
选择“运维 > 告警 > 阈值设置”。
在监控分类中选择集群内指定主机或服务的监控指标。

图1 配置指标阈值
例如“主机内存使用率”，界面显示此阈值的信息：
- “阈值告警开关”开启时将触发告警。
- “分级告警开关”开启时启用分级告警，系统会根据实时监控指标值和分级阈值，动态上报相应级别的告警。
- “告警ID”和“告警名称”包含阈值将触发的告警信息。
- Manager会检查监控指标数值是否满足阈值条件，若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警，支持自定义。
- “检查周期（秒）”表示Manager检查监控指标的时间间隔。
- 规则列表中的条目为触发告警的规则。

单击“添加规则”，可以新增指标的监控行为。

表1 监控指标规则参数
参数名	参数解释	参数值
规则名称	设置规则名称。	CPU_MAX（举例）
告警级别	选择告警级别。开启“分级告警开关”后，需在“阈值设置”参数中配置告警级别。	紧急重要次要提示
阈值类型	选择某指标的最大值或最小值，类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警，类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。	最大值最小值
日期	设置规则生效的日期，即哪一天运行规则。开启“分级告警开关”后，仅支持“每天”。	每天每周其他
添加日期	仅在“日期”模式为“其他”时可见，设置规则运行的自定义日期，支持多选。	09-30
阈值设置	设置规则运行的具体时间范围。开启“分级告警开关”后，不支持设置起止时间，默认为00:00-23:59。	起止时间：00:00-8:30
阈值设置	设置规则监控指标的阈值。开启“分级告警开关”后，集群支持根据不同的阈值设置不同的告警级别。	告警级别阈值

支持单击设置多个阈值时间条件，或单击删除。

单击“确定”保存规则。
在新添加规则所在的行，单击“操作”中的“应用”，此时规则的“生效状态”变成“生效”。

当前已创建的规则单击“取消应用”后，才能应用新规则。

监控指标参考

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标。

表2 节点信息监控指标转告警列表
监控指标组名称	监控指标名称	指标含义	默认阈值
CPU	主机CPU使用率	描述周期内当前集群的运算和控制能力，可通过观察该统计值，了解集群整体资源的使用情况。	90.0%
磁盘	磁盘使用率	描述主机磁盘的使用率。	95%（紧急） 85%（重要）
磁盘	磁盘inode使用率	统计采集周期内磁盘inode使用率。	95%（紧急） 80%（重要）
内存	主机内存使用率	统计当前时间点的内存平均使用率。	95%（紧急） 90%（重要）
主机状态	主机文件句柄使用率	统计采集周期内该主机的文件句柄使用率。	95%（紧急） 80%（重要）
主机状态	主机PID使用率	主机PID使用率。	95%（紧急） 90%（重要）
网络状态	TCP临时端口使用率	统计采集周期内该主机的TCP临时端口使用率。	95%（紧急） 80%（重要）
网络读信息	读包错误率	统计采集周期内该主机上该网口的读包错误率。	5%（紧急） 0.5%（重要）
	读包丢包率	统计采集周期内该主机上该网口的读包丢包率。	5%（紧急） 0.5%（重要）
	读吞吐率	统计周期内网口的平均读吞吐率（MAC层）。	80%
网络写信息	写包错误率	统计采集周期内该主机上该网口的写包错误率。	5%（紧急） 0.5%（重要）
	写包丢包率	统计采集周期内该主机上该网口的写包丢包率。	5%（紧急） 0.5%（重要）
	写吞吐率	统计周期内网口的平均写吞吐率（MAC层）。	80%
进程	D状态和Z状态进程总数	统计周期内主机上D状态和Z状态进程数量。	0
进程	omm进程使用率	统计周期内omm进程使用率。	95（紧急） 90（重要）

表3 集群监控指标转告警列表
服务	监控指标组名称	监控指标名称	指标含义	默认阈值
DBService	数据库	数据库连接数使用率	数据库连接数使用率统计。	95%（紧急） 90%（重要）
DBService	数据库	数据目录磁盘空间使用率	数据目录磁盘空间使用率统计。	85%（紧急） 80%（重要）
MOTService	数据库	MOT库连接数使用率	MOTService数据库连接数使用率统计。	90%
		MOT数据目录磁盘空间使用率	MOTService数据目录磁盘空间使用率统计。	80%
		MOT内存空间使用率	MOTService内存空间使用率。	85%
		MOT CPU使用率	MOTService CPU使用率。	80%
Elasticsearch	磁盘	数据目录使用率	Elasticsearch数据目录使用率。	80%
	垃圾回收	GC时间	Elasticsearch实例进程的垃圾回收占用时间。	30000ms
	内存	堆内存使用率	Elasticsearch堆内存使用率。	90%
	分片	Elasticsearch分片文档数	Elasticsearch分片文档数	100000000
		Elasticsearch分片数据量	Elasticsearch分片数据存储量。	41943040
		实例总分片数	Elasticsearch实例总分片数。	400
	分片数量统计	总分片数	统计Elasticsearch状态为down的主分片。	70000
Flume	Agent	Flume堆内存使用率	Flume堆内存使用百分比统计。	95.0%（紧急） 90.0%（重要）
		Flume直接内存使用率	Flume直接内存使用百分比统计。	90.0%（紧急） 80.0%（重要）
		Flume非堆内存使用率	Flume非堆内存使用百分比统计。	80.0%
		Flume垃圾回收（GC）总时间	Flume垃圾回收（GC）总时间。	12000ms
FTP-Server	进程	FTP-Server堆内存使用率	FTP-Server堆内存使用百分比统计。	95.0%
		FTP-Server直接内存使用率	FTP-Server直接内存使用百分比统计。	80.0%
		FTP-Server非堆内存使用率	FTP-Server非堆内存使用百分比统计。	80.0%
		FTP-Server垃圾回收（GC）总时间	FTP-Server垃圾回收（GC）总时间。	12000ms
HBase	GC	GC中回收old区所花时长	RegionServer的总GC时间。	5000ms
	GC	GC中回收old区所花时长	HMaster的总GC时间。	5000ms
	CPU和内存	RegionServer直接内存使用率统计	RegionServer直接内存使用率统计。	90%
		RegionServer堆内存使用率统计	RegionServer堆内存使用率统计。	90%
		HMaster直接内存使用率统计	HMaster直接内存使用率统计。	90%
		HMaster堆内存使用率统计	HMaster堆内存使用率统计。	90%
	服务	单个RegionServer的region数目	单个RegionServer的Region数目。	5000（紧急） 2000（重要）
	服务	处在RIT状态达到阈值时长的region数	处在RIT状态达到阈值时长的region数。	1
	Handler	RegionServer的handler使用率	RegionServer的handler使用率。	100%（紧急） 90%（重要）
	容灾	容灾同步失败次数	同步容灾数据失败次数。	1
		主集群等待同步的日志文件数量	主集群等待同步的日志文件数量。	128
		主集群等待同步的HFile文件数量	主集群等待同步的HFile文件数量。	128
	RPC	RegionServer RPC打开连接数	RegionServer的RPC打开连接数。	200（紧急） 100（重要）
		P99 RegionServer的RPC请求响应时间	RegionServer实例的RPC请求响应时间的P99。	10000ms（紧急） 5000ms（重要）
		P99 RegionServer的RPC请求处理时间	RegionServer实例的RPC请求处理时间的P99。	10000ms（紧急） 5000ms（重要）
	操作统计	RegionServer WAL写入超时个数	RegionServer WAL写入超时个数。	500（紧急） 300（重要）
	队列	RegionServer RPC写队列数	RegionServer RPC写队列数。	2000（紧急） 1600（重要）
		RegionServer RPC读队列数	RegionServer RPC读队列数。	2000（紧急） 1600（重要）
		RegionServer Call队列大小	RegionServer Call队列大小。	838860800（紧急） 629145600（重要）
		Compaction操作队列大小	Compaction操作队列大小。	100
HDFS	文件和块	HDFS缺失的块数量	HDFS文件系统中缺少副本块数量。	0
	文件和块	需要复制副本的块总数	NameNode需要复制副本的块总数。	1000
	RPC	主NameNode RPC处理平均时间	NameNode RPC处理平均时间。	100ms（重要） 200ms（紧急）
	RPC	主NameNode RPC队列平均时间	NameNode RPC队列平均时间。	200ms（重要） 300ms（紧急）
	磁盘	HDFS磁盘空间使用率	HDFS磁盘空间使用率。	80%（重要） 90%（紧急）
		DataNode磁盘空间使用率	HDFS文件系统中DataNode可以使用的磁盘空间率。	80%
		总副本预留磁盘空间所占比率	总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。	90%
	资源	故障的DataNode总数	出故障的DataNode节点数量。	3
		NameNode非堆内存使用百分比统计	NameNode非堆内存使用百分比统计。	90%
		NameNode直接内存使用百分比统计	NameNode直接内存使用百分比统计。	90%
		NameNode堆内存使用百分比统计	NameNode堆内存使用百分比统计。	95%
		DataNode直接内存使用百分比统计	DataNode直接内存使用百分比统计。	90%
		DataNode堆内存使用百分比统计	DataNode堆内存使用百分比统计。	95%
		DataNode非堆内存使用百分比统计	DataNode非堆内存使用百分比统计。	90%
	垃圾回收	垃圾回收时间统计（GC）	NameNode每分钟的垃圾回收（GC）所占用的时间。	10000ms（重要） 15000ms（紧急）
	垃圾回收	垃圾回收时间统计（GC）	DataNode每分钟的垃圾回收（GC）所占用的时间。	12000ms（重要） 20000ms（紧急）
Hive	HQL	Hive执行成功的HQL百分比	Hive执行成功的HQL百分比。	90%（紧急） 80%（重要）
	连接数	连接到MetaStore的session数占最大允许session数的百分比	连接到MetaStore的session数占最大允许session数的百分比。	90%（紧急） 80%（重要）
	Background	Background线程使用率	Background线程使用率。	90%（紧急） 80%（重要）
	GC	MetaStore的总GC时间	MetaStore的总GC时间。	12000ms
	GC	HiveServer的总GC时间	HiveServer的总GC时间。	12000ms
	容量	Hive已经使用的HDFS空间占可使用空间的百分比	Hive已经使用的HDFS空间占可使用空间的百分比。	95%（紧急） 85%（重要）
	CPU和内存	MetaStore直接内存使用率统计	MetaStore直接内存使用率统计。	95%（紧急） 85%（重要）
		MetaStore非堆内存使用率统计	MetaStore非堆内存使用率统计。	95%（紧急） 85%（重要）
		MetaStore堆内存使用率统计	MetaStore堆内存使用率统计。	95%（紧急） 85%（重要）
		HiveServer直接内存使用率统计	HiveServer直接内存使用率统计。	95%（紧急） 85%（重要）
		HiveServer非堆内存使用率统计	HiveServer非堆内存使用率统计。	95%（紧急） 85%（重要）
		HiveServer堆内存使用率统计	HiveServer堆内存使用率统计。	95%（紧急） 85%（重要）
	Session	连接到HiveServer的session数占最大允许session数的百分比	连接到HiveServer的session数占最大允许session数的百分比。	90%（紧急） 80%（重要）
Kafka	分区	未完全同步的Partition百分比	未完全同步的Partition数占Partition总数的百分比。	60%（紧急） 50%（重要）
	磁盘	Broker磁盘使用率	Broker数据目录所在磁盘的磁盘使用率。	90%（紧急） 85%（重要）
	磁盘	Broker磁盘IO使用率	Broker数据目录所在磁盘的磁盘IO使用率。	80%
	进程	Broker每分钟的垃圾回收时间统计（GC）	Broker进程每分钟垃圾回收（GC）所占用的时间。	12000ms
		Kafka堆内存使用率	Kafka堆内存使用百分比统计。	95%
		Kafka直接内存使用率	Kafka直接内存使用百分比统计。	100%（紧急） 95%（重要）
	其他	broker上用户连接数使用率	broker上用户连接数使用率。	90%（紧急） 85%（重要）
Loader	内存	Loader堆内存使用率	Loader堆内存使用率。	95%（紧急） 80%（重要）
		Loader直接内存使用率统计	Loader直接内存使用率统计。	95%（紧急） 80%（重要）
		Loader非堆内存使用率	Loader非堆内存使用率。	95%（紧急） 80%（重要）
	GC	Loader的总GC时间	Loader的总GC时间。	20000ms（紧急） 12000ms（重要）
Mapreduce	垃圾回收	垃圾回收时间统计（GC）	垃圾回收时间统计（GC）。	20000ms（紧急） 12000ms（重要）
	资源	JobHistoryServer直接内存使用百分比统计	JobHistoryServer直接内存使用百分比统计。	95%（紧急） 90%（重要）
		JobHistoryServer非堆内存使用百分比统计	JobHistoryServer非堆内存使用百分比统计。	95%（紧急） 90%（重要）
		JobHistoryServer堆内存使用百分比统计	JobHistoryServer堆内存使用百分比统计。	95%（紧急） 90%（重要）
Metadata	其他	Metadata堆内存使用率	Metadata堆内存使用百分比统计。	95%
		Metadata直接内存使用率统计	Metadata直接内存使用百分比统计。	80.0%
		Metadata非堆内存使用率	Metadata非堆内存使用百分比统计。	80.0%
		Metadata的总GC时间	Metadata的总GC时间。	20000ms（紧急） 12000ms（重要）
Oozie	内存	Oozie堆内存使用率	Oozie堆内存使用率。	95%
		Oozie直接内存使用率	Oozie直接内存使用率。	90%
		Oozie非堆内存使用率	Oozie非堆内存使用率。	90%
	GC	Oozie垃圾回收（GC）总时间	Oozie垃圾回收（GC）总时间。	20000ms（紧急） 12000ms（重要）
Solr	Replica数量统计	Bad Replica数	Solr实例Bad Replica数统计。	0
	垃圾回收	GC时间	Solr实例进程的垃圾回收（GC）占用时间	12000ms
	内存	堆内存使用率	堆内存使用率。	99%（紧急） 95%（重要）
	分片	Solr分片数据量	Solr分片数据量。	83886080（紧急） 41943040（重要）
	分片	Solr分片文档数	Solr分片文档数。	400000000
Spark	内存	JDBCServer堆内存使用率统计	JDBCServer堆内存使用率统计。	95%（紧急） 85%（重要）
		JDBCServer直接内存使用率统计	JDBCServer直接内存使用率统计。	95%（紧急） 85%（重要）
		JDBCServer非堆内存使用率统计	JDBCServer非堆内存使用率统计	95%（紧急） 85%（重要）
		JobHistory直接内存使用率统计	JobHistory直接内存使用率统计。	95%（重要） 85%（次要）
		JobHistory非堆内存使用率统计	JobHistory非堆内存使用率统计。	95%（重要） 85%（次要）
		JobHistory堆内存使用率统计	JobHistory堆内存使用率统计。	95%（重要） 85%（次要）
		IndexServer直接内存使用率统计	IndexServer直接内存使用率统计。	95%（紧急） 85%（重要）
		IndexServer堆内存使用率统计	IndexServer堆内存使用率统计。	95%（紧急） 85%（重要）
		IndexServer非堆内存使用率统计	IndexServer非堆内存使用率统计。	95%（紧急） 85%（重要）
	GC次数	JDBCServer的Full GC次数	JDBCServer进程的Full GC次数。	12（紧急） 9（重要）
		JobHistory的Full GC次数	JobHistory进程的Full GC次数。	12（紧急） 9（重要）
		IndexServer的Full GC次数	IndexServer进程的Full GC次数。	12（紧急） 9（重要）
	GC时间	JDBCServer的总GC时间	JDBCServer的总GC时间。	12000ms（紧急） 9600ms（重要）
		JobHistory的总GC时间	JobHistory的总GC时间。	12000ms（重要） 9600ms（次要）
		IndexServer的总GC时间	IndexServer的总GC时间。	12000ms（紧急） 9600ms（重要）
Yarn	资源	NodeManager直接内存使用百分比统计	NodeManager直接内存使用百分比统计。	90%
		NodeManager堆内存使用百分比统计	NodeManager堆内存使用百分比统计。	95%
		NodeManager非堆内存使用百分比统计	NodeManager非堆内存使用百分比统计。	90%
		ResourceManager直接内存使用百分比统计	ResourceManager直接内存使用百分比统计。	90%
		ResourceManager堆内存使用百分比统计	ResourceManager堆内存使用百分比统计。	95%
		ResourceManager非堆内存使用百分比统计	ResourceManager非堆内存使用百分比统计。	90%
	垃圾回收	垃圾回收时间统计（GC）	NodeManager每分钟的垃圾回收（GC）所占用的时间。	12000ms（重要） 20000ms（紧急）
	垃圾回收	垃圾回收时间统计（GC）	ResourceManager每分钟的垃圾回收（GC）所占用的时间。	10000ms（重要） 15000ms（紧急）
	其他	root队列下失败的任务数	root队列下失败的任务数。	50
	其他	root队列下被杀死的任务数	root队列下被杀死的任务数。	50
	CPU和内存	挂起的内存量	挂起的内存量。	83886080MB
	任务	正在挂起的任务	正在挂起的任务。	60
ZooKeeper	连接	ZooKeeper连接数使用率	ZooKeeper连接数使用百分比统计。	80%（重要） 90%（紧急）
	CPU和内存	ZooKeeper堆内存使用率	ZooKeeper堆内存使用百分比统计。	95%
	CPU和内存	ZooKeeper直接内存使用率	ZooKeeper直接内存使用百分比统计。	80%
	GC	ZooKeeper每分钟的垃圾回收时间统计（GC）	ZooKeeper每分钟的垃圾回收时间统计（GC）。	5000ms（重要） 10000ms（紧急）
meta	OBS数据写操作	OBS的write接口调用失败总数	OBS的write接口调用失败总数。	10
	OBS异常	OBS上报OBSFileConflictException总数	OBS上报OBSFileConflictException总数。	5
		OBS上报AccessControlException总数	OBS上报AccessControlException总数。	5
		OBS上报EOFException总数	OBS上报EOFException总数。	5
		OBS上报OBSMethodNotAllowedException总数	OBS上报OBSMethodNotAllowedException总数。	5
		OBS上报OBSIOException总数	OBS上报OBSIOException总数。	5
		OBS上报FileNotFoundException总数	OBS上报FileNotFoundException总数。	5
		OBS操作被流控总数	OBS操作被流控总数。	5
		OBS上报OBSIllegalArgumentException总数	OBS上报OBSIllegalArgumentException总数。	5
		OBS上报的其他异常总数	OBS上报的其他异常总数。	5
	OBS数据读操作	OBS的read接口调用失败总数	OBS的read接口调用失败总数。	10
	OBS数据读操作	OBS的readFully接口调用失败总数	OBS的readFully接口调用失败总数	10
Ranger	GC	UserSync垃圾回收（GC）时间	UserSync垃圾回收（GC）时间。	20000ms(紧急) 12000ms(重要)
		PolicySync垃圾回收（GC）时间	PolicySync垃圾回收（GC）时间	20000ms(紧急) 12000ms(重要)
		RangerAdmin垃圾回收（GC）时间	RangerAdmin垃圾回收（GC）时间。	20000ms(紧急) 12000ms(重要)
		TagSync垃圾回收（GC）时间	TagSync垃圾回收（GC）时间。	20000ms(紧急) 12000ms(重要)
	CPU和内存	UserSync非堆内存使用率	UserSync非堆内存使用百分比统计。	80.0%
		UserSync直接内存使用率	UserSync直接内存使用百分比统计。	80.0%
		UserSync堆内存使用率	UserSync堆内存使用百分比统计。	95.0%
		PolicySync直接内存使用率	PolicySync直接内存使用百分比统计。	80.0%
		PolicySync堆内存使用率	PolicySync堆内存使用百分比统计。	95.0%
		PolicySync非堆内存使用率	PolicySync非堆内存使用百分比统计。	80.0%
		RangerAdmin非堆内存使用率	RangerAdmin非堆内存使用百分比统计。	80.0%
		RangerAdmin堆内存使用率	RangerAdmin堆内存使用百分比统计。	95.0%
		RangerAdmin直接内存使用率	RangerAdmin直接内存使用百分比统计。	80.0%
		TagSync直接内存使用率	TagSync直接内存使用百分比统计。	80.0%
		TagSync非堆内存使用率	TagSync非堆内存使用百分比统计。	80.0%
		TagSync堆内存使用率	TagSync堆内存使用百分比统计。	95.0%
ClickHouse	集群配额	Clickhouse服务在ZooKeeper的数量配额使用率	ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。	95%（紧急） 90%（重要）
	集群配额	Clickhouse服务在ZooKeeper的容量配额使用率	ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。	95%（紧急） 90%（重要）
	并发数	并发数 (ClickHouseServer)	ClickHouse服务的实际SQL并发数。	90
IoTDB	合并	合并任务 (空间内合并) 的最大时延	IoTDBServer空间内合并执行最大时延统计。	300000ms
		合并任务 (Flush) 的最大时延	IoTDBServer Flush执行最大时延统计。	300000ms
		合并任务 (跨空间合并) 的最大时延	IoTDBServer跨空间合并执行最大时延统计。	300000ms
	RPC	RPC (executeStatement) 的最大时延	IoTDBServer RPC执行最大时延统计。	10000s
	GC	IoTDBServer垃圾回收（GC）总时间	IoTDBServer垃圾回收（GC）所占用的总时间。	30000ms（紧急） 12000ms（重要）
	GC	ConfigNode垃圾回收（GC）总时间	ConfigNode垃圾回收（GC）所占用的总时间。	30000ms（紧急） 12000ms（重要）
	内存	IoTDBServer堆内存使用率	IoTDBServer堆内存使用百分比统计	100%（紧急） 90%（重要）
		IoTDBServer直接内存使用率	IoTDBServer直接内存使用百分比统计	100%（紧急） 90%（重要）
		ConfigNode堆内存使用率	ConfigNode堆内存使用百分比统计。	100%（紧急） 90%（重要）
		ConfigNode直接内存使用率	ConfigNode直接内存使用百分比统计。	100%（紧急） 90%（重要）
Containers	其他	元空间使用率	WebContainer元空间使用率。	75.0%
		非堆内存使用率	WebContainer非堆内存使用率。	75.0%
		堆内存使用率	WebContainer堆内存使用率。	95.0%
		应用服务调用失败率统计	应用服务调用失败率统计（SGP）。	10.0
		应用服务调用时延统计	应用服务调用时延统计（SGP）。	10000.0
		应用服务最大并发数统计	应用服务最大并发数统计（SGP）。	120
		blu健康状态	blu健康状态统计。	50.0%
LdapServer	其他	SlapdServer进程连接数	SlapdServer进程连接数统计。	1000
LdapServer	其他	SlapdServer CPU使用率	SlapdServer CPU使用率统计。	1200%
Guardian	GC	TokenServer垃圾回收（GC）时间	TokenServer垃圾回收（GC）时间	12000ms
	CPU和内存	TokenServer堆内存使用率	TokenServer堆内存使用百分比统计	95.0%
		TokenServer非堆内存使用率	TokenServer非堆内存使用百分比统计	80.0%
		TokenServer直接内存使用率	TokenServer直接内存使用百分比统计	80.0%
Doris	JVM	老年代GC耗时累计值	FE进程的老年代GC耗时累计值统计。	3000ms
	连接	FE的MySQL端口连接数的比例	FE的MySQL端口连接数的比例统计。	95%
	磁盘	BE数据盘的使用率	BE数据盘的使用率统计。	95%
	磁盘	指定数据目录的磁盘状态	BE中指定数据目录的磁盘状态异常统计。	1
	性能	所有BE节点中最大的compaction score值	所有BE节点中最大的compaction score值统计。	10
	性能	FE thrift接口各个方法接收的RPC请求中最长的耗时	FE thrift接口各个方法接收的RPC请求中最长的耗时统计。	5000ms
	队列	BE的各种定期汇报任务在FE端的队列长度	BE的各种定期汇报任务在FE端的队列长度统计。	10
		FE中和BE交互的线程池中正在排队的任务数	FE中和BE交互的线程池中正在排队的任务数统计。	10
		FE中处理任务的线程池中正在排队的任务数	FE中处理任务的线程池中正在排队的任务数统计。	10
		当前查询执行线程池等待队列的长度	当前查询执行线程池等待队列的长度统计。	20
	异常	生成元数据镜像文件失败的次数	FE生成元数据镜像文件失败的次数统计。	1
		清理历史元数据镜像文件失败的次数	FE清理历史元数据镜像文件失败的次数统计。	1
		Doris FE实例的状态	Doris FE实例的进程状态统计。	0
		Doris BE实例的状态	Doris BE实例的进程状态统计。	0
		tcp包接收错误的次数的比率	tcp包接收错误的次数的比率统计。	5%
		是否存在某种类型的任务的失败的次数有增长趋势	BE上执行的各类任务中是否存在某种类型的任务失败次数有增长趋势统计。	1
	CPU和内存	FE的CPU使用率	FE的CPU使用率统计。	95%（紧急） 90%（重要）
		FE的内存使用率	FE的内存使用率统计。	90%（紧急） 85%（重要）
		FE节点使用的内存比率	FE节点使用的内存比率统计。	95%
		FE节点堆内存的使用率	FE节点堆内存的使用率统计。	95%
		BE的内存使用率	BE的内存使用率统计。	90%（紧急） 85%（重要）
		BE最大内存与机器剩余内存的关系	BE所需最大内存大于机器剩余可用内存统计。	1
		BE的CPU使用率	BE的CPU使用率统计。	95%（紧急） 90%（重要）

父主题： 告警

上一篇：告警与事件概述

下一篇：配置告警屏蔽状态

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消