MRS集群阈值类告警配置说明

应用场景

MRS集群提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标，并评测集群健康状态。

MRS支持配置监控指标阈值用于关注各指标的健康情况，如果出现异常的数据并满足预设条件后，系统将会触发告警信息，并在告警页面中出现此告警信息。

如果部分阈值类监控告警经评估后对业务影响可忽略、或告警阈值可进行调整，用户也可以根据需要自定义集群监控指标，或屏蔽对应告警，使告警不再上报。

MRS集群阈值转告警监控指标可分为节点信息指标与集群服务指标，相关指标及其对系统的影响、默认阈值等信息请参考监控指标参考。

方案架构

Manager的整体逻辑架构如图1所示。

图1 Manager逻辑架构

Manager由OMS和OMA组成：

OMS：操作维护系统的管理节点，OMS一般有两个，互为主备。
OMA：操作维护系统中的被管理节点，一般有多个。

FMS为Manager中的告警模块，负责收集每一个OMA上的告警并提供查询。

约束与限制

阈值类告警通常会对集群功能的正常使用、或作业的运行等有一定影响，如需屏蔽或修改告警规则等，请提前评估操作风险。

修改阈值类告警触发规则

参考访问FusionInsight Manager（MRS 3.x及之后版本）登录MRS集群的FusionInsight Manager界面。
选择“运维 > 告警 > 阈值设置”。
在监控分类中选择集群内指定主机或服务的监控指标。例如选择“主机内存使用率”。

图2 查看阈值告警信息
其中：
- 开关：开启表示将触发告警。
- 平滑次数：Manager会检查监控指标数值是否满足阈值条件，若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警，支持自定义。对于同一告警上报较频繁的场景，用户可通过单击编辑按钮适当调高平滑次数，降低告警频率。
- 检查周期（秒）：表示Manager检查监控指标的时间间隔。
- 规则列表中的条目为触发告警的规则。

修改告警规则。

添加新规则
1. 单击“添加规则”，参考表1新增指标的监控行为。
2. 单击“确定”保存规则。
3. 在当前已应用规则的所在行，单击“操作”中的“取消应用”。如果没有已应用的规则，则请跳过该步骤。
4. 在新添加规则的所在行，单击“操作”中的“应用”，此时规则的“生效状态”变成“生效”。
修改已有规则
1. 单击待修改规则“操作”列的“修改”。
2. 参考表1修改相关规则参数。
3. 单击“确定”保存。

以下样例以修改“主机内存使用率”为例进行说明。

表1 监控指标规则参数
参数名	参数解释	取值样例
规则名称	规则名称	mrs_test
告警级别	告警级别：紧急重要次要提示	重要
阈值类型	选择某指标的最大值或最小值。最大值：表示指标的实际值大于设置的阈值时系统将产生告警。最小值：表示指标的实际值小于设置的阈值时系统将产生告警。	最大值
日期	设置规则生效的日期，即哪一天运行规则。每天每周其他	每天
添加日期	仅在“日期”模式为“其他”时可见，设置规则运行的自定义日期，支持多选。	-
阈值设置	起止时间：设置规则运行的具体时间范围。	00:00 - 23:59
阈值设置	阈值：设置规则监控指标的阈值。	85

屏蔽指定告警上报

参考访问FusionInsight Manager（MRS 3.x及之后版本）登录MRS集群的FusionInsight Manager界面。
选择“运维 > 告警 > 屏蔽设置”。
在“屏蔽设置”区域，选择指定的服务或模块。
单击待操作告警对应“操作”列的“屏蔽”，在弹出的对话框中单击“确定”，修改告警的屏蔽状态为“屏蔽”。

图3 屏蔽告警
- 可以在屏蔽列表上方筛选指定的告警。
- 如果需要取消屏蔽，可以单击指定告警后的“取消屏蔽”，在弹出的对话框中单击“确定”，修改告警的屏蔽状态为“显示”。
- 如果需要一次操作多个告警，可以勾选多个待操作的告警后，单击列表上方的“屏蔽”或“取消屏蔽”。

常见问题

如何查看当前集群未清除告警？
1. 登录MRS管理控制台。
2. 单击待操作的集群名称，选择“告警管理”页签。
3. 单击“高级搜索”，将“告警状态”设置为“未清除”，单击“搜索”。
4. 界面将显示当前集群未清除的告警。
集群发生告警后如何清除？
集群发生告警后，可以查看对应告警的帮助文档进行处理。帮助文档查看入口如下：
- 管理控制台：登录MRS管理控制台，单击待操作的集群名称，选择“告警管理”页签，在告警列表中单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。
- Manager页面：登录Manager页面，选择“运维 > 告警 > 告警”，单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。

监控指标参考

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标、表3表示组件可配置阈值的指标。

表2 节点信息监控指标转告警列表
监控指标组名称	监控指标名称	告警ID	告警名称	告警对系统的影响	默认阈值
CPU	主机CPU使用率	12016	CPU使用率超过阈值	业务进程响应缓慢或不可用。	90.0%
磁盘	磁盘使用率	12017	磁盘容量不足	业务进程不可用。	90.0%
磁盘	磁盘inode使用率	12051	磁盘Inode使用率超过阈值	文件系统无法正常写入。	80.0%
内存	主机内存使用率	12018	内存使用率超过阈值	业务进程响应缓慢或不可用。	90.0%
主机状态	主机文件句柄使用率	12053	主机文件句柄使用率超过阈值	系统应用无法打开文件、网络等IO操作，程序异常。	80.0%
主机状态	主机PID使用率	12027	主机PID使用率超过阈值	无法分配PID给新的业务进程，业务进程不可用。	90%
网络状态	TCP临时端口使用率	12052	TCP临时端口使用率超过阈值	主机上业务无法发起对外建立连接，业务中断。	80.0%
网络读信息	读包错误率	12047	网络读包错误率超过阈值	通信闪断，业务超时。	0.5%
	读包丢包率	12045	网络读包丢包率超过阈值	业务性能下降或者个别业务出现超时问题。	0.5%
	读吞吐率	12049	网络读吞吐率超过阈值	业务系统运行不正常或不可用。	80%
网络写信息	写包错误率	12048	网络写包错误率超过阈值	通信闪断，业务超时。	0.5%
	写包丢包率	12046	网络写包丢包率超过阈值	业务性能下降或者个别业务出现超时问题。	0.5%
	写吞吐率	12050	网络写吞吐率超过阈值	业务系统运行不正常或不可用。	80%
进程	D状态和Z状态进程总数	12028	主机D状态和Z状态进程数超过阈值	占用系统资源，业务进程响应变慢。	0
进程	omm进程使用率	12061	进程使用率超过阈值	无法切换到omm用户。无法创建新的omm线程。	90

表3 集群监控指标转告警列表
服务	监控指标名称	告警ID	告警名称	告警对系统的影响	默认阈值
DBService	数据库连接数使用率	27005	数据库连接数使用率超过阈值	可能导致上层服务无法连接DBService的数据库，影响正常业务。	90%
DBService	数据目录磁盘空间使用率	27006	数据目录磁盘空间使用率超过阈值	业务进程不可用。当数据目录磁盘空间使用率超过90%时，数据库进入只读模式并发送告警“数据库进入只读模式”，业务数据丢失。	80%
Flume	Flume堆内存使用率	24006	Flume Server堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95.0%
	Flume直接内存使用率	24007	Flume Server直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	Flume非堆内存使用率	24008	Flume Server非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80.0%
	Flume垃圾回收（GC）总时间	24009	Flume Server垃圾回收(GC)时间超过阈值	导致Flume数据传输效率低下。	12000ms
HBase	GC中回收old区所花时长	19007	HBase GC时间超出阈值	老年代GC时间超出阈值，会影响到HBase数据的读写。	5000ms
	RegionServer直接内存使用率统计	19009	HBase服务进程直接内存使用率超出阈值	HBase可用的直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	RegionServer堆内存使用率统计	19008	HBase服务进程堆内存使用率超出阈值	HBase可用内存不足，可能会造成内存溢出导致服务崩溃。	90%
	HMaster直接内存使用率统计	19009	HBase服务进程直接内存使用率超出阈值	HBase可用的直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	HMaster堆内存使用率统计	19008	HBase服务进程堆内存使用率超出阈值	HBase可用内存不足，可能会造成内存溢出导致服务崩溃。	90%
	单个RegionServer的region数目	19011	RegionServer的Region数量超出阈值	RegionServer的Region数超出阈值，会影响HBase的数据读写性能。	2000
	处在RIT状态达到阈值时长的region数	19013	region处在RIT状态的时长超过阈值。	表的部分数据丢失或不可用。	1
	RegionServer的handler使用	19021	RegionServer活跃handler数超过阈值	RegionServer的handler使用率超出阈值，会影响RegionServer对外提供服务的能力，如果集群的大部分RegionServer的handler使用率超过阈值，可导致HBase无法对外提供服务。	90%
	容灾同步失败次数	19006	HBase容灾同步失败	无法同步集群中HBase的数据到备集群，导致主备集群数据不一致。	1
	主集群等待同步的日志文件数量	19020	HBase容灾等待同步的wal文件数量超过阈值	RegionServer等待同步的wal文件数量超出阈值，会影响HBase使用的znode超出阈值，影响HBase服务状态。	128
	主集群等待同步的HFile文件数量	19019	HBase容灾等待同步的HFile文件数量超过阈值	RegionServer等待同步的HFile文件数量超出阈值，会影响HBase使用的znode超出阈值，影响HBase服务状态。	128
	Compaction操作队列大小	19018	HBase合并队列超出阈值	产生该告警表示HBase服务的compaction队列长度已经超过规定的阈值，如果不及时处理，可能会导致集群性能下降，影响数据读写。	100
HDFS	HDFS缺失的块数量	14003	丢失的HDFS块数量超过阈值	HDFS存储数据丢失，HDFS可能会进入安全模式，无法提供写服务。丢失的块数据无法恢复。	0
	需要复制副本的块总数	14028	待补齐的块数超过阈值	HDFS存储数据丢失，HDFS可能会进入安全模式，无法提供写服务。丢失的块数据无法恢复。	1000
	主NameNode RPC处理平均时间	14021	NameNode RPC处理平均时间超过阈值	NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求，表现为访问HDFS服务的业务运行缓慢，严重时会导致HDFS服务不可用。	100ms
	主NameNode RPC队列平均时间	14022	NameNode RPC队列平均时间超过阈值	NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求，表现为访问HDFS服务的业务运行缓慢，严重时会导致HDFS服务不可用。	200ms
	HDFS磁盘空间使用率	14001	HDFS磁盘空间使用率超过阈值	HDFS集群磁盘容量不足，会影响到HDFS的数据写入。	80%
	DataNode磁盘空间使用率	14002	DataNode磁盘空间使用率超过阈值	DataNode容量不足，会影响到HDFS的数据写入。	80%
	总副本预留磁盘空间所占比率	14023	总副本预留磁盘空间所占比率超过阈值	HDFS集群磁盘容量不足，会影响到HDFS的数据写入。如果DataNode的剩余空间都已经给副本预留，则写入HDFS数据失败。	90%
	故障的DataNode总数	14009	Dead DataNode数量超过阈值	故障状态的DataNode节点无法提供HDFS服务。	3
	NameNode非堆内存使用百分比统计	14018	NameNode非堆内存使用率超过阈值	HDFS NameNode非堆内存使用率过高，会影响HDFS的数据读写性能。	90%
	NameNode直接内存使用百分比统计	14017	NameNode直接内存使用率超过阈值	NameNode可用直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	NameNode堆内存使用百分比统计	14007	NameNode堆内存使用率超过阈值	HDFS NameNode堆内存使用率过高，会影响HDFS的数据读写性能。	95%
	DataNode直接内存使用百分比统计	14016	DataNode直接内存使用率超过阈值	DataNode可用直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	DataNode堆内存使用百分比统计	14008	DataNode堆内存使用率超过阈值	HDFS DataNode堆内存使用率过高，会影响到HDFS的数据读写性能。	95%
	DataNode非堆内存使用百分比统计	14019	DataNode非堆内存使用率超过阈值	HDFS DataNode非堆内存使用率过高，会影响HDFS的数据读写性能。	90%
	垃圾回收时间统计（GC）(NameNode)	14014	NameNode进程垃圾回收（GC）时间超过阈值	NameNode进程的垃圾回收时间过长，可能影响该NameNode进程正常提供服务。	12000ms
	垃圾回收时间统计（GC）(DataNode)	14015	DataNode进程垃圾回收（GC）时间超过阈值	DataNode进程的垃圾回收时间过长，可能影响该DataNode进程正常提供服务。	12000ms
Hive	Hive执行成功的HQL百分比	16002	Hive SQL执行成功率低于阈值	系统执行业务能力过低，无法正常响应客户请求。	90.0%
	Background线程使用率	16003	Background线程使用率超过阈值	后台Background线程数过多，导致新提交的任务无法及时运行。	90%
	MetaStore的总GC时间	16007	Hive GC时间超出阈值	GC时间超出阈值，会影响到Hive数据的读写。	12000ms
	HiveServer的总GC时间	16007	Hive GC时间超出阈值	GC时间超出阈值，会影响到Hive数据的读写。	12000ms
	Hive已经使用的HDFS空间占可使用空间的百分比	16001	Hive数据仓库空间使用率超过阈值	系统可能无法正常写入数据，导致部分数据丢失。	85.0%
	MetaStore直接内存使用率统计	16006	Hive服务进程直接内存使用超出阈值	Hive直接内存使用率过高，会影响Hive任务运行的性能，甚至造成内存溢出导致Hive服务不可用。	95%
	MetaStore非堆内存使用率统计	16008	Hive服务进程非堆内存使用超出阈值	Hive非堆内存使用率过高，会影响Hive任务运行的性能，甚至造成内存溢出导致Hive服务不可用。	95%
	MetaStore堆内存使用率统计	16005	Hive服务进程堆内存使用超出阈值	Hive堆内存使用率过高，会影响Hive任务运行的性能，甚至造成内存溢出导致Hive服务不可用。	95%
	HiveServer直接内存使用率统计	16006	Hive服务进程直接内存使用超出阈值	Hive直接内存使用率过高，会影响Hive任务运行的性能，甚至造成内存溢出导致Hive服务不可用。	95%
	HiveServer非堆内存使用率统计	16008	Hive服务进程非堆内存使用超出阈值	Hive非堆内存使用率过高，会影响Hive任务运行的性能，甚至造成内存溢出导致Hive服务不可用。	95%
	HiveServer堆内存使用率统计	16005	Hive服务进程堆内存使用超出阈值	Hive堆内存使用率过高，会影响Hive任务运行的性能，甚至造成内存溢出导致Hive服务不可用。	95%
	连接到HiveServer的session数占最大允许session数的百分比	16000	连接到HiveServer的session数占最大允许数的百分比超过阈值	发生连接数告警时，表示连接到HiveServer的session数过多，将会导致无法建立新的连接。	90.0%
Kafka	未完全同步的Partition百分比	38006	Kafka未完全同步的Partition百分比超过阈值	Kafka服务未完全同步的Partition数过多，会影响服务的可靠性，一旦发生leader切换，可能会导致丢数据。	50%
	broker上用户连接数使用率	38011	Broker上用户连接数使用率超过设定阈值	当同一个用户连接数太多时，产生告警的用户将无法与Broker建立新的连接。	80%
	Broker磁盘使用率	38001	Kafka磁盘容量不足	磁盘容量不足会导致Kafka写入数据失败。	80.0%
	Broker磁盘IO使用率	38009	Broker磁盘IO繁忙	Partition所在的磁盘分区IO过于繁忙，产生告警的Kafka Topic上可能无法写入数据。	80%
	Broker每分钟的垃圾回收时间统计（GC）	38005	Broker进程垃圾回收（GC）时间超过阈值	Broker进程的垃圾回收时间过长，可能影响该Broker进程正常提供服务。	12000ms
	Kafka堆内存使用率	38002	Kafka堆内存使用率超过阈值	Kafka可用内存不足，可能会造成内存溢出导致服务崩溃。	95%
	Kafka直接内存使用率	38004	Kafka直接内存使用率超过阈值	Kafka可用直接内存不足，可能会造成内存溢出导致服务崩溃。	95%
Loader	Loader堆内存使用率	23004	Loader堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95%
	Loader直接内存使用率统计	23006	Loader直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	Loader非堆内存使用率	23005	Loader非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80%
	Loader的总GC时间	23007	Loader进程垃圾回收（GC）时间超过阈值	导致Loader服务响应缓慢。	12000ms
Mapreduce	垃圾回收时间统计（GC）	18012	JobHistoryServer进程垃圾回收（GC）时间超过阈值	JobHistoryServer进程的垃圾回收时间过长，可能影响该JobHistoryServer进程正常提供服务。	12000ms
	JobHistoryServer直接内存使用百分比统计	18015	JobHistoryServer直接内存使用率超过阈值	MapReduce可用直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	JobHistoryServer非堆内存使用百分比统计	18019	JobHistoryServer非堆内存使用率超过阈值	MapReduce JobHistoryServer非堆内存使用率过高，会影响MapReduce任务提交和运行的性能，甚至造成内存溢出导致MapReduce服务不可用。	90%
	JobHistoryServer堆内存使用百分比统计	18009	JobHistoryServer堆内存使用率超过阈值	Mapreduce JobHistoryServer堆内存使用率过高，会影响Mapreduce服务日志归档的性能，甚至造成内存溢出导致Mapreduce服务不可用。	95%
Oozie	Oozie堆内存使用率	17004	Oozie堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95.0%
	Oozie直接内存使用率	17006	Oozie直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	Oozie非堆内存使用率	17005	Oozie非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80%
	Oozie垃圾回收（GC）总时间	17007	Oozie垃圾回收(GC)时间超过阈值	导致Oozie提交任务响应变慢。	12000ms
Spark2x	JDBCServer2x堆内存使用率统计	43010	JDBCServer2x进程堆内存使用超出阈值	JDBCServer2x进程堆内存使用率过高，会影响JDBCServer2x进程运行的性能，甚至造成内存溢出导致JDBCServer2x进程不可用。	95%
	JDBCServer2x直接内存使用率统计	43012	JDBCServer2x进程直接内存使用超出阈值	JDBCServer2x进程直接内存使用率过高，会影响JDBCServer2x进程运行的性能，甚至造成内存溢出导致JDBCServer2x进程不可用。	95%
	JDBCServer2x非堆内存使用率统计	43011	JDBCServer2x进程非堆内存使用超出阈值	JDBCServer2x进程非堆内存使用率过高，会影响JDBCServer2x进程运行的性能，甚至造成内存溢出导致JDBCServer2x进程不可用。	95%
	JobHistory2x直接内存使用率统计	43008	JobHistory2x进程直接内存使用超出阈值	JobHistory2x进程直接内存使用率过高，会影响JobHistory2x进程运行的性能，甚至造成内存溢出导致JobHistory2x进程不可用。	95%
	JobHistory2x非堆内存使用率统计	43007	JobHistory2x进程非堆内存使用超出阈值	JobHistory2x进程非堆内存使用率过高，会影响JobHistory2x进程运行的性能，甚至造成内存溢出导致JobHistory2x进程不可用。	95%
	JobHistory2x堆内存使用率统计	43006	JobHistory2x进程堆内存使用超出阈值	JobHistory2x进程堆内存使用率过高，会影响JobHistory2x进程运行的性能，甚至造成内存溢出导致JobHistory2x进程不可用。	95%
	IndexServer2x直接内存使用率统计	43021	IndexServer2x进程直接内存使用超出阈值	IndexServer2x进程直接内存使用率过高，会影响IndexServer2x进程运行的性能，甚至造成内存溢出导致IndexServer2x进程不可用。	95%
	IndexServer2x堆内存使用率统计	43019	IndexServer2x进程堆内存使用超出阈值	IndexServer2x进程堆内存使用率过高，会影响IndexServer2x进程运行的性能，甚至造成内存溢出导致IndexServer2x进程不可用。	95%
	IndexServer2x非堆内存使用率统计	43020	IndexServer2x进程非堆内存使用超出阈值	IndexServer2x进程非堆内存使用率过高，会影响IndexServer2x进程运行的性能，甚至造成内存溢出导致IndexServer2x进程不可用。	95%
	JDBCServer2x的Full GC次数	43017	JDBCServer2x进程Full GC次数超出阈值	GC次数超出阈值，会影响JDBCServer2x进程运行的性能，甚至造成JDBCServer2x进程不可用。	12
	JobHistory2x的Full GC次数	43018	JobHistory2x进程Full GC次数超出阈值	GC次数超出阈值，会影响JobHistory2x进程运行的性能，甚至造成JobHistory2x进程不可用。	12
	IndexServer2x的Full GC次数	43023	IndexServer2x进程Full GC次数超出阈值	GC次数超出阈值，会影响IndexServer2x进程运行的性能，甚至造成IndexServer2x进程不可用。	12
	JDBCServer2x的总GC时间	43013	JDBCServer2x进程GC时间超出阈值	GC时间超出阈值，会影响JDBCServer2x进程运行的性能，甚至造成JDBCServer2x进程不可用。	12000ms
	JobHistory2x的总GC时间	43009	JobHistory2x进程GC时间超出阈值	GC时间超出阈值，会影响JobHistory2x进程运行的性能，甚至造成JobHistory2x进程不可用。	12000ms
	IndexServer2x的总GC时间	43022	IndexServer2x进程GC时间超出阈值	GC时间超出阈值，会影响IndexServer2x进程运行的性能，甚至造成IndexServer2x进程不可用。	12000ms
Storm	Supervisor数	26052	Storm服务可用Supervisor数量小于阈值	集群已经存在的任务无法运行；集群可接收新的Storm任务，但是无法运行。	1
	已用Slot比率	26053	Storm Slot使用率超过阈值	用户无法执行新的Storm任务。	80.0%
	Nimbus堆内存使用率	26054	Nimbus堆内存使用率超过阈值	Storm Nimbus堆内存使用率过高时可能造成频繁GC，甚至造成内存溢出，进而影响Storm任务提交。	80%
Yarn	NodeManager直接内存使用百分比统计	18014	NodeManager直接内存使用率超过阈值	NodeManager可用直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	NodeManager堆内存使用百分比统计	18018	NodeManager堆内存使用率超过阈值	NodeManager堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至可能会造成内存溢出导致Yarn服务崩溃。	95%
	NodeManager非堆内存使用百分比统计	18017	NodeManager非堆内存使用率超过阈值	Yarn NodeManager非堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至造成内存溢出导致Yarn服务不可用。	90%
	ResourceManager直接内存使用百分比统计	18013	ResourceManager直接内存使用率超过阈值	ResourceManager可用直接内存不足，可能会造成内存溢出导致服务崩溃。	90%
	ResourceManager堆内存使用百分比统计	18008	ResourceManager堆内存使用率超过阈值	Yarn ResourceManager堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至造成内存溢出导致Yarn服务不可用。	95%
	ResourceManager非堆内存使用百分比统计	18016	ResourceManager非堆内存使用率超过阈值	Yarn ResourceManager非堆内存使用率过高，会影响Yarn任务提交和运行的性能，甚至造成内存溢出导致Yarn服务不可用。	90%
	垃圾回收时间统计（GC） (NodeManager)	18011	NodeManager进程垃圾回收（GC）时间超过阈值	NodeManager进程的垃圾回收时间过长，可能影响该NodeManager进程正常提供服务。	12000ms
	垃圾回收时间统计（GC）(ResourceManager)	18010	ResourceManager进程垃圾回收（GC）时间超过阈值	ResourceManager进程的垃圾回收时间过长，可能影响该ResourceManager进程正常提供服务。	12000ms
	root队列下失败的任务数	18026	Yarn上运行失败的任务数超过阈值	大量应用任务运行失败。运行失败的任务需要重新提交。	50
	root队列下被杀死的任务数	18025	Yarn被终止的任务数超过阈值	大量应用任务被强制终止。	50
	挂起的内存量	18024	Yarn任务挂起内存超过阈值	应用任务结束时间变长。新应用提交后长时间无法运行。	83886080MB
	正在挂起的任务	18023	Yarn任务挂起数超过阈值	应用任务结束时间变长。新应用提交后长时间无法运行。	60
ZooKeeper	ZooKeeper连接数使用率	13001	ZooKeeper可用连接数不足	ZooKeeper可用连接数不足，当连接率超过100%时无法处理外部连接。	80%
	ZooKeeper堆内存使用率	13004	ZooKeeper堆内存使用率超过阈值	ZooKeeper可用内存不足，可能会造成内存溢出导致服务崩溃。	95%
	ZooKeeper直接内存使用率	13002	ZooKeeper直接内存使用率超过阈值	ZooKeeper可用内存不足，可能会造成内存溢出导致服务崩溃。	80%
	ZooKeeper每分钟的垃圾回收时间统计（GC）	13003	ZooKeeper进程垃圾回收（GC）时间超过阈值	ZooKeeper进程的垃圾回收时间过长，可能影响该ZooKeeper进程正常提供服务。	12000ms
Ranger	UserSync垃圾回收（GC）时间	45284	UserSync垃圾回收(GC)时间超过阈值	导致UserSync响应缓慢。	12000ms
	PolicySync垃圾回收（GC）时间	45292	PolicySync垃圾回收(GC)时间超过阈值	导致PolicySync响应缓慢。	12000ms
	RangerAdmin垃圾回收（GC）时间	45280	RangerAdmin垃圾回收(GC)时间超过阈值	导致RangerAdmin响应缓慢。	12000ms
	TagSync垃圾回收（GC）时间	45288	TagSync垃圾回收(GC)时间超过阈值	导致TagSync响应缓慢。	12000ms
	UserSync非堆内存使用率	45283	UserSync非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80.0%
	UserSync直接内存使用率	45282	UserSync直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	UserSync堆内存使用率	45281	UserSync堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95.0%
	PolicySync直接内存使用率	45290	PolicySync直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	PolicySync堆内存使用率	45289	PolicySync堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95.0%
	PolicySync非堆内存使用率	45291	PolicySync非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80.0%
	RangerAdmin非堆内存使用率	45279	RangerAdmin非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80.0%
	RangerAdmin堆内存使用率	45277	RangerAdmin堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95.0%
	RangerAdmin直接内存使用率	45278	RangerAdmin直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	TagSync直接内存使用率	45286	TagSync直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	80.0%
	TagSync非堆内存使用率	45287	TagSync非堆内存使用率超过阈值	非堆内存溢出可能导致服务崩溃。	80.0%
	TagSync堆内存使用率	45285	TagSync堆内存使用率超过阈值	堆内存溢出可能导致服务崩溃。	95.0%
ClickHouse	Clickhouse服务在ZooKeeper的数量配额使用率	45426	ClickHouse服务在ZooKeeper的数量配额使用率超过阈值	ClickHouse在ZooKeeper的数量配额超过阈值后，无法通过FusionInsight Manager对ClickHouse进行集群操作，无法使用ClickHouse服务功能。	90%
ClickHouse	Clickhouse服务在ZooKeeper的容量配额使用率	45427	ClickHouse服务在ZooKeeper的容量配额使用率超过阈值	ClickHouse在ZooKeeper的容量配额超过阈值后，无法通过FusionInsight Manager对ClickHouse进行集群操作，无法使用ClickHouse服务功能。	90%
IoTDB	合并任务 (空间内合并) 的最大时延	45594	IoTDBServer空间内合并执行时长超过阈值	空间内合并任务超时，会阻塞写数据，影响写操作的性能。	300000ms
	合并任务 (Flush) 的最大时延	45593	IoTDBServer Flush执行时长超过阈值	Flush任务超时，会阻塞写数据，影响写操作的性能。	300000ms
	合并任务 (跨空间合并) 的最大时延	45595	IoTDBServer跨空间合并执行时长超过阈值	跨空间合并任务超时，会阻塞写数据，影响写操作的性能。	300000ms
	RPC (executeStatement) 的最大时延	45592	IoTDBServer RPC执行时长超过阈值	IoTDBServer进程RPC过高，会影响IoTDBServer进程运行的性能。	10000s
	IoTDBServer垃圾回收（GC）总时间	45587	IoTDBServer垃圾回收(GC)时间超过阈值	IoTDBServer进程的垃圾回收（GC）时间过长，可能影响该IoTDBServer进程正常提供服务。	12000ms
	ConfigNode垃圾回收（GC）总时间	45590	ConfigNode垃圾回收(GC)时间超过阈值	ConfigNode进程的垃圾回收（GC）时间过长，可能影响该ConfigNode进程正常提供服务。	12000ms
	IoTDBServer堆内存使用率	45586	IoTDBServer堆内存使用率超过阈值	IoTDBServer进程堆内存使用率过高，会影响IoTDBServer进程运行的性能，甚至造成内存溢出导致IoTDBServer进程不可用。	90%
	IoTDBServer直接内存使用率	45588	IoTDBServer直接内存使用率超过阈值	直接内存溢出可能导致服务崩溃。	90%
	ConfigNode堆内存使用率	45589	ConfigNode堆内存使用率超过阈值	ConfigNode进程堆内存使用率过高，会影响ConfigNode进程运行的性能，甚至造成内存溢出导致ConfigNode进程不可用。	90%
	ConfigNode直接内存使用率	45591	ConfigNode直接内存使用率超过阈值	直接内存溢出可能导致IoTDB实例不可用。	90%

父主题： MRS集群管理

上一篇：MRS集群管理

下一篇：提交Spark任务到新增Task节点

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消