配置MRS集群告警阈值

集群Manager支持配置监控指标阈值用于关注各指标的健康情况，如果出现异常的数据并满足预设条件后，系统将会触发一条告警信息，并在告警页面中出现此告警信息。

配置MRS集群告警阈值（MRS 3.x及之后版本）

登录FusionInsight Manager。
选择“运维 > 告警 > 阈值设置”。
在监控分类中选择集群内指定主机或服务的监控指标。

图1 配置指标阈值
例如“主机内存使用率”，界面显示此阈值的信息：
- 发送告警开关开启时表示将触发告警。
- “分级告警开关”开启时启用分级告警，系统会根据实时监控指标值和分级阈值，动态上报相应级别的告警。（MRS 3.3.0及之后版本支持该功能）
- “告警ID”和“告警名称”包含阈值将触发的告警信息。
- Manager会检查监控指标数值是否满足阈值条件，若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警，支持自定义。
- “检查周期（秒）”表示Manager检查监控指标的时间间隔。
- 规则列表中的条目为触发告警的规则。

单击“添加规则”，可以新增指标的监控行为。

表1 监控指标规则参数
参数名	参数解释	参数示例
规则名称	规则名称	CPU_MAX
告警级别	选择告警级别。开启“分级告警开关”后，需在“阈值设置”参数中配置告警级别。告警级别包括：紧急重要次要提示	重要
阈值类型	选择某指标的最大值或最小值，类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警，类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。	最大值
日期	设置规则生效的日期，即哪一天运行规则。取值范围为：每天每周其他开启“分级告警开关”后，仅支持“每天”。	每天
添加日期	仅在“日期”模式为“其他”时可见，设置规则运行的自定义日期，支持多选。	09-30
阈值设置	设置规则运行的具体时间范围。开启“分级告警开关”后，不支持设置起止时间，默认为00:00-23:59。	起止时间：00:00-8:30
阈值设置	设置规则监控指标的阈值开启“分级告警开关”后，集群支持根据不同的阈值设置不同的告警级别。	阈值：10

支持单击设置多个阈值时间条件，或单击删除。

单击“确定”保存规则。
在新添加规则所在的行，单击“操作”中的“应用”，此时规则的“生效状态”变成“生效”。

当前已创建的规则单击“取消应用”后，才能应用新规则。

配置MRS集群告警阈值（MRS 2.x及之前版本）

在MRS Manager，单击“系统设置”。
在“配置”区域“监控和告警配置”下，单击“阈值配置”，依据规划选择监控指标并设置其基线。
单击某一指标例如“CPU使用率”，单击“添加规则”。

在“配置”对话框中填写监控指标规则参数。

表2 监控指标规则参数
参数名	参数解释	参数示例
规则名称	规则名称	CPU_MAX
参考日期	查看某指标的历史参考数据	2014/11/06
阈值类型	选择某指标的最大值或最小值，类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警，类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。	最大值
告警级别	告警级别，包括：致命严重一般提示	重要
时间范围	设置规则生效时监控指标的具体时间段	从00:00到23:59
阈值	设置规则监控指标的阈值	设置数值80
日期	设置规则生效的日期类型，包括：工作日周末其它	工作日
添加日期	日期选择“其他”时该参数生效。可选择多个日期。	11/30

单击“确定”。界面右上角弹出提示“模板保存成功。”。

“发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件，若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警，支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。
在新添加规则所在的行，单击“操作”下的“应用”，界面右上角弹出提示规则xx应用成功，完成添加。单击“操作”下的“取消应用”，界面右上角弹出提示规则xx取消成功。

监控指标参考（MRS 3.x及之后版本）

FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。

MRS 3.3.0及之后版本的Manager界面中，部分组件告警支持分级上报告警，不同告警级别对应阈值不同，具体以Manager实际配置界面为准。

表3 节点信息监控指标转告警列表
监控指标组名称	监控指标名称	指标含义	默认阈值
CPU	主机CPU使用率	描述周期内当前集群的运算和控制能力，可通过观察该统计值，了解集群整体资源的使用情况。	90.0%
磁盘	磁盘使用率	描述主机磁盘的使用率。	90.0%
磁盘	磁盘inode使用率	统计采集周期内磁盘inode使用率。	80.0%
内存	主机内存使用率	统计当前时间点的内存平均使用率。	90.0%
主机状态	主机文件句柄使用率	统计采集周期内该主机的文件句柄使用率。	80.0%
主机状态	主机PID使用率	主机PID使用率。	90%
网络状态	TCP临时端口使用率	统计采集周期内该主机的TCP临时端口使用率。	80.0%
网络读信息	读包错误率	统计采集周期内该主机上该网口的读包错误率。	0.5%
	读包丢包率	统计采集周期内该主机上该网口的读包丢包率。	0.5%
	读吞吐率	统计周期内网口的平均读吞吐率（MAC层）。	80%
网络写信息	写包错误率	统计采集周期内该主机上该网口的写包错误率。	0.5%
	写包丢包率	统计采集周期内该主机上该网口的写包丢包率。	0.5%
	写吞吐率	统计周期内网口的平均写吞吐率（MAC层）。	80%
进程	D状态进程总数	统计周期内主机上D状态进程数量。	0
进程	omm进程使用率	统计周期内omm进程使用率。	90

表4 集群监控指标转告警列表
服务	监控指标组名称	监控指标名称	指标含义	默认阈值
DBService	数据库	数据库连接数使用率	数据库连接数使用率统计。	90%
DBService	数据库	数据目录磁盘空间使用率	数据目录磁盘空间使用率统计。	80%
Flume	Agent	Flume堆内存使用率	Flume堆内存使用百分比统计。	95.0%
		Flume直接内存使用率	Flume直接内存使用百分比统计。	80.0%
		Flume非堆内存使用率	Flume非堆内存使用百分比统计。	80.0%
		Flume垃圾回收（GC）总时间	Flume垃圾回收（GC）总时间。	12000ms
HBase	GC	GC中回收old区所花时长	RegionServer的总GC时间。	5000ms
	GC	GC中回收old区所花时长	HMaster的总GC时间。	5000ms
	CPU和内存	RegionServer直接内存使用率统计	RegionServer直接内存使用率统计。	90%
		RegionServer堆内存使用率统计	RegionServer堆内存使用率统计。	90%
		HMaster直接内存使用率统计	HMaster直接内存使用率统计。	90%
		HMaster堆内存使用率统计	HMaster堆内存使用率统计。	90%
	服务	单个RegionServer的region数目	单个RegionServer的Region数目。	2000
	服务	处在RIT状态达到阈值时长的region数	处在RIT状态达到阈值时长的region数。	1
	容灾	容灾同步失败次数	同步容灾数据失败次数。	1
		主集群等待同步的日志文件数量	主集群等待同步的日志文件数量。	128
		主集群等待同步的HFile文件数量	主集群等待同步的HFile文件数量。	128
	队列	Compaction操作队列大小	Compaction操作队列大小。	100
HDFS	文件和块	HDFS缺失的块数量	HDFS文件系统中缺少副本块数量。	0
	文件和块	需要复制副本的块总数	NameNode需要复制副本的块总数。	1000
	RPC	主NameNode RPC处理平均时间	NameNode RPC处理平均时间。	100ms
	RPC	主NameNode RPC队列平均时间	NameNode RPC队列平均时间。	200ms
	磁盘	HDFS磁盘空间使用率	HDFS磁盘空间使用率。	80%
		DataNode磁盘空间使用率	HDFS文件系统中DataNode可以使用的磁盘空间率。	80%
		总副本预留磁盘空间所占比率	总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。	90%
	资源	故障的DataNode总数	出故障的DataNode节点数量。	3
		NameNode非堆内存使用百分比统计	NameNode非堆内存使用百分比统计。	90%
		NameNode直接内存使用百分比统计	NameNode直接内存使用百分比统计。	90%
		NameNode堆内存使用百分比统计	NameNode堆内存使用百分比统计。	95%
		DataNode直接内存使用百分比统计	DataNode直接内存使用百分比统计。	90%
		DataNode堆内存使用百分比统计	DataNode堆内存使用百分比统计。	95%
		DataNode非堆内存使用百分比统计	DataNode非堆内存使用百分比统计。	90%
	垃圾回收	垃圾回收时间统计（GC）	NameNode每分钟的垃圾回收（GC）所占用的时间。	12000ms
	垃圾回收	垃圾回收时间统计（GC）	DataNode每分钟的垃圾回收（GC）所占用的时间。	12000ms
Hive	HQL	Hive执行成功的HQL百分比	Hive执行成功的HQL百分比。	90.0%
	Background	Background线程使用率	Background线程使用率。	90%
	GC	MetaStore的总GC时间	MetaStore的总GC时间。	12000ms
	GC	HiveServer的总GC时间	HiveServer的总GC时间。	12000ms
	容量	Hive已经使用的HDFS空间占可使用空间的百分比	Hive已经使用的HDFS空间占可使用空间的百分比。	85.0%
	CPU和内存	MetaStore直接内存使用率统计	MetaStore直接内存使用率统计。	95%
		MetaStore非堆内存使用率统计	MetaStore非堆内存使用率统计。	95%
		MetaStore堆内存使用率统计	MetaStore堆内存使用率统计。	95%
		HiveServer直接内存使用率统计	HiveServer直接内存使用率统计。	95%
		HiveServer非堆内存使用率统计	HiveServer非堆内存使用率统计。	95%
		HiveServer堆内存使用率统计	HiveServer堆内存使用率统计。	95%
	Session	连接到HiveServer的session数占最大允许session数的百分比	连接到HiveServer的session数占最大允许session数的百分比。	90.0%
Kafka	分区	未完全同步的Partition百分比	未完全同步的Partition数占Partition总数的百分比。	50%
	其他	Partition不可用百分比	Kafka各个Topic的Partition不可用占比。	40%
	其他	broker上用户连接数使用率	broker上用户连接数使用率。	80%
	磁盘	Broker磁盘使用率	Broker数据目录所在磁盘的磁盘使用率。	80.0%
	磁盘	Broker磁盘IO使用率	Broker数据目录所在磁盘的磁盘IO使用率。	80%
	进程	Broker每分钟的垃圾回收时间统计（GC）	Broker进程每分钟垃圾回收（GC）所占用的时间。	12000ms
		Kafka堆内存使用率	Kafka堆内存使用百分比统计。	95%
		Kafka直接内存使用率	Kafka直接内存使用百分比统计。	95%
Loader	内存	Loader堆内存使用率	Loader堆内存使用率。	95%
		Loader直接内存使用率统计	Loader直接内存使用率统计。	80.0%
		Loader非堆内存使用率	Loader非堆内存使用率。	80%
	GC	Loader的总GC时间	Loader的总GC时间。	12000ms
Mapreduce	垃圾回收	垃圾回收时间统计（GC）	垃圾回收时间统计（GC）。	12000ms
	资源	JobHistoryServer直接内存使用百分比统计	JobHistoryServer直接内存使用百分比统计。	90%
		JobHistoryServer非堆内存使用百分比统计	JobHistoryServer非堆内存使用百分比统计。	90%
		JobHistoryServer堆内存使用百分比统计	JobHistoryServer堆内存使用百分比统计。	95%
Oozie	内存	Oozie堆内存使用率	Oozie堆内存使用率。	95.0%
		Oozie直接内存使用率	Oozie直接内存使用率。	80.0%
		Oozie非堆内存使用率	Oozie非堆内存使用率。	80%
	GC	Oozie垃圾回收（GC）总时间	Oozie垃圾回收（GC）总时间。	12000ms
Spark/Spark2x	内存	JDBCServer2x堆内存使用率统计	JDBCServer2x堆内存使用率统计。	95%
		JDBCServer2x直接内存使用率统计	JDBCServer2x直接内存使用率统计。	95%
		JDBCServer2x非堆内存使用率统计	JDBCServer2x非堆内存使用率统计	95%
		JobHistory2x直接内存使用率统计	JobHistory2x直接内存使用率统计。	95%
		JobHistory2x非堆内存使用率统计	JobHistory2x非堆内存使用率统计。	95%
		JobHistory2x堆内存使用率统计	JobHistory2x堆内存使用率统计。	95%
		IndexServer2x直接内存使用率统计	IndexServer2x直接内存使用率统计。	95%
		IndexServer2x堆内存使用率统计	IndexServer2x堆内存使用率统计。	95%
		IndexServer2x非堆内存使用率统计	IndexServer2x非堆内存使用率统计。	95%
	GC次数	JDBCServer2x的Full GC次数	JDBCServer2x进程的Full GC次数。	12
		JobHistory2x的Full GC次数	JobHistory2x进程的Full GC次数。	12
		IndexServer2x的Full GC次数	IndexServer2x进程的Full GC次数。	12
	GC时间	JDBCServer2x的总GC时间	JDBCServer2x的总GC时间。	12000ms
		JobHistory2x的总GC时间	JobHistory2x的总GC时间。	12000ms
		IndexServer2x的总GC时间	IndexServer2x的总GC时间。	12000ms
Storm	集群	Supervisor数	统计周期内集群中可用的Supervisor数目。	1
	集群	已用Slot比率	统计周期内集群中可用的slot使用率。	80.0%
	Nimbus	Nimbus堆内存使用率	Nimbus堆内存使用百分比统计。	80%
Yarn	资源	NodeManager直接内存使用百分比统计	NodeManager直接内存使用百分比统计。	90%
		NodeManager堆内存使用百分比统计	NodeManager堆内存使用百分比统计。	95%
		NodeManager非堆内存使用百分比统计	NodeManager非堆内存使用百分比统计。	90%
		ResourceManager直接内存使用百分比统计	ResourceManager直接内存使用百分比统计。	90%
		ResourceManager堆内存使用百分比统计	ResourceManager堆内存使用百分比统计。	95%
		ResourceManager非堆内存使用百分比统计	ResourceManager非堆内存使用百分比统计。	90%
	垃圾回收	垃圾回收时间统计（GC）	NodeManager每分钟的垃圾回收（GC）所占用的时间。	12000ms
	垃圾回收	垃圾回收时间统计（GC）	ResourceManager每分钟的垃圾回收（GC）所占用的时间。	12000ms
	其他	root队列下失败的任务数	root队列下失败的任务数。	50
	其他	root队列下被杀死的任务数	root队列下被杀死的任务数。	50
	CPU和内存	挂起的内存量	挂起的内存量。	83886080MB
	任务	正在挂起的任务	正在挂起的任务。	60
ZooKeeper	连接	ZooKeeper连接数使用率	ZooKeeper连接数使用百分比统计。	80%
	CPU和内存	ZooKeeper堆内存使用率	ZooKeeper堆内存使用百分比统计。	95%
	CPU和内存	ZooKeeper直接内存使用率	ZooKeeper直接内存使用百分比统计。	80%
	GC	ZooKeeper每分钟的垃圾回收时间统计（GC）	ZooKeeper每分钟的垃圾回收时间统计（GC）。	12000ms
Ranger	GC	UserSync垃圾回收（GC）时间	UserSync垃圾回收（GC）时间。	12000ms
		RangerAdmin垃圾回收（GC）时间	RangerAdmin垃圾回收（GC）时间。	12000ms
		TagSync垃圾回收（GC）时间	TagSync垃圾回收（GC）时间。	12000ms
	CPU和内存	UserSync非堆内存使用率	UserSync非堆内存使用百分比统计。	80.0%
		UserSync直接内存使用率	UserSync直接内存使用百分比统计。	80.0%
		UserSync堆内存使用率	UserSync堆内存使用百分比统计。	95.0%
		RangerAdmin非堆内存使用率	RangerAdmin非堆内存使用百分比统计。	80.0%
		RangerAdmin堆内存使用率	RangerAdmin堆内存使用百分比统计。	95.0%
		RangerAdmin直接内存使用率	RangerAdmin直接内存使用百分比统计。	80.0%
		TagSync直接内存使用率	TagSync直接内存使用百分比统计。	80.0%
		TagSync非堆内存使用率	TagSync非堆内存使用百分比统计。	80.0%
		TagSync堆内存使用率	TagSync堆内存使用百分比统计。	95.0%
ClickHouse	集群配额	Clickhouse服务在ZooKeeper的数量配额使用率	ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。	90%
ClickHouse	集群配额	Clickhouse服务在ZooKeeper的容量配额使用率	ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。	90%
IoTDB	GC	IoTDBServer垃圾回收时间	IoTDBServer垃圾回收所占用的时间	12000ms
	CPU和内存	IoTDBServer堆内存使用率	IoTDBServer堆内存使用百分比统计	90%
	CPU和内存	IoTDBServer直接内存使用率	IoTDBServer直接内存使用百分比统计	90%