MRS集群阈值类告警配置说明
应用场景
MRS集群提供可视化、便捷的监控告警功能。用户可以快速获取集群关键性能指标,并评测集群健康状态。
MRS支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发告警信息,并在告警页面中出现此告警信息。
如果部分阈值类监控告警经评估后对业务影响可忽略、或告警阈值可进行调整,用户也可以根据需要自定义集群监控指标,或屏蔽对应告警,使告警不再上报。
MRS集群阈值转告警监控指标可分为节点信息指标与集群服务指标,相关指标及其对系统的影响、默认阈值等信息请参考监控指标参考。
方案架构
Manager的整体逻辑架构如图1所示。
Manager由OMS和OMA组成:
- OMS:操作维护系统的管理节点,OMS一般有两个,互为主备。
- OMA:操作维护系统中的被管理节点,一般有多个。
FMS为Manager中的告警模块,负责收集每一个OMA上的告警并提供查询。
约束与限制
阈值类告警通常会对集群功能的正常使用、或作业的运行等有一定影响,如需屏蔽或修改告警规则等,请提前评估操作风险。
修改阈值类告警触发规则
- 参考访问FusionInsight Manager(MRS 3.x及之后版本)登录MRS集群的FusionInsight Manager界面。
- 选择。
- 在监控分类中选择集群内指定主机或服务的监控指标。例如选择“主机内存使用率”。图2 查看阈值告警信息
其中:- 开关:开启表示将触发告警。
- 分级告警开关:开启时启用分级告警,系统会根据实时监控指标值和分级阈值,动态上报相应级别的告警。仅MRS 3.3.0及之后版本支持配置该参数。
- 平滑次数:Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。对于同一告警上报较频繁的场景,用户可通过单击编辑按钮适当调高平滑次数,降低告警频率。
- 检查周期(秒):表示Manager检查监控指标的时间间隔。
- 规则列表中的条目为触发告警的规则。
- 修改告警规则。
- 添加新规则
- 单击“添加规则”,参考表1新增指标的监控行为。
- 单击“确定”保存规则。
- 在当前已应用规则的所在行,单击“操作”中的“取消应用”。如果没有已应用的规则,则请跳过该步骤。
- 在新添加规则的所在行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。
- 修改已有规则
- 单击待修改规则“操作”列的“修改”。
- 参考表1修改相关规则参数。
- 单击“确定”保存。
以下样例以修改“主机内存使用率”为例进行说明。
表1 监控指标规则参数 参数名
参数解释
取值样例
规则名称
规则名称
mrs_test
告警级别
告警级别:
MRS 3.3.0及之后版本集群开启“分级告警开关”后,可以在“阈值设置”参数中配置告警级别。
- 紧急
- 重要
- 次要
- 提示
重要
阈值类型
选择某指标的最大值或最小值。
- 最大值:表示指标的实际值大于设置的阈值时系统将产生告警。
- 最小值:表示指标的实际值小于设置的阈值时系统将产生告警。
最大值
日期
设置规则生效的日期,即哪一天运行规则。开启“分级告警开关”后,仅支持“每天”。
- 每天
- 每周
- 其他
每天
添加日期
仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。
-
阈值设置
起止时间:设置规则运行的具体时间范围。
00:00 - 23:59
阈值:设置规则监控指标的阈值。
85
- 添加新规则
屏蔽指定告警上报
- 参考访问FusionInsight Manager(MRS 3.x及之后版本)登录MRS集群的FusionInsight Manager界面。
- 选择。
- 在“屏蔽设置”区域,选择指定的服务或模块。
- 单击待操作告警对应“操作”列的“屏蔽”,在弹出的对话框中单击“确定”,修改告警的屏蔽状态为“屏蔽”。图3 屏蔽告警


- 可以在屏蔽列表上方筛选指定的告警。
- 如果需要取消屏蔽,可以单击指定告警后的“取消屏蔽”,在弹出的对话框中单击“确定”,修改告警的屏蔽状态为“显示”。
- 如果需要一次操作多个告警,可以勾选多个待操作的告警后,单击列表上方的“屏蔽”或“取消屏蔽”。
常见问题
- 如何查看当前集群未清除告警?
- 登录MRS管理控制台。
- 单击待操作的集群名称,选择“告警管理”页签。
- 单击“高级搜索”,将“告警状态”设置为“未清除”,单击“搜索”。
- 界面将显示当前集群未清除的告警。
- 集群发生告警后如何清除?
集群发生告警后,可以查看对应告警的帮助文档进行处理。帮助文档查看入口如下:
- 管理控制台:登录MRS管理控制台,单击待操作的集群名称,选择“告警管理”页签,在告警列表中单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。
- Manager页面:登录Manager页面,选择“运维 > 告警 > 告警”,单击对应操作列的“查看帮助”。然后参考对应告警帮助文档处理步骤进行处理。
监控指标参考
FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标、表3表示组件可配置阈值的指标。
下表中的“默认阈值”参数值以未开启分级告警开关为例,具体以实际界面显示为准。
监控指标组名称 | 监控指标名称 | 告警ID | 告警名称 | 告警对系统的影响 | 默认阈值 |
|---|---|---|---|---|---|
CPU | 主机CPU使用率 | 12016 | CPU使用率超过阈值 | 业务进程响应缓慢或不可用。 | 90.0% |
磁盘 | 磁盘使用率 | 12017 | 磁盘容量不足 | 业务进程不可用。 | 90.0% |
磁盘inode使用率 | 12051 | 磁盘Inode使用率超过阈值 | 文件系统无法正常写入。 | 80.0% | |
内存 | 主机内存使用率 | 12018 | 内存使用率超过阈值 | 业务进程响应缓慢或不可用。 | 90.0% |
主机状态 | 主机文件句柄使用率 | 12053 | 主机文件句柄使用率超过阈值 | 系统应用无法打开文件、网络等IO操作,程序异常。 | 80.0% |
主机PID使用率 | 12027 | 主机PID使用率超过阈值 | 无法分配PID给新的业务进程,业务进程不可用。 | 90% | |
网络状态 | TCP临时端口使用率 | 12052 | TCP临时端口使用率超过阈值 | 主机上业务无法发起对外建立连接,业务中断。 | 80.0% |
网络读信息 | 读包错误率 | 12047 | 网络读包错误率超过阈值 | 通信闪断,业务超时。 | 0.5% |
读包丢包率 | 12045 | 网络读包丢包率超过阈值 | 业务性能下降或者个别业务出现超时问题。 | 0.5% | |
读吞吐率 | 12049 | 网络读吞吐率超过阈值 | 业务系统运行不正常或不可用。 | 80% | |
网络写信息 | 写包错误率 | 12048 | 网络写包错误率超过阈值 | 通信闪断,业务超时。 | 0.5% |
写包丢包率 | 12046 | 网络写包丢包率超过阈值 | 业务性能下降或者个别业务出现超时问题。 | 0.5% | |
写吞吐率 | 12050 | 网络写吞吐率超过阈值 | 业务系统运行不正常或不可用。 | 80% | |
进程 | D状态和Z状态进程总数 | 12028 | 主机D状态和Z状态进程数超过阈值 | 占用系统资源,业务进程响应变慢。 | 0 |
omm进程使用率 | 12061 | 进程使用率超过阈值 | 无法切换到omm用户。无法创建新的omm线程。 | 90 |
服务 | 监控指标名称 | 告警ID | 告警名称 | 告警对系统的影响 | 默认阈值 |
|---|---|---|---|---|---|
DBService | 数据库连接数使用率 | 27005 | 数据库连接数使用率超过阈值 | 可能导致上层服务无法连接DBService的数据库,影响正常业务。 | 90% |
数据目录磁盘空间使用率 | 27006 | 数据目录磁盘空间使用率超过阈值 | 业务进程不可用。 当数据目录磁盘空间使用率超过90%时,数据库进入只读模式并发送告警“数据库进入只读模式”,业务数据丢失。 | 80% | |
Flume | Flume堆内存使用率 | 24006 | Flume Server堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95.0% |
Flume直接内存使用率 | 24007 | Flume Server直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
Flume非堆内存使用率 | 24008 | Flume Server非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80.0% | |
Flume垃圾回收(GC)总时间 | 24009 | Flume Server垃圾回收(GC)时间超过阈值 | 导致Flume数据传输效率低下。 | 12000ms | |
HBase | GC中回收old区所花时长 | 19007 | HBase GC时间超出阈值 | 老年代GC时间超出阈值,会影响到HBase数据的读写。 | 5000ms |
RegionServer直接内存使用率统计 | 19009 | HBase服务进程直接内存使用率超出阈值 | HBase可用的直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
RegionServer堆内存使用率统计 | 19008 | HBase服务进程堆内存使用率超出阈值 | HBase可用内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
HMaster直接内存使用率统计 | 19009 | HBase服务进程直接内存使用率超出阈值 | HBase可用的直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
HMaster堆内存使用率统计 | 19008 | HBase服务进程堆内存使用率超出阈值 | HBase可用内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
单个RegionServer的region数目 | 19011 | RegionServer的Region数量超出阈值 | RegionServer的Region数超出阈值,会影响HBase的数据读写性能。 | 2000 | |
处在RIT状态达到阈值时长的region数 | 19013 | region处在RIT状态的时长超过阈值。 | 表的部分数据丢失或不可用。 | 1 | |
RegionServer的handler使用 | 19021 | RegionServer活跃handler数超过阈值 | RegionServer的handler使用率超出阈值,会影响RegionServer对外提供服务的能力,如果集群的大部分RegionServer的handler使用率超过阈值,可导致HBase无法对外提供服务。 | 90% | |
容灾同步失败次数 | 19006 | HBase容灾同步失败 | 无法同步集群中HBase的数据到备集群,导致主备集群数据不一致。 | 1 | |
主集群等待同步的日志文件数量 | 19020 | HBase容灾等待同步的wal文件数量超过阈值 | RegionServer等待同步的wal文件数量超出阈值,会影响HBase使用的znode超出阈值,影响HBase服务状态。 | 128 | |
主集群等待同步的HFile文件数量 | 19019 | HBase容灾等待同步的HFile文件数量超过阈值 | RegionServer等待同步的HFile文件数量超出阈值,会影响HBase使用的znode超出阈值,影响HBase服务状态。 | 128 | |
Compaction操作队列大小 | 19018 | HBase合并队列超出阈值 | 产生该告警表示HBase服务的compaction队列长度已经超过规定的阈值,如果不及时处理,可能会导致集群性能下降,影响数据读写。 | 100 | |
HDFS | HDFS缺失的块数量 | 14003 | 丢失的HDFS块数量超过阈值 | HDFS存储数据丢失,HDFS可能会进入安全模式,无法提供写服务。丢失的块数据无法恢复。 | 0 |
需要复制副本的块总数 | 14028 | 待补齐的块数超过阈值 | HDFS存储数据丢失,HDFS可能会进入安全模式,无法提供写服务。丢失的块数据无法恢复。 | 1000 | |
主NameNode RPC处理平均时间 | 14021 | NameNode RPC处理平均时间超过阈值 | NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求,表现为访问HDFS服务的业务运行缓慢,严重时会导致HDFS服务不可用。 | 100ms | |
主NameNode RPC队列平均时间 | 14022 | NameNode RPC队列平均时间超过阈值 | NameNode无法及时处理来自HDFS客户端、依赖于HDFS的上层服务、DataNode等的RPC请求,表现为访问HDFS服务的业务运行缓慢,严重时会导致HDFS服务不可用。 | 200ms | |
HDFS磁盘空间使用率 | 14001 | HDFS磁盘空间使用率超过阈值 | HDFS集群磁盘容量不足,会影响到HDFS的数据写入。 | 80% | |
DataNode磁盘空间使用率 | 14002 | DataNode磁盘空间使用率超过阈值 | DataNode容量不足,会影响到HDFS的数据写入。 | 80% | |
总副本预留磁盘空间所占比率 | 14023 | 总副本预留磁盘空间所占比率超过阈值 | HDFS集群磁盘容量不足,会影响到HDFS的数据写入。如果DataNode的剩余空间都已经给副本预留,则写入HDFS数据失败。 | 90% | |
故障的DataNode总数 | 14009 | Dead DataNode数量超过阈值 | 故障状态的DataNode节点无法提供HDFS服务。 | 3 | |
NameNode非堆内存使用百分比统计 | 14018 | NameNode非堆内存使用率超过阈值 | HDFS NameNode非堆内存使用率过高,会影响HDFS的数据读写性能。 | 90% | |
NameNode直接内存使用百分比统计 | 14017 | NameNode直接内存使用率超过阈值 | NameNode可用直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
NameNode堆内存使用百分比统计 | 14007 | NameNode堆内存使用率超过阈值 | HDFS NameNode堆内存使用率过高,会影响HDFS的数据读写性能。 | 95% | |
DataNode直接内存使用百分比统计 | 14016 | DataNode直接内存使用率超过阈值 | DataNode可用直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
DataNode堆内存使用百分比统计 | 14008 | DataNode堆内存使用率超过阈值 | HDFS DataNode堆内存使用率过高,会影响到HDFS的数据读写性能。 | 95% | |
DataNode非堆内存使用百分比统计 | 14019 | DataNode非堆内存使用率超过阈值 | HDFS DataNode非堆内存使用率过高,会影响HDFS的数据读写性能。 | 90% | |
垃圾回收时间统计(GC)(NameNode) | 14014 | NameNode进程垃圾回收(GC)时间超过阈值 | NameNode进程的垃圾回收时间过长,可能影响该NameNode进程正常提供服务。 | 12000ms | |
垃圾回收时间统计(GC)(DataNode) | 14015 | DataNode进程垃圾回收(GC)时间超过阈值 | DataNode进程的垃圾回收时间过长,可能影响该DataNode进程正常提供服务。 | 12000ms | |
Hive | Hive执行成功的HQL百分比 | 16002 | Hive SQL执行成功率低于阈值 | 系统执行业务能力过低,无法正常响应客户请求。 | 90.0% |
Background线程使用率 | 16003 | Background线程使用率超过阈值 | 后台Background线程数过多,导致新提交的任务无法及时运行。 | 90% | |
MetaStore的总GC时间 | 16007 | Hive GC时间超出阈值 | GC时间超出阈值,会影响到Hive数据的读写。 | 12000ms | |
HiveServer的总GC时间 | 16007 | Hive GC时间超出阈值 | GC时间超出阈值,会影响到Hive数据的读写。 | 12000ms | |
Hive已经使用的HDFS空间占可使用空间的百分比 | 16001 | Hive数据仓库空间使用率超过阈值 | 系统可能无法正常写入数据,导致部分数据丢失。 | 85.0% | |
MetaStore直接内存使用率统计 | 16006 | Hive服务进程直接内存使用超出阈值 | Hive直接内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 | 95% | |
MetaStore非堆内存使用率统计 | 16008 | Hive服务进程非堆内存使用超出阈值 | Hive非堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 | 95% | |
MetaStore堆内存使用率统计 | 16005 | Hive服务进程堆内存使用超出阈值 | Hive堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 | 95% | |
HiveServer直接内存使用率统计 | 16006 | Hive服务进程直接内存使用超出阈值 | Hive直接内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 | 95% | |
HiveServer非堆内存使用率统计 | 16008 | Hive服务进程非堆内存使用超出阈值 | Hive非堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 | 95% | |
HiveServer堆内存使用率统计 | 16005 | Hive服务进程堆内存使用超出阈值 | Hive堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。 | 95% | |
连接到HiveServer的session数占最大允许session数的百分比 | 16000 | 连接到HiveServer的session数占最大允许数的百分比超过阈值 | 发生连接数告警时,表示连接到HiveServer的session数过多,将会导致无法建立新的连接。 | 90.0% | |
Kafka | 未完全同步的Partition百分比 | 38006 | Kafka未完全同步的Partition百分比超过阈值 | Kafka服务未完全同步的Partition数过多,会影响服务的可靠性,一旦发生leader切换,可能会导致丢数据。 | 50% |
broker上用户连接数使用率 | 38011 | Broker上用户连接数使用率超过设定阈值 | 当同一个用户连接数太多时,产生告警的用户将无法与Broker建立新的连接。 | 80% | |
Broker磁盘使用率 | 38001 | Kafka磁盘容量不足 | 磁盘容量不足会导致Kafka写入数据失败。 | 80.0% | |
Broker磁盘IO使用率 | 38009 | Broker磁盘IO繁忙 | Partition所在的磁盘分区IO过于繁忙,产生告警的Kafka Topic上可能无法写入数据。 | 80% | |
Broker每分钟的垃圾回收时间统计(GC) | 38005 | Broker进程垃圾回收(GC)时间超过阈值 | Broker进程的垃圾回收时间过长,可能影响该Broker进程正常提供服务。 | 12000ms | |
Kafka堆内存使用率 | 38002 | Kafka堆内存使用率超过阈值 | Kafka可用内存不足,可能会造成内存溢出导致服务崩溃。 | 95% | |
Kafka直接内存使用率 | 38004 | Kafka直接内存使用率超过阈值 | Kafka可用直接内存不足,可能会造成内存溢出导致服务崩溃。 | 95% | |
Loader | Loader堆内存使用率 | 23004 | Loader堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95% |
Loader直接内存使用率统计 | 23006 | Loader直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
Loader非堆内存使用率 | 23005 | Loader非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80% | |
Loader的总GC时间 | 23007 | Loader进程垃圾回收(GC)时间超过阈值 | 导致Loader服务响应缓慢。 | 12000ms | |
Mapreduce | 垃圾回收时间统计(GC) | 18012 | JobHistoryServer进程垃圾回收(GC)时间超过阈值 | JobHistoryServer进程的垃圾回收时间过长,可能影响该JobHistoryServer进程正常提供服务。 | 12000ms |
JobHistoryServer直接内存使用百分比统计 | 18015 | JobHistoryServer直接内存使用率超过阈值 | MapReduce可用直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
JobHistoryServer非堆内存使用百分比统计 | 18019 | JobHistoryServer非堆内存使用率超过阈值 | MapReduce JobHistoryServer非堆内存使用率过高,会影响MapReduce任务提交和运行的性能,甚至造成内存溢出导致MapReduce服务不可用。 | 90% | |
JobHistoryServer堆内存使用百分比统计 | 18009 | JobHistoryServer堆内存使用率超过阈值 | Mapreduce JobHistoryServer堆内存使用率过高,会影响Mapreduce服务日志归档的性能,甚至造成内存溢出导致Mapreduce服务不可用。 | 95% | |
Oozie | Oozie堆内存使用率 | 17004 | Oozie堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95.0% |
Oozie直接内存使用率 | 17006 | Oozie直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
Oozie非堆内存使用率 | 17005 | Oozie非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80% | |
Oozie垃圾回收(GC)总时间 | 17007 | Oozie垃圾回收(GC)时间超过阈值 | 导致Oozie提交任务响应变慢。 | 12000ms | |
Spark2x | JDBCServer2x堆内存使用率统计 | 43010 | JDBCServer2x进程堆内存使用超出阈值 | JDBCServer2x进程堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。 | 95% |
JDBCServer2x直接内存使用率统计 | 43012 | JDBCServer2x进程直接内存使用超出阈值 | JDBCServer2x进程直接内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。 | 95% | |
JDBCServer2x非堆内存使用率统计 | 43011 | JDBCServer2x进程非堆内存使用超出阈值 | JDBCServer2x进程非堆内存使用率过高,会影响JDBCServer2x进程运行的性能,甚至造成内存溢出导致JDBCServer2x进程不可用。 | 95% | |
JobHistory2x直接内存使用率统计 | 43008 | JobHistory2x进程直接内存使用超出阈值 | JobHistory2x进程直接内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用。 | 95% | |
JobHistory2x非堆内存使用率统计 | 43007 | JobHistory2x进程非堆内存使用超出阈值 | JobHistory2x进程非堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用。 | 95% | |
JobHistory2x堆内存使用率统计 | 43006 | JobHistory2x进程堆内存使用超出阈值 | JobHistory2x进程堆内存使用率过高,会影响JobHistory2x进程运行的性能,甚至造成内存溢出导致JobHistory2x进程不可用。 | 95% | |
IndexServer2x直接内存使用率统计 | 43021 | IndexServer2x进程直接内存使用超出阈值 | IndexServer2x进程直接内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用。 | 95% | |
IndexServer2x堆内存使用率统计 | 43019 | IndexServer2x进程堆内存使用超出阈值 | IndexServer2x进程堆内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用。 | 95% | |
IndexServer2x非堆内存使用率统计 | 43020 | IndexServer2x进程非堆内存使用超出阈值 | IndexServer2x进程非堆内存使用率过高,会影响IndexServer2x进程运行的性能,甚至造成内存溢出导致IndexServer2x进程不可用。 | 95% | |
JDBCServer2x的Full GC次数 | 43017 | JDBCServer2x进程Full GC次数超出阈值 | GC次数超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用。 | 12 | |
JobHistory2x的Full GC次数 | 43018 | JobHistory2x进程Full GC次数超出阈值 | GC次数超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用。 | 12 | |
IndexServer2x的Full GC次数 | 43023 | IndexServer2x进程Full GC次数超出阈值 | GC次数超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可用。 | 12 | |
JDBCServer2x的总GC时间 | 43013 | JDBCServer2x进程GC时间超出阈值 | GC时间超出阈值,会影响JDBCServer2x进程运行的性能,甚至造成JDBCServer2x进程不可用。 | 12000ms | |
JobHistory2x的总GC时间 | 43009 | JobHistory2x进程GC时间超出阈值 | GC时间超出阈值,会影响JobHistory2x进程运行的性能,甚至造成JobHistory2x进程不可用。 | 12000ms | |
IndexServer2x的总GC时间 | 43022 | IndexServer2x进程GC时间超出阈值 | GC时间超出阈值,会影响IndexServer2x进程运行的性能,甚至造成IndexServer2x进程不可用。 | 12000ms | |
Storm | Supervisor数 | 26052 | Storm服务可用Supervisor数量小于阈值 | 集群已经存在的任务无法运行;集群可接收新的Storm任务,但是无法运行。 | 1 |
已用Slot比率 | 26053 | Storm Slot使用率超过阈值 | 用户无法执行新的Storm任务。 | 80.0% | |
Nimbus堆内存使用率 | 26054 | Nimbus堆内存使用率超过阈值 | Storm Nimbus堆内存使用率过高时可能造成频繁GC,甚至造成内存溢出,进而影响Storm任务提交。 | 80% | |
Yarn | NodeManager直接内存使用百分比统计 | 18014 | NodeManager直接内存使用率超过阈值 | NodeManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% |
NodeManager堆内存使用百分比统计 | 18018 | NodeManager堆内存使用率超过阈值 | NodeManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至可能会造成内存溢出导致Yarn服务崩溃。 | 95% | |
NodeManager非堆内存使用百分比统计 | 18017 | NodeManager非堆内存使用率超过阈值 | Yarn NodeManager非堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。 | 90% | |
ResourceManager直接内存使用百分比统计 | 18013 | ResourceManager直接内存使用率超过阈值 | ResourceManager可用直接内存不足,可能会造成内存溢出导致服务崩溃。 | 90% | |
ResourceManager堆内存使用百分比统计 | 18008 | ResourceManager堆内存使用率超过阈值 | Yarn ResourceManager堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。 | 95% | |
ResourceManager非堆内存使用百分比统计 | 18016 | ResourceManager非堆内存使用率超过阈值 | Yarn ResourceManager非堆内存使用率过高,会影响Yarn任务提交和运行的性能,甚至造成内存溢出导致Yarn服务不可用。 | 90% | |
垃圾回收时间统计(GC) (NodeManager) | 18011 | NodeManager进程垃圾回收(GC)时间超过阈值 | NodeManager进程的垃圾回收时间过长,可能影响该NodeManager进程正常提供服务。 | 12000ms | |
垃圾回收时间统计(GC)(ResourceManager) | 18010 | ResourceManager进程垃圾回收(GC)时间超过阈值 | ResourceManager进程的垃圾回收时间过长,可能影响该ResourceManager进程正常提供服务。 | 12000ms | |
root队列下失败的任务数 | 18026 | Yarn上运行失败的任务数超过阈值 | 大量应用任务运行失败。 运行失败的任务需要重新提交。 | 50 | |
root队列下被杀死的任务数 | 18025 | Yarn被终止的任务数超过阈值 | 大量应用任务被强制终止。 | 50 | |
挂起的内存量 | 18024 | Yarn任务挂起内存超过阈值 | 应用任务结束时间变长。 新应用提交后长时间无法运行。 | 83886080MB | |
正在挂起的任务 | 18023 | Yarn任务挂起数超过阈值 | 应用任务结束时间变长。 新应用提交后长时间无法运行。 | 60 | |
ZooKeeper | ZooKeeper连接数使用率 | 13001 | ZooKeeper可用连接数不足 | ZooKeeper可用连接数不足,当连接率超过100%时无法处理外部连接。 | 80% |
ZooKeeper堆内存使用率 | 13004 | ZooKeeper堆内存使用率超过阈值 | ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。 | 95% | |
ZooKeeper直接内存使用率 | 13002 | ZooKeeper直接内存使用率超过阈值 | ZooKeeper可用内存不足,可能会造成内存溢出导致服务崩溃。 | 80% | |
ZooKeeper每分钟的垃圾回收时间统计(GC) | 13003 | ZooKeeper进程垃圾回收(GC)时间超过阈值 | ZooKeeper进程的垃圾回收时间过长,可能影响该ZooKeeper进程正常提供服务。 | 12000ms | |
Ranger | UserSync垃圾回收(GC)时间 | 45284 | UserSync垃圾回收(GC)时间超过阈值 | 导致UserSync响应缓慢。 | 12000ms |
PolicySync垃圾回收(GC)时间 | 45292 | PolicySync垃圾回收(GC)时间超过阈值 | 导致PolicySync响应缓慢。 | 12000ms | |
RangerAdmin垃圾回收(GC)时间 | 45280 | RangerAdmin垃圾回收(GC)时间超过阈值 | 导致RangerAdmin响应缓慢。 | 12000ms | |
TagSync垃圾回收(GC)时间 | 45288 | TagSync垃圾回收(GC)时间超过阈值 | 导致TagSync响应缓慢。 | 12000ms | |
UserSync非堆内存使用率 | 45283 | UserSync非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80.0% | |
UserSync直接内存使用率 | 45282 | UserSync直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
UserSync堆内存使用率 | 45281 | UserSync堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95.0% | |
PolicySync直接内存使用率 | 45290 | PolicySync直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
PolicySync堆内存使用率 | 45289 | PolicySync堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95.0% | |
PolicySync非堆内存使用率 | 45291 | PolicySync非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80.0% | |
RangerAdmin非堆内存使用率 | 45279 | RangerAdmin非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80.0% | |
RangerAdmin堆内存使用率 | 45277 | RangerAdmin堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95.0% | |
RangerAdmin直接内存使用率 | 45278 | RangerAdmin直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
TagSync直接内存使用率 | 45286 | TagSync直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 80.0% | |
TagSync非堆内存使用率 | 45287 | TagSync非堆内存使用率超过阈值 | 非堆内存溢出可能导致服务崩溃。 | 80.0% | |
TagSync堆内存使用率 | 45285 | TagSync堆内存使用率超过阈值 | 堆内存溢出可能导致服务崩溃。 | 95.0% | |
ClickHouse | ClickHouse服务在ZooKeeper的数量配额使用率 | 45426 | ClickHouse服务在ZooKeeper的数量配额使用率超过阈值 | ClickHouse在ZooKeeper的数量配额超过阈值后,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 | 90% |
ClickHouse服务在ZooKeeper的容量配额使用率 | 45427 | ClickHouse服务在ZooKeeper的容量配额使用率超过阈值 | ClickHouse在ZooKeeper的容量配额超过阈值后,无法通过FusionInsight Manager对ClickHouse进行集群操作,无法使用ClickHouse服务功能。 | 90% | |
IoTDB | 合并任务 (空间内合并) 的最大时延 | 45594 | IoTDBServer空间内合并执行时长超过阈值 | 空间内合并任务超时,会阻塞写数据,影响写操作的性能。 | 300000ms |
合并任务 (Flush) 的最大时延 | 45593 | IoTDBServer Flush执行时长超过阈值 | Flush任务超时,会阻塞写数据,影响写操作的性能。 | 300000ms | |
合并任务 (跨空间合并) 的最大时延 | 45595 | IoTDBServer跨空间合并执行时长超过阈值 | 跨空间合并任务超时,会阻塞写数据,影响写操作的性能。 | 300000ms | |
RPC (executeStatement) 的最大时延 | 45592 | IoTDBServer RPC执行时长超过阈值 | IoTDBServer进程RPC过高,会影响IoTDBServer进程运行的性能。 | 10000s | |
IoTDBServer垃圾回收(GC)总时间 | 45587 | IoTDBServer垃圾回收(GC)时间超过阈值 | IoTDBServer进程的垃圾回收(GC)时间过长,可能影响该IoTDBServer进程正常提供服务。 | 12000ms | |
ConfigNode垃圾回收(GC)总时间 | 45590 | ConfigNode垃圾回收(GC)时间超过阈值 | ConfigNode进程的垃圾回收(GC)时间过长,可能影响该ConfigNode进程正常提供服务。 | 12000ms | |
IoTDBServer堆内存使用率 | 45586 | IoTDBServer堆内存使用率超过阈值 | IoTDBServer进程堆内存使用率过高,会影响IoTDBServer进程运行的性能,甚至造成内存溢出导致IoTDBServer进程不可用。 | 90% | |
IoTDBServer直接内存使用率 | 45588 | IoTDBServer直接内存使用率超过阈值 | 直接内存溢出可能导致服务崩溃。 | 90% | |
ConfigNode堆内存使用率 | 45589 | ConfigNode堆内存使用率超过阈值 | ConfigNode进程堆内存使用率过高,会影响ConfigNode进程运行的性能,甚至造成内存溢出导致ConfigNode进程不可用。 | 90% | |
ConfigNode直接内存使用率 | 45591 | ConfigNode直接内存使用率超过阈值 | 直接内存溢出可能导致IoTDB实例不可用。 | 90% |


