配置MRS集群告警阈值
集群Manager支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发一条告警信息,并在告警页面中出现此告警信息。
配置集群阈值告警(MRS 3.x版本)
- 登录MRS集群Manager界面。
登录集群Manager界面请参考访问MRS集群Manager。
- 选择。
- 在监控分类中选择集群内指定主机或服务的监控指标。 图1 配置指标阈值
例如“主机内存使用率”,界面显示此阈值的信息:- 发送告警开关开启时表示将触发告警。
- “分级告警开关”开启时启用分级告警,系统会根据实时监控指标值和分级阈值,动态上报相应级别的告警。(MRS 3.3.0及之后版本支持该功能)
- “告警ID”和“告警名称”包含阈值将触发的告警信息。
- Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。
- “检查周期(秒)”表示Manager检查监控指标的时间间隔。
- 规则列表中的条目为触发告警的规则。
- 单击“添加规则”,可以新增指标的监控行为。
表1 监控指标规则参数 参数
参数说明
示例
规则名称
告警的规则名称。
CPU_MAX
告警级别
选择告警级别。开启“分级告警开关”后,需在“阈值设置”参数中配置告警级别。告警级别包括:
- 紧急:通常表示系统出现严重故障或问题,可能影响集群正常运行或导致数据丢失。适用于关键指标的极端情况,如磁盘用率超过95%、内存使用率超过95%。
- 重要:通常表示系统性能或可用性受到显著影响,需要尽快处理。
- 次要:通常表示系统出现小问题,但不影响整体运行。需关注相关问题,但处理优先级较低。
- 提示:通常表示仅用于信息展示或信息提示的作用,标识这件事情的发生。
重要
阈值类型
选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。
最大值
日期
设置规则生效的日期,即哪一天运行规则。取值范围为:
- 每天
- 每周
- 其他
开启“分级告警开关”后,仅支持“每天”。
每天
添加日期
仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。
09-30
阈值设置
设置规则运行的具体时间范围。
开启“分级告警开关”后,不支持设置起止时间,默认为00:00-23:59。
起止时间:00:00-8:30
设置规则监控指标的阈值。
开启“分级告警开关”后,集群支持根据不同的阈值设置不同的告警级别。
支持单击
设置多个阈值时间条件,或单击
删除。阈值:10
- 单击“确定”保存规则。
- 在新添加规则所在的行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。
当前已创建的规则单击“取消应用”后,才能应用新规则。
- 登录MRS集群Manager界面。
登录集群Manager界面请参考访问MRS集群Manager。
- 单击“系统设置”。
- 在“配置”区域“监控和告警配置”下,单击“阈值配置”,依据规划选择监控指标并设置其基线。
- 单击某一指标例如“CPU使用率”,单击“添加规则”。
- 在“配置”对话框中填写监控指标规则参数。
表2 监控指标规则参数 参数
参数说明
示例
规则名称
告警的规则名称。
CPU_MAX
参考日期
查看某指标的历史参考数据。
2014/11/06
阈值类型
选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。
最大值
告警级别
告警级别,包括:
- 致命:表示系统出现严重故障或问题,可能影响集群正常运行或导致数据丢失。
- 严重:表示系统性能或可用性受到显著影响,需要尽快处理。
- 一般:表示系统出现小问题,但不影响整体运行。需关注相关问题,但处理优先级较低。
- 提示:表示仅用于信息展示或信息提示的作用,标识这件事情的发生。
重要
时间范围
设置规则生效时监控指标的具体时间段。
从00:00到23:59
阈值
设置规则监控指标的阈值。
设置数值80
日期
设置规则生效的日期类型,包括:
- 工作日
- 周末
- 其它
工作日
添加日期
日期选择“其他”时该参数生效。可选择多个日期。
11/30
- 单击“确定”。界面右上角弹出提示“模板保存成功。”。
“发送告警”默认已勾选。Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。“检查周期(秒)”表示Manager检查监控指标的时间间隔。
- 在新添加规则所在的行,单击“操作”下的“应用”,界面右上角弹出提示规则xx应用成功,完成添加。单击“操作”下的“取消应用”,界面右上角弹出提示规则xx取消成功。
阈值告警指标参考
FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表3表示节点中可配置阈值的指标、表4表示组件可配置阈值的指标。
MRS 3.3.0及之后版本的Manager界面中,部分组件告警支持分级上报告警,不同告警级别对应阈值不同,具体以Manager实际配置界面为准。
| 监控指标组名称 | 监控指标名称 | 指标含义 | 默认阈值 |
|---|---|---|---|
| CPU | 主机CPU使用率 | 描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。 | 90.0% |
| 磁盘 | 磁盘使用率 | 描述主机磁盘的使用率。 | 90.0% |
| 磁盘inode使用率 | 统计采集周期内磁盘inode使用率。 | 80.0% | |
| 内存 | 主机内存使用率 | 统计当前时间点的内存平均使用率。 | 90.0% |
| 主机状态 | 主机文件句柄使用率 | 统计采集周期内该主机的文件句柄使用率。 | 80.0% |
| 主机PID使用率 | 主机PID使用率。 | 90% | |
| 网络状态 | TCP临时端口使用率 | 统计采集周期内该主机的TCP临时端口使用率。 | 80.0% |
| 网络读信息 | 读包错误率 | 统计采集周期内该主机上该网口的读包错误率。 | 0.5% |
| 读包丢包率 | 统计采集周期内该主机上该网口的读包丢包率。 | 0.5% | |
| 读吞吐率 | 统计周期内网口的平均读吞吐率(MAC层)。 | 80% | |
| 网络写信息 | 写包错误率 | 统计采集周期内该主机上该网口的写包错误率。 | 0.5% |
| 写包丢包率 | 统计采集周期内该主机上该网口的写包丢包率。 | 0.5% | |
| 写吞吐率 | 统计周期内网口的平均写吞吐率(MAC层)。 | 80% | |
| 进程 | D状态进程总数 | 统计周期内主机上D状态进程数量。 | 0 |
| omm进程使用率 | 统计周期内omm进程使用率。 | 90 |
| 服务 | 监控指标组名称 | 监控指标名称 | 指标含义 | 默认阈值 |
|---|---|---|---|---|
| DBService | 数据库 | 数据库连接数使用率 | 数据库连接数使用率统计。 | 90% |
| 数据目录磁盘空间使用率 | 数据目录磁盘空间使用率统计。 | 80% | ||
| Flume | Agent | Flume堆内存使用率 | Flume堆内存使用百分比统计。 | 95.0% |
| Flume直接内存使用率 | Flume直接内存使用百分比统计。 | 80.0% | ||
| Flume非堆内存使用率 | Flume非堆内存使用百分比统计。 | 80.0% | ||
| Flume垃圾回收(GC)总时间 | Flume垃圾回收(GC)总时间。 | 12000ms | ||
| HBase | GC | GC中回收old区所花时长 | RegionServer的总GC时间。 | 5000ms |
| GC中回收old区所花时长 | HMaster的总GC时间。 | 5000ms | ||
| CPU和内存 | RegionServer直接内存使用率统计 | RegionServer直接内存使用率统计。 | 90% | |
| RegionServer堆内存使用率统计 | RegionServer堆内存使用率统计。 | 90% | ||
| HMaster直接内存使用率统计 | HMaster直接内存使用率统计。 | 90% | ||
| HMaster堆内存使用率统计 | HMaster堆内存使用率统计。 | 90% | ||
| 服务 | 单个RegionServer的region数目 | 单个RegionServer的Region数目。 | 2000 | |
| 处在RIT状态达到阈值时长的region数 | 处在RIT状态达到阈值时长的region数。 | 1 | ||
| 容灾 | 容灾同步失败次数 | 同步容灾数据失败次数。 | 1 | |
| 主集群等待同步的日志文件数量 | 主集群等待同步的日志文件数量。 | 128 | ||
| 主集群等待同步的HFile文件数量 | 主集群等待同步的HFile文件数量。 | 128 | ||
| 队列 | Compaction操作队列大小 | Compaction操作队列大小。 | 100 | |
| HDFS | 文件和块 | HDFS缺失的块数量 | HDFS文件系统中缺少副本块数量。 | 0 |
| 需要复制副本的块总数 | NameNode需要复制副本的块总数。 | 1000 | ||
| RPC | 主NameNode RPC处理平均时间 | NameNode RPC处理平均时间。 | 100ms | |
| 主NameNode RPC队列平均时间 | NameNode RPC队列平均时间。 | 200ms | ||
| 磁盘 | HDFS磁盘空间使用率 | HDFS磁盘空间使用率。 | 80% | |
| DataNode磁盘空间使用率 | HDFS文件系统中DataNode可以使用的磁盘空间率。 | 80% | ||
| 总副本预留磁盘空间所占比率 | 总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。 | 90% | ||
| 资源 | 故障的DataNode总数 | 出故障的DataNode节点数量。 | 3 | |
| NameNode非堆内存使用百分比统计 | NameNode非堆内存使用百分比统计。 | 90% | ||
| NameNode直接内存使用百分比统计 | NameNode直接内存使用百分比统计。 | 90% | ||
| NameNode堆内存使用百分比统计 | NameNode堆内存使用百分比统计。 | 95% | ||
| DataNode直接内存使用百分比统计 | DataNode直接内存使用百分比统计。 | 90% | ||
| DataNode堆内存使用百分比统计 | DataNode堆内存使用百分比统计。 | 95% | ||
| DataNode非堆内存使用百分比统计 | DataNode非堆内存使用百分比统计。 | 90% | ||
| 垃圾回收 | 垃圾回收时间统计(GC) | NameNode每分钟的垃圾回收(GC)所占用的时间。 | 12000ms | |
| 垃圾回收时间统计(GC) | DataNode每分钟的垃圾回收(GC)所占用的时间。 | 12000ms | ||
| Hive | HQL | Hive执行成功的HQL百分比 | Hive执行成功的HQL百分比。 | 90.0% |
| Background | Background线程使用率 | Background线程使用率。 | 90% | |
| GC | MetaStore的总GC时间 | MetaStore的总GC时间。 | 12000ms | |
| HiveServer的总GC时间 | HiveServer的总GC时间。 | 12000ms | ||
| 容量 | Hive已经使用的HDFS空间占可使用空间的百分比 | Hive已经使用的HDFS空间占可使用空间的百分比。 | 85.0% | |
| CPU和内存 | MetaStore直接内存使用率统计 | MetaStore直接内存使用率统计。 | 95% | |
| MetaStore非堆内存使用率统计 | MetaStore非堆内存使用率统计。 | 95% | ||
| MetaStore堆内存使用率统计 | MetaStore堆内存使用率统计。 | 95% | ||
| HiveServer直接内存使用率统计 | HiveServer直接内存使用率统计。 | 95% | ||
| HiveServer非堆内存使用率统计 | HiveServer非堆内存使用率统计。 | 95% | ||
| HiveServer堆内存使用率统计 | HiveServer堆内存使用率统计。 | 95% | ||
| Session | 连接到HiveServer的session数占最大允许session数的百分比 | 连接到HiveServer的session数占最大允许session数的百分比。 | 90.0% | |
| Kafka | 分区 | 未完全同步的Partition百分比 | 未完全同步的Partition数占Partition总数的百分比。 | 50% |
| 其他 | Partition不可用百分比 | Kafka各个Topic的Partition不可用占比。 | 40% | |
| broker上用户连接数使用率 | broker上用户连接数使用率。 | 80% | ||
| 磁盘 | Broker磁盘使用率 | Broker数据目录所在磁盘的磁盘使用率。 | 80.0% | |
| Broker磁盘IO使用率 | Broker数据目录所在磁盘的磁盘IO使用率。 | 80% | ||
| 进程 | Broker每分钟的垃圾回收时间统计(GC) | Broker进程每分钟垃圾回收(GC)所占用的时间。 | 12000ms | |
| Kafka堆内存使用率 | Kafka堆内存使用百分比统计。 | 95% | ||
| Kafka直接内存使用率 | Kafka直接内存使用百分比统计。 | 95% | ||
| Loader | 内存 | Loader堆内存使用率 | Loader堆内存使用率。 | 95% |
| Loader直接内存使用率统计 | Loader直接内存使用率统计。 | 80.0% | ||
| Loader非堆内存使用率 | Loader非堆内存使用率。 | 80% | ||
| GC | Loader的总GC时间 | Loader的总GC时间。 | 12000ms | |
| Mapreduce | 垃圾回收 | 垃圾回收时间统计(GC) | 垃圾回收时间统计(GC)。 | 12000ms |
| 资源 | JobHistoryServer直接内存使用百分比统计 | JobHistoryServer直接内存使用百分比统计。 | 90% | |
| JobHistoryServer非堆内存使用百分比统计 | JobHistoryServer非堆内存使用百分比统计。 | 90% | ||
| JobHistoryServer堆内存使用百分比统计 | JobHistoryServer堆内存使用百分比统计。 | 95% | ||
| Oozie | 内存 | Oozie堆内存使用率 | Oozie堆内存使用率。 | 95.0% |
| Oozie直接内存使用率 | Oozie直接内存使用率。 | 80.0% | ||
| Oozie非堆内存使用率 | Oozie非堆内存使用率。 | 80% | ||
| GC | Oozie垃圾回收(GC)总时间 | Oozie垃圾回收(GC)总时间。 | 12000ms | |
| Spark/Spark2x | 内存 | JDBCServer2x堆内存使用率统计 | JDBCServer2x堆内存使用率统计。 | 95% |
| JDBCServer2x直接内存使用率统计 | JDBCServer2x直接内存使用率统计。 | 95% | ||
| JDBCServer2x非堆内存使用率统计 | JDBCServer2x非堆内存使用率统计 | 95% | ||
| JobHistory2x直接内存使用率统计 | JobHistory2x直接内存使用率统计。 | 95% | ||
| JobHistory2x非堆内存使用率统计 | JobHistory2x非堆内存使用率统计。 | 95% | ||
| JobHistory2x堆内存使用率统计 | JobHistory2x堆内存使用率统计。 | 95% | ||
| IndexServer2x直接内存使用率统计 | IndexServer2x直接内存使用率统计。 | 95% | ||
| IndexServer2x堆内存使用率统计 | IndexServer2x堆内存使用率统计。 | 95% | ||
| IndexServer2x非堆内存使用率统计 | IndexServer2x非堆内存使用率统计。 | 95% | ||
| GC次数 | JDBCServer2x的Full GC次数 | JDBCServer2x进程的Full GC次数。 | 12 | |
| JobHistory2x的Full GC次数 | JobHistory2x进程的Full GC次数。 | 12 | ||
| IndexServer2x的Full GC次数 | IndexServer2x进程的Full GC次数。 | 12 | ||
| GC时间 | JDBCServer2x的总GC时间 | JDBCServer2x的总GC时间。 | 12000ms | |
| JobHistory2x的总GC时间 | JobHistory2x的总GC时间。 | 12000ms | ||
| IndexServer2x的总GC时间 | IndexServer2x的总GC时间。 | 12000ms | ||
| Storm | 集群 | Supervisor数 | 统计周期内集群中可用的Supervisor数目。 | 1 |
| 已用Slot比率 | 统计周期内集群中可用的slot使用率。 | 80.0% | ||
| Nimbus | Nimbus堆内存使用率 | Nimbus堆内存使用百分比统计。 | 80% | |
| Yarn | 资源 | NodeManager直接内存使用百分比统计 | NodeManager直接内存使用百分比统计。 | 90% |
| NodeManager堆内存使用百分比统计 | NodeManager堆内存使用百分比统计。 | 95% | ||
| NodeManager非堆内存使用百分比统计 | NodeManager非堆内存使用百分比统计。 | 90% | ||
| ResourceManager直接内存使用百分比统计 | ResourceManager直接内存使用百分比统计。 | 90% | ||
| ResourceManager堆内存使用百分比统计 | ResourceManager堆内存使用百分比统计。 | 95% | ||
| ResourceManager非堆内存使用百分比统计 | ResourceManager非堆内存使用百分比统计。 | 90% | ||
| 垃圾回收 | 垃圾回收时间统计(GC) | NodeManager每分钟的垃圾回收(GC)所占用的时间。 | 12000ms | |
| 垃圾回收时间统计(GC) | ResourceManager每分钟的垃圾回收(GC)所占用的时间。 | 12000ms | ||
| 其他 | root队列下失败的任务数 | root队列下失败的任务数。 | 50 | |
| root队列下被杀死的任务数 | root队列下被杀死的任务数。 | 50 | ||
| CPU和内存 | 挂起的内存量 | 挂起的内存量。 | 83886080MB | |
| 任务 | 正在挂起的任务 | 正在挂起的任务。 | 60 | |
| ZooKeeper | 连接 | ZooKeeper连接数使用率 | ZooKeeper连接数使用百分比统计。 | 80% |
| CPU和内存 | ZooKeeper堆内存使用率 | ZooKeeper堆内存使用百分比统计。 | 95% | |
| ZooKeeper直接内存使用率 | ZooKeeper直接内存使用百分比统计。 | 80% | ||
| GC | ZooKeeper每分钟的垃圾回收时间统计(GC) | ZooKeeper每分钟的垃圾回收时间统计(GC)。 | 12000ms | |
| Ranger | GC | UserSync垃圾回收(GC)时间 | UserSync垃圾回收(GC)时间。 | 12000ms |
| RangerAdmin垃圾回收(GC)时间 | RangerAdmin垃圾回收(GC)时间。 | 12000ms | ||
| TagSync垃圾回收(GC)时间 | TagSync垃圾回收(GC)时间。 | 12000ms | ||
| CPU和内存 | UserSync非堆内存使用率 | UserSync非堆内存使用百分比统计。 | 80.0% | |
| UserSync直接内存使用率 | UserSync直接内存使用百分比统计。 | 80.0% | ||
| UserSync堆内存使用率 | UserSync堆内存使用百分比统计。 | 95.0% | ||
| RangerAdmin非堆内存使用率 | RangerAdmin非堆内存使用百分比统计。 | 80.0% | ||
| RangerAdmin堆内存使用率 | RangerAdmin堆内存使用百分比统计。 | 95.0% | ||
| RangerAdmin直接内存使用率 | RangerAdmin直接内存使用百分比统计。 | 80.0% | ||
| TagSync直接内存使用率 | TagSync直接内存使用百分比统计。 | 80.0% | ||
| TagSync非堆内存使用率 | TagSync非堆内存使用百分比统计。 | 80.0% | ||
| TagSync堆内存使用率 | TagSync堆内存使用百分比统计。 | 95.0% | ||
| ClickHouse | 集群配额 | ClickHouse服务在ZooKeeper的数量配额使用率 | ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。 | 90% |
| ClickHouse服务在ZooKeeper的容量配额使用率 | ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。 | 90% | ||
| IoTDB | GC | IoTDBServer垃圾回收时间 | IoTDBServer垃圾回收所占用的时间 | 12000ms |
| CPU和内存 | IoTDBServer堆内存使用率 | IoTDBServer堆内存使用百分比统计 | 90% | |
| IoTDBServer直接内存使用率 | IoTDBServer直接内存使用百分比统计 | 90% |