配置阈值
操作场景
FusionInsight Manager支持配置监控指标阈值用于关注各指标的健康情况,如果出现异常的数据并满足预设条件后,系统将会触发一条告警信息,并在告警页面中出现此告警信息。
操作步骤
- 登录FusionInsight Manager。
 - 选择。
 - 在监控分类中选择集群内指定主机或服务的监控指标。
    
    图1 配置指标阈值
    例如“主机内存使用率”,界面显示此阈值的信息:- 发送告警开关指示为
表示将触发告警。 - “告警ID”和“告警名称”包含阈值将触发的告警信息。
 - Manager会检查监控指标数值是否满足阈值条件,若连续检查且不满足的次数等于“平滑次数”设置的值则发送告警,支持自定义。
 - “检查周期(秒)”表示Manager检查监控指标的时间间隔。
 - 规则列表中的条目为触发告警的规则。
 
 - 发送告警开关指示为
 - 单击“添加规则”,可以新增指标的监控行为。
    
    
表1 监控指标规则参数 参数名
参数值
参数解释
规则名称
CPU_MAX(举例)
规则名称
告警级别
- 紧急
 - 重要
 - 次要
 - 提示
 
告警级别
- 紧急
 - 重要
 - 次要
 - 提示
 
阈值类型
- 最大值
 - 最小值
 
选择某指标的最大值或最小值,类型为“最大值”表示指标的实际值大于设置的阈值时系统将产生告警,类型为“最小值”表示指标的实际值小于设置的阈值时系统将产生告警。
日期
- 每天
 - 每周
 - 其他
 
设置规则生效的日期,即哪一天运行规则。
添加日期
09-30
仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。
阈值设置
起止时间:00:00-8:30
设置规则运行的具体时间范围。
阈值:10
设置规则监控指标的阈值
 
     支持单击
或
设置多个阈值时间条件。 - 单击“确定”保存规则。
 - 在新添加规则所在的行,单击“操作”中的“应用”,此时规则的“生效状态”变成“生效”。
    
    
当前已创建的规则单击“取消应用”后,才能应用新规则。
 
监控指标参考
FusionInsight Manager转告警监控指标可分为节点信息指标与集群服务指标。表2表示节点中可配置阈值的指标。
| 
        监控指标组名称  | 
      
        监控指标名称  | 
      
        指标含义  | 
      
        默认阈值  | 
     
|---|---|---|---|
| 
        CPU  | 
      
        主机CPU使用率  | 
      
        描述周期内当前集群的运算和控制能力,可通过观察该统计值,了解集群整体资源的使用情况。  | 
      
        90.0%  | 
     
| 
        磁盘  | 
      
        磁盘使用率  | 
      
        描述主机磁盘的使用率。  | 
      
        90.0%  | 
     
| 
        磁盘inode使用率  | 
      
        统计采集周期内磁盘inode使用率。  | 
      
        80.0%  | 
     |
| 
        内存  | 
      
        主机内存使用率  | 
      
        统计当前时间点的内存平均使用率。  | 
      
        90.0%  | 
     
| 
        主机状态  | 
      
        主机文件句柄使用率  | 
      
        统计采集周期内该主机的文件句柄使用率。  | 
      
        80.0%  | 
     
| 
        主机PID使用率  | 
      
        主机PID使用率。  | 
      
        90%  | 
     |
| 
        网络状态  | 
      
        TCP临时端口使用率  | 
      
        统计采集周期内该主机的TCP临时端口使用率。  | 
      
        80.0%  | 
     
| 
        网络读信息  | 
      
        读包错误率  | 
      
        统计采集周期内该主机上该网口的读包错误率。  | 
      
        0.5%  | 
     
| 
        读包丢包率  | 
      
        统计采集周期内该主机上该网口的读包丢包率。  | 
      
        0.5%  | 
     |
| 
        读吞吐率  | 
      
        统计周期内网口的平均读吞吐率(MAC层)。  | 
      
        80%  | 
     |
| 
        网络写信息  | 
      
        写包错误率  | 
      
        统计采集周期内该主机上该网口的写包错误率。  | 
      
        0.5%  | 
     
| 
        写包丢包率  | 
      
        统计采集周期内该主机上该网口的写包丢包率。  | 
      
        0.5%  | 
     |
| 
        写吞吐率  | 
      
        统计周期内网口的平均写吞吐率(MAC层)。  | 
      
        80%  | 
     |
| 
        进程  | 
      
        D状态进程总数  | 
      
        统计周期内主机上D状态进程数量。  | 
      
        0  | 
     
| 
        omm进程使用率  | 
      
        统计周期内omm进程使用率。  | 
      
        90  | 
     
| 
        服务  | 
      
        监控指标组名称  | 
      
        监控指标名称  | 
      
        指标含义  | 
      
        默认阈值  | 
     
|---|---|---|---|---|
| 
        DBService  | 
      
        数据库  | 
      
        数据库连接数使用率  | 
      
        数据库连接数使用率统计。  | 
      
        90%  | 
     
| 
        数据目录磁盘空间使用率  | 
      
        数据目录磁盘空间使用率统计。  | 
      
        80%  | 
     ||
| 
        Flume  | 
      
        Agent  | 
      
        Flume堆内存使用率  | 
      
        Flume堆内存使用百分比统计。  | 
      
        95.0%  | 
     
| 
        Flume直接内存使用率  | 
      
        Flume直接内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        Flume非堆内存使用率  | 
      
        Flume非堆内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        Flume垃圾回收(GC)总时间  | 
      
        Flume垃圾回收(GC)总时间。  | 
      
        12000ms  | 
     ||
| 
        HBase  | 
      
        GC  | 
      
        GC中回收old区所花时长  | 
      
        RegionServer的总GC时间。  | 
      
        5000ms  | 
     
| 
        GC中回收old区所花时长  | 
      
        HMaster的总GC时间。  | 
      
        5000ms  | 
     ||
| 
        CPU和内存  | 
      
        RegionServer直接内存使用率统计  | 
      
        RegionServer直接内存使用率统计。  | 
      
        90%  | 
     |
| 
        RegionServer堆内存使用率统计  | 
      
        RegionServer堆内存使用率统计。  | 
      
        90%  | 
     ||
| 
        HMaster直接内存使用率统计  | 
      
        HMaster直接内存使用率统计。  | 
      
        90%  | 
     ||
| 
        HMaster堆内存使用率统计  | 
      
        HMaster堆内存使用率统计。  | 
      
        90%  | 
     ||
| 
        服务  | 
      
        单个RegionServer的region数目  | 
      
        单个RegionServer的Region数目。  | 
      
        2000  | 
     |
| 
        处在RIT状态达到阈值时长的region数  | 
      
        处在RIT状态达到阈值时长的region数。  | 
      
        1  | 
     ||
| 
        容灾  | 
      
        容灾同步失败次数  | 
      
        同步容灾数据失败次数。  | 
      
        1  | 
     |
| 
        队列  | 
      
        Compaction操作队列大小  | 
      
        Compaction操作队列大小。  | 
      
        100  | 
     |
| 
        HDFS  | 
      
        文件和块  | 
      
        HDFS缺失的块数量  | 
      
        HDFS文件系统中缺少副本块数量。  | 
      
        0  | 
     
| 
        需要复制副本的块总数  | 
      
        NameNode需要复制副本的块总数。  | 
      
        1000  | 
     ||
| 
        RPC  | 
      
        主NameNode RPC处理平均时间  | 
      
        NameNode RPC处理平均时间。  | 
      
        100ms  | 
     |
| 
        主NameNode RPC队列平均时间  | 
      
        NameNode RPC队列平均时间。  | 
      
        200ms  | 
     ||
| 
        磁盘  | 
      
        HDFS磁盘空间使用率  | 
      
        HDFS磁盘空间使用率。  | 
      
        80%  | 
     |
| 
        DataNode磁盘空间使用率  | 
      
        HDFS文件系统中DataNode可以使用的磁盘空间率。  | 
      
        80%  | 
     ||
| 
        总副本预留磁盘空间所占比率  | 
      
        总副本预留磁盘空间占DataNode总未使用磁盘空间的百分比。  | 
      
        90%  | 
     ||
| 
        资源  | 
      
        故障的DataNode总数  | 
      
        出故障的DataNode节点数量。  | 
      
        3  | 
     |
| 
        NameNode非堆内存使用百分比统计  | 
      
        NameNode非堆内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        NameNode直接内存使用百分比统计  | 
      
        NameNode直接内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        NameNode堆内存使用百分比统计  | 
      
        NameNode堆内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        DataNode直接内存使用百分比统计  | 
      
        DataNode直接内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        DataNode堆内存使用百分比统计  | 
      
        DataNode堆内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        DataNode非堆内存使用百分比统计  | 
      
        DataNode非堆内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        垃圾回收  | 
      
        垃圾回收时间统计(GC)  | 
      
        NameNode每分钟的垃圾回收(GC)所占用的时间。  | 
      
        12000ms  | 
     |
| 
        垃圾回收时间统计(GC)  | 
      
        DataNode每分钟的垃圾回收(GC)所占用的时间。  | 
      
        12000ms  | 
     ||
| 
        Hive  | 
      
        HQL  | 
      
        Hive执行成功的HQL百分比  | 
      
        Hive执行成功的HQL百分比。  | 
      
        90.0%  | 
     
| 
        Background  | 
      
        Background线程使用率  | 
      
        Background线程使用率。  | 
      
        90%  | 
     |
| 
        GC  | 
      
        MetaStore的总GC时间  | 
      
        MetaStore的总GC时间。  | 
      
        12000ms  | 
     |
| 
        HiveServer的总GC时间  | 
      
        HiveServer的总GC时间。  | 
      
        12000ms  | 
     ||
| 
        容量  | 
      
        Hive已经使用的HDFS空间占可使用空间的百分比  | 
      
        Hive已经使用的HDFS空间占可使用空间的百分比。  | 
      
        85.0%  | 
     |
| 
        CPU和内存  | 
      
        MetaStore直接内存使用率统计  | 
      
        MetaStore直接内存使用率统计。  | 
      
        95%  | 
     |
| 
        MetaStore非堆内存使用率统计  | 
      
        MetaStore非堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        MetaStore堆内存使用率统计  | 
      
        MetaStore堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        HiveServer直接内存使用率统计  | 
      
        HiveServer直接内存使用率统计。  | 
      
        95%  | 
     ||
| 
        HiveServer非堆内存使用率统计  | 
      
        HiveServer非堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        HiveServer堆内存使用率统计  | 
      
        HiveServer堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        Session  | 
      
        连接到HiveServer的session数占最大允许session数的百分比  | 
      
        连接到HiveServer的session数占最大允许session数的百分比。  | 
      
        90.0%  | 
     |
| 
        Kafka  | 
      
        分区  | 
      
        未完全同步的Partition百分比  | 
      
        未完全同步的Partition数占Partition总数的百分比。  | 
      
        50%  | 
     
| 
        其他  | 
      
        Partition不可用百分比  | 
      
        Kafka各个Topic的Partition不可用占比。  | 
      
        40%  | 
     |
| 
        broker上用户连接数使用率  | 
      
        broker上用户连接数使用率。  | 
      
        80%  | 
     ||
| 
        磁盘  | 
      
        Broker磁盘使用率  | 
      
        Broker数据目录所在磁盘的磁盘使用率。  | 
      
        80.0%  | 
     |
| 
        进程  | 
      
        Broker每分钟的垃圾回收时间统计(GC)  | 
      
        Broker进程每分钟垃圾回收(GC)所占用的时间。  | 
      
        12000ms  | 
     |
| 
        Kafka堆内存使用率  | 
      
        Kafka堆内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        Kafka直接内存使用率  | 
      
        Kafka直接内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        Loader  | 
      
        内存  | 
      
        Loader堆内存使用率  | 
      
        Loader堆内存使用率。  | 
      
        95%  | 
     
| 
        Loader直接内存使用率统计  | 
      
        Loader直接内存使用率统计。  | 
      
        80.0%  | 
     ||
| 
        Loader非堆内存使用率  | 
      
        Loader非堆内存使用率。  | 
      
        80%  | 
     ||
| 
        GC  | 
      
        Loader的总GC时间  | 
      
        Loader的总GC时间。  | 
      
        12000ms  | 
     |
| 
        Mapreduce  | 
      
        垃圾回收  | 
      
        垃圾回收时间统计(GC)  | 
      
        垃圾回收时间统计(GC)。  | 
      
        12000ms  | 
     
| 
        资源  | 
      
        JobHistoryServer直接内存使用百分比统计  | 
      
        JobHistoryServer直接内存使用百分比统计。  | 
      
        90%  | 
     |
| 
        JobHistoryServer非堆内存使用百分比统计  | 
      
        JobHistoryServer非堆内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        JobHistoryServer堆内存使用百分比统计  | 
      
        JobHistoryServer堆内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        Oozie  | 
      
        内存  | 
      
        Oozie堆内存使用率  | 
      
        Oozie堆内存使用率。  | 
      
        95.0%  | 
     
| 
        Oozie直接内存使用率  | 
      
        Oozie直接内存使用率。  | 
      
        80.0%  | 
     ||
| 
        Oozie非堆内存使用率  | 
      
        Oozie非堆内存使用率。  | 
      
        80%  | 
     ||
| 
        GC  | 
      
        Oozie垃圾回收(GC)总时间  | 
      
        Oozie垃圾回收(GC)总时间。  | 
      
        12000ms  | 
     |
| 
        Spark2x  | 
      
        内存  | 
      
        JDBCServer2x堆内存使用率统计  | 
      
        JDBCServer2x堆内存使用率统计。  | 
      
        95%  | 
     
| 
        JDBCServer2x直接内存使用率统计  | 
      
        JDBCServer2x直接内存使用率统计。  | 
      
        95%  | 
     ||
| 
        JDBCServer2x非堆内存使用率统计  | 
      
        JDBCServer2x非堆内存使用率统计  | 
      
        95%  | 
     ||
| 
        JobHistory2x直接内存使用率统计  | 
      
        JobHistory2x直接内存使用率统计。  | 
      
        95%  | 
     ||
| 
        JobHistory2x非堆内存使用率统计  | 
      
        JobHistory2x非堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        JobHistory2x堆内存使用率统计  | 
      
        JobHistory2x堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        IndexServer2x直接内存使用率统计  | 
      
        IndexServer2x直接内存使用率统计。  | 
      
        95%  | 
     ||
| 
        IndexServer2x堆内存使用率统计  | 
      
        IndexServer2x堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        IndexServer2x非堆内存使用率统计  | 
      
        IndexServer2x非堆内存使用率统计。  | 
      
        95%  | 
     ||
| 
        GC次数  | 
      
        JDBCServer2x的Full GC次数  | 
      
        JDBCServer2x进程的Full GC次数。  | 
      
        12  | 
     |
| 
        JobHistory2x的Full GC次数  | 
      
        JobHistory2x进程的Full GC次数。  | 
      
        12  | 
     ||
| 
        IndexServer2x的Full GC次数  | 
      
        IndexServer2x进程的Full GC次数。  | 
      
        12  | 
     ||
| 
        GC时间  | 
      
        JDBCServer2x的总GC时间  | 
      
        JDBCServer2x的总GC时间。  | 
      
        12000ms  | 
     |
| 
        JobHistory2x的总GC时间  | 
      
        JobHistory2x的总GC时间。  | 
      
        12000ms  | 
     ||
| 
        IndexServer2x的总GC时间  | 
      
        IndexServer2x的总GC时间。  | 
      
        12000ms  | 
     ||
| 
        Storm  | 
      
        集群  | 
      
        Supervisor数  | 
      
        统计周期内集群中可用的Supervisor数目。  | 
      
        1  | 
     
| 
        已用Slot比率  | 
      
        统计周期内集群中可用的slot使用率。  | 
      
        80.0%  | 
     ||
| 
        Nimbus  | 
      
        Nimbus堆内存使用率  | 
      
        Nimbus堆内存使用百分比统计。  | 
      
        80%  | 
     |
| 
        Yarn  | 
      
        资源  | 
      
        NodeManager直接内存使用百分比统计  | 
      
        NodeManager直接内存使用百分比统计。  | 
      
        90%  | 
     
| 
        NodeManager堆内存使用百分比统计  | 
      
        NodeManager堆内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        NodeManager非堆内存使用百分比统计  | 
      
        NodeManager非堆内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        ResourceManager直接内存使用百分比统计  | 
      
        ResourceManager直接内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        ResourceManager堆内存使用百分比统计  | 
      
        ResourceManager堆内存使用百分比统计。  | 
      
        95%  | 
     ||
| 
        ResourceManager非堆内存使用百分比统计  | 
      
        ResourceManager非堆内存使用百分比统计。  | 
      
        90%  | 
     ||
| 
        垃圾回收  | 
      
        垃圾回收时间统计(GC)  | 
      
        NodeManager每分钟的垃圾回收(GC)所占用的时间。  | 
      
        12000ms  | 
     |
| 
        垃圾回收时间统计(GC)  | 
      
        ResourceManager每分钟的垃圾回收(GC)所占用的时间。  | 
      
        12000ms  | 
     ||
| 
        其他  | 
      
        root队列下失败的任务数  | 
      
        root队列下失败的任务数。  | 
      
        50  | 
     |
| 
        root队列下被杀死的任务数  | 
      
        root队列下被杀死的任务数。  | 
      
        50  | 
     ||
| 
        CPU和内存  | 
      
        挂起的内存量  | 
      
        挂起的内存量。  | 
      
        83886080MB  | 
     |
| 
        任务  | 
      
        正在挂起的任务  | 
      
        正在挂起的任务。  | 
      
        60  | 
     |
| 
        ZooKeeper  | 
      
        连接  | 
      
        ZooKeeper连接数使用率  | 
      
        ZooKeeper连接数使用百分比统计。  | 
      
        80%  | 
     
| 
        CPU和内存  | 
      
        ZooKeeper堆内存使用率  | 
      
        ZooKeeper堆内存使用百分比统计。  | 
      
        95%  | 
     |
| 
        ZooKeeper直接内存使用率  | 
      
        ZooKeeper直接内存使用百分比统计。  | 
      
        80%  | 
     ||
| 
        GC  | 
      
        ZooKeeper每分钟的垃圾回收时间统计(GC)  | 
      
        ZooKeeper每分钟的垃圾回收时间统计(GC)。  | 
      
        12000ms  | 
     |
| 
        meta  | 
      
        OBS数据写操作  | 
      
        OBS数据写操作接口调用成功率  | 
      
        OBS数据写操作接口调用成功率。  | 
      
        99.0%  | 
     
| 
        OBS元数据操作  | 
      
        OBS元数据接口调用平均时间  | 
      
        OBS元数据接口调用平均时间。  | 
      
        500ms  | 
     |
| 
        OBS元数据接口调用成功率  | 
      
        OBS元数据接口调用成功率。  | 
      
        99.0%  | 
     ||
| 
        OBS数据读操作  | 
      
        OBS数据读操作接口调用成功率  | 
      
        OBS数据读操作接口调用成功率。  | 
      
        99.0%  | 
     |
| 
        Ranger  | 
      
        GC  | 
      
        UserSync垃圾回收(GC)时间  | 
      
        UserSync垃圾回收(GC)时间。  | 
      
        12000ms  | 
     
| 
        RangerAdmin垃圾回收(GC)时间  | 
      
        RangerAdmin垃圾回收(GC)时间。  | 
      
        12000ms  | 
     ||
| 
        TagSync垃圾回收(GC)时间  | 
      
        TagSync垃圾回收(GC)时间。  | 
      
        12000ms  | 
     ||
| 
        CPU和内存  | 
      
        UserSync非堆内存使用率  | 
      
        UserSync非堆内存使用百分比统计。  | 
      
        80.0%  | 
     |
| 
        UserSync直接内存使用率  | 
      
        UserSync直接内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        UserSync堆内存使用率  | 
      
        UserSync堆内存使用百分比统计。  | 
      
        95.0%  | 
     ||
| 
        RangerAdmin非堆内存使用率  | 
      
        RangerAdmin非堆内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        RangerAdmin堆内存使用率  | 
      
        RangerAdmin堆内存使用百分比统计。  | 
      
        95.0%  | 
     ||
| 
        RangerAdmin直接内存使用率  | 
      
        RangerAdmin直接内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        TagSync直接内存使用率  | 
      
        TagSync直接内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        TagSync非堆内存使用率  | 
      
        TagSync非堆内存使用百分比统计。  | 
      
        80.0%  | 
     ||
| 
        TagSync堆内存使用率  | 
      
        TagSync堆内存使用百分比统计。  | 
      
        95.0%  | 
     ||
| 
        ClickHouse  | 
      
        集群配额  | 
      
        Clickhouse服务在ZooKeeper的数量配额使用率  | 
      
        ClickHouse服务在ZooKeeper上目录的数量配额使用百分比。  | 
      
        90%  | 
     
| 
        Clickhouse服务在ZooKeeper的容量配额使用率  | 
      
        ClickHouse服务在ZooKeeper上目录的容量配额使用百分比。  | 
      
        90%  |