更新时间:2024-11-29 GMT+08:00

资源监控

登录FusionInsight Manager以后,选择“集群 > 服务”后,选择待操作的服务,单击“资源”,进入资源监控页面。

集群中部分服务提供服务级别的资源监控项,默认显示12小时的监控数据。用户可单击自定义时间区间,缺省时间区间包括:12小时、1天、1周、1月。单击可导出相应报表信息,无数据的监控项无法导出报表。支持资源监控的服务及监控项如表1所示。

表1 服务资源监控

服务

监控指标

说明

ClickHouse

Part信息

检测ClickHouse各节点part数量top 10的表。

Elasticsearch

线程池信息

Elasticsearch集群中线程池的信息。

索引信息

Elasticsearch集群中各索引的信息。

用户资源信息

Elasticsearch集群中各用户创建的索引的总个数、索引分片的总个数、索引文档的总个数以及索引存储量的总和。

索引数据量

Elasticsearch集群中各索引的文档数和存储数据量信息。

HDFS

资源使用(按租户)

  • 按租户统计HDFS的资源使用情况。
  • 可选择按“容量”“文件对象数”观察。

资源使用(按用户)

  • 按用户统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件对象数”观察。

资源使用(按目录)

  • 按目录统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件对象数”观察。
  • 单击配置空间监控,可以指定HDFS文件系统目录进行监控。

资源使用(按副本)

  • 按副本数统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件数”观察。

资源使用(按文件大小)

  • 按文件大小统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件数”观察。

回收站(按用户)

  • 按用户统计HDFS回收站的使用情况。
  • 可选择按“回收站容量”“文件对象数”观察。

操作数

  • 统计HDFS中操作数。

自动balance

  • 统计HDFS自动balancer的执行速度以及本次balancer当前迁移的总容量大小。

NameNode RPC连接数(按用户)

  • 按用户统计连接到NameNode的Client RPC请求中,各个用户的连接数。

慢DataNode节点

集群中数据传输或处理慢的DataNode节点。

慢磁盘

集群中DataNode节点上数据处理慢的磁盘。

HBase

表级别操作请求次数

所有RegionServer上的所有表中put、delete、get、scan、increment、append操作请求次数。

RegionServer级别操作请求次数

RegionServer中put、delete、get、scan、increment、append操作请求次数以及所有操作请求次数。

服务级别操作请求次数

RegionServer上所有Region中put、delete、get、scan、increment、append操作请求次数。

RegionServer级别HFile数

所有RegionServer中HFile数。

HetuEngine

Coordinator 资源使用

选取的队列中的coordinator资源使用情况。

Coordinator 资源使用率

选取的队列中的coordinator资源使用率。

Worker 资源使用

选取的队列中的worker资源使用情况。

Worker 资源使用率

选取的队列中的worker资源使用率。

Coordinators 和 Workers 个数

选取的队列中的coordinator和worker的数量。

Hive

HiveServer2-Background-Pool线程数(按IP)

周期内统计并显示Top用户的HiveServer2-Background-Pool线程数。

HiveServer2-Handler-Pool线程数(按IP)

周期内统计并显示Top用户的HiveServer2-Handler-Pool数监控。

MetaStore使用数(按IP)

Hive周期内统计并显示Top用户的MetaStore使用数。

Hive的Job数

Hive周期内统计并显示用户相关的Job数目。

Split阶段访问的文件数

统计Hive周期内Split阶段访问底层文件存储系统(默认:HDFS)的文件数。

Hive基本操作时间

Hive周期内统计底层创建目录(mkdirTime)、创建文件(touchTime)、写文件(writeFileTime)、重命名文件(renameTime)、移动文件(moveTime)、删除文件(deleteFileTime)、删除目录(deleteCatalogTime)所用的时间。

表分区个数

Hive所有表分区个数监控,返回值的格式为:数据库#表名,表分区个数。

HQL的Map数

Hive周期内执行的HQL与执行过程中调用的Map数统计,展示的信息包括:用户、HQL语句、Map数目。

HQL访问次数

周期内HQL访问次数统计信息。

Kafka

Kafka磁盘使用率分布

Kafka集群的磁盘使用率分布统计。

Spark

HQL访问次数

周期内HQL访问次数统计信息,展示信息包括用户名,HQL语句,执行该语句的次数。

Yarn

资源使用(按任务)

  • 任务使用的CPU核数和内存。
  • 可选择“按内存”“按CPU”观察。

资源使用(按租户)

  • 租户所使用的CPU核数和内存。
  • 可选择“按内存”“按CPU”观察。

资源使用比例(按租户)

  • 租户所使用的CPU核数和内存的比例。
  • 可选择“按内存”“按CPU”观察。

任务耗时排序

对Yarn任务耗时进行排序显示。

ResourceManager RPC连接数(按用户)

统计连接到RM的Client RPC请求中,各个用户的连接数。

操作数

统计Yarn每种操作类型对应的操作数及占比。

队列中任务资源使用排序

  • 在界面上选择某个队列(租户)后,显示在该队列中正在运行任务的消耗资源排序。
  • 可选择“按内存”“按CPU”观察。

队列中用户资源使用排序

  • 在界面上选择某个队列(租户)后,显示在该队列中正在运行任务的用户消耗的资源排序。
  • 可选择“按内存”“按CPU”观察。

ZooKeeper

资源使用(按二级Znode)

  • ZooKeeper服务二级znode资源状况。
  • 可选择“按Znode数量”“按容量”观察

连接数(按客户端IP)

ZooKeeper客户端连接资源状况。