更新时间:2024-12-06 GMT+08:00

查看MRS集群组件监控指标

用户在日常使用中,可以在MRS管理所有组件(含角色实例)的状态及指标信息。状态信息包括运行、健康、配置及角色实例状态统计。指标信息为各组件的主要监控指标项。

查看MRS集群组件监控指标前提条件

  • 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)
  • 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager

通过管理控制台查看组件监控

  1. 登录MRS控制台。
  2. 选择现有集群,单击集群名称进入集群详情页面。
  3. “概览”页签单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。
  4. 在MRS集群详情页面,单击“组件管理”。
  5. 查看组件监控。

    1. 单击列表中指定服务名称,查看服务状态及指标信息。
    2. 定制、查看组件级别监控图表。
      1. 在“图表”区域框中,单击“定制”自定义服务监控指标。
      2. 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。

  6. 查看角色实例监控。

    1. 在组件列表中单击服务指定名称。
    2. 单击“实例”,查看组件内的各角色实例状态。

      支持在列表右上角筛选相同角色的全部实例。单击“高级搜索”,在角色搜索区域中设置搜索条件,单击“搜索”,查看指定的角色信息。单击“重置”清除输入的搜索条件。支持模糊搜索条件的部分字符。

    3. 单击列表中指定角色实例名称,查看角色实例状态及指标信息。
    4. 定制、查看监控图表。
      1. 在“图表”区域框中,单击“定制”自定义服务监控指标。
      2. 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。

通过Manager查看组件监控

  1. 登录集群Manager。
  2. 进入服务管理页面。

    • 对于MRS 3.x及之后版本的集群,选择“集群 > 服务”。
    • 对于MRS2.x及之前版本的集群,单击“服务管理”。

  3. 查看组件监控。

    1. 单击列表中指定服务名称,可查看服务状态及指标信息。
    2. 定制、导出监控图表。
      1. 在“图表”区域框中,单击中的“定制”自定义服务监控指标。
      2. 在“时间区间”选择查询时间,显示该时间段内的监控数据,单击中“导出”,导出当前查看的指标数据。

  4. 查看角色实例监控。

    1. 单击服务指定名称。
    2. 单击“实例”,查看角色状态。
    3. 单击列表中指定角色实例名称,查看角色实例状态及指标信息。
    4. 定制、导出监控图表。
      1. 在“图表”区域框中,单击中的“定制”自定义服务监控指标。
      2. 在时间区间选择查询时间,显示该时间段内的监控数据。

组件资源监控汇总

组件资源监控仅MRS 3.x及之后版本支持。

登录FusionInsight Manager后,选择“集群 > 服务”,单击待操作的服务名称,单击“资源”,进入资源监控页面。

集群中部分服务提供服务级别的资源监控项,默认显示12小时的监控数据。用户可单击自定义时间区间。单击可导出相应报表信息,无数据的监控项无法导出报表。支持资源监控的服务及监控项如下表所示。

表1 服务资源监控

服务

监控指标

说明

HDFS

资源使用(按租户)

  • 按租户统计HDFS的资源使用情况。
  • 可选择按“容量”“文件对象数”观察。

资源使用(按用户)

  • 按用户统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件对象数”观察。

资源使用(按目录)

  • 按目录统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件对象数”观察。
  • 单击配置空间监控,可以指定HDFS文件系统目录进行监控。

资源使用(按副本)

  • 按副本数统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件数”观察。

资源使用(按文件大小)

  • 按文件大小统计HDFS的资源使用情况。
  • 可选择按“已使用容量”“文件数”观察。

回收站(按用户)

  • 按用户统计HDFS回收站的使用情况。
  • 可选择按“回收站容量”“文件对象数”观察。

操作数

  • 统计HDFS中操作数。

自动balance

统计HDFS自动balancer的执行速度以及本次balancer当前迁移的总容量大小。

NameNode RPC连接数(按用户)

按用户统计连接到NameNode的Client RPC请求中,各个用户的连接数。

慢DataNode节点

集群中数据传输或处理慢的DataNode节点。

慢磁盘

集群中DataNode节点上数据处理慢的磁盘。

HBase

表级别操作请求次数

所有RegionServer上的所有表中put、delete、get、scan、increment、append操作请求次数。

RegionServer级别操作请求次数

RegionServer中put、delete、get、scan、increment、append操作请求次数以及所有操作请求次数。

服务级别操作请求次数

RegionServer上所有Region中put、delete、get、scan、increment、append操作请求次数。

RegionServer级别HFile数

所有RegionServer中HFile数。

HetuEngine

Coordinator 资源使用

选取的队列中的coordinator资源使用情况。

Coordinator 资源使用率

选取的队列中的coordinator资源使用率。

Worker 资源使用

选取的队列中的worker资源使用情况。

Worker 资源使用率

选取的队列中的worker资源使用率。

Coordinators 和 Workers 个数

选取的队列中的coordinator和worker的数量。

Hive

HiveServer2-Background-Pool线程数(按IP)

周期内统计并显示Top用户的HiveServer2-Background-Pool线程数。

HiveServer2-Handler-Pool线程数(按IP)

周期内统计并显示Top用户的HiveServer2-Handler-Pool数监控。

MetaStore使用数(按IP)

Hive周期内统计并显示Top用户的MetaStore使用数。

Hive的Job数

Hive周期内统计并显示用户相关的Job数目。

Split阶段访问的文件数

统计Hive周期内Split阶段访问底层文件存储系统(默认:HDFS)的文件数。

Hive基本操作时间

Hive周期内统计底层创建目录(mkdirTime)、创建文件(touchTime)、写文件(writeFileTime)、重命名文件(renameTime)、移动文件(moveTime)、删除文件(deleteFileTime)、删除目录(deleteCatalogTime)所用的时间。

表分区个数

Hive所有表分区个数监控,返回值的格式为:数据库#表名,表分区个数。

HQL的Map数

Hive周期内执行的HQL与执行过程中调用的Map数统计,展示的信息包括:用户、HQL语句、Map数目。

HQL访问次数

周期内HQL访问次数统计信息。

Kafka

Kafka磁盘使用率分布

Kafka集群的磁盘使用率分布统计。

Spark/Spark2x

HQL访问次数

周期内HQL访问次数统计信息,展示信息包括用户名,HQL语句,执行该语句的次数。

Yarn

资源使用(按任务)

  • 任务使用的CPU核数和内存。
  • 可选择“按内存”“按CPU”观察。

资源使用(按租户)

  • 租户所使用的CPU核数和内存。
  • 可选择“按内存”“按CPU”观察。

资源使用比例(按租户)

  • 租户所使用的CPU核数和内存的比例。
  • 可选择“按内存”“按CPU”观察。

任务耗时排序

对Yarn任务耗时进行排序显示。

ResourceManager RPC连接数(按用户)

统计连接到RM的Client RPC请求中,各个用户的连接数。

操作数

统计Yarn每种操作类型对应的操作数及占比。

队列中任务资源使用排序

  • 在界面上选择某个队列(租户)后,显示在该队列中正在运行任务的消耗资源排序。
  • 可选择“按内存”“按CPU”观察。

队列中用户资源使用排序

  • 在界面上选择某个队列(租户)后,显示在该队列中正在运行任务的用户消耗的资源排序。
  • 可选择“按内存”“按CPU”观察。

ZooKeeper

资源使用(按二级Znode)

  • ZooKeeper服务二级znode资源状况。
  • 可选择“按Znode数量”“按容量”观察

连接数(按客户端IP)

ZooKeeper客户端连接资源状况。