查看MRS集群组件监控指标
用户在日常使用中,可以在MRS管理所有组件(含角色实例)的状态及指标信息。状态信息包括运行、健康、配置及角色实例状态统计。指标信息为各组件的主要监控指标项。
前提条件
- 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”进行IAM用户同步)。
- 如果通过Manager界面操作,需要已登录MRS集群Manager界面,详情请参考访问MRS集群Manager。
通过管理控制台查看组件监控
- 登录MRS控制台。
- 选择 ,单击集群名称进入集群详情页面。
- 在“概览”页签单击“IAM用户同步”右侧的“单击同步”进行IAM用户同步。
- 在MRS集群详情页面,单击“组件管理”。
- 查看组件监控。
- 单击列表中指定服务名称,查看服务状态及指标信息。
- 定制、查看组件级别监控图表。
- 在“图表”区域框中,单击“定制”自定义服务监控指标。
- 在“时间区间”选择查询时间,单击“查看”显示该时间段内的监控数据。
- 查看角色实例监控。
通过Manager查看组件监控
- 登录集群Manager。
- 进入服务管理页面。
- 对于MRS 3.x及之后版本的集群,选择“集群 > 服务”。
- 对于MRS2.x及之前版本的集群,单击“服务管理”。
- 查看组件监控。
- 单击列表中指定服务名称,可查看服务状态及指标信息。
- 定制、导出监控图表。
- 在“图表”区域框中,单击中的“定制”自定义服务监控指标。
- 在“时间区间”选择查询时间,显示该时间段内的监控数据,单击中“导出”,导出当前查看的指标数据。
- 查看角色实例监控。
- 单击服务指定名称。
- 单击“实例”,查看角色状态。
- 单击列表中指定角色实例名称,查看角色实例状态及指标信息。
- 定制、导出监控图表。
- 在“图表”区域框中,单击中的“定制”自定义服务监控指标。
- 在时间区间选择查询时间,显示该时间段内的监控数据。
组件资源监控汇总
组件资源监控仅MRS 3.x及之后版本支持。
登录FusionInsight Manager后,选择“集群 > 服务”,单击待操作的服务名称,单击“资源”,进入资源监控页面。
集群中部分服务提供服务级别的资源监控项,默认显示12小时的监控数据。用户可单击自定义时间区间。单击可导出相应报表信息,无数据的监控项无法导出报表。支持资源监控的服务及监控项如下表所示。
服务 |
监控指标 |
说明 |
---|---|---|
HDFS |
资源使用(按租户) |
|
资源使用(按用户) |
|
|
资源使用(按目录) |
|
|
资源使用(按副本) |
|
|
资源使用(按文件大小) |
|
|
回收站(按用户) |
|
|
操作数 |
|
|
自动balance |
统计HDFS自动balancer的执行速度以及本次balancer当前迁移的总容量大小。 |
|
NameNode RPC连接数(按用户) |
按用户统计连接到NameNode的Client RPC请求中,各个用户的连接数。 |
|
慢DataNode节点 |
集群中数据传输或处理慢的DataNode节点。 |
|
慢磁盘 |
集群中DataNode节点上数据处理慢的磁盘。 |
|
HBase |
表级别操作请求次数 |
所有RegionServer上的所有表中put、delete、get、scan、increment、append操作请求次数。 |
RegionServer级别操作请求次数 |
RegionServer中put、delete、get、scan、increment、append操作请求次数以及所有操作请求次数。 |
|
服务级别操作请求次数 |
RegionServer上所有Region中put、delete、get、scan、increment、append操作请求次数。 |
|
RegionServer级别HFile数 |
所有RegionServer中HFile数。 |
|
HetuEngine |
Coordinator 资源使用 |
选取的队列中的coordinator资源使用情况。 |
Coordinator 资源使用率 |
选取的队列中的coordinator资源使用率。 |
|
Worker 资源使用 |
选取的队列中的worker资源使用情况。 |
|
Worker 资源使用率 |
选取的队列中的worker资源使用率。 |
|
Coordinators 和 Workers 个数 |
选取的队列中的coordinator和worker的数量。 |
|
Hive |
HiveServer2-Background-Pool线程数(按IP) |
周期内统计并显示Top用户的HiveServer2-Background-Pool线程数。 |
HiveServer2-Handler-Pool线程数(按IP) |
周期内统计并显示Top用户的HiveServer2-Handler-Pool数监控。 |
|
MetaStore使用数(按IP) |
Hive周期内统计并显示Top用户的MetaStore使用数。 |
|
Hive的Job数 |
Hive周期内统计并显示用户相关的Job数目。 |
|
Split阶段访问的文件数 |
统计Hive周期内Split阶段访问底层文件存储系统(默认:HDFS)的文件数。 |
|
Hive基本操作时间 |
Hive周期内统计底层创建目录(mkdirTime)、创建文件(touchTime)、写文件(writeFileTime)、重命名文件(renameTime)、移动文件(moveTime)、删除文件(deleteFileTime)、删除目录(deleteCatalogTime)所用的时间。 |
|
表分区个数 |
Hive所有表分区个数监控,返回值的格式为:数据库#表名,表分区个数。 |
|
HQL的Map数 |
Hive周期内执行的HQL与执行过程中调用的Map数统计,展示的信息包括:用户、HQL语句、Map数目。 |
|
HQL访问次数 |
周期内HQL访问次数统计信息。 |
|
Kafka |
Kafka磁盘使用率分布 |
Kafka集群的磁盘使用率分布统计。 |
Spark/Spark2x |
HQL访问次数 |
周期内HQL访问次数统计信息,展示信息包括用户名,HQL语句,执行该语句的次数。 |
Yarn |
资源使用(按任务) |
|
资源使用(按租户) |
|
|
资源使用比例(按租户) |
|
|
任务耗时排序 |
对Yarn任务耗时进行排序显示。 |
|
ResourceManager RPC连接数(按用户) |
统计连接到RM的Client RPC请求中,各个用户的连接数。 |
|
操作数 |
统计Yarn每种操作类型对应的操作数及占比。 |
|
队列中任务资源使用排序 |
|
|
队列中用户资源使用排序 |
|
|
ZooKeeper |
资源使用(按二级Znode) |
|
连接数(按客户端IP) |
ZooKeeper客户端连接资源状况。 |