HBase集群监控指标说明
功能说明
监控是保持CloudTable服务可靠性、可用性和性能的重要部分,通过监控,用户可以观察CloudTable服务器的运行状态。
本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。
命名空间
SYS.CloudTable
CloudTable HBase HMaster实例支持的监控指标
指标ID | 指标名称 | 含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
cmdForTotalMemory | 总内存大小 | 统计测量对象的总内存大小 | > 0 | Byte | 1024(IEC) | CloudTable实例节点 | 1分钟 |
cmdProcessCPU | CPU使用率 | 统计测量对象的CPU使用率 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
cmdProcessMem | 内存使用率 | 统计测量对象的内存使用率 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_deadregionservernum | 故障的RegionServer个数 | 统计测量对象所在集群中存在故障的RegionServer数 | 0~RegionServer总数 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_regionservernum | 正常的RegionServer个数 | 统计测量对象所在集群中运行良好的RegionServer数 | 0~RegionServer总数 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_ritCount | 处在RIT状态的region个数 | 统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数 | 0~region总数 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_ritCountOverThreshold | 处在RIT状态达到阈值时长的region个数 | 统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数 | 0~region总数 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_queuecalltime_max | RPC队列最大等待时间 | 统计测量对象的RPC队列最大等待时间 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_queuecalltime_mean | RPC队列平均等待时间 | 统计测量对象的RPC队列平均等待时间 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
nn_percentallused | 磁盘空间使用率 | 集群磁盘空间使用率 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
nn_capacityremaining | 剩余的存储空间 | 集群剩余磁盘空间 | 取决于集群磁盘容量 | GB | 不涉及 | CloudTable实例节点 | 1分钟 |
nn_capacityused | 已使用的存储空间 | 集群已使用磁盘空间 | 取决于集群磁盘容量 | GB | 不涉及 | CloudTable实例节点 | 1分钟 |
cmdForUsedStorageRate | 已用存储空间比率 | 统计测量对象所在集群的已用存储空间大小占总配额的比率 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
network_throughput_inbound_rate | 网络吞吐流入速率 | 每个节点每秒的网络流入数据量。 | >=0 | KB/s | 不涉及 | CloudTable实例节点 | 1分钟 |
network_throughput_outgoing_rate | 网络吞吐流出速率 | 每个节点每秒的网络流出数据量。 | >=0 | KB/s | 不涉及 | CloudTable实例节点 | 1分钟 |
disk_throughput_read_rate | 磁盘吞吐读速率 | 磁盘读取吞吐速率。 | >=0 | Byte/s | 1024(IEC) | CloudTable实例节点 | 1分钟 |
disk_throughput_write_rate | 磁盘吞吐写速率 | 磁盘写入吞吐速率。 | >=0 | Byte/s | 1024(IEC) | CloudTable实例节点 | 1分钟 |

hmaster实例分为hmaster-standby(备)hmaster-active(主)实例,当hmaster-active(主)出现故障的时候,hmaster-standby(备)会升主对外提供服务。
HBase集群磁盘默认10%预留空间,所以集群磁盘告警值不等于磁盘使用率。
CloudTable HBase Regionserver实例支持的监控指标
CloudTable HBase Regionserver实例支持的监控指标如表2所示。
指标ID | 指标名称 | 含义 | 取值范围 | 单位 | 进制 | 测量对象(维度) | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
cmdProcessCPU | CPU使用率 | 统计测量对象的CPU使用率。 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
cmdForTotalMemory | 总内存大小 | 统计测量对象的总内存大小。 | > 0 | Byte | 1024(IEC) | CloudTable实例节点 | 1分钟 |
cmdProcessMem | 内存使用率 | 统计测量对象的内存使用率。 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
disk_throughput_write_rate | 磁盘写速率 | 统计每秒写到测量对象的数据量。 | >=0 | Byte/s | 1024(IEC) | CloudTable实例节点 | 1分钟 |
disk_throughput_read_rate | 磁盘读速率 | 统计每秒从测量对象读出数据量。 | >=0 | Byte/s | 1024(IEC) | CloudTable实例节点 | 1分钟 |
hm_regionservernum | 正常的RegionServer个数 | 统计测量对象所在集群中运行良好的RegionServer数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_deadregionservernum | 故障的RegionServer个数 | 统计测量对象所在集群中存在故障的RegionServer数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_ritCountOverThreshold | 处在RIT状态达到阈值时长的region个数 | 统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
hm_ritCount | 处在RIT状态的region个数 | 统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_requests | 单个RegionServer每秒请求次数 | 统计测量对象的单个RegionServer每秒请求次数。 | >=0 | requests/s | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_regions | 单个RegionServer的region个数 | 统计测量对象的单个RegionServer的region个数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_writerequestscount | 单个RegionServer写请求次数 | 统计测量对象的单个RegionServer的写请求次数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_readrequestscount | 单个RegionServer读请求次数 | 统计测量对象的单个RegionServer的读请求次数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_blockcachehitcachingratio | 缓存块命中缓存的比率 | 统计测量对象的缓存块命中缓存的比率。 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_blockCacheCountHitPercent | 缓存命中比率 | 统计测量对象的缓存命中比率。 | 0~100 | % | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_getavgtime | Get操作延迟 | 统计测量对象的RegionServer单位时间内Get操作的延迟时间均值。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_putavgtime | Put操作延迟 | 统计测量对象的RegionServer单位时间内Put操作的延迟时间均值。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_deleteavgtime | Delete操作延迟 | 统计测量对象的RegionServer单位时间内Delete操作的延迟时间均值。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_getnumops | Get操作数 | 统计测量对象的RegionServer单位时间内Get操作数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_putnumops | Put操作数 | 统计测量对象的RegionServer单位时间内Put操作数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_deletenumops | Delete操作数 | 统计测量对象的Regionserver单位时间内Delete操作数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_queuecalltime_max | RPC队列最大等待时间 | 统计测量对象的RPC队列最大等待时间。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_queuecalltime_mean | RPC队列平均等待时间 | 统计测量对象的,RPC队列平均等待时间。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_flushtime_mean | Flush操作的平均耗时 | 统计测量对象的Flush操作的平均耗时。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_compactionqueuesize | Compaction操作队列大小 | 统计测量对象的RegionServer中Compaction操作队列大小。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_flushqueuesize | Flush操作队列大小 | 统计测量对象的RegionServer中Flush操作队列大小。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_compactionscompletedcount | Compaction次数 | 统计测量对象的Compaction次数。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_flushtimeops_num | Flush次数 | 统计测量对象的Flush次数。 说明:
| >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_blockcacheevictedcount | 淘汰的缓存数量 | 统计测量对象的淘汰的缓存数量。 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_syncTime_max | Hlog Sync最大时长 | 统计测量对象的Hlog Sync最大时长。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_syncTime_mean | Hlog Sync平均时长 | 统计测量对象的Hlog Sync平均时长。 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
dn_byteswritten_speed | 每秒写入字节数 | 节点每秒写入字节数 | >=0 | Byte | 1024(IEC) | CloudTable实例节点 | 1分钟 |
dn_bytesread_speed | 每秒读取字节数 | 节点每秒读取字节数 | >=0 | Byte | 1024(IEC) | CloudTable实例节点 | 1分钟 |
rs_numActiveHandler | RegionServer的活跃handler数 | RegionServer的活跃handler数(处理用户表请求的handler数、处理meta表请求的handler数和处理replication请求的handler请求数的总和) | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_numActiveGeneralHandler | RegionServer处理用户表请求的活跃handler数 | RegionServer处理用户表请求的活跃handler数 | >=0 | Count | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_scanTime_p999 | P999 Scan操作延迟 | RegionServer Scan时延的P999 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_syncTime_p999 | P999 WAL Sync操作延迟 | RegionServer WAL Sync时延的P999 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_Get_99th_percentile | P99 Get操作延迟 | RegionServer Get时延的P99 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_Put_99th_percentile | P99 Put操作延迟 | RegionServer Put时延的P99 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_Delete_99th_percentile | P99 Delete操作延迟 | RegionServer Delete时延的P99 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_Get_999th_percentile | P999 Get操作延迟 | P999 Get操作延迟 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_Put_999th_percentile | P999 Put操作延迟 | RegionServer Put时延的P999 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
rs_Delete_999th_percentile | P999 Delete操作延迟 | RegionServer Delete时延的P999 | >=0 | ms | 不涉及 | CloudTable实例节点 | 1分钟 |
维度
Key | Value |
|---|---|
cluster_id | CloudTable集群ID。 该取值的获取方式:进入集群管理页面,单击“集群名称 > 详情”,进入“详情”页,在“集群信息 ”模块中获取集群ID。 |
instance_name | CloudTable集群节点名称。 该取值的获取方式:进入集群管理页面,单击“集群名称 > 详情”,进入“详情”页获取instance_name。 |

