HBase集群监控指标说明
功能说明
监控是保持CloudTable服务可靠性、可用性和性能的重要部分,通过监控,用户可以观察CloudTable服务器的运行状态。
本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。
命名空间
SYS.CloudTable
CloudTable HBase HMaster实例支持的监控指标
指标ID |
指标名称 |
含义 |
取值范围 |
单位 |
进制 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|---|---|
disk_throughput_write_rate |
磁盘读速率 |
统计每秒从测量对象读出数据量 |
>= 0 |
Byte/s |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
disk_throughput_read_rate |
磁盘写速率 |
统计每秒写到测量对象的数据 |
>= 0 |
Byte/s |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
cmdForTotalMemory |
总内存大小 |
统计测量对象的总内存大小 |
> 0 |
Byte |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
cmdProcessCPU |
CPU使用率 |
统计测量对象的CPU使用率 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
cmdProcessMem |
内存使用率 |
统计测量对象的内存使用率 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_deadregionservernum |
故障的RegionServer个数 |
统计测量对象所在集群中存在故障的RegionServer数 |
0~RegionServer总数 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_regionservernum |
正常的RegionServer个数 |
统计测量对象所在集群中运行良好的RegionServer数 |
0~RegionServer总数 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_ritCount |
处在RIT状态的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数 |
0~region总数 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_ritCountOverThreshold |
处在RIT状态达到阈值时长的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数 |
0~region总数 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_queuecalltime_max |
RPC队列最大等待时间 |
统计测量对象的RPC队列最大等待时间 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_queuecalltime_mean |
RPC队列平均等待时间 |
统计测量对象的RPC队列平均等待时间 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
nn_percentallused |
磁盘空间使用率 |
集群磁盘空间使用率 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
nn_capacityremaining |
剩余的存储空间 |
集群剩余磁盘空间 |
取决于集群磁盘容量 |
GB |
不涉及 |
CloudTable实例节点 |
1分钟 |
nn_capacityused |
已使用的存储空间 |
集群已使用磁盘空间 |
取决于集群磁盘容量 |
GB |
不涉及 |
CloudTable实例节点 |
1分钟 |
cmdForUsedStorageRate |
已用存储空间比率 |
统计测量对象所在集群的已用存储空间大小占总配额的比率 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
network_throughput_inbound_rate |
网络吞吐流入速率 |
每个节点每秒的网络流入数据量。 |
>= 0 |
KB/s |
不涉及 |
CloudTable实例节点 |
1分钟 |
network_throughput_outgoing_rate |
网络吞吐流出速率 |
每个节点每秒的网络流出数据量。 |
>= 0 |
KB/s |
不涉及 |
CloudTable实例节点 |
1分钟 |
disk_throughput_read_rate |
磁盘吞吐读速率 |
磁盘读取吞吐速率。 |
>= 0 |
Byte/s |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
disk_throughput_write_rate |
磁盘吞吐写速率 |
磁盘写入吞吐速率。 |
>= 0 |
Byte/s |
1024(IEC) |
CloudTable实例节点 |
1分钟 |

hmaster实例分为hmaster-standby(备)hmaster-active(主)实例,当hmaster-active(主)出现故障的时候,hmaster-standby(备)会升主对外提供服务。
HBase集群磁盘默认10%预留空间,所以集群磁盘告警值不等于磁盘使用率。
CloudTable HBase Regionserver实例支持的监控指标
CloudTable HBase Regionserver实例支持的监控指标如表2所示。
指标ID |
指标名称 |
含义 |
取值范围 |
单位 |
进制 |
测量对象(维度) |
监控周期(原始指标) |
---|---|---|---|---|---|---|---|
cmdProcessCPU |
CPU使用率 |
统计测量对象的CPU使用率。 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
cmdForTotalMemory |
总内存大小 |
统计测量对象的总内存大小。 |
> 0 |
Byte |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
cmdProcessMem |
内存使用率 |
统计测量对象的内存使用率。 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
disk_throughput_write_rate |
磁盘写速率 |
统计每秒写到测量对象的数据量。 |
>= 0 |
Byte/s |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
disk_throughput_read_rate |
磁盘读速率 |
统计每秒从测量对象读出数据量。 |
>= 0 |
Byte/s |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
hm_regionservernum |
正常的RegionServer个数 |
统计测量对象所在集群中运行良好的RegionServer数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_deadregionservernum |
故障的RegionServer个数 |
统计测量对象所在集群中存在故障的RegionServer数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_ritCountOverThreshold |
处在RIT状态达到阈值时长的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
hm_ritCount |
处在RIT状态的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_requests |
单个RegionServer每秒请求次数 |
统计测量对象的单个RegionServer每秒请求次数。 |
>= 0 |
requests/s |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_regions |
单个RegionServer的region个数 |
统计测量对象的单个RegionServer的region个数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_writerequestscount |
单个RegionServer写请求次数 |
统计测量对象的单个RegionServer的写请求次数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_readrequestscount |
单个RegionServer读请求次数 |
统计测量对象的单个RegionServer的读请求次数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_blockcachehitcachingratio |
缓存块命中缓存的比率 |
统计测量对象的缓存块命中缓存的比率。 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_blockCacheCountHitPercent |
缓存命中比率 |
统计测量对象的缓存命中比率。 |
0~100 |
% |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_getavgtime |
Get操作延迟 |
统计测量对象的RegionServer单位时间内Get操作的延迟时间均值。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_putavgtime |
Put操作延迟 |
统计测量对象的RegionServer单位时间内Put操作的延迟时间均值。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_deleteavgtime |
Delete操作延迟 |
统计测量对象的RegionServer单位时间内Delete操作的延迟时间均值。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_getnumops |
Get操作数 |
统计测量对象的RegionServer单位时间内Get操作数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_putnumops |
Put操作数 |
统计测量对象的RegionServer单位时间内Put操作数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_deletenumops |
Delete操作数 |
统计测量对象的Regionserver单位时间内Delete操作数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_queuecalltime_max |
RPC队列最大等待时间 |
统计测量对象的RPC队列最大等待时间。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_queuecalltime_mean |
RPC队列平均等待时间 |
统计测量对象的,RPC队列平均等待时间。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_flushtime_mean |
Flush操作的平均耗时 |
统计测量对象的Flush操作的平均耗时。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_compactionqueuesize |
Compaction操作队列大小 |
统计测量对象的RegionServer中Compaction操作队列大小。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_flushqueuesize |
Flush操作队列大小 |
统计测量对象的RegionServer中Flush操作队列大小。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_compactionscompletedcount |
Compaction次数 |
统计测量对象的Compaction次数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_flushtimeops_num |
Flush次数 |
统计测量对象的Flush次数。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_blockcacheevictedcount |
淘汰的缓存数量 |
统计测量对象的淘汰的缓存数量。 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_syncTime_max |
Hlog Sync最大时长 |
统计测量对象的Hlog Sync最大时长。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_syncTime_mean |
Hlog Sync平均时长 |
统计测量对象的Hlog Sync平均时长。 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
dn_byteswritten_speed |
每秒写入字节数 |
节点每秒写入字节数 |
>=0 |
Byte |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
dn_bytesread_speed |
每秒读取字节数 |
节点每秒读取字节数 |
>=0 |
Byte |
1024(IEC) |
CloudTable实例节点 |
1分钟 |
rs_numActiveHandler |
RegionServer的活跃handler数 |
RegionServer的活跃handler数(处理用户表请求的handler数、处理meta表请求的handler数和处理replication请求的handler请求数的总和) |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_numActiveGeneralHandler |
RegionServer处理用户表请求的活跃handler数 |
RegionServer处理用户表请求的活跃handler数 |
>= 0 |
Count |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_scanTime_p999 |
P999 Scan操作延迟 |
RegionServer Scan时延的P999 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_syncTime_p999 |
P999 WAL Sync操作延迟 |
RegionServer WAL Sync时延的P999 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_Get_99th_percentile |
P99 Get操作延迟 |
RegionServer Get时延的P99 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_Put_99th_percentile |
P99 Put操作延迟 |
RegionServer Put时延的P99 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_Delete_99th_percentile |
P99 Delete操作延迟 |
RegionServer Delete时延的P99 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_Get_999th_percentile |
P999 Get操作延迟 |
P999 Get操作延迟 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_Put_999th_percentile |
P999 Put操作延迟 |
RegionServer Put时延的P999 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
rs_Delete_999th_percentile |
P999 Delete操作延迟 |
RegionServer Delete时延的P999 |
>= 0 |
ms |
不涉及 |
CloudTable实例节点 |
1分钟 |
维度
Key |
Value |
---|---|
cluster_id |
CloudTable集群ID。 |
instance_name |
CloudTable集群节点名称。 |