HBase集群支持的监控指标
功能说明
监控是保持CloudTable服务可靠性、可用性和性能的重要部分,通过监控,用户可以观察CloudTable服务器的运行状态。
本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。用户可以通过云监控服务提供的管理控制台或API接口来检索表格存储服务产生的监控指标和告警信息。
命名空间
SYS.CloudTable
CloudTable HBase HMaster实例支持的监控指标
指标ID |
指标名称 |
含义 |
取值范围 |
监控周期(原始指标) |
---|---|---|---|---|
disk_throughput_write_rate |
磁盘读速率 |
统计每秒从测量对象读出数据量 |
>= 0 Byte/s |
1分钟 |
disk_throughput_read_rate |
磁盘写速率 |
统计每秒写到测量对象的数据 |
>= 0 Byte/s |
1分钟 |
cmdForTotalMemory |
总内存大小 |
统计测量对象的总内存大小 |
> 0 Byte |
1分钟 |
cmdProcessCPU |
CPU使用率 |
统计测量对象的CPU使用率 |
0 %~100% |
1分钟 |
cmdProcessMem |
内存使用率 |
统计测量对象的内存使用率 |
0 %~100% |
1分钟 |
hm_deadregionservernum |
故障的RegionServer个数 |
统计测量对象所在集群中存在故障的RegionServer数 |
0~RegionServer总数 |
1分钟 |
hm_regionservernum |
正常的RegionServer个数 |
统计测量对象所在集群中运行良好的RegionServer数 |
0~RegionServer总数 |
1分钟 |
hm_ritCount |
处在RIT状态的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数 |
0~region总数 |
1分钟 |
hm_ritCountOverThreshold |
处在RIT状态达到阈值时长的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数 |
0~region总数 |
1分钟 |
rs_queuecalltime_max |
RPC队列最大等待时间 |
统计测量对象的RPC队列最大等待时间 |
>= 0 ms |
1分钟 |
rs_queuecalltime_mean |
RPC队列平均等待时间 |
统计测量对象的RPC队列平均等待时间 |
>= 0 ms |
1分钟 |
nn_percentallused |
磁盘空间使用率 |
集群磁盘空间使用率 |
0 %~100% |
1分钟 |
nn_capacityremaining |
剩余的存储空间 |
集群剩余磁盘空间 |
取决于集群磁盘容量 |
1分钟 |
nn_capacityused |
已使用的存储空间 |
集群已使用磁盘空间 |
取决于集群磁盘容量 |
1分钟 |
hmaster实例分为hmaster-standby(备)hmaster-active(主)实例,当hmaster-active(主)出现故障的时候,hmaster-standby(备)会升主对外提供服务。
CloudTable HBase Regionserver实例支持的监控指标
CloudTable HBase Regionserver实例支持的监控指标如表2所示。
指标ID |
指标名称 |
含义 |
取值范围 |
监控周期(原始指标) |
---|---|---|---|---|
cmdProcessCPU |
CPU使用率 |
统计测量对象的CPU使用率。 单位:% |
0%~100% |
1分钟 |
cmdForTotalMemory |
总内存大小 |
统计测量对象的总内存大小。 单位:字节 |
> 0 Byte |
1分钟 |
cmdProcessMem |
内存使用率 |
统计测量对象的内存使用率。 单位:% |
0%~100% |
1分钟 |
disk_throughput_write_rate |
磁盘写速率 |
统计每秒写到测量对象的数据量。 单位:字节/秒 |
>= 0 Byte/s |
1分钟 |
disk_throughput_read_rate |
磁盘读速率 |
统计每秒从测量对象读出数据量。 单位:字节/秒 |
>= 0 Byte/s |
1分钟 |
hm_regionservernum |
正常的RegionServer个数 |
统计测量对象所在集群中运行良好的RegionServer数。 |
>= 0 |
1分钟 |
hm_deadregionservernum |
故障的RegionServer个数 |
统计测量对象所在集群中存在故障的RegionServer数。 |
>= 0 |
1分钟 |
hm_ritCountOverThreshold |
处在RIT状态达到阈值时长的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数。 |
>= 0 |
1分钟 |
hm_ritCount |
处在RIT状态的region个数 |
统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数。 |
>= 0 |
1分钟 |
rs_requests |
单个RegionServer每秒请求次数 |
统计测量对象的单个RegionServer每秒请求次数。 单位:请求数/秒 |
>= 0 requests/s |
1分钟 |
rs_regions |
单个RegionServer的region个数 |
统计测量对象的单个RegionServer的region个数。 |
>= 0 |
1分钟 |
rs_writerequestscount |
单个RegionServer写请求次数 |
统计测量对象的单个RegionServer的写请求次数。 |
>= 0 |
1分钟 |
rs_readrequestscount |
单个RegionServer读请求次数 |
统计测量对象的单个RegionServer的读请求次数。 |
>= 0 |
1分钟 |
rs_blockcachehitcachingratio |
缓存块命中缓存的比率 |
统计测量对象的缓存块命中缓存的比率。 单位:% |
0%~100% |
1分钟 |
rs_blockCacheCountHitPercent |
缓存命中比率 |
统计测量对象的缓存命中比率。 单位:% |
0%~100% |
1分钟 |
rs_getavgtime |
Get操作延迟 |
统计测量对象的RegionServer单位时间内Get操作的延迟时间均值。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_putavgtime |
Put操作延迟 |
统计测量对象的RegionServer单位时间内Put操作的延迟时间均值。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_deleteavgtime |
Delete操作延迟 |
统计测量对象的RegionServer单位时间内Delete操作的延迟时间均值。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_getnumops |
Get操作数 |
统计测量对象的RegionServer单位时间内Get操作数。 |
>= 0 |
1分钟 |
rs_putnumops |
Put操作数 |
统计测量对象的RegionServer单位时间内Put操作数。 |
>= 0 |
1分钟 |
rs_deletenumops |
Delete操作数 |
统计测量对象的Regionserver单位时间内Delete操作数。 |
>= 0 |
1分钟 |
rs_queuecalltime_max |
RPC队列最大等待时间 |
统计测量对象的RPC队列最大等待时间。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_queuecalltime_mean |
RPC队列平均等待时间 |
统计测量对象的,RPC队列平均等待时间。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_flushtime_mean |
Flush操作的平均耗时 |
统计测量对象的Flush操作的平均耗时。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_compactionqueuesize |
Compaction操作队列大小 |
统计测量对象的RegionServer中Compaction操作队列大小。 |
>= 0 |
1分钟 |
rs_flushqueuesize |
Flush操作队列大小 |
统计测量对象的RegionServer中Flush操作队列大小。 |
>= 0 |
1分钟 |
rs_compactionscompletedcount |
Compaction次数 |
统计测量对象的Compaction次数。 |
>= 0 |
1分钟 |
rs_flushtimeops_num |
Flush次数 |
统计测量对象的Flush次数。 |
>= 0 |
1分钟 |
rs_blockcacheevictedcount |
淘汰的缓存数量 |
统计测量对象的淘汰的缓存数量。 |
>= 0 |
1分钟 |
rs_syncTime_max |
Hlog Sync最大时长 |
统计测量对象的Hlog Sync最大时长。 单位:毫秒 |
>= 0 ms |
1分钟 |
rs_syncTime_mean |
Hlog Sync平均时长 |
统计测量对象的Hlog Sync平均时长。 单位:毫秒 |
>= 0 ms |
1分钟 |
dn_byteswritten_speed |
每秒写入字节数 |
节点每秒写入字节数 |
>=0 Byte |
1分钟 |
dn_bytesread_speed |
每秒读取字节数 |
节点每秒读取字节数 |
>=0 Byte |
1分钟 |
rs_numActiveHandler |
RegionServer的活跃handler数 |
RegionServer的活跃handler数(处理用户表请求的handler数、处理meta表请求的handler数和处理replication请求的handler请求数的总和) |
>= 0 |
1分钟 |
rs_numActiveGeneralHandler |
RegionServer处理用户表请求的活跃handler数 |
RegionServer处理用户表请求的活跃handler数 |
>= 0 |
1分钟 |
rs_scanTime_p999 |
P999 Scan操作延迟 |
RegionServer Scan时延的P999 |
>= 0 ms |
1分钟 |
rs_syncTime_p999 |
P999 WAL Sync操作延迟 |
RegionServer WAL Sync时延的P999 |
>= 0 ms |
1分钟 |
rs_Get_99th_percentile |
P99 Get操作延迟 |
RegionServer Get时延的P99 |
>= 0 ms |
1分钟 |
rs_Put_99th_percentile |
P99 Put操作延迟 |
RegionServer Put时延的P99 |
>= 0 ms |
1分钟 |
rs_Delete_99th_percentile |
P99 Delete操作延迟 |
RegionServer Delete时延的P99 |
>= 0 ms |
1分钟 |
rs_Get_999th_percentile |
P999 Get操作延迟 |
P999 Get操作延迟 |
>= 0 ms |
1分钟 |
rs_Put_999th_percentile |
P999 Put操作延迟 |
RegionServer Put时延的P999 |
>= 0 ms |
1分钟 |
rs_Delete_999th_percentile |
P999 Delete操作延迟 |
RegionServer Delete时延的P999 |
>= 0 ms |
1分钟 |
维度
Key |
Value |
---|---|
cluster_id |
CloudTable集群ID。 |
instance_name |
CloudTable集群节点名称。 |