更新时间:2024-07-23 GMT+08:00

HBase集群支持的监控指标

功能说明

监控是保持CloudTable服务可靠性、可用性和性能的重要部分,通过监控,用户可以观察CloudTable服务器的运行状态。

本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。用户可以通过云监控服务提供的管理控制台或API接口来检索表格存储服务产生的监控指标和告警信息。

命名空间

SYS.CloudTable

CloudTable HBase HMaster实例支持的监控指标

表1 CloudTable HBase HMaster实例支持的监控指标

指标ID

指标名称

含义

取值范围

监控周期(原始指标)

cmdForIORead

磁盘读速率

统计每秒从测量对象读出数据量

>= 0 Byte/s

1分钟

cmdForIOWrite

磁盘写速率

统计每秒写到测量对象的数据

>= 0 Byte/s

1分钟

cmdForTotalMemory

总内存大小

统计测量对象的总内存大小

> 0 Byte

1分钟

cmdProcessCPU

CPU使用率

统计测量对象的CPU使用率

0 %~100%

1分钟

cmdProcessMem

内存使用率

统计测量对象的内存使用率

0 %~100%

1分钟

hm_deadregionservernum

故障的RegionServer个数

统计测量对象所在集群中存在故障的RegionServer数

0~RegionServer总数

1分钟

hm_regionservernum

正常的RegionServer个数

统计测量对象所在集群中运行良好的RegionServer数

0~RegionServer总数

1分钟

hm_ritCount

处在RIT状态的region个数

统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数

0~region总数

1分钟

hm_ritCountOverThreshold

处在RIT状态达到阈值时长的region个数

统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数

0~region总数

1分钟

rs_queuecalltime_max

RPC队列最大等待时间

统计测量对象的RPC队列最大等待时间

>= 0 ms

1分钟

rs_queuecalltime_mean

RPC队列平均等待时间

统计测量对象的RPC队列平均等待时间

>= 0 ms

1分钟

nn_percentallused

磁盘空间使用率

集群磁盘空间使用率

0 %~100%

1分钟

nn_capacityremaining

剩余的存储空间

集群剩余磁盘空间

取决于集群磁盘容量

1分钟

nn_capacityused

已使用的存储空间

集群已使用磁盘空间

取决于集群磁盘容量

1分钟

hmaster实例分为hmaster-standby(备)hmaster-active(主)实例,当hmaster-active(主)出现故障的时候,hmaster-standby(备)会升主对外提供服务。

CloudTable HBase Regionserver实例支持的监控指标

CloudTable HBase Regionserver实例支持的监控指标如表2所示。

表2 CloudTable支持的监控指标

指标ID

指标名称

含义

取值范围

监控周期(原始指标)

cmdProcessCPU

CPU使用率

统计测量对象的CPU使用率。

单位:%

0%~100%

1分钟

cmdForTotalMemory

总内存大小

统计测量对象的总内存大小。

单位:字节

> 0 Byte

1分钟

cmdProcessMem

内存使用率

统计测量对象的内存使用率。

单位:%

0%~100%

1分钟

cmdForIOWrite

磁盘写速率

统计每秒写到测量对象的数据量。

单位:字节/秒

>= 0 Byte/s

1分钟

cmdForIORead

磁盘读速率

统计每秒从测量对象读出数据量。

单位:字节/秒

>= 0 Byte/s

1分钟

hm_regionservernum

正常的RegionServer个数

统计测量对象所在集群中运行良好的RegionServer数。

>= 0

1分钟

hm_deadregionservernum

故障的RegionServer个数

统计测量对象所在集群中存在故障的RegionServer数。

>= 0

1分钟

hm_ritCountOverThreshold

处在RIT状态达到阈值时长的region个数

统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数。

>= 0

1分钟

hm_ritCount

处在RIT状态的region个数

统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数。

>= 0

1分钟

rs_requests

单个RegionServer每秒请求次数

统计测量对象的单个RegionServer每秒请求次数。

单位:请求数/秒

>= 0 requests/s

1分钟

rs_regions

单个RegionServer的region个数

统计测量对象的单个RegionServer的region个数。

>= 0

1分钟

rs_writerequestscount

单个RegionServer写请求次数

统计测量对象的单个RegionServer的写请求次数。

>= 0

1分钟

rs_readrequestscount

单个RegionServer读请求次数

统计测量对象的单个RegionServer的读请求次数。

>= 0

1分钟

rs_blockcachehitcachingratio

缓存块命中缓存的比率

统计测量对象的缓存块命中缓存的比率。

单位:%

0%~100%

1分钟

rs_blockCacheCountHitPercent

缓存命中比率

统计测量对象的缓存命中比率。

单位:%

0%~100%

1分钟

rs_getavgtime

Get操作延迟

统计测量对象的RegionServer单位时间内Get操作的延迟时间均值。

单位:毫秒

>= 0 ms

1分钟

rs_putavgtime

Put操作延迟

统计测量对象的RegionServer单位时间内Put操作的延迟时间均值。

单位:毫秒

>= 0 ms

1分钟

rs_deleteavgtime

Delete操作延迟

统计测量对象的RegionServer单位时间内Delete操作的延迟时间均值。

单位:毫秒

>= 0 ms

1分钟

rs_getnumops

Get操作数

统计测量对象的RegionServer单位时间内Get操作数。

>= 0

1分钟

rs_putnumops

Put操作数

统计测量对象的RegionServer单位时间内Put操作数。

>= 0

1分钟

rs_deletenumops

Delete操作数

统计测量对象的Regionserver单位时间内Delete操作数。

>= 0

1分钟

rs_queuecalltime_max

RPC队列最大等待时间

统计测量对象的RPC队列最大等待时间。

单位:毫秒

>= 0 ms

1分钟

rs_queuecalltime_mean

RPC队列平均等待时间

统计测量对象的,RPC队列平均等待时间。

单位:毫秒

>= 0 ms

1分钟

rs_flushtime_mean

Flush操作的平均耗时

统计测量对象的Flush操作的平均耗时。

单位:毫秒

>= 0 ms

1分钟

rs_compactionqueuesize

Compaction操作队列大小

统计测量对象的RegionServer中Compaction操作队列大小。

>= 0

1分钟

rs_flushqueuesize

Flush操作队列大小

统计测量对象的RegionServer中Flush操作队列大小。

>= 0

1分钟

rs_compactionscompletedcount

Compaction次数

统计测量对象的Compaction次数。

>= 0

1分钟

rs_flushtimeops_num

Flush次数

统计测量对象的Flush次数。

>= 0

1分钟

rs_blockcacheevictedcount

淘汰的缓存数量

统计测量对象的淘汰的缓存数量。

>= 0

1分钟

rs_syncTime_max

Hlog Sync最大时长

统计测量对象的Hlog Sync最大时长。

单位:毫秒

>= 0 ms

1分钟

rs_syncTime_mean

Hlog Sync平均时长

统计测量对象的Hlog Sync平均时长。

单位:毫秒

>= 0 ms

1分钟

dn_byteswritten_speed

每秒写入字节数

节点每秒写入字节数

>=0 Byte

1分钟

dn_bytesread_speed

每秒读取字节数

节点每秒读取字节数

>=0 Byte

1分钟

rs_numActiveHandler

RegionServer的活跃handler数

RegionServer的活跃handler数(处理用户表请求的handler数、处理meta表请求的handler数和处理replication请求的handler请求数的总和)

>= 0

1分钟

rs_numActiveGeneralHandler

RegionServer处理用户表请求的活跃handler数

RegionServer处理用户表请求的活跃handler数

>= 0

1分钟

rs_scanTime_p999

P999 Scan操作延迟

RegionServer Scan时延的P999

>= 0 ms

1分钟

rs_syncTime_p999

P999 WAL Sync操作延迟

RegionServer WAL Sync时延的P999

>= 0 ms

1分钟

rs_Get_99th_percentile

P99 Get操作延迟

RegionServer Get时延的P99

>= 0 ms

1分钟

rs_Put_99th_percentile

P99 Put操作延迟

RegionServer Put时延的P99

>= 0 ms

1分钟

rs_Delete_99th_percentile

P99 Delete操作延迟

RegionServer Delete时延的P99

>= 0 ms

1分钟

rs_Get_999th_percentile

P999 Get操作延迟

P999 Get操作延迟

>= 0 ms

1分钟

rs_Put_999th_percentile

P999 Put操作延迟

RegionServer Put时延的P999

>= 0 ms

1分钟

rs_Delete_999th_percentile

P999 Delete操作延迟

RegionServer Delete时延的P999

>= 0 ms

1分钟

维度

Key

Value

cluster_id

CloudTable集群ID。

instance_name

CloudTable集群节点名称。