HBase集群监控指标说明

功能说明

监控是保持CloudTable服务可靠性、可用性和性能的重要部分，通过监控，用户可以观察CloudTable服务器的运行状态。

本章节定义了表格存储服务上报云监控服务的监控指标的命名空间、监控指标列表和维度定义。

命名空间

SYS.CloudTable

CloudTable HBase HMaster实例支持的监控指标

表1 CloudTable HBase HMaster实例支持的监控指标
指标ID	指标名称	含义	取值范围	单位	进制	测量对象（维度）	监控周期（原始指标）
cmdForTotalMemory	总内存大小	统计测量对象的总内存大小	> 0	Byte	1024(IEC)	CloudTable实例节点	1分钟
cmdProcessCPU	CPU使用率	统计测量对象的CPU使用率	0~100	%	不涉及	CloudTable实例节点	1分钟
cmdProcessMem	内存使用率	统计测量对象的内存使用率	0~100	%	不涉及	CloudTable实例节点	1分钟
hm_deadregionservernum	故障的RegionServer个数	统计测量对象所在集群中存在故障的RegionServer数	0~RegionServer总数	Count	不涉及	CloudTable实例节点	1分钟
hm_regionservernum	正常的RegionServer个数	统计测量对象所在集群中运行良好的RegionServer数	0~RegionServer总数	Count	不涉及	CloudTable实例节点	1分钟
hm_ritCount	处在RIT状态的region个数	统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数	0~region总数	Count	不涉及	CloudTable实例节点	1分钟
hm_ritCountOverThreshold	处在RIT状态达到阈值时长的region个数	统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数	0~region总数	Count	不涉及	CloudTable实例节点	1分钟
rs_queuecalltime_max	RPC队列最大等待时间	统计测量对象的RPC队列最大等待时间	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_queuecalltime_mean	RPC队列平均等待时间	统计测量对象的RPC队列平均等待时间	>= 0	ms	不涉及	CloudTable实例节点	1分钟
nn_percentallused	磁盘空间使用率	集群磁盘空间使用率	0~100	%	不涉及	CloudTable实例节点	1分钟
nn_capacityremaining	剩余的存储空间	集群剩余磁盘空间	取决于集群磁盘容量	GB	不涉及	CloudTable实例节点	1分钟
nn_capacityused	已使用的存储空间	集群已使用磁盘空间	取决于集群磁盘容量	GB	不涉及	CloudTable实例节点	1分钟
cmdForUsedStorageRate	已用存储空间比率	统计测量对象所在集群的已用存储空间大小占总配额的比率	0~100	%	不涉及	CloudTable实例节点	1分钟
network_throughput_inbound_rate	网络吞吐流入速率	每个节点每秒的网络流入数据量。	>= 0	KB/s	不涉及	CloudTable实例节点	1分钟
network_throughput_outgoing_rate	网络吞吐流出速率	每个节点每秒的网络流出数据量。	>= 0	KB/s	不涉及	CloudTable实例节点	1分钟
disk_throughput_read_rate	磁盘吞吐读速率	磁盘读取吞吐速率。	>= 0	Byte/s	1024(IEC)	CloudTable实例节点	1分钟
disk_throughput_write_rate	磁盘吞吐写速率	磁盘写入吞吐速率。	>= 0	Byte/s	1024(IEC)	CloudTable实例节点	1分钟

hmaster实例分为hmaster-standby（备）hmaster-active（主）实例，当hmaster-active（主）出现故障的时候，hmaster-standby（备）会升主对外提供服务。

HBase集群磁盘默认10%预留空间，所以集群磁盘告警值不等于磁盘使用率。

CloudTable HBase Regionserver实例支持的监控指标

CloudTable HBase Regionserver实例支持的监控指标如表2所示。

表2 支持的监控指标
指标ID	指标名称	含义	取值范围	单位	进制	测量对象（维度）	监控周期（原始指标）
cmdProcessCPU	CPU使用率	统计测量对象的CPU使用率。	0~100	%	不涉及	CloudTable实例节点	1分钟
cmdForTotalMemory	总内存大小	统计测量对象的总内存大小。	> 0	Byte	1024(IEC)	CloudTable实例节点	1分钟
cmdProcessMem	内存使用率	统计测量对象的内存使用率。	0~100	%	不涉及	CloudTable实例节点	1分钟
disk_throughput_write_rate	磁盘写速率	统计每秒写到测量对象的数据量。	>= 0	Byte/s	1024(IEC)	CloudTable实例节点	1分钟
disk_throughput_read_rate	磁盘读速率	统计每秒从测量对象读出数据量。	>= 0	Byte/s	1024(IEC)	CloudTable实例节点	1分钟
hm_regionservernum	正常的RegionServer个数	统计测量对象所在集群中运行良好的RegionServer数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
hm_deadregionservernum	故障的RegionServer个数	统计测量对象所在集群中存在故障的RegionServer数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
hm_ritCountOverThreshold	处在RIT状态达到阈值时长的region个数	统计测量对象所在集群中处在RIT(Region In Transaction)状态达到阈值时长的region个数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
hm_ritCount	处在RIT状态的region个数	统计测量对象所在集群中处在RIT(Region In Transaction)状态的region个数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_requests	单个RegionServer每秒请求次数	统计测量对象的单个RegionServer每秒请求次数。	>= 0	requests/s	不涉及	CloudTable实例节点	1分钟
rs_regions	单个RegionServer的region个数	统计测量对象的单个RegionServer的region个数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_writerequestscount	单个RegionServer写请求次数	统计测量对象的单个RegionServer的写请求次数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_readrequestscount	单个RegionServer读请求次数	统计测量对象的单个RegionServer的读请求次数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_blockcachehitcachingratio	缓存块命中缓存的比率	统计测量对象的缓存块命中缓存的比率。	0~100	%	不涉及	CloudTable实例节点	1分钟
rs_blockCacheCountHitPercent	缓存命中比率	统计测量对象的缓存命中比率。	0~100	%	不涉及	CloudTable实例节点	1分钟
rs_getavgtime	Get操作延迟	统计测量对象的RegionServer单位时间内Get操作的延迟时间均值。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_putavgtime	Put操作延迟	统计测量对象的RegionServer单位时间内Put操作的延迟时间均值。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_deleteavgtime	Delete操作延迟	统计测量对象的RegionServer单位时间内Delete操作的延迟时间均值。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_getnumops	Get操作数	统计测量对象的RegionServer单位时间内Get操作数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_putnumops	Put操作数	统计测量对象的RegionServer单位时间内Put操作数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_deletenumops	Delete操作数	统计测量对象的Regionserver单位时间内Delete操作数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_queuecalltime_max	RPC队列最大等待时间	统计测量对象的RPC队列最大等待时间。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_queuecalltime_mean	RPC队列平均等待时间	统计测量对象的，RPC队列平均等待时间。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_flushtime_mean	Flush操作的平均耗时	统计测量对象的Flush操作的平均耗时。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_compactionqueuesize	Compaction操作队列大小	统计测量对象的RegionServer中Compaction操作队列大小。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_flushqueuesize	Flush操作队列大小	统计测量对象的RegionServer中Flush操作队列大小。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_compactionscompletedcount	Compaction次数	统计测量对象的Compaction次数。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_flushtimeops_num	Flush次数	统计测量对象的Flush次数。说明： Flush次数指标是一个计数器类型，达到上限后发生回绕，从零开始计数。集群重启Flush次数也会清零重新计算。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_blockcacheevictedcount	淘汰的缓存数量	统计测量对象的淘汰的缓存数量。	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_syncTime_max	Hlog Sync最大时长	统计测量对象的Hlog Sync最大时长。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_syncTime_mean	Hlog Sync平均时长	统计测量对象的Hlog Sync平均时长。	>= 0	ms	不涉及	CloudTable实例节点	1分钟
dn_byteswritten_speed	每秒写入字节数	节点每秒写入字节数	>=0	Byte	1024(IEC)	CloudTable实例节点	1分钟
dn_bytesread_speed	每秒读取字节数	节点每秒读取字节数	>=0	Byte	1024(IEC)	CloudTable实例节点	1分钟
rs_numActiveHandler	RegionServer的活跃handler数	RegionServer的活跃handler数（处理用户表请求的handler数、处理meta表请求的handler数和处理replication请求的handler请求数的总和）	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_numActiveGeneralHandler	RegionServer处理用户表请求的活跃handler数	RegionServer处理用户表请求的活跃handler数	>= 0	Count	不涉及	CloudTable实例节点	1分钟
rs_scanTime_p999	P999 Scan操作延迟	RegionServer Scan时延的P999	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_syncTime_p999	P999 WAL Sync操作延迟	RegionServer WAL Sync时延的P999	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_Get_99th_percentile	P99 Get操作延迟	RegionServer Get时延的P99	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_Put_99th_percentile	P99 Put操作延迟	RegionServer Put时延的P99	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_Delete_99th_percentile	P99 Delete操作延迟	RegionServer Delete时延的P99	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_Get_999th_percentile	P999 Get操作延迟	P999 Get操作延迟	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_Put_999th_percentile	P999 Put操作延迟	RegionServer Put时延的P999	>= 0	ms	不涉及	CloudTable实例节点	1分钟
rs_Delete_999th_percentile	P999 Delete操作延迟	RegionServer Delete时延的P999	>= 0	ms	不涉及	CloudTable实例节点	1分钟

维度

Key	Value
cluster_id	CloudTable集群ID。该取值的获取方式：进入集群管理页面，单击“集群名称 > 详情”，进入“详情”页，在“集群信息 ”模块中获取集群ID。
instance_name	CloudTable集群节点名称。该取值的获取方式：进入集群管理页面，单击“集群名称 > 详情”，进入“详情”页获取instance_name。

Key

Value

cluster_id

CloudTable集群ID。

该取值的获取方式：进入集群管理页面，单击“集群名称 > 详情”，进入“详情”页，在“集群信息 ”模块中获取集群ID。

instance_name

CloudTable集群节点名称。

该取值的获取方式：进入集群管理页面，单击“集群名称 > 详情”，进入“详情”页获取instance_name。

父主题： 使用CES监控HBase集群

上一篇：使用CES监控HBase集群

下一篇：设置HBase集群告警规则