更新时间:2024-11-11 GMT+08:00
分享

GaussDB支持的监控指标

功能说明

本节定义了GaussDB上报云监控的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控提供的API接口来检索GaussDB产生的监控指标和告警信息。

命名空间

SYS.GAUSSDBV5

指标采集约束

  • 分布式备DN:V2.0-3.100.0及以上版本实例开始支持采集,且需要事务一致性为“最终一致性”。
  • 集中式备DN:V2.0-2.0.10及以上版本实例开始支持采集。

支持的监控指标

GaussDB数据库性能监控指标,如下表所示。

表1 GaussDB支持的监控指标

指标ID

指标名称

指标含义

展示对象

指标单位

测量对象

监控周期(原始指标)

rds001_cpu_util

CPU使用率

该指标用于统计测量对象的CPU使用率。

当前节点

%

节点

60秒

rds002_mem_util

内存使用率

该指标用于统计测量对象的内存使用率。

当前节点

%

节点

60秒

rds003_bytes_in

数据写入量

该指标用于统计测量对象对应VM的网络发送字节数,取时间段的平均值。

当前节点

Byte/s

节点

60秒

rds004_bytes_out

数据传出量

该指标用于统计测量对象对应VM的网络接受字节数,取时间段的平均值。

当前节点

Byte/s

节点

60秒

rds014_iops

数据磁盘每秒读写次数

该指标用于统计测量对象的节点数据磁盘每秒读写次数,该值为实时值。

当前节点

Count/s

节点

60秒

rds016_disk_write_throughput

数据磁盘写吞吐量

该指标用于统计测量对象的节点数据磁盘每秒写吞吐量,该值为实时值。

当前节点

Byte/s

节点

60秒

rds017_disk_read_throughput

数据磁盘读吞吐量

该指标用于统计测量对象的节点数据磁盘每秒读吞吐量,该值为实时值。

当前节点

Byte/s

节点

60秒

rds020_avg_disk_ms_per_write

数据磁盘单次写入花费的时间

该指标用于统计测量对象的节点数据磁盘单次写入花费的时间,取时间段的平均值。

当前节点

ms

节点

60秒

rds021_avg_disk_ms_per_read

数据磁盘单次读取花费的时间

该指标用于统计测量对象的节点数据磁盘单次读取花费的时间,取时间段的平均值。

当前节点

ms

节点

60秒

io_bandwidth_usage

磁盘io带宽占用率

当前磁盘io带宽与磁盘最大带宽比值。

当前节点

%

节点

60秒

iops_usage

IOPS使用率

当前IOPS与磁盘最大IOPS比值。

当前节点

%

节点

60秒

rds005_instance_disk_used_size

实例数据磁盘已使用大小

该指标用于统计测量对象的实例数据磁盘已使用大小,该值为实时值。

实例

GB

实例

60秒

rds006_instance_disk_total_size

实例数据磁盘总大小

该指标用于统计测量对象的实例数据磁盘总大小,该值为实时值。

实例

GB

实例

60秒

rds007_instance_disk_usage

实例数据磁盘已使用百分比

该指标用于统计测量对象的实例数据磁盘使用率,该值为实时值。

实例

%

实例

60秒

rds035_buffer_hit_ratio

buffer命中率

该指标用于统计数据库buffer命中率。

实例

%

实例

60秒

rds036_deadlocks

死锁次数

该指标用于统计数据库发生事务死锁的次数,取该时间段的增量值。

实例

Count

实例

60秒

rds048_P80

80% SQL的响应时间

该指标用于统计数据库80% SQL的响应时间,该值为实时值。

实例

us

实例

60秒

rds049_P95

95% SQL的响应时间

该指标用于统计数据库95% SQL的响应时间,该值为实时值。

实例

us

实例

60秒

rds008_disk_used_size

磁盘已使用大小

该指标用于统计测量对象的节点数据磁盘使用值,该值为实时值。

当前节点

GB

组件

60秒

rds009_disk_total_size

磁盘总大小

该指标用于统计测量对象的节点数据磁盘总大小,该值为实时值。

当前节点

GB

组件

60秒

rds010_disk_usage

磁盘已使用百分比

该指标用于统计测量对象的节点数据磁盘使用率,该值为实时值。

当前节点

%

组件

60秒

rds024_current_sleep_time

主机流控时间

该指标用于统计测量对象的主机流控时间,该值为实时值。

分布式版:备DN

集中式版:备DN

us

组件

60秒

rds025_current_rto

备机RTO时间

该指标用于统计测量对象的主备复制的RTO,该值为实时值。

分布式版:备DN

集中式:备DN

s

组件

60秒

rds026_login_counter

用户登入次数/秒

该指标用于统计每秒的登入次数,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

Count/s

组件

60秒

rds027_logout_counter

用户登出次数/秒

该指标用于统计每秒的登出次数,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

Count/s

组件

60秒

rds028_standby_delay

备机redo进度

该指标用于统计分片内备机redo进度,表示备机和主机的差距,该值为实时值。

分布式版:备DN

集中式版:主DN

Byte

组件

60秒

rds030_wait_ratio

锁等待状态会话比率

该指标用于统计当前处于锁等待状态会话占活跃工作状态下会话比率,该值为实时值。

分布式版:所有CN+主DN

集中式版:所有DN

%

组件

60秒

rds031_active_ratio

活跃会话率

该指标用于统计当前处于活跃工作状态会话占总会话数比率,该值为实时值。

分布式版:所有CN+主DN

集中式版:所有DN

%

组件

60秒

rds034_inuse_counter

CN连接数

该指标用于统计CN连接池中正在使用的连接数,该值为实时值。

分布式版:所有CN

集中式版:不采集

Count

组件

60秒

rds037_commit_counter

用户提交事务数/秒

该指标用于统计用户每秒提交的事务数,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

Count/s

组件

60秒

rds038_rollback_counter

用户回滚事务数/秒

该指标用于统计用户每秒回滚的事务数,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

Count/s

组件

60秒

rds039_bg_commit_counter

后台提交事务数/秒

该指标用于统计后台每秒提交的事务数,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

Count/s

组件

60秒

rds040_bg_rollback_counter

后台回滚事务数/秒

该指标用于统计后台每秒回滚的事务数,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

Count/s

组件

60秒

rds041_resp_avg

用户事务平均响应时间

该指标用于统计用户事务的平均响应时间。

分布式版:所有CN

集中式版:主DN

us

组件

60秒

rds042_rollback_ratio

用户事务回滚率

该指标用于统计用户事务回滚事务占用户提交、回滚事务之和的比率,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

%

组件

60秒

rds043_bg_rollback_ratio

后台事务回滚率

该指标用于统计后台事务回滚事务占用户提交、回滚事务之和的比率,取时间段的平均值。

分布式版:所有CN

集中式版:主DN

%

组件

60秒

rds044_ddl_count

Data Definition Language/s

该指标用于统计用户负载在query层的DDL数量,取时间段的平均值。

分布式版:所有CN+所有DN

集中式版:所有DN

Count/s

组件

60秒

rds045_dml_count

Data Manipulation Language/s

该指标用于统计用户负载在query层的DML数量,取时间段的平均值。

分布式版:所有CN+所有DN

集中式版:所有DN

Count/s

组件

60秒

rds046_dcl_count

Data Control Language/s

该指标用于统计用户负载在query层的DCL数量,取时间段的平均值。

分布式版:所有CN+所有DN

集中式版:所有DN

Count/s

组件

60秒

rds047_ddl_dcl_ratio

DDL+DCL比率

该指标用于统计用户负载在query层的DDL+DCL占DDL+DCL+DML的比率,取时间段的平均值。

分布式版:所有CN+所有DN

集中式版:所有DN

%

组件

60秒

rds050_ckpt_delay

待落盘的数据量

该指标用于统计信息同步到磁盘过程中待落盘的数据量,该值为实时值。

分布式版:所有CN+主DN

集中式版:主DN

Byte

组件

60秒

rds051_phyrds

读物理文件的IO次数/秒

该指标用于统计数据库每秒读物理物件的IO次数,取时间段的平均值。

分布式版:所有CN+主DN

集中式版:所有DN

Count/s

组件

60秒

rds052_phywrts

写物理文件的IO次数/秒

该指标用于统计数据库每秒写物理物件的IO次数,取时间段的平均值。

分布式版:所有CN+主DN

集中式版:所有DN

Count/s

组件

60秒

rds053_online_session

在线会话数量

该指标用于统计当前在线的session个数,该值为实时值。

分布式版:所有CN+所有DN

集中式版:所有DN

Count

组件

60秒

rds054_active_session

活跃会话数量

该指标用于统计当前所有活跃工作状态下会话个数,该值为实时值。

分布式版:所有CN+主DN

集中式版:主DN

Count

组件

60秒

rds055_online_ratio

在线会话率

该指标用于统计CN(分布式版)/主DN(集中式版)上的在线会话比例,该值为实时值。

分布式版:所有CN+主DN

集中式版:所有DN

%

组件

60秒

rds060_long_running_transaction_exectime

数据库最长事务的执行时长

该指标用于统计测量对象的数据库最长事务的执行时长, 该值为实时值。

分布式版:所有CN+主DN

集中式版:所有DN

s

组件

60秒

rds066_replication_slot_wal_log_size

复制槽保留的WAL日志大小

该指标用于统计主DN上复制槽中保留的WAL日志的大小, 该值为实时值。

分布式版:主DN

集中式版:所有DN

Byte

组件

60秒

rds067_xlog_lsn

xlog速率

该指标用于统计CN或者主DN上xlog的速率, 该值为实时值。

分布式版:所有CN+主DN

集中式版:主DN

Byte/s

组件

60秒

rds068_swap_used_ratio

交换内存使用率

该指标用于描述操作系统交换内存使用率,该值为实时值。

当前节点

%

节点

60秒

rds069_swap_total_size

交换内存总大小

该指标用于描述操作系统交换内存总大小,该值为实时值。

当前节点

MB

节点

60秒

rds070_thread_pool

线程池使用率

该指标用于统计CN和DN的线程池使用率,该值为实时值。

分布式版:所有CN+主DN

集中式版:所有DN

%

组件

60秒

rds071_locks_session

等锁会话数

该指标用于统计CN/主DN的等锁会话数,该值为实时值。

分布式版:所有CN+主DN

集中式版:所有DN

Count

组件

60秒

rds072_streaming_dr_xlog_gap

灾备集群分片日志差距

该指标用于统计流式容灾特性开启情况下,灾备集群中各个分片相对于生产集群的日志差距。

分布式版:所有CN+主DN

集中式版:主DN

Byte

组件

60秒

rds073_streaming_dr_xlog_to_be_replayed

灾备集群分片待回放日志量

该指标用于统计流式容灾特性开启情况下,灾备集群中各个分片待回放日志量。

分布式版:所有CN+主DN

集中式版:主DN

Byte

组件

60秒

rds074_streaming_dr_xlog_flushing_rate

灾备集群分片日志落盘速率

该指标用于统计流式容灾特性开启情况下,灾备集群中各个分片日志落盘速率。

分布式版:所有CN+主DN

集中式版:主DN

Byte/s

组件

60秒

rds075_streaming_dr_xlog_replay_rate

灾备集群分片日志回放速率

该指标用于统计流式容灾特性开启情况下,灾备集群中各个分片日志回放速率。

分布式版:所有CN+主DN

集中式:主DN

Byte/s

组件

60秒

rds076_streaming_dr_rpo

分片RPO

该指标用于统计流式容灾特性开启情况下,各个分片的实时RPO。

分布式版:所有CN+主DN

集中式版:主DN

s

组件

60秒

rds077_streaming_dr_rto

分片RTO

该指标用于统计流式容灾特性开启情况下,各个分片的实时RTO。

分布式版:所有CN+主DN

集中式版:主DN

s

组件

60秒

rds078_inactive_replication_slot

非活跃的复制槽数

该指标用于统计非活跃的复制槽数(物理加逻辑)。

分布式版:所有CN+主DN

集中式:所有DN

Count

组件

60秒

rds079_standy_not_replayed_log

只读节点未回放日志量

该指标用于查询只读节点日志回放与接收量差距。

分布式版:备DN

集中式:备DN

Byte

组件

60秒

rds080_xlog_num

xlog数量

该指标用于统计CN和DN数据目录下xlog数量,该值为实时值。

分布式版:所有CN+所有DN

集中式版:所有DN

Count

组件

60秒

rds081_xlog_size

xlog大小

该指标用于统计CN和DN数据目录下xlog大小,该值为实时值。

分布式版:所有CN+所有DN

集中式版:所有DN

MB

组件

60秒

rds064_dynamic_used_memory

已使用动态内存

该指标用于统计测量对象的动态内存已使用大小,该值为实时值。

分布式版:所有CN+所有DN

集中式版:所有DN

MB

组件

60秒

rds065_dynamic_used_memory_usage

动态内存使用率

该指标用于统计测量对象的动态内存使用率,该值为实时值。

分布式版:所有CN+所有DN

集中式:所有DN

%

组件

60秒

rds061_idle_in_transaction_num

空闲事务个数

该指标用于统计测量对象的空闲事务连接的数量,该值为实时值。

分布式版:所有CN+所有DN

集中式版:所有DN

Count

组件

60秒

rds062_slowquery_sys

系统库慢SQL数量

该指标用于统计指定周期内主DN/CN上系统数据库慢SQL数量,该值为实时值。

分布式版:所有CN

集中式:主DN

Count

组件

60秒

rds063_slowquery_user

用户库慢SQL数量

该指标用于统计指定周期内主DN/CN上用户库慢SQL数量,该值为实时值。

分布式版:所有CN

集中式:主DN

Count

组件

60秒

rds082_gaussv5_wait_session

等待会话数量

该指标用于统计当前等待会话数量,该值为实时值。

分布式版:所有CN + 备DN

集中式:所有DN

Count

组件

60秒

rds083_cn_temp_dir_size

CN临时目录大小

该指标用于统计CN数据目录下临时目录大小,该值为实时值。

分布式版:所有CN + 备DN

集中式版:所有DN

MB

组件

60秒

rds084_sys_database_size

系统数据库大小

该值用于统计实例的postgres数据库大小,该值为实时值。

当前节点

Byte

节点

60秒

rds085_user_database_size

用户数据库总大小

该值用于统计实例的所有用户数据库总大小,该值为实时值。

当前节点

Byte

节点

60秒

rds086_select_distribution

select分布

该值用于统计select语句的比例,该值为实时值。

分布式版:所有CN + 所有DN

集中式:所有DN

%

组件

60秒

rds087_update_distribution

update分布

该值用于统计update语句的比例,该值为实时值。

分布式版:所有CN + 所有DN

集中式:所有DN

%

组件

60秒

rds088_insert_distribution

insert分布

该值用于统计insert语句的比例,该值为实时值。

分布式版:所有CN + 所有DN

集中式版:所有DN

%

组件

60秒

rds089_delete_distribution

delete分布

该值用于统计delete语句的比例,该值为实时值。

分布式版:所有CN + 所有DN

集中式:所有DN

%

组件

60秒

rds091_gaussv5_qps

读请求量

该值用于统计租户的每秒读请求数量,取时间段内的平均值。

分布式版:所有CN

集中式版:所有DN

Count

组件

60秒

rds092_gaussv5_tps_rt_insert

insert写请求响应时间

该值用于统计租户的insert写请求平均响应时间,取时间段内的平均值。

分布式版:所有CN

集中式:所有DN

ms

组件

60秒

rds093_gaussv5_tps_rt_update

update写请求响应时间

该值用于统计租户的update写请求平均响应时间,取时间段内的平均值。

分布式版:所有CN

集中式:所有DN

ms

组件

60秒

rds094_gaussv5_tps_rt_delete

delete写请求响应时间

该值用于统计租户的delete写请求平均响应时间,取时间段内的平均值。

分布式版:所有CN

集中式:所有DN

ms

组件

60秒

rds095_gaussv5_qps_rt

读请求响应时间

该值用于统计租户的读请求平均响应时间,取时间段内的平均值。

分布式版:所有CN

集中式版:所有DN

ms

组件

60秒

retrans_rate

重传比例

该值用于统计 TCP 包重传率,该值为实时值。

当前节点

%

节点

60秒

rds096_process_used_memory

进程已使用内存

该指标用于统计CN或者DN上已经使用内存,该值为实时值。

分布式版:所有CN + 所有DN

集中式版:所有DN

MB

组件

60秒

rds097_2pc_transaction_prepare

最长未决事务存活时长

该指标用于统计2pc未提交事务最长时间。

集中式:主DN

s

组件

60秒

rds098_dn_instance_status

DN组件状态

该指标用于表示DN组件状态,该值为实时值,1代表正常(Primary),2代表正常(Standby),3代表正常(Main Standby),4代表正常(Cascade Standby),10代表Catchup(备机追主机xlog),20代表备机:连接正常,复制异常,21代表连接异常。

集中式:所有DN

组件

60秒

rds099_replication_slot_dir_size

复制插槽目录大小

该值用于统计复制插槽目录大小,该值为实时值。

集中式:所有DN

KB

组件

300秒

rds100_standby_diff_redo_and_receive

备机redo位置和接收位置差距

该指标用于查询备机redo位置与备机接收位置差距,以判断主备差异是因为备机回放慢还是主机未发送。

分布式版:备DN

集中式:备DN

Byte

组件

60秒

rds101_online_distinct_client_addr_count

在线客户端数量

该指标用于查看每个CN上的在线客户端数量。

分布式版:所有CN

Count

组件

60秒

rds102_working_distinct_client_addr_count

活跃客户端数量

该指标用于查看每个CN上的活跃客户端连接数。

分布式版:所有CN

Count

组件

60秒

rds103_shard_min_rto

分片级的RTO

该DN分片多个备DN节点RTO的最小值

集中式:主DN

分布式版:主DN

s

组件

60秒

rds104_invalid_usr_pwd_login_denied_count

错误用户名密码登录次数

该指标用于统计内核日志中错误用户名或密码登录次数,为2次采集的差值(增量)

集中式版:所有DN

分布式版:所有CN

Count

组件

300秒

维度

表2 GaussDB涉及的维度

Key

Value

gaussdbv5_instance_id

GaussDB实例

gaussdbv5_node_id

GaussDB节点

gaussdbv5_component_id

GaussDB组件

相关文档