更新时间:2024-03-18 GMT+08:00
分享

监控项列表

通过数据库监控功能提供的GaussDB(DWS)相关监控项,用户可以从中获取有关集群的状态以及可用资源数量等信息,并深入了解当前集群实时的资源消耗情况。

GaussDB(DWS)相关监控项指标,具体请参见表1

表1 GaussDB(DWS)监控列表

监控对象

指标描述

取值范围

监控周期(原始指标)

异常作业监控统计

查询ID。

字符串

30s

执行了异常处理的语句。

字符串

语句执行前的阻塞时间。

≥ 0

语句的实际执行时间。

≥ 0

语句执行异常处理时DN上CPU使用的总时间。

≥ 0

语句在执行异常处理时DN上CPU使用的倾斜率。

≥ 0

语句执行异常处理时所使用的cgroups。

字符串

语句执行异常处理后的状态。

字符串

语句执行的异常处理动作。

字符串

语句被异常处理的原因。

字符串

节点状态统计

主机名。

字符串

60s

主机状态。

字符串

实例状态统计

主机名。

字符串

60s

实例类型。

字符串

实例角色。

字符串

实例状态。

字符串

实例状态原因。

字符串

集群状态

集群状态。

字符串

30s

是否发生过主备切换。

字符串

是否发生过重分布。

字符串

当前集群是否只读。

字符串

cpu状态

默认情况下为ALL。

字符串

30s

用户态CPU时间%。

≥ 0.0

nice值为负进程的CPU时间%。

≥ 0.0

内核态时间%。

≥ 0.0

I/O等待时间%。

≥ 0.0

硬中断时间%。

≥ 0.0

软中断时间%。

≥ 0.0

虚拟机管理器在服务另一个虚拟处理器时虚拟CPU处在非自愿等待下花费时间%。

≥ 0.0

运行虚拟处理器花费的时间%。

≥ 0.0

除去磁盘等待操作之外的空闲时间%。

≥ 0.0

是否有超线程能力。

是/否

是否开启超线程。

是/否

处于runable状态的进程个数。

≥ 0

处于等待I/O完成状态的进程个数。

≥ 0

活跃会话

数据库名称。

字符串

30s

实例名称。

字符串

所有用户会话数量。

≥ 0

distinct用户名。

≥ 0

distinct应用名称。

≥ 0

处于“active”、“fastpathfunctioncall”状态的查询数量。

≥ 0

磁盘容量统计

实例名称。

字符串

86400s

数据库名称。

字符串

数据库大小。

≥ 0

事务状态

数据库名称。

字符串

60s

实例名称。

字符串

通过数据库全局扫描返回的行数。

≥ 0

通过数据库查询索引返回的行数。

≥ 0

通过数据库查询插入的行数。

≥ 0

通过数据库查询更新的行数。

≥ 0

通过数据库查询删除的行数。

≥ 0

此数据库中已经提交的事务数。

≥ 0

此数据库中已经回滚的事务数。

≥ 0

在该数据库中检索的死锁数。

≥ 0

在这个数据库中读取的磁盘块的数量。

≥ 0

高速缓存中已经发现的磁盘块的次数,这样读取是不必要的(这只包括postgresql缓冲区高速缓存,没有操作系统的文件系统缓存)。

≥ 0

通过数据库后端读取数据文件块花费的时间,以毫秒计算。

≥ 0.0

通过数据库后端写入数据文件块花费的时间,以毫秒计算。

≥ 0.0

由于数据库恢复冲突取消的查询数量(只在备用服务器发生的冲突)。

≥ 0

通过数据库查询创建的临时文件数量。计算所有临时文件(比如排序或哈希),并且忽略log_temp_files设置。

≥ 0

通过数据库查询写入临时文件的数据总量。计算所有临时文件,并且忽略log_temp_files设置。

≥ 0

数据库容量(单位:Byte)。

≥ 0

单位时间内通过数据库全局扫描返回的行数。

≥ 0

单位时间内通过数据库查询索引返回的行数。

≥ 0

单位时间内通过数据库查询插入的行数。

≥ 0

单位时间内通过数据库查询更新的行数。

≥ 0

单位时间内通过数据库查询删除的行数。

≥ 0

单位时间内此数据库中已经提交的事务数。

≥ 0

单位时间内此数据库中已经回滚的事务数。

≥ 0

单位时间内在该数据库中检索的死锁数。

≥ 0

文件句柄

磁盘文件系统名称。

字符串

30s

inode总容量(单位:KB)。

≥ 0

已使用容量(单位:KB)。

≥ 0

节点磁盘使用

磁盘文件系统名称。

≥ 0

30s

总容量(单位:KB)。

≥ 0

已使用容量(单位:KB)。

≥ 0

可用容量(单位:KB)。

≥ 0

磁盘使用率%。

≥ 0

gsar网卡使用统计

节点名称。

字符串

30s

网卡名称。

字符串

网卡IP地址。

字符串

网卡接收数据(单位:KB)。

≥ 0

网卡接收数据的包数。

≥ 0

接收包平均长度(单位:Byte)。

≥ 0

网卡接收时丢弃的数据包数。

≥ 0

丢包率。

≥ 0.0

网卡发送数据(单位:KB)。

≥ 0

网卡发送数据的包数。

≥ 0

接收包平均长度(单位:Byte)。

≥ 0

gsar tcp统计

tcp超时重传个数。

≥ 0

30s

tcp发包数量。

≥ 0

tcp重传包数量。

≥ 0

tcp重传率。

≥ 0.0

节点磁盘I/O统计

磁盘名称(devicename)。

字符串

30s

每秒传输次数(transferpersecond)每次传输的大小未知。

≥ 0.0

每秒从设备读取的数据量(单位:KB)。

≥ 0.0

每秒向设备写入的数据量(单位:KB)。

≥ 0.0

读取的总数据量(单位:KB)。

≥ 0.0

写入的总数据量(单位:KB)。

≥ 0.0

每秒对该设备的读请求被合并的次数。

≥ 0.0

每秒对该设备的写请求被合并的次数。

≥ 0.0

每秒完成读次数。

≥ 0.0

每秒完成写次数。

≥ 0.0

每秒读数据量(单位:KB)。

≥ 0.0

每秒写数据量(单位:KB)。

≥ 0.0

平均每次I/O操作的数据量(单位:扇区数)。

≥ 0.0

平均请求队列长度。

≥ 0.0

平均每次I/O请求的等待时间(单位:ms)。

≥ 0.0

平均每次I/O请求的处理时间(单位:ms)。

≥ 0.0

在统计时间内所有处理I/O时间,除以总共统计时间,即I/O队列非空的时间比例%。

≥ 0.0

实例内存监控统计

实例名称。

字符串

60s

实例所占用的内存大小。

≥ 0.0

进程所使用的内存大小。

≥ 0.0

最大动态内存。

≥ 0.0

已使用的动态内存。

≥ 0.0

内存的动态峰值。

≥ 0.0

最大动态共享内存上下文。

≥ 0.0

共享内存上下文的动态峰值。

≥ 0.0

最大共享内存。

≥ 0.0

已使用的共享内存。

≥ 0.0

列存所允许使用的最大内存。

≥ 0.0

列存已使用的内存大小。

≥ 0.0

通信库所允许使用的最大内存。

≥ 0.0

通信库已使用的内存大小。

≥ 0.0

通信库的内存峰值。

≥ 0.0

TopSQL记录历史作业监控信息允许使用的最大内存。

≥ 0.0

TopSQL记录历史作业监控信息的内存峰值。

≥ 0.0

TopSQL记录历史作业监控信息已使用的内存大小。

≥ 0.0

其他已使用的内存大小。

≥ 0.0

pooler连接占用内存大小。

≥ 0.0

pooler空闲连接占用的内存大小。

≥ 0.0

列存压缩和解压缩使用的内存大小。

≥ 0.0

为UDFWorker进程预留的内存大小。

≥ 0.0

MMAP使用的内存大小。

≥ 0.0

实例资源统计

实例名称。

字符串

60s

读取“postmaster.pID/cm_server.pID/gtm.pID/etcd.pID”中的值(CPU使用率%)。

≥ 0.0

读取“postmaster.pID/cm_server.pID/gtm.pID/etcd.pID”中的值(内存使用率%)。

≥ 0.0

实例磁盘大小统计

实例名称。

字符串

86400s

存储位置。

字符串

当前实例上所有数据库使用的磁盘空间。

≥ 0

节点内存统计

所有可用ram大小,物理内存减去预留位和内核使用量后的剩余值(单位:KB)。

≥ 0

30s

系统中未使用的内存,lowfree+highfree(单位:KB)。

≥ 0

用来给块设备做缓存的大小(单位:KB)。

≥ 0

文件缓冲区大小(单位:KB)。

≥ 0

交换空间总和(单位:KB)。

≥ 0

ram暂存在swap中的大小(单位:KB)。

≥ 0

中毒页面中的内存量(单位:KB)。

≥ 0

网络状态统计

网卡名称。

字符串

30s

网卡状态(up/down)。

up/down

网卡速度(千兆/百兆)。

≥ 0

网卡接收总数据(单位:Byte)。

≥ 0

网卡接收数据的总包数。

≥ 0

网卡接收错误总数。

≥ 0

网卡接收时丢弃的数据包总数。

≥ 0

接收时fifo缓冲区错误的数量。

≥ 0

接收时分组帧错误的数量。

≥ 0

接收到的压缩数据包数量。

≥ 0

接收到的多播帧数量。

≥ 0

网卡发送总数据(单位:Byte)。

≥ 0

网卡发送数据的总包数。

≥ 0

网卡发送错误总数。

≥ 0

网卡发送时丢弃的数据包总数。

≥ 0

发送时fifo缓冲区错误的数量。

≥ 0

发送接口上检测到的冲突数。

≥ 0

发送时由设备驱动程序检测到的载波损耗的数量。

≥ 0

发送出的压缩数据包数量。

≥ 0

是否支持网卡多队列。

是/否

网卡多队列开启。

是/否

多队列网卡的CPU亲和性。

字符串

网卡是否双工。

字符串

网络速率。

≥ 0.0

节点sql统计

节点名。

字符串

60s

用户名。

字符串

SELECT数量。

≥ 0

UPDATE数量。

≥ 0

INSERT数量。

≥ 0

DELETE数量。

≥ 0

MERGEINTO数量。

≥ 0

DDL数量。

≥ 0

DML数量。

≥ 0

DCL数量。

≥ 0

SELECT总响应时间。

≥ 0

SELECT平均响应时间。

≥ 0

SELECT最大响应时间。

≥ 0

SELECT最小响应时间。

≥ 0

UPDATE总响应时间。

≥ 0

UPDATE最大响应时间。

≥ 0

UPDATE最小响应时间。

≥ 0

UPDATE最小响应时间。

≥ 0

DELETE总响应时间。

≥ 0

DELETE平均响应时间。

≥ 0

DELETE最大响应时间。

≥ 0

DELETE最小响应时间。

≥ 0

INSERT总响应时间。

≥ 0

INSERT平均响应时间。

≥ 0

INSERT最大响应时间。

≥ 0

INSERT最小响应时间。

≥ 0

单位时间SELECT数量差值。

≥ 0

单位时间UPDATE数量差值。

≥ 0

单位时间INSERT数量差值。

≥ 0

单位时间DELETE数量差值。

≥ 0

单位时间MERGEINTO数量差值。

≥ 0

单位时间DDL数量差值。

≥ 0

单位时间DML数量差值。

≥ 0

单位时间DCL数量差值。

≥ 0

单位时间SELECT总响应时间差值。

≥ 0

单位时间SELECT平均响应时间差值。

≥ 0

单位时间SELECT最大响应时间差值。

≥ 0

单位时间SELECT最小响应时间差值。

≥ 0

单位时间UPDATE总响应时间差值。

≥ 0

单位时间UPDATE最大响应时间差值。

≥ 0

单位时间UPDATE最小响应时间差值。

≥ 0

单位时间UPDATE最小响应时间差值。

≥ 0

单位时间DELETE总响应时间差值。

≥ 0

单位时间DELETE平均响应时间差值。

≥ 0

单位时间DELETE最大响应时间差值。

≥ 0

单位时间DELETE最小响应时间差值。

≥ 0

单位时间INSERT总响应时间差值。

≥ 0

单位时间INSERT平均响应时间差值。

≥ 0

单位时间INSERT最大响应时间差值。

≥ 0

单位时间INSERT最小响应时间差值。

≥ 0

系统状态统计

tcp协议栈重传率%。

≥ 0.0

30s

top sql统计

数据库名称。

字符串

60s

实例名称。

字符串

线程ID(会话ID、sessionID)。

字符串

语句执行使用的内部query_ID。

字符串

用于标示作业类型,可通过guc参数query_band进行设置,默认为空字符串。

字符串

这个值是从query_band的字段中取出来的,位置0。

字符串

这个值是从query_band的字段中取出来的,位置1。

字符串

连接到后端的用户名。

字符串

连接到后端的应用名。

字符串

连接到后端的客户端的ip地址,如果此字段是null,它表明通过服务器机器上unix套接字连接客户端或者这是内部进程,如autovacuum。

字符串

客户端的主机名,这个字段是通过client_addr的反向DNs查找得到。这个字段只有在启动log_hostname且使用ip连接时才非空。

字符串

客户端用于与后端通讯的tcp端口号,如果使用unix套接字,则为-1。

字符串

如果后台当前正等待锁则为true。

是/否

语句执行的开始时间。

≥ 0

语句执行前的阻塞时间(单位:ms)。

≥ 0

语句已经执行的时间(单位:ms)。

≥ 0

语句执行预估总时间(单位:ms)。

≥ 0

语句执行预估剩余时间(单位:ms)。

≥ 0

工作负载管理资源状态。

字符串

用户使用的资源池。

字符串

job在资源池中的优先级,取值:

  • 1:low
  • 2:medium
  • 4:high
  • 8:rush

≥ 0

语句所使用的cgroup。

字符串

语句在所有DN上的最小内存峰值(单位:MB)。

≥ 0

语句在所有DN上的最大内存峰值(单位:MB)。

≥ 0

语句执行过程中的内存使用平均值(单位:MB)。

≥ 0

语句在各DN间的内存使用倾斜率。

≥ 0

语句预估使用内存(单位:MB)。

≥ 0

语句在所有DN上的下盘信息。

字符串

若发生下盘,所有DN上下盘的最小数据量,默认为0(单位:MB)。

≥ 0

若发生下盘,所有DN上下盘的最大数据量,默认为0(单位:MB)。

≥ 0

若发生下盘,所有DN上下盘的平均数据量,默认为0(单位:MB)。

≥ 0

若发生下盘,DN间下盘倾斜率。

≥ 0

语句在所有DN上的最小执行时间(单位:ms)。

≥ 0

语句在所有DN上的最大执行时间(单位:ms)。

≥ 0

语句在所有DN上的平均执行时间(单位:ms)。

≥ 0

语句在各DN间的执行时间倾斜率。

≥ 0

语句在所有DN上的最小CPU时间(单位:ms)。

≥ 0

语句在所有DN上的最大CPU时间(单位:ms)。

≥ 0

语句在所有DN上的CPU总时间(单位:ms)。

≥ 0

语句在各DN间的CPU时间倾斜率。

≥ 0

主要显示如下几类告警信息以及SQL自诊断调优相关告警。

字符串

语句在所有DN上的每秒平均I/O峰值(列存单位是次/s,行存单位是万次/s)。

≥ 0

语句在DN间的I/O倾斜率。

≥ 0

语句在所有DN上的每秒最大I/O峰值(列存单位是次/s,行存单位是万次/s)

≥ 0

语句在所有DN上的每秒最小I/O峰值(列存单位是次/s,行存单位是万次/s)。

≥ 0

查询语句。

字符串

查询计划。

字符串

当前查询语句的实时运行状态(active、IDle、IDleintransaction、IDleintransaction(aborted)、fastpathfunctioncall、disabled)。

字符串

当前查询语句在资源池上的运行状态(pending、running、finished、aborted、active、unknown)。

字符串

语句的属性(ordinary、simple、complicated、internal)。

字符串

快慢车道(fastorslow)。

字符串

是否系统查询。

是/否

适配monitor搜索,是否系统查询。

是/否

该过程开始的时间,即当客户端连接服务器时。

≥ 0

到目前为止的执行时间。

≥ 0

启动当前事务的时间,如果没有事务是活跃的,则为null。如果当前查询是首个事务,则这列等同于query_start列。

≥ 0

上次状态改变的时间。

≥ 0

语句执行的开始时间。

≥ 0

语句当前为止的实际执行时间(单位:s)。

≥ 0

历史查询

数据库名称。

字符串

180s

实例名称。

字符串

用户名称。

字符串

连接到后端的应用名。

字符串

连接到后端的客户端的ip地址,如果此字段是null,它表明通过服务器机器上unix套接字连接客户端或者这是内部进程,如autovacuum。

字符串

客户端的主机名,这个字段是通过client_addr的反向DNs查找得到。这个字段只有在启动log_hostname且使用ip连接时才非空。

字符串

客户端用于与后端通讯的tcp端口号,如果使用unix套接字,则为-1。

字符串

用于标示作业类型,可通过guc参数query_band进行设置,默认为空字符串。

字符串

这个值是从query_band的字段中取出来的,位置0。

字符串

这个值是从query_band的字段中取出来的,位置1。

字符串

语句执行前的阻塞时间,包含语句解析和优化时间(单位:ms)。

≥ 0

语句执行的开始时间(单位:ms)。

≥ 0

语句执行的结束时间(单位:ms)。

≥ 0

语句已经执行的时间(单位:ms)。

≥ 0

语句预估执行时间(单位:ms)。

≥ 0

语句执行结束状态:

  • 正常:finished
  • 异常:aborted

字符串

语句执行结束状态为aborted时显示异常信息。

字符串

用户使用的资源池。

字符串

Job在资源池中的优先级,取值:

  • 8:rush
  • 4:high
  • 2:medium
  • 1:low

≥ 0

语句所使用的cgroup。

字符串

语句在所有DN上的最小内存峰值(单位:MB)。

≥ 0

语句在所有DN上的最大内存峰值(单位:MB)。

≥ 0

语句执行过程中的内存使用平均值(单位:MB)。

≥ 0

语句各DN间的内存使用倾斜率。

≥ 0

语句在所有DN上的下盘信息。

字符串

若发生下盘,所有DN上下盘的最小数据量,单位MB,默认为0。

≥ 0

若发生下盘,所有DN上下盘的最大数据量,单位MB,默认为0。

≥ 0

若发生下盘,所有DN上下盘的平均数据量,单位MB,默认为0。

≥ 0

若发生下盘,DN间下盘倾斜率。

≥ 0

语句在所有DN上的最小执行时间(单位:ms)。

≥ 0

语句在所有DN上的最大执行时间(单位:ms)。

≥ 0

语句在所有DN上的平均执行时间(单位:ms)。

≥ 0

语句在各DN间的执行时间倾斜率。

≥ 0

语句在所有DN上的最小CPU时间(单位:ms)。

≥ 0

语句在所有DN上的最大CPU时间(单位:ms)。

≥ 0

语句在所有DN上的CPU总时间(单位:ms)。

≥ 0

语句在DN间的CPU时间倾斜率。

≥ 0

语句在所有DN上的每秒最小I/O峰值(列存单位是次/s,行存单位是万次/s)。

≥ 0

语句在所有DN上的每秒最大I/O峰值(列存单位是次/s,行存单位是万次/s)。

≥ 0

语句在所有DN上的每秒平均I/O峰值(列存单位是次/s,行存单位是万次/s)。

≥ 0

语句在DN间的I/O倾斜率。

≥ 0

主要显示如下几类告警信息以及SQL自诊断调优相关告警。

字符串

查询ID。

字符串

执行的语句。

字符串

语句的执行计划。

字符串

语句所属用户对应的逻辑集群。

字符串

schema使用统计

数据库名称。

字符串

3600s

Schema名称。

字符串

已使用容量(单位:Byte)。

≥ 0

总容量(单位:Byte)。

≥ 0

session统计

数据库名称。

字符串

180s

实例名称。

字符串

线程ID(可以作为sessionID,也可以作为连接ID使用)。

字符串

数据库用户名。

字符串

用户应用名称。

字符串

客户端地址。

字符串

客户端主机名。

字符串

客户端用于与后台通讯的tcp端口号,如果使用unix套接字,则为-1。

字符串

该过程开始的时间,即当客户端连接服务器时。

≥ 0

到目前为止的执行时间。

≥ 0

启动当前事务的时间,如果没有事务是活跃的,则为null。如果当前查询是首个事务,则这列等同于query_start列。

≥ 0

上次状态改变的时间。

≥ 0

如果后台当前正等待锁则为true。

是/否

该后台当前总体状态。

字符串

用户使用的资源池。

字符串

语句当前为止的实际执行时间,(单位:s)。

≥ 0

查询语句的ID。

字符串

语句执行的开始时间。

≥ 0

语句当前所使用的cgroups。

字符串

锁类型。

字符串

锁模式。

字符串

存在锁等待情况,是否持有锁,持有为true。

是/否

锁等待的资源。

字符串

语句类型。

字符串

查询SQL。

字符串

是否为系统查询。

是/否

查询计划。

字符串

sql探针统计

探针任务的查询ID。

字符串

30s

集群ID。

字符串

集群项目编号。

字符串

探针SQL的任务类型。

字符串

探针SQL的任务的创建时间。

≥ 0

SQL执行时间。

≥ 0

关联的探针SQL的probe_ID。

字符串

探针名称。

字符串

探针SQL的任务状态:

  • 进行中:running
  • 完成:success
  • 失败:fail

字符串

表脏页率统计

数据库名称。

字符串

7200s

模式名称。

字符串

表名称(全名)。

字符串

表所有者。

字符串

表大小(单位:Byte)。

≥ 0

表脏页率。

≥ 0.0

表倾斜监控统计

数据库名称。

字符串

7200s

模式名称。

字符串

表名称(全名)。

字符串

表所有者。

字符串

表大小(单位:Byte)。

≥ 0

表倾斜率。

≥ 0.0

资源池统计

负载资源池。

字符串

120s

资源池cpu配额。

≥ 0

资源池内存配额。

≥ 0

资源池磁盘配额。

≥ 0

资源池允许的简单作业最大并发数。

≥ 0

资源池允许的最大并发数。

≥ 0

资源池cpu使用率。

≥ 0.0

资源池内存使用率。

≥ 0.0

资源池磁盘使用率。

≥ 0.0

资源池当前简单作业并发数。

≥ 0

资源池当前并发数。

≥ 0

资源池用户统计

负载资源池。

字符串

30s

用户的CPU配额。

≥ 0

用户的内存配额。

≥ 0

用户的磁盘配额。

≥ 0

用户的CPU使用率。

≥ 0.0

用户的内存使用率。

≥ 0.0

用户的磁盘使用率。

≥ 0.0

用户ID。

字符串

用户名称。

字符串

分享:

    相关文档

    相关产品