监控项列表
通过数据库监控功能提供的GaussDB(DWS)相关监控项,用户可以从中获取有关集群的状态以及可用资源数量等信息,并深入了解当前集群实时的资源消耗情况。
GaussDB(DWS)相关监控项指标,具体请参见表1。
监控对象 |
指标描述 |
取值范围 |
监控周期(原始指标) |
指标业务说明 |
推荐阈值 |
---|---|---|---|---|---|
异常作业监控统计 |
查询ID。 |
字符串 |
30s |
统计PGXC_WLM_SESSION_HISTORY视图中status为aborted的异常作业。 |
NA |
执行了异常处理的语句。 |
字符串 |
||||
语句执行前的阻塞时间。 |
≥ 0 |
||||
语句的实际执行时间。 |
≥ 0 |
||||
语句执行异常处理时DN上CPU使用的总时间。 |
≥ 0 |
||||
语句在执行异常处理时DN上CPU使用的倾斜率。 |
≥ 0 |
||||
语句执行异常处理时所使用的cgroups。 |
字符串 |
||||
语句执行异常处理后的状态。 |
字符串 |
||||
语句执行的异常处理动作。 |
字符串 |
||||
语句被异常处理的原因。 |
字符串 |
||||
节点状态统计 |
主机名。 |
字符串 |
60s |
统计集群每个ECS主机实例(虚拟机VM)的状态。 |
NA |
主机状态。 |
字符串 |
||||
实例状态统计 |
主机名。 |
字符串 |
60s |
统计集群每个实例(CN/DN)状态。 |
NA |
实例类型。 |
字符串 |
||||
实例角色。 |
字符串 |
||||
实例状态。 |
字符串 |
||||
实例状态原因。 |
字符串 |
||||
集群状态 |
集群状态。 |
字符串 |
30s |
监控集群状态。 |
NA |
是否发生过主备切换。 |
字符串 |
||||
是否发生过重分布。 |
字符串 |
||||
当前集群是否只读。 |
字符串 |
||||
CPU状态 |
默认情况下为ALL。 |
字符串 |
30s |
采集ECS实例(虚拟机)的CPU使用情况,主要用来监控节点的CPU使用率,当CPU使用率过高集群存在性能问题,会出现SQL排队,查询慢等问题。 |
85% |
用户态CPU时间%。 |
≥ 0.0 |
||||
nice值为负进程的CPU时间%。 |
≥ 0.0 |
||||
内核态时间%。 |
≥ 0.0 |
||||
I/O等待时间%。 |
≥ 0.0 |
||||
硬中断时间%。 |
≥ 0.0 |
||||
软中断时间%。 |
≥ 0.0 |
||||
虚拟机管理器在服务另一个虚拟处理器时虚拟CPU处在非自愿等待下花费时间%。 |
≥ 0.0 |
||||
运行虚拟处理器花费的时间%。 |
≥ 0.0 |
||||
除去磁盘等待操作之外的空闲时间%。 |
≥ 0.0 |
||||
是否有超线程能力。 |
是/否 |
||||
是否开启超线程。 |
是/否 |
||||
处于runnable状态的进程个数。 |
≥ 0 |
||||
处于等待I/O完成状态的进程个数。 |
≥ 0 |
||||
活跃会话 |
数据库名称。 |
字符串 |
30s |
统计当前集群的活跃会话信息。 |
NA |
实例名称。 |
字符串 |
||||
所有用户会话数量。 |
≥ 0 |
||||
distinct用户名。 |
≥ 0 |
||||
distinct应用名称。 |
≥ 0 |
||||
处于“active”、“fastpathfunctioncall”状态的查询数量。 |
≥ 0 |
||||
磁盘容量统计 |
实例名称。 |
字符串 |
86400s |
统计当前集群各个数据库占用磁盘空间。 |
NA |
数据库名称。 |
字符串 |
||||
数据库大小。 |
≥ 0 |
||||
事务状态 |
数据库名称。 |
字符串 |
60s |
统计当前集群数据库运行情况,可用来统计当前集群各个数据库的业务情况,包括更新行数、删除行数、插入行数、事务数、死锁数量等。 |
NA |
实例名称。 |
字符串 |
||||
通过数据库全局扫描返回的行数。 |
≥ 0 |
||||
通过数据库查询索引返回的行数。 |
≥ 0 |
||||
通过数据库查询插入的行数。 |
≥ 0 |
||||
通过数据库查询更新的行数。 |
≥ 0 |
||||
通过数据库查询删除的行数。 |
≥ 0 |
||||
此数据库中已经提交的事务数。 |
≥ 0 |
||||
此数据库中已经回滚的事务数。 |
≥ 0 |
||||
在该数据库中检索的死锁数。 |
≥ 0 |
||||
在这个数据库中读取的磁盘块的数量。 |
≥ 0 |
||||
此数据库中高速缓存中发现的磁盘块的个数,即缓存中命中的块数(只包括GaussDB(DWS)缓冲区高速缓存,不包括文件系统的缓存)。 |
≥ 0 |
||||
通过数据库后端读取数据文件块花费的时间,以毫秒计算。 |
≥ 0.0 |
||||
通过数据库后端写入数据文件块花费的时间,以毫秒计算。 |
≥ 0.0 |
||||
由于数据库恢复冲突取消的查询数量(只在备用服务器发生的冲突)。 |
≥ 0 |
||||
通过数据库查询创建的临时文件数量。计算所有临时文件(比如排序或哈希),并且忽略log_temp_files设置。 |
≥ 0 |
||||
通过数据库查询写入临时文件的数据总量。计算所有临时文件,并且忽略log_temp_files设置。 |
≥ 0 |
||||
数据库容量(单位:Byte)。 |
≥ 0 |
||||
单位时间内通过数据库全局扫描返回的行数。 |
≥ 0 |
||||
单位时间内通过数据库查询索引返回的行数。 |
≥ 0 |
||||
单位时间内通过数据库查询插入的行数。 |
≥ 0 |
||||
单位时间内通过数据库查询更新的行数。 |
≥ 0 |
||||
单位时间内通过数据库查询删除的行数。 |
≥ 0 |
||||
单位时间内此数据库中已经提交的事务数。 |
≥ 0 |
||||
单位时间内此数据库中已经回滚的事务数。 |
≥ 0 |
||||
单位时间内在该数据库中检索的死锁数。 |
≥ 0 |
||||
文件句柄 |
磁盘文件系统名称。 |
字符串 |
30s |
统计集群磁盘inode信息,可用来查看indode使用率,使用率过高存在风险。 |
90% |
inode总容量(单位:KB)。 |
≥ 0 |
||||
已使用容量(单位:KB)。 |
≥ 0 |
||||
节点磁盘使用 |
磁盘文件系统名称。 |
≥ 0 |
30s |
监控每个ECS实例每块硬盘的使用情况,可用来监控磁盘使用率,当磁盘使用率达到90%会造成集群只读。 |
90% |
总容量(单位:KB)。 |
≥ 0 |
||||
已使用容量(单位:KB)。 |
≥ 0 |
||||
可用容量(单位:KB)。 |
≥ 0 |
||||
磁盘使用率%。 |
≥ 0 |
||||
gsar网卡使用统计 |
节点名称。 |
字符串 |
30s |
监控gsar网卡运行状况。 |
NA |
网卡名称。 |
字符串 |
||||
网卡IP地址。 |
字符串 |
||||
网卡接收数据(单位:KB)。 |
≥ 0 |
||||
网卡接收数据的包数。 |
≥ 0 |
||||
接收包平均长度(单位:Byte)。 |
≥ 0 |
||||
网卡接收时丢弃的数据包数。 |
≥ 0 |
||||
丢包率。 |
≥ 0.0 |
||||
网卡发送数据(单位:KB)。 |
≥ 0 |
||||
网卡发送数据的包数。 |
≥ 0 |
||||
接收包平均长度(单位:Byte)。 |
≥ 0 |
||||
gsar tcp统计 |
tcp超时重传个数。 |
≥ 0 |
30s |
监控TCP重传率。 |
tcp重传包数量>0 |
tcp发包数量。 |
≥ 0 |
||||
tcp重传包数量。 |
≥ 0 |
||||
tcp重传率。 |
≥ 0.0 |
||||
节点磁盘I/O统计 |
磁盘名称(devicename)。 |
字符串 |
30s |
监控节点各个磁盘的I/O情况,可根据每秒读写数据量和读写次数反应磁盘I/O情况,当每秒读写数据量过高时可能会影响集群业务。 |
350MB/s |
每秒传输次数(transferpersecond)每次传输的大小未知。 |
≥ 0.0 |
||||
每秒从设备读取的数据量(单位:KB)。 |
≥ 0.0 |
||||
每秒向设备写入的数据量(单位:KB)。 |
≥ 0.0 |
||||
读取的总数据量(单位:KB)。 |
≥ 0.0 |
||||
写入的总数据量(单位:KB)。 |
≥ 0.0 |
||||
每秒对该设备的读请求被合并的次数。 |
≥ 0.0 |
||||
每秒对该设备的写请求被合并的次数。 |
≥ 0.0 |
||||
每秒完成读次数。 |
≥ 0.0 |
||||
每秒完成写次数。 |
≥ 0.0 |
||||
每秒读数据量(单位:KB)。 |
≥ 0.0 |
||||
每秒写数据量(单位:KB)。 |
≥ 0.0 |
||||
平均每次I/O操作的数据量(单位:扇区数)。 |
≥ 0.0 |
||||
平均请求队列长度。 |
≥ 0.0 |
||||
平均每次I/O请求的等待时间(单位:ms)。 |
≥ 0.0 |
||||
平均每次I/O请求的处理时间(单位:ms)。 |
≥ 0.0 |
||||
在统计时间内所有处理I/O时间,除以总共统计时间,即I/O队列非空的时间比例%。 |
≥ 0.0 |
||||
实例内存监控统计 |
实例名称。 |
字符串 |
60s |
统计每个CN、DN实例的内存使用情况,可用来监控实例内存和动态内存,当实例内存使用率超过阈值时,集群存在实例内存不足风险。 |
85% |
实例所占用的内存大小。 |
≥ 0.0 |
||||
进程所使用的内存大小。 |
≥ 0.0 |
||||
最大动态内存。 |
≥ 0.0 |
||||
已使用的动态内存。 |
≥ 0.0 |
||||
内存的动态峰值。 |
≥ 0.0 |
||||
最大动态共享内存上下文。 |
≥ 0.0 |
||||
共享内存上下文的动态峰值。 |
≥ 0.0 |
||||
最大共享内存。 |
≥ 0.0 |
||||
已使用的共享内存。 |
≥ 0.0 |
||||
列存所允许使用的最大内存。 |
≥ 0.0 |
||||
列存已使用的内存大小。 |
≥ 0.0 |
||||
通信库所允许使用的最大内存。 |
≥ 0.0 |
||||
通信库已使用的内存大小。 |
≥ 0.0 |
||||
通信库的内存峰值。 |
≥ 0.0 |
||||
TopSQL记录历史作业监控信息允许使用的最大内存。 |
≥ 0.0 |
||||
TopSQL记录历史作业监控信息的内存峰值。 |
≥ 0.0 |
||||
TopSQL记录历史作业监控信息已使用的内存大小。 |
≥ 0.0 |
||||
其他已使用的内存大小。 |
≥ 0.0 |
||||
pooler连接占用内存大小。 |
≥ 0.0 |
||||
pooler空闲连接占用的内存大小。 |
≥ 0.0 |
||||
列存压缩和解压缩使用的内存大小。 |
≥ 0.0 |
||||
为UDFWorker进程预留的内存大小。 |
≥ 0.0 |
||||
MMAP使用的内存大小。 |
≥ 0.0 |
||||
实例资源统计 |
实例名称。 |
字符串 |
60s |
统计集群各个实例资源使用情况。 |
85% |
读取“postmaster.pID/cm_server.pID/gtm.pID/etcd.pID”中的值(CPU使用率%)。 |
≥ 0.0 |
||||
读取“postmaster.pID/cm_server.pID/gtm.pID/etcd.pID”中的值(内存使用率%)。 |
≥ 0.0 |
||||
实例磁盘大小统计 |
实例名称。 |
字符串 |
86400s |
统计实例磁盘使用情况,监控实例磁盘使用率。 |
85% |
存储位置。 |
字符串 |
||||
当前实例上所有数据库使用的磁盘空间。 |
≥ 0 |
||||
节点内存统计 |
所有可用ram大小,物理内存减去预留位和内核使用量后的剩余值(单位:KB)。 |
≥ 0 |
30s |
统计集群所在ECS实例内存使用情况,此指标统计的是虚拟机OS级别的内存,和实例内存有区别。 |
70% |
系统中未使用的内存,lowfree+highfree(单位:KB)。 |
≥ 0 |
||||
用来给块设备做缓存的大小(单位:KB)。 |
≥ 0 |
||||
文件缓冲区大小(单位:KB)。 |
≥ 0 |
||||
交换空间总和(单位:KB)。 |
≥ 0 |
||||
ram暂存在swap中的大小(单位:KB)。 |
≥ 0 |
||||
中毒页面中的内存量(单位:KB)。 |
≥ 0 |
||||
网络状态统计 |
网卡名称。 |
字符串 |
30s |
采集集群各个节点的各个网卡状态,可用来监控集群网卡丢包数和集群网络吞吐量。 |
NA |
网卡状态(up/down)。 |
up/down |
||||
网卡速度(千兆/百兆)。 |
≥ 0 |
||||
网卡接收总数据(单位:Byte)。 |
≥ 0 |
||||
网卡接收数据的总包数。 |
≥ 0 |
||||
网卡接收错误总数。 |
≥ 0 |
||||
网卡接收时丢弃的数据包总数。 |
≥ 0 |
||||
接收时fifo缓冲区错误的数量。 |
≥ 0 |
||||
接收时分组帧错误的数量。 |
≥ 0 |
||||
接收到的压缩数据包数量。 |
≥ 0 |
||||
接收到的多播帧数量。 |
≥ 0 |
||||
网卡发送总数据(单位:Byte)。 |
≥ 0 |
||||
网卡发送数据的总包数。 |
≥ 0 |
||||
网卡发送错误总数。 |
≥ 0 |
||||
网卡发送时丢弃的数据包总数。 |
≥ 0 |
||||
发送时fifo缓冲区错误的数量。 |
≥ 0 |
||||
发送接口上检测到的冲突数。 |
≥ 0 |
||||
发送时由设备驱动程序检测到的载波损耗的数量。 |
≥ 0 |
||||
发送出的压缩数据包数量。 |
≥ 0 |
||||
是否支持网卡多队列。 |
是/否 |
||||
网卡多队列开启。 |
是/否 |
||||
多队列网卡的CPU亲和性。 |
字符串 |
||||
网卡是否双工。 |
字符串 |
||||
网络速率。 |
≥ 0.0 |
||||
节点sql统计 |
节点名。 |
字符串 |
60s |
查询PGXC_SQL_COUNT视图,获取各个节点的SQL运行数量统计,可用来监控集群的QPS。 |
NA |
用户名。 |
字符串 |
||||
SELECT数量。 |
≥ 0 |
||||
UPDATE数量。 |
≥ 0 |
||||
INSERT数量。 |
≥ 0 |
||||
DELETE数量。 |
≥ 0 |
||||
MERGEINTO数量。 |
≥ 0 |
||||
DDL数量。 |
≥ 0 |
||||
DML数量。 |
≥ 0 |
||||
DCL数量。 |
≥ 0 |
||||
SELECT总响应时间。 |
≥ 0 |
||||
SELECT平均响应时间。 |
≥ 0 |
||||
SELECT最大响应时间。 |
≥ 0 |
||||
SELECT最小响应时间。 |
≥ 0 |
||||
UPDATE总响应时间。 |
≥ 0 |
||||
UPDATE平均响应时间。 |
≥ 0 |
||||
UPDATE最大响应时间。 |
≥ 0 |
||||
UPDATE最小响应时间。 |
≥ 0 |
||||
DELETE总响应时间。 |
≥ 0 |
||||
DELETE平均响应时间。 |
≥ 0 |
||||
DELETE最大响应时间。 |
≥ 0 |
||||
DELETE最小响应时间。 |
≥ 0 |
||||
INSERT总响应时间。 |
≥ 0 |
||||
INSERT平均响应时间。 |
≥ 0 |
||||
INSERT最大响应时间。 |
≥ 0 |
||||
INSERT最小响应时间。 |
≥ 0 |
||||
单位时间SELECT数量差值。 |
≥ 0 |
||||
单位时间UPDATE数量差值。 |
≥ 0 |
||||
单位时间INSERT数量差值。 |
≥ 0 |
||||
单位时间DELETE数量差值。 |
≥ 0 |
||||
单位时间MERGEINTO数量差值。 |
≥ 0 |
||||
单位时间DDL数量差值。 |
≥ 0 |
||||
单位时间DML数量差值。 |
≥ 0 |
||||
单位时间DCL数量差值。 |
≥ 0 |
||||
单位时间SELECT总响应时间差值。 |
≥ 0 |
||||
单位时间SELECT平均响应时间差值。 |
≥ 0 |
||||
单位时间SELECT最大响应时间差值。 |
≥ 0 |
||||
单位时间SELECT最小响应时间差值。 |
≥ 0 |
||||
单位时间UPDATE总响应时间差值。 |
≥ 0 |
||||
单位时间UPDATE平均响应时间差值。 |
≥ 0 |
||||
单位时间UPDATE最大响应时间差值。 |
≥ 0 |
||||
单位时间UPDATE最小响应时间差值。 |
≥ 0 |
||||
单位时间DELETE总响应时间差值。 |
≥ 0 |
||||
单位时间DELETE平均响应时间差值。 |
≥ 0 |
||||
单位时间DELETE最大响应时间差值。 |
≥ 0 |
||||
单位时间DELETE最小响应时间差值。 |
≥ 0 |
||||
单位时间INSERT总响应时间差值。 |
≥ 0 |
||||
单位时间INSERT平均响应时间差值。 |
≥ 0 |
||||
单位时间INSERT最大响应时间差值。 |
≥ 0 |
||||
单位时间INSERT最小响应时间差值。 |
≥ 0 |
||||
系统状态统计 |
tcp协议栈重传率%。 |
≥ 0.0 |
30s |
采集ECS实例服务器TCP协议、栈协议和栈重传率。 |
>0 |
TopSQL统计 |
数据库名称。 |
字符串 |
60s |
采集当前集群各个CN上运行SQL语句,可用来排查一些死锁SQL、慢SQL或资源占用高的SQL,并支持管控面进行SQL语句的查杀。 |
NA |
实例名称。 |
字符串 |
||||
线程ID(会话ID、sessionID)。 |
字符串 |
||||
语句执行使用的内部query_ID。 |
字符串 |
||||
用于标示作业类型,可通过guc参数query_band进行设置,默认为空字符串。 |
字符串 |
||||
这个值是从query_band的字段中取出来的,位置0。 |
字符串 |
||||
这个值是从query_band的字段中取出来的,位置1。 |
字符串 |
||||
连接到后端的用户名。 |
字符串 |
||||
连接到后端的应用名。 |
字符串 |
||||
连接到后端的客户端的ip地址,如果此字段是null,它表明通过服务器机器上unix套接字连接客户端或者这是内部进程,如autovacuum。 |
字符串 |
||||
客户端的主机名,这个字段是通过client_addr的反向DNs查找得到。这个字段只有在启动log_hostname且使用ip连接时才非空。 |
字符串 |
||||
客户端用于与后端通讯的tcp端口号,如果使用unix套接字,则为-1。 |
字符串 |
||||
如果后台当前正等待锁则为true。 |
是/否 |
||||
语句执行的开始时间。 |
≥ 0 |
||||
语句执行前的阻塞时间(单位:ms)。 |
≥ 0 |
||||
语句已经执行的时间(单位:ms)。 |
≥ 0 |
||||
语句执行预估总时间(单位:ms)。 |
≥ 0 |
||||
语句执行预估剩余时间(单位:ms)。 |
≥ 0 |
||||
工作负载管理资源状态。 |
字符串 |
||||
用户使用的资源池。 |
字符串 |
||||
job在资源池中的优先级,取值:
|
≥ 0 |
||||
语句所使用的cgroup。 |
字符串 |
||||
语句在所有DN上的最小内存峰值(单位:MB)。 |
≥ 0 |
||||
语句在所有DN上的最大内存峰值(单位:MB)。 |
≥ 0 |
||||
语句执行过程中的内存使用平均值(单位:MB)。 |
≥ 0 |
||||
语句在各DN间的内存使用倾斜率。 |
≥ 0 |
||||
语句预估使用内存(单位:MB)。 |
≥ 0 |
||||
语句在所有DN上的下盘信息。 |
字符串 |
||||
若发生下盘,所有DN上下盘的最小数据量,默认为0(单位:MB)。 |
≥ 0 |
||||
若发生下盘,所有DN上下盘的最大数据量,默认为0(单位:MB)。 |
≥ 0 |
||||
若发生下盘,所有DN上下盘的平均数据量,默认为0(单位:MB)。 |
≥ 0 |
||||
若发生下盘,DN间下盘倾斜率。 |
≥ 0 |
||||
语句在所有DN上的最小执行时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的最大执行时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的平均执行时间(单位:ms)。 |
≥ 0 |
||||
语句在各DN间的执行时间倾斜率。 |
≥ 0 |
||||
语句在所有DN上的最小CPU时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的最大CPU时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的CPU总时间(单位:ms)。 |
≥ 0 |
||||
语句在各DN间的CPU时间倾斜率。 |
≥ 0 |
||||
主要显示如下几类告警信息以及SQL自诊断调优相关告警。 |
字符串 |
||||
语句在所有DN上的每秒平均I/O峰值(列存单位是次/s,行存单位是万次/s)。 |
≥ 0 |
||||
语句在DN间的I/O倾斜率。 |
≥ 0 |
||||
语句在所有DN上的每秒最大I/O峰值(列存单位是次/s,行存单位是万次/s) |
≥ 0 |
||||
语句在所有DN上的每秒最小I/O峰值(列存单位是次/s,行存单位是万次/s)。 |
≥ 0 |
||||
查询语句。 |
字符串 |
||||
查询计划。 |
字符串 |
||||
当前查询语句的实时运行状态(active、IDle、IDleintransaction、IDleintransaction(aborted)、fastpathfunctioncall、disabled)。 |
字符串 |
||||
当前查询语句在资源池上的运行状态(pending、running、finished、aborted、active、unknown)。 |
字符串 |
||||
语句的属性(ordinary、simple、complicated、internal)。 |
字符串 |
||||
快慢车道(fastorslow)。 |
字符串 |
||||
是否系统查询。 |
是/否 |
||||
适配monitor搜索,是否系统查询。 |
是/否 |
||||
该过程开始的时间,即当客户端连接服务器时。 |
≥ 0 |
||||
到目前为止的执行时间。 |
≥ 0 |
||||
启动当前事务的时间,如果没有事务是活跃的,则为null。如果当前查询是首个事务,则这列等同于query_start列。 |
≥ 0 |
||||
上次状态改变的时间。 |
≥ 0 |
||||
语句执行的开始时间。 |
≥ 0 |
||||
语句当前为止的实际执行时间(单位:s)。 |
≥ 0 |
||||
历史查询 |
数据库名称。 |
字符串 |
180s |
采集历史TopSQL视图数据,可用于分析历史SQL,排查死锁SQL或慢SQL,根据排查结果做业务侧整改,优化集群性能。 |
NA |
实例名称。 |
字符串 |
||||
用户名称。 |
字符串 |
||||
连接到后端的应用名。 |
字符串 |
||||
连接到后端的客户端的ip地址,如果此字段是null,它表明通过服务器机器上unix套接字连接客户端或者这是内部进程,如autovacuum。 |
字符串 |
||||
客户端的主机名,这个字段是通过client_addr的反向DNs查找得到。这个字段只有在启动log_hostname且使用ip连接时才非空。 |
字符串 |
||||
客户端用于与后端通讯的tcp端口号,如果使用unix套接字,则为-1。 |
字符串 |
||||
用于标示作业类型,可通过guc参数query_band进行设置,默认为空字符串。 |
字符串 |
||||
这个值是从query_band的字段中取出来的,位置0。 |
字符串 |
||||
这个值是从query_band的字段中取出来的,位置1。 |
字符串 |
||||
语句执行前的阻塞时间,包含语句解析和优化时间(单位:ms)。 |
≥ 0 |
||||
语句执行的开始时间(单位:ms)。 |
≥ 0 |
||||
语句执行的结束时间(单位:ms)。 |
≥ 0 |
||||
语句已经执行的时间(单位:ms)。 |
≥ 0 |
||||
语句预估执行时间(单位:ms)。 |
≥ 0 |
||||
语句执行结束状态:
|
字符串 |
||||
语句执行结束状态为aborted时显示异常信息。 |
字符串 |
||||
用户使用的资源池。 |
字符串 |
||||
Job在资源池中的优先级,取值:
|
≥ 0 |
||||
语句所使用的cgroup。 |
字符串 |
||||
语句在所有DN上的最小内存峰值(单位:MB)。 |
≥ 0 |
||||
语句在所有DN上的最大内存峰值(单位:MB)。 |
≥ 0 |
||||
语句执行过程中的内存使用平均值(单位:MB)。 |
≥ 0 |
||||
语句各DN间的内存使用倾斜率。 |
≥ 0 |
||||
语句在所有DN上的下盘信息。 |
字符串 |
||||
若发生下盘,所有DN上下盘的最小数据量,单位MB,默认为0。 |
≥ 0 |
||||
若发生下盘,所有DN上下盘的最大数据量,单位MB,默认为0。 |
≥ 0 |
||||
若发生下盘,所有DN上下盘的平均数据量,单位MB,默认为0。 |
≥ 0 |
||||
若发生下盘,DN间下盘倾斜率。 |
≥ 0 |
||||
语句在所有DN上的最小执行时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的最大执行时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的平均执行时间(单位:ms)。 |
≥ 0 |
||||
语句在各DN间的执行时间倾斜率。 |
≥ 0 |
||||
语句在所有DN上的最小CPU时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的最大CPU时间(单位:ms)。 |
≥ 0 |
||||
语句在所有DN上的CPU总时间(单位:ms)。 |
≥ 0 |
||||
语句在DN间的CPU时间倾斜率。 |
≥ 0 |
||||
语句在所有DN上的每秒最小I/O峰值(列存单位是次/s,行存单位是万次/s)。 |
≥ 0 |
||||
语句在所有DN上的每秒最大I/O峰值(列存单位是次/s,行存单位是万次/s)。 |
≥ 0 |
||||
语句在所有DN上的每秒平均I/O峰值(列存单位是次/s,行存单位是万次/s)。 |
≥ 0 |
||||
语句在DN间的I/O倾斜率。 |
≥ 0 |
||||
主要显示如下几类告警信息以及SQL自诊断调优相关告警。 |
字符串 |
||||
查询ID。 |
字符串 |
||||
执行的语句。 |
字符串 |
||||
语句的执行计划。 |
字符串 |
||||
语句所属用户对应的逻辑集群。 |
字符串 |
||||
Schema使用统计 |
数据库名称。 |
字符串 |
3600s |
采集集群各个Schema使用情况,可用来监控Schema使用率。 |
85% |
Schema名称。 |
字符串 |
||||
已使用容量(单位:Byte)。 |
≥ 0 |
||||
总容量(单位:Byte)。 |
≥ 0 |
||||
session统计 |
数据库名称。 |
字符串 |
180s |
采集集群各CN节点的会话信息,可用来统计集群空闲会话和锁持有情况,并可在管理控制台清理空闲会话。 |
NA |
实例名称。 |
字符串 |
||||
线程ID(可以作为sessionID,也可以作为连接ID使用)。 |
字符串 |
||||
数据库用户名。 |
字符串 |
||||
用户应用名称。 |
字符串 |
||||
客户端地址。 |
字符串 |
||||
客户端主机名。 |
字符串 |
||||
客户端用于与后台通讯的tcp端口号,如果使用unix套接字,则为-1。 |
字符串 |
||||
该过程开始的时间,即当客户端连接服务器时。 |
≥ 0 |
||||
到目前为止的执行时间。 |
≥ 0 |
||||
启动当前事务的时间,如果没有事务是活跃的,则为null。如果当前查询是首个事务,则这列等同于query_start列。 |
≥ 0 |
||||
上次状态改变的时间。 |
≥ 0 |
||||
如果后台当前正等待锁则为true。 |
是/否 |
||||
该后台当前总体状态。 |
字符串 |
||||
用户使用的资源池。 |
字符串 |
||||
语句当前为止的实际执行时间,(单位:s)。 |
≥ 0 |
||||
查询语句的ID。 |
字符串 |
||||
语句执行的开始时间。 |
≥ 0 |
||||
语句当前所使用的cgroups。 |
字符串 |
||||
锁类型。 |
字符串 |
||||
锁模式。 |
字符串 |
||||
存在锁等待情况,是否持有锁,持有为true。 |
是/否 |
||||
锁等待的资源。 |
字符串 |
||||
语句类型。 |
字符串 |
||||
查询SQL。 |
字符串 |
||||
是否为系统查询。 |
是/否 |
||||
查询计划。 |
字符串 |
||||
SQL探针统计 |
探针任务的查询ID。 |
字符串 |
30s |
统计SQL探针执行时长,用于监控集群性能是否会突然下降。 |
NA |
集群ID。 |
字符串 |
||||
集群项目编号。 |
字符串 |
||||
探针SQL的任务类型。 |
字符串 |
||||
探针SQL的任务的创建时间。 |
≥ 0 |
||||
SQL执行时间。 |
≥ 0 |
||||
关联的探针SQL的probe_ID。 |
字符串 |
||||
探针名称。 |
字符串 |
||||
探针SQL的任务状态:
|
字符串 |
||||
表脏页率统计 |
数据库名称。 |
字符串 |
7200s |
采集集群表脏页信息,表脏页率过高会造成对表的查询和插入性能下降。 |
50% |
模式名称。 |
字符串 |
||||
表名称(全名)。 |
字符串 |
||||
表所有者。 |
字符串 |
||||
表大小(单位:Byte)。 |
≥ 0 |
||||
表脏页率。 |
≥ 0.0 |
||||
表倾斜监控统计 |
数据库名称。 |
字符串 |
7200s |
采集集群表倾斜率高于5%的表信息,当表倾斜率过高会导致查询性能差。 |
10% |
模式名称。 |
字符串 |
||||
表名称(全名)。 |
字符串 |
||||
表所有者。 |
字符串 |
||||
表大小(单位:Byte)。 |
≥ 0 |
||||
表倾斜率。 |
≥ 0.0 |
||||
资源池统计 |
负载资源池。 |
字符串 |
120s |
采集集群资源池信息,可用来监控集群资源池对系统资源使用情况,资源池排队情况。 |
NA |
资源池CPU配额。 |
≥ 0 |
||||
资源池内存配额。 |
≥ 0 |
||||
资源池磁盘配额。 |
≥ 0 |
||||
资源池允许的简单作业最大并发数。 |
≥ 0 |
||||
资源池允许的最大并发数。 |
≥ 0 |
||||
资源池CPU配使用率。 |
≥ 0.0 |
||||
资源池内存使用率。 |
≥ 0.0 |
||||
资源池磁盘使用率。 |
≥ 0.0 |
||||
资源池当前简单作业并发数。 |
≥ 0 |
||||
资源池当前并发数。 |
≥ 0 |
||||
资源池用户统计 |
负载资源池。 |
字符串 |
30s |
采集集群资源池用户信息,监控集群资源池用户使用资源情况。 |
NA |
用户的CPU配额。 |
≥ 0 |
||||
用户的内存配额。 |
≥ 0 |
||||
用户的磁盘配额。 |
≥ 0 |
||||
用户的CPU使用率。 |
≥ 0.0 |
||||
用户的内存使用率。 |
≥ 0.0 |
||||
用户的磁盘使用率。 |
≥ 0.0 |
||||
用户ID。 |
字符串 |
||||
用户名称。 |
字符串 |