DWS_2000000017 查询语句堆积数量超阈值(Number of Queuing Query Statements Exceeds the Threshold)
告警解释
GaussDB(DWS)开启实时查询监控时,默认每60秒通过GS_WLM_SESSION_STATISTICS视图检测CN上正在执行作业的排队状态。
如果10分钟(可配置)内检测集群中处于排队等待状态的SQL语句数量超过10个(可配置),则上报查询语句堆积数量超阈值告警;当集群处于等待状态的SQL语句数量小于10时,自动消除该告警。
如果一直存在能够引发告警的查询语句堆积数量,那么在24小时(可配置)后将再次发起告警。
告警属性
告警ID |
告警级别 |
是否可自动清除 |
---|---|---|
DWS_2000000017 |
紧急 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
告警源 |
产生告警的系统名称,告警的详细分类。 |
集群名称 |
产生告警的集群。 |
定位信息 |
产生告警的集群ID,集群名称。 |
详细信息 |
CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在10分钟内堆积的查询语句数量平均值为30,超过阈值10。 |
产生日期 |
产生告警的时间。 |
状态 |
当前告警的处理状态。 |
对系统的影响
SQL查询阻塞,导致运行时间过长。
可能原因
业务执行过程中查询语句处于排队等待的数量超过告警阈值。
处理步骤
确认集群当前排队作业情况是否正常
- 登录GaussDB(DWS)管理控制台。
- 在“告警管理”界面,单击右上角“集群选择”下拉框,选中当前集群,查看集群最近7天的告警信息。通过定位信息锁定触发告警的集群名称。
- 在“集群 > 专属集群”界面找到告警集群,在所在行操作列单击“监控面板”进入监控界面。
- 选择“监控 > 实时查询 ”可查看当前集群实时会话和实时查询的具体情况,选择“实时查询”可看到当前集群中正在执行的作业状态,单击勾选“阻塞时间(ms)”和排队状态。单击对“阻塞时间(ms)”进行排序,可以看到当前处于排队状态、阻塞时间最长的SQL信息。如果存在处于排队状态、且阻塞时间异常的查询作业,可选择“终止查询”。
语句当前的排队情况,包括:
- Global:全局排队。
- Respool:资源池排队。
- CentralQueue:在中心协调节点(CCN)中排队。
- Transaction:语句处于一个事务块中。
- StoredProc : 语句处于一个存储过程中。
- None:未在排队。
- Forced None : 事务块语句或存储过程语句由于超出设定的等待时间而强制执行。
告警清除
查询排队的语句数量下降后,自动消除告警。