告警管理简介
概述
告警管理包含查看告警规则、告警规则配置与告警信息订阅功能。其中,告警规则可以提供过去一周的告警信息统计与告警信息明细,方便用户自行查看租户下的告警。该特性除了以默认值的形式提供一套DWS告警最佳实践外,还允许用户根据自己的业务特点,个性化修改告警阈值。告警管理通过消息通知服务(Simple Message Notification,简称SMN)发送DWS告警通知,用户可订阅告警启用通知。

- 该特性仅8.1.1.200及以上集群版本支持。
- 告警管理目前暂不支持按照企业项目划分告警。
进入告警管理页面
- 登录DWS管理控制台。
- 在左侧导航栏,选择“监控 > 告警”,切换至“告警”页签。
- 进入数据仓库告警展示页面。该页面分为三个区域:
- 存量告警统计
最近7天的存量告警统计值(按告警级别分类),以柱状图的形式展示。用户可通过存量告警统计图,对过去一周告警发生的数量和分布有清晰的了解。
- 当日告警
当天的存量告警统计值(按级别分类),以列表的形式展示。重点向用户强调当天未处理的告警数量,帮助用户快速掌握目前告警的数量和分布。
- 告警详情
最近7天的所有告警(包括已处理和未处理)的明细信息,以表格的形式展示。可查看近7天内所有告警的告警名称、告警级别、告警源、集群名称、定位信息、详细信息、产生日期、状态等信息,帮助用户快速发现和定位问题。
告警展示页面的数据源来自EventService微服务,该微服务最多可以提供30天的告警缓存数据。
- 存量告警统计
告警列表

告警策略触发条件以用户实际配置为准。
告警名称 |
告警级别 |
默认告警阈值 |
告警描述(告警计算方法) |
---|---|---|---|
DWS集群活跃会话数量使用率超阈值 |
重要 |
80% |
DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,activeSQL数量/max_active_statements)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群活跃会话数量使用率超阈值 |
紧急 |
90% |
DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,activeSQL数量/max_active_statements)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS审计日志转储异常 |
提示 |
- |
用户在安全设置中开启日志转储功能后,周期性转储日志异常会触发此告警。 |
DWS集群schema使用率超阈值 |
提示 |
- |
DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过用户自己配置的提示阈值,且抑制条件不满足时,DMS告警模块将触发该告警的提示告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群schema使用率超阈值 |
次要 |
- |
DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过用户自己配置的次要阈值,且抑制条件不满足时,DMS告警模块将触发该告警的次要告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群schema使用率超阈值 |
重要 |
- |
DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过用户自己配置的重要阈值,且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群schema使用率超阈值 |
紧急 |
80% |
DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS数据库磁盘剩余容量不足 |
紧急 |
90% |
当检测到磁盘使用率或inode使用率(由datastorage_threshold_value_check参数设置)达到90%,将触发该告警信息,并将集群设置为只读。当检测到集群实例的磁盘使用率或inode使用率低于90%时,将消除该告警。 |
DWS集群资源池磁盘使用率超阈值 |
重要 |
80% |
DMS告警模块在指定周期内,检测到集群资源池磁盘使用率(查询pg_resource_pool,disk_usage)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;当检测到集群资源池磁盘使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群资源池磁盘使用率超阈值 |
紧急 |
90% |
DMS告警模块在指定周期内,检测到集群资源池磁盘使用率(查询pg_resource_pool,disk_usage)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;当检测到集群资源池磁盘使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群数据库死锁数量超阈值 |
重要 |
1个 |
DMS告警模块在指定周期内,检测到集群数据库死锁数量(查询global_stat_database,deadlocks)超过1(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;当检测到集群数据库死锁数量低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群数据库死锁数量超阈值 |
紧急 |
10个 |
DMS告警模块在指定周期内,检测到集群数据库死锁数量(查询global_stat_database,deadlocks)超过10(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;当检测到集群数据库死锁数量低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群平衡状态异常 |
紧急 |
- |
当集群中存在主备关系的实例,主备关系发生变化,并且该变化与集群初始状态不一致时,产生该告警。 |
DWS集群sqlonhudi同步任务运行失败 |
紧急 |
- |
DWS中gs_scheduler组件定期拉起Sql on Hudi任务,用于用户内表和Hudi外表之间的数据同步。其实现方式是,gs_scheduler读取scheduler.pg_task中对应what字段,并以10号系统超级管理员用户身份执行该sql,如果该SQL执行连续异常超过3次,则上报告警,当该SQL执行成功后,告警自动消除。 |
DWS集群节点数据盘I/O利用率超阈值 |
紧急 |
90% |
DWS每30秒采集集群各节点的数据盘I/O利用率。如果某节点的某数据盘最近10分钟(可配置)内的平均使用率超过90%(可配置),则上报节点数据盘I/O利用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。 |
DWS集群节点数据盘使用率超阈值 |
重要 |
80% |
DWS每30秒采集集群各节点所有磁盘的使用情况。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过80%(可配置),则上报节点数据盘使用率超阈值的重要告警;如果平均使用率低于75%(即上报阈值减去5%),则消除该重要告警。 |
DWS集群节点数据盘使用率超阈值 |
紧急 |
88% |
DWS每30秒采集集群各节点所有磁盘的使用情况。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过88%(可配置),则上报节点数据盘使用率超阈值的紧急告警;如果平均使用率低于80%(即上报阈值减去5%),则消除该紧急告警。 |
DWS集群CN下盘量超阈值 |
紧急 |
5000MB |
DMS告警模块在指定周期内,检测到集群实例CN下盘量(CN下盘文件中大小超过阈值的queryid)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群实例上CN下盘量低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群会话数量使用率超阈值 |
重要 |
80% |
DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,非系统查询SQL数量/max_connections)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群会话数量使用率超阈值 |
紧急 |
90% |
DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,非系统查询SQL数量/max_connections)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群节点实例内存使用率超阈值 |
重要 |
80% |
DWS每60秒采集集群各节点的实例内存使用率。如果某节点的实例内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * process_used_memory/max_process_memory)超过80%(可配置),则上报节点实例内存使用率超阈值告警;如果平均使用率低于75%(即上报阈值减去5%),则消除告警。 |
DWS集群节点实例内存使用率超阈值 |
紧急 |
90% |
DWS每60秒采集集群各节点的实例内存使用率。如果某节点的实例内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * process_used_memory/max_process_memory)超过90%(可配置),则上报节点实例内存使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。 |
DWS数据库磁盘剩余容量预警 |
重要 |
80% |
当检测到集群实例的磁盘使用率或inode使用率大于等于80%时,将触发该告警;当检测到集群实例的磁盘使用率或inode使用率低于80%时,将消除该告警。 |
DWS集群状态异常 |
紧急 |
- |
DWSHAMonitor在监控集群状态的过程中,当连续三次集群状态异常时,DWSHAMonitor触发此告警。 |
DWS集群的任意sql探针耗时超阈值 |
紧急 |
- |
DWS每30秒采集集群各节点SQL探针的执行情况。如果存在任意集群的任意主机存在SQL探针执行耗时超过2倍阈值(可配置),则上报集群的SQL探针耗时超阈值的紧急告警;如果所有SQL探针执行耗时不超过该阈值,则消除该紧急告警。 |
DWS集群恢复失败 |
紧急 |
- |
每次执行恢复结束,内核上报恢复结果,当检测到恢复失败时,产生该告警。当检测到下一次备份恢复时,消除备份告警。 |
节点状态异常 |
紧急 |
- |
DWSHAMonitor在监控节点运行状态的过程中,当连续三次上报节点运行状态异常时,触发此告警。 |
DWS集群节点数据盘时延超阈值 |
重要 |
400ms |
DWS每30秒采集集群各节点的数据盘时延。如果某节点的某数据盘最近10分钟(可配置)内的平均时延超过400ms(可配置),则上报节点数据盘时延超阈值告警;如果平均使用率低于400ms,则消除告警。 |
DWS集群中存在持有表锁过长的vacuum full操作 |
重要 |
20分钟 |
数据表执行vacuum full操作会持有八级锁,如果对某张表执行vacuum full操作且持有锁周期超过20分钟(可配置)时,则上报集群中存在持有锁过长的vacuum full操作的重要告警;当vacuum full结束后,则消除该重要告警。 |
DWS数据库磁盘剩余容量严重不足 |
紧急 |
- |
当检测到集群实例的磁盘使用率或inode使用率大于等于95%时,将触发该告警。当检测到集群实例的磁盘使用率或inode使用率低于95%时,将消除该告警。 |
分段温备回退包周期场景不删除预占节点异常告警 |
重要 |
- |
包周期集群分段温备修复后进行回退操作,需由用户在console页面进行删除预占的空闲节点,未删除则上报该告警。 |
DWS集群默认资源池队列阻塞 |
紧急 |
- |
DWS固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(查询实时Topsql,BLOCK_TIME > 10000),默认20分钟(可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。 |
DWS集群节点CPU使用率超阈值 |
紧急 |
95% |
DWS每30秒采集集群各节点的CPU使用率。如果某节点最近10分钟(可配置)内的平均使用率超过95%(可配置),则上报节点CPU使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。 |
DWS数据实例连接数超限 |
重要 |
90% |
CN当前连接数/max_connections > connection_alarm_rate时告警,其中max_connections 和connection_alarm_rate为DWS参数,connection_alarm_rate 默认0.9。 |
DWS集群节点动态内存使用率超阈值 |
重要 |
80% |
DWS每60秒采集集群各节点的动态内存使用率。如果某节点的动态内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * dynamic_used_memory/max_dynamic_memory )超过80%(可配置),则上报节点动态内存使用率超阈值告警;如果平均使用率低于75%(即上报阈值减去5%),则消除告警。 |
DWS集群节点动态内存使用率超阈值 |
紧急 |
90% |
DWS每60秒采集集群各节点的动态内存使用率。如果某节点的动态内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * dynamic_used_memory/max_dynamic_memory )超过90%(可配置),则上报节点动态内存使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。 |
DWS集群备份失败 |
重要 |
- |
每次周期性备份执行结束,内核上报备份结果,当检测到备份失败时,产生该告警。当检测到下一次备份成功时,消除备份告警。 |
DWS集群查询语句触发下盘量超阈值 |
紧急 |
5GB |
DMS告警模块在指定周期内,检测到10分钟(可配置)内存在SQL的下盘量(查询实时TopSQL,MAX_SPILL_SIZE / 1024)超过5GB(可配置),则上报查询语句触发下盘量超阈值;当集群不存在符合告警条件的SQL语句时,自动消除该告警。修改告警配置详情请参见修改告警规则。 |
调用DWS OpenAPI内部出现异常 |
紧急 |
- |
用户调用DMS服务OpenAPI代码内部出现未知异常。 |
DWS集群数据库会话使用率超阈值 |
重要 |
80% |
DMS告警模块在指定周期内,检测到集群数据库会话使用率(查询实时TopSQL,会话数量/datconnlimit)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;当检测到集群数据库会话使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
DWS集群数据库会话使用率超阈值 |
紧急 |
90% |
DMS告警模块在指定周期内,检测到集群数据库会话使用率(查询实时TopSQL,会话数量/datconnlimit)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;当检测到集群数据库会话使用率低于当前设定阈值时,DMS告警模块将消除该告警。 |
修复集群后创建节点失败异常 |
重要 |
- |
修复集群后,修复集群需要新增节点,但创建节点失败,上报该告警。 |
DWS集群查询语句堆积数量超阈值 |
紧急 |
10个 |
DMS告警模块在指定周期内,检测到10分钟(可配置)内集群中处于排队等待状态的SQL语句数量(查询实时TopSQL,BLOCK_TIME > 5000的COUNT(PID))超过10个(可配置),则上报查询语句堆积数量超阈值告警;当集群处于等待状态的SQL语句数量小于10时,自动消除该告警。 |
DWS集群细粒度备份部分表失败 |
次要 |
- |
当前版本细粒度备份恢复不支持在线业务,因此在备份过程中,如果某张表存在在线业务(特指会修改表定义或者表文件的DDL/DML),本次备份被认为是备份部分表失败,但是不影响其余表备份恢复,需要上报次要告警。 例如备份表A的过程中,用户对该表执行了"alter table A add column a int"操作,则表A的表定义发生了改变。这种场景下,备份的表A的表定义和表A的表数据可能是不一致的,处于安全性考虑,无法利用这个备份集恢复表A数据。 如果下次备份成功,则可以利用成功备份的备份集恢复表,即历史备份部分表失败不影响后续备份。 |