更新时间:2025-09-04 GMT+08:00
分享

告警管理简介

概述

告警管理包含查看告警规则、告警规则配置与告警信息订阅功能。其中,告警规则可以提供过去一周的告警信息统计与告警信息明细,方便用户自行查看租户下的告警。该特性除了以默认值的形式提供一套DWS告警最佳实践外,还允许用户根据自己的业务特点,个性化修改告警阈值。告警管理通过消息通知服务(Simple Message Notification,简称SMN)发送DWS告警通知,用户可订阅告警启用通知。

  • 该特性仅8.1.1.200及以上集群版本支持。
  • 告警管理目前暂不支持按照企业项目划分告警。

进入告警管理页面

  1. 登录DWS管理控制台
  2. 在左侧导航栏,选择“监控 > 告警”,切换至“告警”页签。
  3. 进入数据仓库告警展示页面。该页面分为三个区域:

    • 存量告警统计

      最近7天的存量告警统计值(按告警级别分类),以柱状图的形式展示。用户可通过存量告警统计图,对过去一周告警发生的数量和分布有清晰的了解。

    • 当日告警

      当天的存量告警统计值(按级别分类),以列表的形式展示。重点向用户强调当天未处理的告警数量,帮助用户快速掌握目前告警的数量和分布。

    • 告警详情

      最近7天的所有告警(包括已处理和未处理)的明细信息,以表格的形式展示。可查看近7天内所有告警的告警名称、告警级别、告警源、集群名称、定位信息、详细信息、产生日期、状态等信息,帮助用户快速发现和定位问题。

    告警展示页面的数据源来自EventService微服务,该微服务最多可以提供30天的告警缓存数据。

告警列表

告警策略触发条件以用户实际配置为准。

表1 告警列表

告警名称

告警级别

默认告警阈值

告警描述(告警计算方法)

DWS集群活跃会话数量使用率超阈值

重要

80%

DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,activeSQL数量/max_active_statements)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群活跃会话数量使用率超阈值

紧急

90%

DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,activeSQL数量/max_active_statements)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS审计日志转储异常

提示

-

用户在安全设置中开启日志转储功能后,周期性转储日志异常会触发此告警。

DWS集群schema使用率超阈值

提示

-

DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过用户自己配置的提示阈值,且抑制条件不满足时,DMS告警模块将触发该告警的提示告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群schema使用率超阈值

次要

-

DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过用户自己配置的次要阈值,且抑制条件不满足时,DMS告警模块将触发该告警的次要告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群schema使用率超阈值

重要

-

DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过用户自己配置的重要阈值,且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群schema使用率超阈值

紧急

80%

DMS告警模块在指定周期内,检测到集群schema使用率(采集pgxc_total_schema_info查询schema使用率)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;检测到集群schema使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS数据库磁盘剩余容量不足

紧急

90%

当检测到磁盘使用率或inode使用率(由datastorage_threshold_value_check参数设置)达到90%,将触发该告警信息,并将集群设置为只读。当检测到集群实例的磁盘使用率或inode使用率低于90%时,将消除该告警。

DWS集群资源池磁盘使用率超阈值

重要

80%

DMS告警模块在指定周期内,检测到集群资源池磁盘使用率(查询pg_resource_pool,disk_usage)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;当检测到集群资源池磁盘使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群资源池磁盘使用率超阈值

紧急

90%

DMS告警模块在指定周期内,检测到集群资源池磁盘使用率(查询pg_resource_pool,disk_usage)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;当检测到集群资源池磁盘使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群数据库死锁数量超阈值

重要

1个

DMS告警模块在指定周期内,检测到集群数据库死锁数量(查询global_stat_database,deadlocks)超过1(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;当检测到集群数据库死锁数量低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群数据库死锁数量超阈值

紧急

10个

DMS告警模块在指定周期内,检测到集群数据库死锁数量(查询global_stat_database,deadlocks)超过10(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;当检测到集群数据库死锁数量低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群平衡状态异常

紧急

-

当集群中存在主备关系的实例,主备关系发生变化,并且该变化与集群初始状态不一致时,产生该告警。

DWS集群sqlonhudi同步任务运行失败

紧急

-

DWS中gs_scheduler组件定期拉起Sql on Hudi任务,用于用户内表和Hudi外表之间的数据同步。其实现方式是,gs_scheduler读取scheduler.pg_task中对应what字段,并以10号系统超级管理员用户身份执行该sql,如果该SQL执行连续异常超过3次,则上报告警,当该SQL执行成功后,告警自动消除。

DWS集群节点数据盘I/O利用率超阈值

紧急

90%

DWS每30秒采集集群各节点的数据盘I/O利用率。如果某节点的某数据盘最近10分钟(可配置)内的平均使用率超过90%(可配置),则上报节点数据盘I/O利用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。

DWS集群节点数据盘使用率超阈值

重要

80%

DWS每30秒采集集群各节点所有磁盘的使用情况。

如果存在磁盘最近10分钟(可配置)内的最大使用率超过80%(可配置),则上报节点数据盘使用率超阈值的重要告警;如果平均使用率低于75%(即上报阈值减去5%),则消除该重要告警。

DWS集群节点数据盘使用率超阈值

紧急

88%

DWS每30秒采集集群各节点所有磁盘的使用情况。

如果存在磁盘最近10分钟(可配置)内的最大使用率超过88%(可配置),则上报节点数据盘使用率超阈值的紧急告警;如果平均使用率低于80%(即上报阈值减去5%),则消除该紧急告警。

DWS集群CN下盘量超阈值

紧急

5000MB

DMS告警模块在指定周期内,检测到集群实例CN下盘量(CN下盘文件中大小超过阈值的queryid)超过当前设定阈值,且抑制条件不满足时,DMS告警模块将触发该告警;检测到集群实例上CN下盘量低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群会话数量使用率超阈值

重要

80%

DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,非系统查询SQL数量/max_connections)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群会话数量使用率超阈值

紧急

90%

DMS告警模块在指定周期内,检测到集群会话数量使用率(查询实时TopSQL,非系统查询SQL数量/max_connections)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;检测到集群会话数量使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群节点实例内存使用率超阈值

重要

80%

DWS每60秒采集集群各节点的实例内存使用率。如果某节点的实例内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * process_used_memory/max_process_memory)超过80%(可配置),则上报节点实例内存使用率超阈值告警;如果平均使用率低于75%(即上报阈值减去5%),则消除告警。

DWS集群节点实例内存使用率超阈值

紧急

90%

DWS每60秒采集集群各节点的实例内存使用率。如果某节点的实例内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * process_used_memory/max_process_memory)超过90%(可配置),则上报节点实例内存使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。

DWS数据库磁盘剩余容量预警

重要

80%

当检测到集群实例的磁盘使用率或inode使用率大于等于80%时,将触发该告警;当检测到集群实例的磁盘使用率或inode使用率低于80%时,将消除该告警。

DWS集群状态异常

紧急

-

DWSHAMonitor在监控集群状态的过程中,当连续三次集群状态异常时,DWSHAMonitor触发此告警。

DWS集群的任意sql探针耗时超阈值

紧急

-

DWS每30秒采集集群各节点SQL探针的执行情况。如果存在任意集群的任意主机存在SQL探针执行耗时超过2倍阈值(可配置),则上报集群的SQL探针耗时超阈值的紧急告警;如果所有SQL探针执行耗时不超过该阈值,则消除该紧急告警。

DWS集群恢复失败

紧急

-

每次执行恢复结束,内核上报恢复结果,当检测到恢复失败时,产生该告警。当检测到下一次备份恢复时,消除备份告警。

节点状态异常

紧急

-

DWSHAMonitor在监控节点运行状态的过程中,当连续三次上报节点运行状态异常时,触发此告警。

DWS集群节点数据盘时延超阈值

重要

400ms

DWS每30秒采集集群各节点的数据盘时延。如果某节点的某数据盘最近10分钟(可配置)内的平均时延超过400ms(可配置),则上报节点数据盘时延超阈值告警;如果平均使用率低于400ms,则消除告警。

DWS集群中存在持有表锁过长的vacuum full操作

重要

20分钟

数据表执行vacuum full操作会持有八级锁,如果对某张表执行vacuum full操作且持有锁周期超过20分钟(可配置)时,则上报集群中存在持有锁过长的vacuum full操作的重要告警;当vacuum full结束后,则消除该重要告警。

DWS数据库磁盘剩余容量严重不足

紧急

-

当检测到集群实例的磁盘使用率或inode使用率大于等于95%时,将触发该告警。当检测到集群实例的磁盘使用率或inode使用率低于95%时,将消除该告警。

分段温备回退包周期场景不删除预占节点异常告警

重要

-

包周期集群分段温备修复后进行回退操作,需由用户在console页面进行删除预占的空闲节点,未删除则上报该告警。

DWS集群默认资源池队列阻塞

紧急

-

DWS固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(查询实时Topsql,BLOCK_TIME > 10000),默认20分钟(可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。

DWS集群节点CPU使用率超阈值

紧急

95%

DWS每30秒采集集群各节点的CPU使用率。如果某节点最近10分钟(可配置)内的平均使用率超过95%(可配置),则上报节点CPU使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。

DWS数据实例连接数超限

重要

90%

CN当前连接数/max_connections > connection_alarm_rate时告警,其中max_connections 和connection_alarm_rate为DWS参数,connection_alarm_rate 默认0.9。

DWS集群节点动态内存使用率超阈值

重要

80%

DWS每60秒采集集群各节点的动态内存使用率。如果某节点的动态内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * dynamic_used_memory/max_dynamic_memory )超过80%(可配置),则上报节点动态内存使用率超阈值告警;如果平均使用率低于75%(即上报阈值减去5%),则消除告警。

DWS集群节点动态内存使用率超阈值

紧急

90%

DWS每60秒采集集群各节点的动态内存使用率。如果某节点的动态内存使用率(查询PV_TOTAL_MEMORY_DETAIL,100 * dynamic_used_memory/max_dynamic_memory )超过90%(可配置),则上报节点动态内存使用率超阈值告警;如果平均使用率低于85%(即上报阈值减去5%),则消除告警。

DWS集群备份失败

重要

-

每次周期性备份执行结束,内核上报备份结果,当检测到备份失败时,产生该告警。当检测到下一次备份成功时,消除备份告警。

DWS集群查询语句触发下盘量超阈值

紧急

5GB

DMS告警模块在指定周期内,检测到10分钟(可配置)内存在SQL的下盘量(查询实时TopSQL,MAX_SPILL_SIZE / 1024)超过5GB(可配置),则上报查询语句触发下盘量超阈值;当集群不存在符合告警条件的SQL语句时,自动消除该告警。修改告警配置详情请参见修改告警规则

调用DWS OpenAPI内部出现异常

紧急

-

用户调用DMS服务OpenAPI代码内部出现未知异常。

DWS集群数据库会话使用率超阈值

重要

80%

DMS告警模块在指定周期内,检测到集群数据库会话使用率(查询实时TopSQL,会话数量/datconnlimit)超过80%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的重要告警;当检测到集群数据库会话使用率低于当前设定阈值时,DMS告警模块将消除该告警。

DWS集群数据库会话使用率超阈值

紧急

90%

DMS告警模块在指定周期内,检测到集群数据库会话使用率(查询实时TopSQL,会话数量/datconnlimit)超过90%(可配置),且抑制条件不满足时,DMS告警模块将触发该告警的紧急告警;当检测到集群数据库会话使用率低于当前设定阈值时,DMS告警模块将消除该告警。

修复集群后创建节点失败异常

重要

-

修复集群后,修复集群需要新增节点,但创建节点失败,上报该告警。

DWS集群查询语句堆积数量超阈值

紧急

10个

DMS告警模块在指定周期内,检测到10分钟(可配置)内集群中处于排队等待状态的SQL语句数量(查询实时TopSQL,BLOCK_TIME > 5000的COUNT(PID))超过10个(可配置),则上报查询语句堆积数量超阈值告警;当集群处于等待状态的SQL语句数量小于10时,自动消除该告警。

DWS集群细粒度备份部分表失败

次要

-

当前版本细粒度备份恢复不支持在线业务,因此在备份过程中,如果某张表存在在线业务(特指会修改表定义或者表文件的DDL/DML),本次备份被认为是备份部分表失败,但是不影响其余表备份恢复,需要上报次要告警。

例如备份表A的过程中,用户对该表执行了"alter table A add column a int"操作,则表A的表定义发生了改变。这种场景下,备份的表A的表定义和表A的表数据可能是不一致的,处于安全性考虑,无法利用这个备份集恢复表A数据。

如果下次备份成功,则可以利用成功备份的备份集恢复表,即历史备份部分表失败不影响后续备份。

相关文档