文档首页/ 云数据库 RDS_云数据库 RDS for PostgreSQL/ 最佳实践/ RDS for PostgreSQL指标告警配置建议
更新时间:2026-02-04 GMT+08:00
分享

RDS for PostgreSQL指标告警配置建议

通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。本章节介绍了设置RDS for PostgreSQL指标告警规则的配置及建议。

创建指标告警规则

指标告警配置建议

表1 RDS for PostgreSQL指标告警配置建议

指标ID

指标名称

指标含义

最佳实践阈值

最佳实践告警级别

告警后的处理建议

rds001_cpu_util

CPU使用率

该指标用于统计测量对象的CPU使用率,以比率为单位。

连续3个周期 原始值 > 80 %

重要

  1. 建议参考CPU使用率高问题定位及处理方法排查及处理。
  2. 因为业务增量导致CPU持续保持高位,建议升配规格,参考变更实例的CPU和内存规格

rds002_mem_util

内存使用率

该指标用于统计测量对象的内存使用率,以比率为单位。

连续3个周期 原始值 > 90 %

重要

  1. 建议参考内存使用率高问题定位及处理方法排查及处理。
  2. 因为业务增量导致内存持续保持高位,建议升配规格,参考变更实例的CPU和内存规格

rds039_disk_util

磁盘利用率

该指标用于统计测量对象的磁盘利用率,以比率为单位。

连续3个周期 原始值 > 80 %

重要

  1. 建议参考磁盘使用率高问题定位及处理方法排查及处理。
  2. 因为业务增量导致磁盘使用率持续保持高位,建议根据业务使用情况进行扩容,参考手动变更磁盘容量

rds045_oldest_replication_slot_lag

最滞后副本滞后量

多个副本中最滞后副本(依据接收到的WAL数据)滞后量。

连续1个周期 原始值 > 20480 MB

重要

建议参考最滞后副本滞后量和复制时延高问题定位及处理方法排查及处理。

rds046_replication_lag

复制时延

副本滞后时延。

连续3个周期 原始值 > 600 s

重要

rds083_conn_usage

连接数使用率

该指标用于统计当前已用的PgSQL连接数占总连接数的百分比。

连续3个周期 原始值 > 80 %

重要

  1. 建议排查连接数增长的业务影响,及时排查业务侧连接是否有效,优化实例连接,释放不必要的连接。参考RDS for PostgreSQL数据库连接数满的排查思路
  2. 关于连接数设置建议,参考RDS for PostgreSQL数据库实例支持的最大数据连接数是多少

active_connections

活跃连接数

该指标为统计数据库当前活跃连接数。

连续1个周期 原始值 > [当前CPU核数*2] Counts

重要

建议参考连接数和活跃连接数异常情况定位及处理方法排查及处理。

oldest_transaction_duration

最长事务存活时长

该指标为统计当前数据库中存在的最长事务存活时长。

根据业务情况来配置。参考值:连续1个周期 原始值 > 7200000 ms

重要

建议参考长事务问题定位及处理方法排查及处理。

oldest_transaction_duration_2pc

最长未决事务存活时长

该指标为统计当前数据库存在的最长未决事务存活时长。

根据业务情况来配置。参考值:连续1个周期 原始值 > 7200000 ms

重要

db_max_age

最大数据库年龄

该指标为统计当前数据库的最大数据库年龄(获取表pg_database中max(age(datfrozenxid))值)。

连续1个周期 原始值 > 1000000000

重要

建议参考数据库年龄增长问题定位及处理方法排查及处理。

slow_sql_three_second

已执行3s的SQL数

该指标为统计数据库执行时长3秒以上的慢SQL个数。

该指标为采集时刻的瞬时值,并不是一分钟内的累计值。

根据业务情况来配置。参考值:连续1个周期 原始值 > [当前CPU核数*2] Counts

重要

建议参考已执行3s或5s SQL数问题定位及处理方法排查及处理。

slow_sql_five_second

已执行5s的SQL数

该指标为统计数据库执行时长5秒以上的慢SQL个数。

该指标为采集时刻的瞬时值,并不是一分钟内的累计值。

根据业务情况来配置。参考值:连续1个周期 原始值 > [当前CPU核数*2] Counts

重要

inactive_logical_replication_slot

非活跃逻辑复制槽数量

该指标用于统计当前数据库中存在的非活跃逻辑复制槽数量。

连续3个周期 原始值 > 1 Counts

重要

建议参考存在非活跃逻辑复制槽问题定位及处理方法排查及处理。

相关文档