RDS for PostgreSQL指标告警配置建议
通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。本章节介绍了设置RDS for PostgreSQL指标告警规则的配置及建议。
创建指标告警规则
指标告警配置建议
指标ID | 指标名称 | 指标含义 | 最佳实践阈值 | 最佳实践告警级别 | 告警后的处理建议 |
|---|---|---|---|---|---|
rds001_cpu_util | CPU使用率 | 该指标用于统计测量对象的CPU使用率,以比率为单位。 | 连续3个周期 原始值 > 80 % | 重要 |
|
rds002_mem_util | 内存使用率 | 该指标用于统计测量对象的内存使用率,以比率为单位。 | 连续3个周期 原始值 > 90 % | 重要 |
|
rds039_disk_util | 磁盘利用率 | 该指标用于统计测量对象的磁盘利用率,以比率为单位。 | 连续3个周期 原始值 > 80 % | 重要 |
|
rds045_oldest_replication_slot_lag | 最滞后副本滞后量 | 多个副本中最滞后副本(依据接收到的WAL数据)滞后量。 | 连续1个周期 原始值 > 20480 MB | 重要 | 建议参考最滞后副本滞后量和复制时延高问题定位及处理方法排查及处理。 |
rds046_replication_lag | 复制时延 | 副本滞后时延。 | 连续3个周期 原始值 > 600 s | 重要 | |
rds083_conn_usage | 连接数使用率 | 该指标用于统计当前已用的PgSQL连接数占总连接数的百分比。 | 连续3个周期 原始值 > 80 % | 重要 |
|
active_connections | 活跃连接数 | 该指标为统计数据库当前活跃连接数。 | 连续1个周期 原始值 > [当前CPU核数*2] Counts | 重要 | 建议参考连接数和活跃连接数异常情况定位及处理方法排查及处理。 |
oldest_transaction_duration | 最长事务存活时长 | 该指标为统计当前数据库中存在的最长事务存活时长。 | 根据业务情况来配置。参考值:连续1个周期 原始值 > 7200000 ms | 重要 | 建议参考长事务问题定位及处理方法排查及处理。 |
oldest_transaction_duration_2pc | 最长未决事务存活时长 | 该指标为统计当前数据库存在的最长未决事务存活时长。 | 根据业务情况来配置。参考值:连续1个周期 原始值 > 7200000 ms | 重要 | |
db_max_age | 最大数据库年龄 | 该指标为统计当前数据库的最大数据库年龄(获取表pg_database中max(age(datfrozenxid))值)。 | 连续1个周期 原始值 > 1000000000 | 重要 | 建议参考数据库年龄增长问题定位及处理方法排查及处理。 |
slow_sql_three_second | 已执行3s的SQL数 | 该指标为统计数据库执行时长3秒以上的慢SQL个数。 该指标为采集时刻的瞬时值,并不是一分钟内的累计值。 | 根据业务情况来配置。参考值:连续1个周期 原始值 > [当前CPU核数*2] Counts | 重要 | 建议参考已执行3s或5s SQL数问题定位及处理方法排查及处理。 |
slow_sql_five_second | 已执行5s的SQL数 | 该指标为统计数据库执行时长5秒以上的慢SQL个数。 该指标为采集时刻的瞬时值,并不是一分钟内的累计值。 | 根据业务情况来配置。参考值:连续1个周期 原始值 > [当前CPU核数*2] Counts | 重要 | |
inactive_logical_replication_slot | 非活跃逻辑复制槽数量 | 该指标用于统计当前数据库中存在的非活跃逻辑复制槽数量。 | 连续3个周期 原始值 > 1 Counts | 重要 | 建议参考存在非活跃逻辑复制槽问题定位及处理方法排查及处理。 |

