RDS for PostgreSQL指标告警配置建议

通过在云监控服务界面设置告警规则，用户可自定义监控目标与通知策略，及时了解实例的运行状况，从而起到预警作用。本章节介绍了设置RDS for PostgreSQL指标告警规则的配置及建议。

创建指标告警规则

登录管理控制台。
单击管理控制台左上角的，选择区域和项目。
在“服务列表”中，选择“管理与监管 > 云监控服务”，进入“云监控”服务信息页面。
在左侧导航栏选择“云服务监控 > 关系型数据库”。

图1 选择监控对象
选择需要添加告警规则的实例，单击操作列的“创建告警规则”。

图2 创建告警规则

在“创建告警规则”页面，填选相关信息。

表1 告警规则信息
参数	参数说明
名称	系统会随机产生一个名称，用户也可以进行修改。
描述	告警规则描述。
触发规则	根据需要可选择关联模板、导入已有模板或自定义创建。说明：选择关联模板后，所关联模板内容修改后，该告警规则中所包含策略也会跟随修改。建议选择导入已有模板，模板中已经包含CPU使用率、内存使用率、磁盘利用率三个常用告警指标。
模板	选择需要导入的模板。您可以选择系统预置的默认告警模板，或者选择自定义模板。
告警策略	触发告警规则的告警策略。是否触发告警取决于连续周期的数据是否达到阈值。例如CPU使用率监控周期为5分钟，连续三个周期平均值≥80%，则触发告警。说明：告警规则内最多可添加50条告警策略，若其中一条告警策略达到条件都会触发告警。
告警级别	根据告警的严重程度不同等级，可选择紧急、重要、次要、提示。

图3 设置告警通知

表2 告警通知
参数	参数说明
发送通知	配置是否发送邮件、短信、HTTP和HTTPS通知用户。
通知方式	根据需要可选择通知组或主题订阅两种方式。
通知组	需要发送告警通知的通知组。
通知对象	选择主题订阅时设置需要发送告警通知的对象，可选择云账号联系人或主题名称。云账号联系人为注册时的手机和邮箱。主题是消息发布或客户端订阅通知的特定事件类型。
生效时间	该告警仅在生效时间段发送通知消息，非生效时段则在隔日生效时段发送通知消息。如生效时间为08:00-20:00，则该告警规则仅在08:00-20:00发送通知消息。
触发条件	可以选择“出现告警”、“恢复正常”两种状态，作为触发告警通知的条件。
归属企业项目	告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。
标签	标签由键值对组成，用于标识云资源，可对云资源进行分类和搜索。

单击“立即创建”，告警规则创建完成。

关于告警参数的配置，请参见《云监控用户指南》。

指标告警配置建议

表3 RDS for PostgreSQL指标告警配置建议
指标ID	指标名称	指标含义	最佳实践阈值	最佳实践告警级别	告警后的处理建议
rds001_cpu_util	CPU使用率	该指标用于统计测量对象的CPU使用率，以比率为单位。	连续3个周期原始值 > 80 %	重要	建议参考CPU使用率高问题定位及处理方法排查及处理。因为业务增量导致CPU持续保持高位，建议升配规格，参考变更实例的CPU和内存规格。
rds002_mem_util	内存使用率	该指标用于统计测量对象的内存使用率，以比率为单位。	连续3个周期原始值 > 90 %	重要	建议参考内存使用率高问题定位及处理方法排查及处理。因为业务增量导致内存持续保持高位，建议升配规格，参考变更实例的CPU和内存规格。
rds039_disk_util	磁盘利用率	该指标用于统计测量对象的磁盘利用率，以比率为单位。	连续3个周期原始值 > 80 %	重要	建议参考磁盘使用率高问题定位及处理方法排查及处理。因为业务增量导致磁盘使用率持续保持高位，建议根据业务使用情况进行扩容，参考手动变更磁盘容量。
rds045_oldest_replication_slot_lag	最滞后副本滞后量	多个副本中最滞后副本（依据接收到的WAL数据）滞后量。	连续1个周期原始值 > 20480 MB	重要	建议参考最滞后副本滞后量和复制时延高问题定位及处理方法排查及处理。
rds046_replication_lag	复制时延	副本滞后时延。	连续3个周期原始值 > 600 s	重要	建议参考最滞后副本滞后量和复制时延高问题定位及处理方法排查及处理。
rds083_conn_usage	连接数使用率	该指标用于统计当前已用的PgSQL连接数占总连接数的百分比。	连续3个周期原始值 > 80 %	重要	建议排查连接数增长的业务影响，及时排查业务侧连接是否有效，优化实例连接，释放不必要的连接。参考RDS for PostgreSQL数据库连接数满的排查思路。关于连接数设置建议，参考RDS for PostgreSQL数据库实例支持的最大数据连接数是多少。
active_connections	活跃连接数	该指标为统计数据库当前活跃连接数。	连续1个周期原始值 > [当前CPU核数*2] Counts	重要	建议参考连接数和活跃连接数异常情况定位及处理方法排查及处理。
oldest_transaction_duration	最长事务存活时长	该指标为统计当前数据库中存在的最长事务存活时长。	根据业务情况来配置。参考值：连续1个周期原始值 > 7200000 ms	重要	建议参考长事务问题定位及处理方法排查及处理。
oldest_transaction_duration_2pc	最长未决事务存活时长	该指标为统计当前数据库存在的最长未决事务存活时长。	根据业务情况来配置。参考值：连续1个周期原始值 > 7200000 ms	重要	建议参考长事务问题定位及处理方法排查及处理。
db_max_age	最大数据库年龄	该指标为统计当前数据库的最大数据库年龄(获取表pg_database中max(age(datfrozenxid))值)。	连续1个周期原始值 > 1000000000	重要	建议参考数据库年龄增长问题定位及处理方法排查及处理。
slow_sql_three_second	已执行3s的SQL数	该指标为统计数据库执行时长3秒以上的慢SQL个数。该指标为采集时刻的瞬时值，并不是一分钟内的累计值。	根据业务情况来配置。参考值：连续1个周期原始值 > [当前CPU核数*2] Counts	重要	建议参考已执行3s或5s SQL数问题定位及处理方法排查及处理。
slow_sql_five_second	已执行5s的SQL数	该指标为统计数据库执行时长5秒以上的慢SQL个数。该指标为采集时刻的瞬时值，并不是一分钟内的累计值。	根据业务情况来配置。参考值：连续1个周期原始值 > [当前CPU核数*2] Counts	重要	建议参考已执行3s或5s SQL数问题定位及处理方法排查及处理。
inactive_logical_replication_slot	非活跃逻辑复制槽数量	该指标用于统计当前数据库中存在的非活跃逻辑复制槽数量。	连续3个周期原始值 > 1 Counts	重要	建议参考存在非活跃逻辑复制槽问题定位及处理方法排查及处理。

上一篇：用户喜好推荐系统

下一篇：RDS for PostgreSQL安全最佳实践

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消