RDS for MySQL指标告警配置建议

通过在云监控服务界面设置告警规则，用户可自定义监控目标与通知策略，及时了解实例的运行状况，从而起到预警作用。本章节介绍了设置RDS for MySQL指标告警规则的配置及建议。

创建指标告警规则

登录管理控制台。
单击管理控制台左上角的，选择区域和项目。
在“服务列表”中选择“管理与监管 > 云监控服务 CES”，进入云监控服务信息页面。
选择“告警 > 告警规则”。
单击“创建告警规则”。

在“创建告警规则”界面，根据界面提示配置参数。

图1 设置告警规则信息

表1 告警规则信息
参数	参数说明
名称	系统会随机产生一个名称，用户也可以进行修改。
描述	告警规则描述。
告警类型	选择指标。
云产品	选择RDS for MySQL产品。
资源层级	推荐选择云产品。
监控范围	全部资源：当前云产品下任何资源满足告警策略时，都会发送告警通知。可单击“选择排除资源”排除不需要监控的资源。资源分组：该分组下任何资源满足告警策略时，都会触发告警通知。指定资源：在“监控对象”单击“选择指定资源”进行指定资源的选择。
触发规则	关联模板：所关联模板内容修改后，该告警规则中所包含策略也会跟随修改。建议选择导入已有模板，模板中已经包含CPU使用率、内存使用率、磁盘利用率三个常用告警指标。自定义创建：自行配置告警策略。
模板	触发规则选择关联模板时，需要选择模板。您可以选择系统预置的默认告警模板，或者选择自定义模板。
告警策略	触发规则选择自定义创建时，需要设置告警策略。是否触发告警取决于连续周期的数据是否达到阈值。例如每5分钟收集一次CPU使用率的平均值数据，连续3次≥80%，则每5分钟触发告警一次。说明：告警规则内最多可添加50条告警策略，若其中一条告警策略达到条件都会触发告警。
告警级别	根据告警的严重程度不同等级，可选择紧急、重要、次要、提示。

图2 设置告警通知

表2 告警通知
参数	参数说明
发送通知	配置是否发送邮件、短信、HTTP和HTTPS通知用户。
通知方式	根据需要可选择通知组或主题订阅两种方式。
通知组	需要发送告警通知的通知组。
通知对象	选择主题订阅时设置需要发送告警通知的对象，可选择云账号联系人或主题名称。云账号联系人为注册时的手机和邮箱。主题是消息发布或客户端订阅通知的特定事件类型。
生效时间	该告警仅在生效时间段发送通知消息，非生效时段则在隔日生效时段发送通知消息。如生效时间为08:00-20:00，则该告警规则仅在08:00-20:00发送通知消息。
触发条件	可以选择“出现告警”、“恢复正常”两种状态，作为触发告警通知的条件。
归属企业项目	告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。
标签	标签由键值对组成，用于标识云资源，可对云资源进行分类和搜索。

单击“立即创建”，告警规则创建完成。

关于告警参数的配置，请参见《云监控用户指南》。

指标告警配置建议

表3 RDS for MySQL指标告警配置建议
指标ID	指标名称	指标含义	最佳实践阈值	最佳实践告警级别	告警后的处理建议
rds001_cpu_util	CPU使用率	该指标用于统计测量对象的CPU使用率，以百分比为单位。	连续3个周期原始值 > 80 %	重要	建议紧急情况利用实时会话kill和SQL限流来快速恢复，参考管理实时会话和新建SQL限流规则。建议CPU升高未影响业务的场景，参考RDS for MySQL CPU使用率高的问题处理。因为业务增量导致CPU持续保持高位，建议评估升配实例规格或添加只读实例，参考手动变更实例的CPU和内存规格和创建高可用只读实例。
rds002_mem_util	内存使用率	该指标用于统计测量对象的内存使用率，以百分比为单位。	连续3个周期原始值 > 90 %	重要	建议参考官网进行排查内存升高原因，参考RDS for MySQL内存使用率高的问题处理。因为业务增量导致内存使用率高，建议评估升配实例规格或者添加只读实例，参考手动变更实例的CPU和内存规格和创建高可用只读实例。 OOM场景示例，参考内存使用超限风险与优化。
rds039_disk_util	磁盘利用率	该指标用于统计测量对象的磁盘利用率，以百分比为单位。	连续3个周期原始值 > 80 %	重要	建议通过管理磁盘容量查看磁盘占用情况，优化磁盘占用。数据空间过大建议及时扩容磁盘，参考手动扩容磁盘。建议开启存储空间自动扩容，防止磁盘写满。
rds072_conn_usage	连接数使用率	该指标用于统计当前已用的MySQL连接数占总连接数的百分比。	连续3个周期原始值 > 80 %	重要	建议排查连接数增长的业务影响，及时排查业务侧连接是否有效，优化实例连接，释放不必要的连接，参考RDS数据库连接数满的排查思路。关于连接数设置建议，参考RDS数据库实例支持的最大数据连接数是多少。
rds073_replication_delay	实时复制时延	该指标为备库或只读与主库的实时延迟，对应seconds_behind_master。该值为实时值。	连续3个周期原始值 > 600 s	重要	建议参考MySQL主备复制延迟场景及解决方案排查业务是否有相关问题。主备复制延迟的原理和部分案例场景介绍，参考：MySQL主备复制原理简介、主备复制延迟持续增长后自动恢复、RDS主备复制关系异常、主备复制时延瞬间飚高回落。
rds_mdl_lock_count	MDL锁数量	该指标用于统计MDL锁数量，以个为单位。	根据业务使用功能情况设置	重要	建议通过管理锁&事务查看是否有阻塞会话和等待会话，kill掉阻塞会话实现快速恢复。 MDL锁相关原理介绍，参考MDL锁视图。 MDL锁导致问题的场景案例，参考RDS for MySQL元数据锁MDL的问题处理。
rds_long_transaction	长事务指标	该指标统计长事务耗时数据，以秒为单位。相关操作命令前后分别有BEGIN以及COMMIT命令才算作一个完整的长事务。	根据客户实际情况配置	重要	建议通过实时会话排查是否有长时间sleep状态的事务，但是未提交的事务。通过判断会话来源，优化业务逻辑，保证空闲事务及时提交。参考管理实时会话。建议在数据库侧设置主动终止空闲事务。
rds075_avg_disk_ms_per_read	硬盘读耗时	该指标用于统计某段时间平均每次读取磁盘所耗时间。	连续3个周期原始值 > 50 ms	重要	建议检查实例是否存在CPU、内存、连接数等的性能瓶颈，如果有，参考相关指标建议解决性能瓶颈问题。建议观察磁盘带宽监控，在带宽达上限后，变更到磁盘性能更优的规格。参考：手动变更实例的CPU和内存规格、RDS for MySQL实例规格、数据库实例存储类型。
rds076_avg_disk_ms_per_write	硬盘写耗时	该指标用于统计某段时间平均写入磁盘所耗时间。	连续3个周期原始值 > 50 ms	重要	建议检查实例是否存在CPU、内存、连接数等的性能瓶颈，如果有，参考相关指标建议解决性能瓶颈问题。建议观察磁盘带宽监控，在带宽达上限后，变更到磁盘性能更优的规格。参考：手动变更实例的CPU和内存规格、RDS for MySQL实例规格、数据库实例存储类型。

表4 RDS for MySQL数据库代理指标告警配置建议
指标ID	指标名称	指标含义	最佳实践阈值	最佳实践告警级别	告警后的处理建议
rds001_cpu_util	CPU使用率	该指标用于统计测量对象的CPU使用率，以百分比为单位。	连续3个周期原始值 > 75 %	重要	建议根据业务评估升配或增加代理节点，参考：变更数据库代理的规格、调整代理节点数量。

上一篇：RDS for MySQL设置循环执行事件

下一篇：RDS for MySQL安全最佳实践

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消