文档首页/ 云数据库 RDS_云数据库 RDS for MySQL/ 最佳实践/ RDS for MySQL指标告警配置建议
更新时间:2025-09-04 GMT+08:00

RDS for MySQL指标告警配置建议

通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。本章节介绍了设置RDS for MySQL指标告警规则的配置及建议。

创建指标告警规则

  1. 登录管理控制台
  2. 单击管理控制台左上角的,选择区域和项目。
  3. “服务列表”中选择“管理与监管 > 云监控服务 CES”,进入云监控服务信息页面。
  4. 选择“告警 > 告警规则”。
  5. 单击“创建告警规则”。
  6. 在“创建告警规则”界面,根据界面提示配置参数。

    图1 设置告警规则信息
    表1 告警规则信息

    参数

    参数说明

    名称

    系统会随机产生一个名称,用户也可以进行修改。

    描述

    告警规则描述。

    告警类型

    选择指标。

    云产品

    选择RDS for MySQL产品。

    资源层级

    推荐选择云产品。

    监控范围

    • 全部资源:当前云产品下任何资源满足告警策略时,都会发送告警通知。可单击“选择排除资源”排除不需要监控的资源。
    • 资源分组:该分组下任何资源满足告警策略时,都会触发告警通知。
    • 指定资源:在“监控对象”单击“选择指定资源”进行指定资源的选择。

    触发规则

    • 关联模板:所关联模板内容修改后,该告警规则中所包含策略也会跟随修改。

      建议选择导入已有模板,模板中已经包含CPU使用率、内存使用率、磁盘利用率三个常用告警指标。

    • 自定义创建:自行配置告警策略。

    模板

    触发规则选择关联模板时,需要选择模板。

    您可以选择系统预置的默认告警模板,或者选择自定义模板。

    告警策略

    触发规则选择自定义创建时,需要设置告警策略。

    是否触发告警取决于连续周期的数据是否达到阈值。例如每5分钟收集一次CPU使用率的平均值数据,连续3次≥80%,则每5分钟触发告警一次。

    说明:

    告警规则内最多可添加50条告警策略,若其中一条告警策略达到条件都会触发告警。

    告警级别

    根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。

    图2 设置告警通知
    表2 告警通知

    参数

    参数说明

    发送通知

    配置是否发送邮件、短信、HTTP和HTTPS通知用户。

    通知方式

    根据需要可选择通知组或主题订阅两种方式。

    通知组

    需要发送告警通知的通知组。

    通知对象

    选择主题订阅时设置需要发送告警通知的对象,可选择云账号联系人或主题名称。

    • 云账号联系人为注册时的手机和邮箱。
    • 主题是消息发布或客户端订阅通知的特定事件类型。

    生效时间

    该告警仅在生效时间段发送通知消息,非生效时段则在隔日生效时段发送通知消息。

    如生效时间为08:00-20:00,则该告警规则仅在08:00-20:00发送通知消息。

    触发条件

    可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。

    归属企业项目

    告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。

    标签

    标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。

  7. 单击“立即创建”,告警规则创建完成。

    关于告警参数的配置,请参见《云监控用户指南》。

指标告警配置建议

表3 RDS for MySQL指标告警配置建议

指标ID

指标名称

指标含义

最佳实践阈值

最佳实践告警级别

告警后的处理建议

rds001_cpu_util

CPU使用率

该指标用于统计测量对象的CPU使用率,以百分比为单位。

连续3个周期 原始值 > 80 %

重要

  1. 建议紧急情况利用实时会话kill和SQL限流来快速恢复,参考管理实时会话新建SQL限流规则
  2. 建议CPU升高未影响业务的场景,参考RDS for MySQL CPU使用率高的问题处理
  3. 因为业务增量导致CPU持续保持高位,建议评估升配实例规格或添加只读实例,参考手动变更实例的CPU和内存规格创建高可用只读实例

rds002_mem_util

内存使用率

该指标用于统计测量对象的内存使用率,以百分比为单位。

连续3个周期 原始值 > 90 %

重要

  1. 建议参考官网进行排查内存升高原因,参考RDS for MySQL内存使用率高的问题处理
  2. 因为业务增量导致内存使用率高,建议评估升配实例规格或者添加只读实例,参考手动变更实例的CPU和内存规格创建高可用只读实例
  3. OOM场景示例,参考内存使用超限风险与优化

rds039_disk_util

磁盘利用率

该指标用于统计测量对象的磁盘利用率,以百分比为单位。

连续3个周期 原始值 > 80 %

重要

  1. 建议通过管理磁盘容量查看磁盘占用情况,优化磁盘占用。
  2. 数据空间过大建议及时扩容磁盘,参考手动扩容磁盘
  3. 建议开启存储空间自动扩容,防止磁盘写满。

rds072_conn_usage

连接数使用率

该指标用于统计当前已用的MySQL连接数占总连接数的百分比。

连续3个周期 原始值 > 80 %

重要

  1. 建议排查连接数增长的业务影响,及时排查业务侧连接是否有效,优化实例连接,释放不必要的连接,参考RDS数据库连接数满的排查思路
  2. 关于连接数设置建议,参考RDS数据库实例支持的最大数据连接数是多少

rds073_replication_delay

实时复制时延

该指标为备库或只读与主库的实时延迟,对应seconds_behind_master。该值为实时值。

连续3个周期 原始值 > 600 s

重要

  1. 建议参考MySQL主备复制延迟场景及解决方案排查业务是否有相关问题。
  2. 主备复制延迟的原理和部分案例场景介绍,参考:MySQL主备复制原理简介主备复制延迟持续增长后自动恢复RDS主备复制关系异常主备复制时延瞬间飚高回落

rds_mdl_lock_count

MDL锁数量

该指标用于统计MDL锁数量,以个为单位。

根据业务使用功能情况设置

重要

  1. 建议通过管理锁&事务查看是否有阻塞会话和等待会话,kill掉阻塞会话实现快速恢复。
  2. MDL锁相关原理介绍,参考MDL锁视图
  3. MDL锁导致问题的场景案例,参考RDS for MySQL元数据锁MDL的问题处理

rds_long_transaction

长事务指标

该指标统计长事务耗时数据,以秒为单位。

相关操作命令前后分别有BEGIN以及COMMIT命令才算作一个完整的长事务。

根据客户实际情况配置

重要

  1. 建议通过实时会话排查是否有长时间sleep状态的事务,但是未提交的事务。通过判断会话来源,优化业务逻辑,保证空闲事务及时提交。参考管理实时会话
  2. 建议在数据库侧设置主动终止空闲事务

rds075_avg_disk_ms_per_read

硬盘读耗时

该指标用于统计某段时间平均每次读取磁盘所耗时间。

连续3个周期 原始值 > 50 ms

重要

  1. 建议检查实例是否存在CPU、内存、连接数等的性能瓶颈,如果有,参考相关指标建议解决性能瓶颈问题。
  2. 建议观察磁盘带宽监控,在带宽达上限后,变更到磁盘性能更优的规格。参考:手动变更实例的CPU和内存规格RDS for MySQL实例规格数据库实例存储类型

rds076_avg_disk_ms_per_write

硬盘写耗时

该指标用于统计某段时间平均写入磁盘所耗时间。

连续3个周期 原始值 > 50 ms

重要

  1. 建议检查实例是否存在CPU、内存、连接数等的性能瓶颈,如果有,参考相关指标建议解决性能瓶颈问题。
  2. 建议观察磁盘带宽监控,在带宽达上限后,变更到磁盘性能更优的规格。参考:手动变更实例的CPU和内存规格RDS for MySQL实例规格数据库实例存储类型
表4 RDS for MySQL数据库代理指标告警配置建议

指标ID

指标名称

指标含义

最佳实践阈值

最佳实践告警级别

告警后的处理建议

rds001_cpu_util

CPU使用率

该指标用于统计测量对象的CPU使用率,以百分比为单位。

连续3个周期 原始值 > 75 %

重要

建议根据业务评估升配或增加代理节点,参考:变更数据库代理的规格调整代理节点数量