文档首页/ 云数据库 RDS_云数据库 RDS for SQL Server/ 最佳实践/ RDS for SQL Server指标告警配置建议
更新时间:2025-09-04 GMT+08:00

RDS for SQL Server指标告警配置建议

通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。本章节介绍了设置RDS for SQL Server指标告警规则的配置及建议。

创建指标告警规则

  1. 登录管理控制台
  2. 单击管理控制台左上角的,选择区域和项目。
  3. “服务列表”中,选择“管理与监管 > 云监控服务 CES”,进入“云监控”服务信息页面。
  4. 在左侧导航栏选择“云服务监控 > 关系型数据库”。

    图1 选择监控对象

  5. 选择需要添加告警规则的实例,单击操作列的“创建告警规则”

    图2 创建告警规则

  6. “创建告警规则”页面,填选相关信息。

    图3 填选告警规则信息
    表1 告警规则信息

    参数

    参数说明

    名称

    系统会随机产生一个名称,用户也可以进行修改。

    描述

    告警规则描述。

    触发规则

    根据需要可选择关联模板、导入已有模板或自定义创建。

    说明:

    选择关联模板后,所关联模板内容修改后,该告警规则中所包含策略也会跟随修改。

    建议选择导入已有模板,模板中已经包含CPU使用率、磁盘利用率、内存使用率、使用中的数据库连接数四个常用告警指标。

    模板

    选择需要导入的模板。

    您可以选择系统预置的默认告警模板,或者选择自定义模板。

    告警策略

    触发告警规则的告警策略。

    是否触发告警取决于连续周期的数据是否达到阈值。例如CPU使用率监控周期为5分钟,连续三个周期平均值≥80%,则触发告警。

    说明:

    告警规则内最多可添加50条告警策略,若其中一条告警策略达到条件都会触发告警。

    告警级别

    根据告警的严重程度不同等级,可选择紧急、重要、次要、提示。

    图4 设置告警通知
    表2 告警通知

    参数

    参数说明

    发送通知

    配置是否发送邮件、短信、HTTP和HTTPS通知用户。

    通知方式

    根据需要可选择通知组或主题订阅两种方式。

    通知组

    需要发送告警通知的通知组。

    通知对象

    选择主题订阅时设置需要发送告警通知的对象,可选择云账号联系人或主题名称。

    • 云账号联系人为注册时的手机和邮箱。
    • 主题是消息发布或客户端订阅通知的特定事件类型。

    生效时间

    该告警仅在生效时间段发送通知消息,非生效时段则在隔日生效时段发送通知消息。

    如生效时间为08:00-20:00,则该告警规则仅在08:00-20:00发送通知消息。

    触发条件

    可以选择“出现告警”、“恢复正常”两种状态,作为触发告警通知的条件。

    归属企业项目

    告警规则所属的企业项目。只有拥有该企业项目权限的用户才可以查看和管理该告警规则。

    标签

    标签由键值对组成,用于标识云资源,可对云资源进行分类和搜索。

  7. 单击“立即创建”,告警规则创建完成。

    关于告警参数的配置,请参见《云监控用户指南》。

指标告警配置建议

表3 RDS for SQL Server指标告警配置建议

指标ID

指标名称

指标含义

最佳实践阈值

最佳实践告警级别

告警后的处理建议

rds001_cpu_util

CPU使用率

该指标用于统计测量对象的CPU利用率。

连续3次 原始值 > 80 %

重要

  1. 建议参考排查RDS for SQL Server CPU使用率高的原因和解决方法排查原因。
  2. 长期高负载状态,建议升配规格,参考变更实例的CPU和内存规格

rds039_disk_util

磁盘利用率

该指标用于统计测量对象的磁盘利用率。

连续3次 原始值 > 80 %

重要

  1. 建议创建定期收缩job,参考定时收缩数据库
  2. 建议手动收缩当前数据库的数据文件和日志文件的大小,用来释放磁盘部分空间,参考RDS for SQL Server收缩数据库
  3. 建议在当前规格不满足数据增量的需求时扩容磁盘,参考磁盘扩容

rds049_disk_read_throughput

硬盘读吞吐量

该指标用于统计每秒从磁盘读取的字节数。

超高IO或云盘SSD 连续3次 原始值 > 300 MB

极速SSD 连续3次 原始值 > 900 MB

重要

在磁盘读吞吐长期满负载时,建议检查索引情况,是否需要重建索引,参考创建实例定期维护job

mssql_worker_threads_usage_rate

工作线程使用率

当前实际工作线程总数与max worker threads值的比值。

连续3个周期 原始值 > 90 %

重要

当前占用的线程比较多,建议排查当前实例负载情况,建议根据实例负载情况考虑升配规格,参考变更实例的CPU和内存规格

rds077_replication_delay

数据同步延迟

该指标用于统计主备实例复制延迟,由于SQL Server实例复制延迟都是库级别,每个库各自都在做同步,所以实例级别复制延迟为复制延迟最大的库的值(单机不涉及都为0s)。

连续3个周期 原始值 >= 600 s

重要

可能存在备机回放负载较大,复制异常等问题,建议根据实例负载情况考虑升配规格,参考变更实例的CPU和内存规格