文档首页/ 数据复制服务 DRS/ 最佳实践/ 监控指标/ 监控指标告警配置建议
更新时间:2025-11-04 GMT+08:00
分享

监控指标告警配置建议

操作场景

通过在云监控服务界面设置告警规则,用户可自定义监控目标与通知策略,及时了解实例的运行状况,从而起到预警作用。DRS支持为实例的监控指标设置阈值告警规则。当监控指标的值超出设置的阈值时就会触发告警,系统会通过SMN自动发送报警通知给云账号联系人,帮助您及时了解DRS实例的运行状况。

本章节介绍了设置DRS指标告警规则的配置建议。

创建告警规则

  1. 登录管理控制台。
  2. “所有服务”“服务列表”中选择“管理与监管 > 云监控服务 CES”,进入“云监控服务”信息页面。
  3. 在左侧导航栏选择“云服务监控 > 数据复制服务”。
  4. 选择需要添加告警规则的实例,单击操作列的“创建告警规则”
  5. “创建告警规则”页面,填选相关信息。

    • 输入告警“名称”“描述”
    • “选择类型”建议“从模板导入”,模板中已经包含CPU使用率、内存使用率、磁盘利用率等常用告警指标。
    • 单击开启“发送通知”,生效时间默认为全天,若没有您想要选择的主题,可以单击下一行的“创建主题”进行添加,“触发条件”勾选“出现告警”“恢复正常”

      该告警规则仅在生效时间段内发送通知消息。

  6. 单击“立即创建”,告警规则创建完成。

    关于告警参数的配置,请参见《云监控用户指南》。

表1 DRS指标告警配置建议

指标ID

指标名称

最佳实践阈值

最佳实践告警级别

告警后的处理建议

extract_latency

源库WAL抽取延迟

连续3个周期 原始值 > 600 s

重要

  • 建议用户查看当前网络健康状况。
  • 建议用户检查源端带宽和源端日志增量是否匹配。
  • 建议用户检查源端是否有大事务,是否有业务突增情况。

apply_latency

数据同步延迟

连续3个周期 原始值 > 600 s(根据业务实际情况配置)

重要

  • 建议用户检查目标库的CPU和响应时间情况。
  • 建议用户查看目标库是否存在慢SQL或DDL操作,以及以及是否发生了锁竞争。
  • 建议用户核实源端业务是否有变化,是否有批量导入数据的操作。

apply_job_status

任务状态

连续1个周期 原始值 =1

重要

当前指标状态为“0”是正常状态,为“1”是异常状态,“2”是暂停状态。如果出现异常告警,建议用户根据具体的告警信息。

完整的DRS指标告警请参看支持的监控指标

相关文档