更新时间:2022-02-21 GMT+08:00

必须配置的告警监控

本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,请按照以下告警策略,配置监控指标的告警规则。

Redis实例告警策略

表1 Redis实例配置告警的指标

指标名称

正常范围

告警策略

是否接近性能上限

告警处理建议

CPU利用率

0~100

告警阈值:>70

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的,判断是否需要扩容。

如果单机/主备实例,无法扩展CPU能力,需要考虑切换为集群实例。

内存利用率

0~100

告警阈值:>70

连续触发次数:2

告警级别:重要

建议进行扩容。

活跃的客户端数量

0~10000

告警阈值:>8000

连续触发次数:2

告警级别:重要

建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。

单机和主备实例,最大连接数限制为10000,可以根据业务情况对阈值进行调整。

新建连接数

(个/min)

0~10000

告警阈值:>10000

连续触发次数:2

告警级别:次要

-

排查是否使用短连接,或者客户端异常连接。建议使用长连接,避免使用短连接影响性能。

网络瞬时输入流量

>0

告警阈值:>规格基准带宽的80%

连续触发次数:2

告警级别:重要

结合业务分析和规格带宽限制,判断是否需要扩容。

仅Redis3.0实例的单机/主备实例进行配置,建议按Redis3.0规格基准带宽的80%进行配置。其他实例不配置。

网络瞬时输出流量

>0

告警阈值:>规格基准带宽的80%

连续触发次数:2

告警级别:重要

结合业务分析和规格带宽限制,判断是否需要扩容。

仅Redis3.0实例的单机/主备实例进行配置,建议按Redis3.0规格基准带宽的80%进行配置。其他实例不配置。

配置步骤

以配置CPU利用率监控指标的告警规则为例:

  1. 登录分布式缓存服务管理控制台。
  2. 在管理控制台左上角单击,选择区域和项目。
  3. 单击左侧菜单栏的“缓存管理”,进入缓存实例信息页面。
  4. 在需要查看的缓存实例的“操作”列,单击“查看监控”,进入该实例的监控指标页面。

    图1 查看实例监控指标

  5. 在实例监控指标页面中,找到指标名称为“CPU利用率”的指标项,鼠标移动到指标区域,然后单击指标右上角的,创建告警规则。

    跳转到创建告警规则页面。

  6. 在告警规则页面,设置告警信息。

    1. 设置告警策略和告警级别。

      如下图所示,在指标监控时,如果连续2个周期,客户端连接数超过了设置的告警阈值,则产生告警。

      图2 设置告警内容
    2. 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。
    3. 单击“下一步”。
    4. 在“规则信息”,设置告警名称和告警的描述。
    5. 单击“立即创建”,等待创建告警规则成功。

      如果创建告警规则有问题,可查看《云监控服务 用户指南》的“使用告警功能 > 创建告警规则和告警通知”章节。