更新时间:2024-07-29 GMT+08:00

必须配置的告警监控

本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,请按照以下告警策略,配置监控指标的告警规则。

Redis实例告警策略

表1 Redis实例配置告警的指标

指标名称

正常范围

告警策略

是否接近性能上限

告警处理建议

CPU利用率

0~100

告警阈值:>70

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的,判断是否需要扩容。

如果单机/主备实例,无法扩展CPU能力,需要考虑切换为集群实例。

该指标仅针对Proxy集群、单机、主备实例设置,Cluster集群实例级别不支持该指标,仅在数据节点支持,即需要在实例详情的“性能监控”中选择“数据节点”页签查看。

CPU平均使用率

0~100%

告警阈值:>70%

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的,判断是否需要扩容。

单机/主备实例,无法扩展CPU能力,如需扩展CPU能力,请考虑切换为集群实例。

该指标仅针对单机、主备实例设置,集群实例级别不支持该指标,仅在数据节点支持,即需要在实例详情的“性能监控”中选择“数据节点”页签查看。

内存利用率

0~100

告警阈值:>70

连续触发次数:2

告警级别:重要

建议进行扩容。

活跃的客户端数量

0~10000

告警阈值:>8000

连续触发次数:2

告警级别:重要

建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。

单机和主备实例,最大连接数限制为10000,可以根据业务情况对阈值进行调整。

仅单机和主备实例配置该指标。如果是集群实例,在数据节点和Proxy节点配置即可。

新建连接数

(个/min)

0~10000

告警阈值:>10000

连续触发次数:2

告警级别:次要

-

排查是否使用短连接,或者客户端异常连接。建议使用长连接,避免使用短连接影响性能。

仅单机和主备实例配置该指标。如果是集群实例,在数据节点和Proxy节点配置即可。

网络瞬时输入流量

>0

告警阈值:>规格基准带宽的80%

连续触发次数:2

告警级别:重要

结合业务分析和规格带宽限制,判断是否需要扩容。

仅Redis 3.0实例的单机/主备实例进行配置,建议按Redis 3.0规格基准带宽的80%进行配置。其他实例不配置。

网络瞬时输出流量

>0

告警阈值:>规格基准带宽的80%

连续触发次数:2

告警级别:重要

结合业务分析和规格带宽限制,判断是否需要扩容。

仅Redis 3.0实例的单机/主备实例进行配置,建议按Redis 3.0规格基准带宽的80%进行配置。其他实例不配置。

Memcached实例告警策略

表2 Memcache实例建议配置告警的指标

指标名称

取值范围

告警策略

是否接近性能上限

告警处理建议

CPU利用率

0~100%

告警阈值:>70%

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的。

如果是单机/主备实例,无法扩展CPU能力,需要结合业务分析是否可进行业务拆分或在客户端使用多个实例组建集群。

内存利用率

0~100%

告警阈值:>65%

连续触发次数:2

告警级别:次要

建议扩容。

活跃的客户端数量

0~10000

告警阈值:>8000

连续触发次数:2

告警级别:重要

建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。

新建连接数

>=0

告警阈值:>10000

连续触发次数:2

告警级别:次要

-

排查是否使用短连接,或者客户端异常连接。建议使用长连接,避免使用短连接影响性能。

网络瞬时输入流量

>=0

告警阈值:>规格基准带宽的80%

连续触发次数:2

告警级别:重要

结合业务分析和规格带宽限制,判断是否需要扩容。

不同实例规格的带宽,请查看实例规格页面。

网络瞬时输出流量

>=0

告警阈值:>规格基准带宽的80%

连续触发次数:2

告警级别:重要

结合业务分析和规格带宽限制,判断是否需要扩容。

不同实例规格的带宽,请查看实例规格页面。

认证失败次数

>=0

告警阈值:>0

连续触发次数:1

告警级别:紧急

-

检查密码配置是否正确。

Redis实例数据节点告警策略

表3 Redis实例数据节点建议配置告警的指标

指标名称

取值范围

告警策略

是否接近性能上限

告警处理建议

CPU利用率

0~100%

告警阈值:>70%

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的。

需要分析各个数据节点的CPU使用率分布是否均匀,如果节点普遍CPU高,需要考虑扩容,集群扩容会增加数据节点,分担CPU压力。

如果是单个节点CPU上涨,需要业务侧分析是否存在热key,优化业务侧代码消除热key。

CPU平均使用率

0~100%

告警阈值:>70%

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的,判断是否需要扩容。

如果单机/主备实例,无法扩展CPU能力,需要考虑切换为集群实例。

内存利用率

0~100%

告警阈值:>70%

连续触发次数:2

告警级别:重要

结合业务分析是否由于业务上涨导致的。

需要分析各个数据节点的内存利用率分布是否均匀,如果节点普遍内存利用率高,需要考虑扩容。如果是单个节点内存上涨,需要业务侧分析是否存在大key,优化业务侧代码消除热大key。

活跃的客户端数量

0~10000

告警阈值:>8000

连续触发次数:2

告警级别:重要

分析业务,是否合理,如果结合业务分析连接数是合理的,建议调整告警阈值。

新建连接数

>=0

告警阈值:>10000

连续触发次数:2

告警级别:次要

-

新建连接数多,可能是短连接导致,建议使用长连接,避免使用短连接影响性能。

是否存在慢日志

0~1

告警阈值:>0

连续触发次数:1

告警级别:重要

-

通过慢查询功能分析具体的慢日志命令。

带宽使用率

0~200%

告警阈值:>90%

连续触发次数:2

告警级别:重要

可结合网络瞬时输入流量和网络瞬时输出流量,分析业务是读业务和还是写业务导致的流量上涨。

对于单个节点带宽使用率上涨,需要分析是否有存在大key。

其中,带宽使用率超过100%,不一定导致限流,有没有被流控需要看流控次数指标。

带宽使用率没有超过100%,也有可能有限流,因为带宽使用率是上报周期实时值,一个上报周期检查一次。流控检查是秒级的。有可能存在上报周期间隔期间,流量有秒级冲高,然后回落,待上报带宽使用率指标时已恢复正常。

流控次数

>=0

告警阈值:>0

连续触发次数:1

告警级别:紧急

结合规格限制、网络瞬时输入流量和网络瞬时输出流量,查看是否扩容解决。

配置步骤

以配置CPU利用率监控指标的告警规则为例:

  1. 登录分布式缓存服务管理控制台。
  2. 在管理控制台左上角单击,选择区域和项目。
  3. 单击左侧菜单栏的“缓存管理”。进入缓存管理页面。
  4. 在需要查看的缓存实例的“操作”列,单击“查看监控”,进入该实例的监控指标页面。
  5. 在实例监控指标页面中,找到指标名称为“CPU利用率”的指标项,鼠标移动到指标区域,然后单击指标右上角的,创建告警规则。

    跳转到创建告警规则页面。

  6. 在告警规则页面,设置告警信息。

    1. 设置告警策略和告警级别。
    2. 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。
    3. 单击“立即创建”,等待创建告警规则成功。
      • 如果创建告警规则有问题,可查看《云监控服务 用户指南》的“使用告警功能>创建告警规则和告警通知”章节。
      • 如果需要修改或停用所创建的告警,请参考《云监控服务 用户指南》的“使用告警功能>告警规则管理”章节。