必须配置的告警监控
本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,请按照以下告警策略,配置监控指标的告警规则。
Redis实例告警策略
| 指标名称 | 正常范围 | 告警策略 | 是否接近性能上限 | 告警处理建议 | 
|---|---|---|---|---|
| CPU利用率 | 0~100 | 告警阈值:>70 连续触发次数:2 告警级别:重要 | 否 | 结合业务分析是否由于业务上涨导致的,判断是否需要扩容。 如果单机/主备实例,无法扩展CPU能力,需要考虑切换为集群实例。 | 
| 内存利用率 | 0~100 | 告警阈值:>70 连续触发次数:2 告警级别:重要 | 否 | 建议进行扩容。 | 
| 活跃的客户端数量 | 0~10000 | 告警阈值:>8000 连续触发次数:2 告警级别:重要 | 否 | 建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。 单机和主备实例,最大连接数限制为10000,可以根据业务情况对阈值进行调整。 | 
| 新建连接数 (个/min) | 0~10000 | 告警阈值:>10000 连续触发次数:2 告警级别:次要 | - | 排查是否使用短连接,或者客户端异常连接。建议使用长连接,避免使用短连接影响性能。 | 
| 网络瞬时输入流量 | >0 | 告警阈值:>规格基准带宽的80% 连续触发次数:2 告警级别:重要 | 是 | 结合业务分析和规格带宽限制,判断是否需要扩容。 仅Redis3.0实例的单机/主备实例进行配置,建议按Redis3.0规格基准带宽的80%进行配置。其他实例不配置。 | 
| 网络瞬时输出流量 | >0 | 告警阈值:>规格基准带宽的80% 连续触发次数:2 告警级别:重要 | 是 | 结合业务分析和规格带宽限制,判断是否需要扩容。 仅Redis3.0实例的单机/主备实例进行配置,建议按Redis3.0规格基准带宽的80%进行配置。其他实例不配置。 | 
配置步骤
以配置CPU利用率监控指标的告警规则为例:
- 登录分布式缓存服务管理控制台。
- 在管理控制台左上角单击 ,选择区域和项目。 ,选择区域和项目。
- 单击左侧菜单栏的“缓存管理”,进入缓存实例信息页面。
- 在需要查看的缓存实例的“操作”列,单击“查看监控”,进入该实例的监控指标页面。
    
    图1 查看实例监控指标  
- 在实例监控指标页面中,找到指标名称为“CPU利用率”的指标项,鼠标移动到指标区域,然后单击指标右上角的 ,创建告警规则。 ,创建告警规则。跳转到创建告警规则页面。 
- 在告警规则页面,设置告警信息。
 
     
      
