文档首页/ 分布式缓存服务 DCS/ 用户指南（吉隆坡区域）/ 监控/ 必须配置的告警监控

更新时间：2025-11-14 GMT+08:00

查看PDF

必须配置的告警监控

本章节主要介绍部分监控指标的告警策略，以及配置操作。在实际业务中，请按照以下告警策略，配置监控指标的告警规则。

Redis实例告警策略

表1 Redis实例配置告警的指标
指标名称	正常范围	告警策略	是否接近性能上限	告警处理建议
CPU利用率	0~100	告警阈值：>70 连续触发次数：2 告警级别：重要	否	结合业务分析是否由于业务上涨导致的，判断是否需要扩容。如果单机/主备实例，无法扩展CPU能力，需要考虑切换为集群实例。该指标仅针对Proxy集群、单机、主备实例设置，Cluster集群实例级别不支持该指标，仅在数据节点支持，即需要在实例详情的“性能监控”中选择“数据节点”页签查看。
CPU平均使用率	0~100%	告警阈值：>70% 连续触发次数：2 告警级别：重要	否	结合业务分析是否由于业务上涨导致的，判断是否需要扩容。单机/主备实例，无法扩展CPU能力，如需扩展CPU能力，请考虑切换为集群实例。该指标仅针对单机、主备实例设置，集群实例级别不支持该指标，仅在数据节点支持，即需要在实例详情的“性能监控”中选择“数据节点”页签查看。
内存利用率	0~100	告警阈值：>70 连续触发次数：2 告警级别：重要	否	建议进行扩容。
活跃的客户端数量	0~10000	告警阈值：>8000 连续触发次数：2 告警级别：重要	否	建议结合业务代码对连接池等进行优化，避免连接数超过最大限制。单机和主备实例，最大连接数限制为10000，可以根据业务情况对阈值进行调整。仅单机和主备实例配置该指标。如果是集群实例，在数据节点和Proxy节点配置即可。
新建连接数（个/min）	0~10000	告警阈值：>10000 连续触发次数：2 告警级别：次要	-	排查是否使用短连接，或者客户端异常连接。建议使用长连接，避免使用短连接影响性能。仅单机和主备实例配置该指标。如果是集群实例，在数据节点和Proxy节点配置即可。
网络瞬时输入流量	>0	告警阈值：>规格基准带宽的80% 连续触发次数：2 告警级别：重要	是	结合业务分析和规格带宽限制，判断是否需要扩容。仅Redis 3.0实例的单机/主备实例进行配置，建议按Redis 3.0规格基准带宽的80%进行配置。其他实例不配置。
网络瞬时输出流量	>0	告警阈值：>规格基准带宽的80% 连续触发次数：2 告警级别：重要	是	结合业务分析和规格带宽限制，判断是否需要扩容。仅Redis 3.0实例的单机/主备实例进行配置，建议按Redis 3.0规格基准带宽的80%进行配置。其他实例不配置。

Redis实例数据节点告警策略

表2 Redis实例数据节点建议配置告警的指标
指标名称	取值范围	告警策略	是否接近性能上限	告警处理建议
最大CPU使用率	0~100 单位：%	告警阈值：>90% 连续触发次数：2 告警级别：重要	否	结合业务分析是否由于业务上涨导致的。需要分析各个数据节点的CPU使用率分布是否均匀，如果节点普遍CPU高，需要考虑扩容，集群扩容会增加数据节点，分担CPU压力。如果是单个节点CPU上涨，需要业务侧分析是否存在热key，优化业务侧代码消除热key。
CPU平均使用率	0~100 单位：%	告警阈值：>70% 连续触发次数：2 告警级别：重要	否	结合业务分析是否由于业务上涨导致的，判断是否需要扩容。如果单机/主备实例，无法扩展CPU能力，需要考虑切换为集群实例。
内存利用率	0~100 单位：%	告警阈值：>70% 连续触发次数：2 告警级别：重要	否	结合业务分析是否由于业务上涨导致的。需要分析各个数据节点的内存利用率分布是否均匀，如果节点普遍内存利用率高，需要考虑扩容。如果是单个节点内存上涨，需要业务侧分析是否存在大key，优化业务侧代码消除热大key。
活跃的客户端数量	0~10000	告警阈值：>8000 连续触发次数：2 告警级别：重要	否	分析业务，是否合理，如果结合业务分析连接数是合理的，建议调整告警阈值。
新建连接数	>=0	告警阈值：>10000 连续触发次数：2 告警级别：次要	-	新建连接数多，可能是短连接导致，建议使用长连接，避免使用短连接影响性能。
是否存在慢日志	0~1	告警阈值：>0 连续触发次数：1 告警级别：重要	-	通过慢查询功能分析具体的慢日志命令。
带宽使用率	0~200 单位：%	告警阈值：>90% 连续触发次数：2 告警级别：重要	是	可结合网络瞬时输入流量和网络瞬时输出流量，分析业务是读业务和还是写业务导致的流量上涨。对于单个节点带宽使用率上涨，需要分析是否有存在大key。其中，带宽使用率超过100%，不一定导致限流，有没有被流控需要看流控次数指标。带宽使用率没有超过100%，也有可能有限流，因为带宽使用率是上报周期实时值，一个上报周期检查一次。流控检查是秒级的。有可能存在上报周期间隔期间，流量有秒级冲高，然后回落，待上报带宽使用率指标时已恢复正常。
流控次数	>=0	告警阈值：>0 连续触发次数：1 告警级别：紧急	是	结合规格限制、网络瞬时输入流量和网络瞬时输出流量，查看是否扩容解决。

配置步骤

以配置CPU利用率监控指标的告警规则为例：

登录分布式缓存服务管理控制台。
在管理控制台左上角单击，选择区域和项目。
单击左侧菜单栏的“缓存管理”。进入缓存管理页面。
在需要查看的缓存实例的“操作”列，单击“查看监控”，进入该实例的监控指标页面。
在实例监控指标页面中，找到指标名称为“CPU利用率”的指标项，鼠标移动到指标区域，然后单击指标右上角的，创建告警规则。

跳转到创建告警规则页面。
在告警规则页面，设置告警信息。
1. 设置告警策略和告警级别。
2. 设置“发送通知”开关。当开启时，设置告警生效时间、产生告警时通知的对象以及触发的条件。
3. 单击“立即创建”，等待创建告警规则成功。
  - 如果创建告警规则有问题，可查看《云监控服务用户指南》的“使用告警功能>创建告警规则和告警通知”章节。
  - 如果需要修改或停用所创建的告警，请参考《云监控服务用户指南》的“使用告警功能>告警规则管理”章节。

父主题： 监控

上一篇：查看监控指标

下一篇：云审计服务支持的关键操作

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消