- 最新动态
- 功能总览
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 实例类型/版本
- 实例特性
- 安全性
-
客户端和网络连接
- DCS实例支持公网访问吗?
- Redis连接失败问题排查和解决
- DCS实例是否支持跨VPC访问?
- Redis公网访问所需弹性IP是否收费?
- Redis连接时报错:“(error) NOAUTH Authentication required”。
- 客户Http的Server端关闭导致Redis访问失败
- 客户端出现概率性超时错误
- 使用Jedis连接池报错如何处理?
- 如何使用Redis-desktop-manager访问Redis实例?
- 使用SpringCloud时出现ERR Unsupported CONFIG subcommand怎么办?
- 客户端无法使用域名连接DCS缓存实例时如何处理?
- 本地环境是否可以连接缓存实例?
- 使用Redis实例的发布订阅(pubsub)有哪些注意事项?
- Redis 3.0实例公网开关被关闭是什么原因?
- 使用短连接访问Redis出现“Cannot assign requested address”错误
- 连接池选择及Jedis连接池参数配置建议
- 如何解决Lettuce 6.x版本客户端使用DCS实例兼容性问题?
- 应该选择域名还是IP地址连接Redis实例?
- 主备实例的只读地址是连接到主节点还是备节点?
-
Redis使用
- 是否支持CPU架构的变更?
- 实例是否支持变更可用区
- Redis实例能否修改VPC和子网?
- 实例是否支持自定义或修改端口?
- 实例是否支持修改访问地址?
- 实例无法删除是什么原因?
- 集群实例启动时间过长是什么原因?
- 使用redis_exporter出错怎么办?
- 什么是预留内存,如何配置预留内存?
- 创建的缓存实例为什么可使用内存比实例规格少一些?
- Redis 3.0 Proxy集群不支持redisson分布式锁的原因
- DCS Redis有没有后台管理软件?
- DCS缓存实例的数据被删除后,能否找回?
- 为什么实例实际可用内存比申请规格小而且已使用内存不为0?
- 如何查看Redis内存占用量
- Cluster集群实例容量和性能未达到瓶颈,但某个分片容量或性能已过载是什么原因?
- 访问Redis报OOM错误提示
- 不同编程语言如何使用Cluster集群客户端
- 使用Cluster的Redis集群时建议配置合理的超时时间
- 读取redis数据报超时错误
- hashtag的原理、规则及用法示例
- Redis key丢失是什么原因
- 重启实例后缓存数据会保留吗?
- 如何确认实例是单DB还是多DB
- Proxy集群开启多DB的使用限制及操作方式
- 如何创建多DB的Proxy集群实例?
- 扩容缩容与实例升级
-
数据备份/导出/迁移
- DCS实例是否兼容低版本Redis迁移到高版本
- 不同类型的操作系统间进行数据传递和操作,需要注意什么?
- 源Redis使用了多DB,能否迁移数据到集群实例?
- 源Redis迁移到集群实例中有哪些限制和注意事项?
- 在线迁移需要注意哪些?
- 在线迁移能否做到完全不中断业务?
- 在线迁移实例源端报“Disconnecting timedout slave”和“overcoming of output buffer limits”
- 如何导出Redis实例数据?
- 使用Rump工具迁移数据,命令执行后无报错,但Redis容量无变化
- 是否支持控制台导出RDB格式的Redis备份文件?
- 缓存实例备份文件如何存放?备份文件的数量是否有限制?
- Redis在线数据迁移是迁移整个实例数据么?
- AOF文件在什么情况下会被重写
- Redis迁移失败有哪些常见原因?
- 一个数据迁移能迁移到多个目标实例么?
- 怎么放通SYNC和PSYNC命令?
- 迁移或导入备份数据时,相同的Key会被覆盖吗?
- Cluster集群实例使用内置key且跨slot的Lua脚本时迁移失败
- 迁移故障处理
- 数据迁移失败问题排查
- Memcached如何迁移?
- 是否支持Memcached和Redis之间实例数据的迁移?
- 大Key/热Key分析/过期Key扫描
- Redis命令
- 监控告警
- 主备倒换
- 创建实例和权限
- Memcached使用
- 故障排除
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
配置DCS监控告警
本章节主要介绍部分监控指标的告警策略,以及配置操作。在实际业务中,请按照以下告警策略,配置监控指标的告警规则。
Redis实例告警策略
指标名称 |
取值范围 |
告警策略 |
是否接近性能上限 |
告警处理建议 |
---|---|---|---|---|
CPU利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:重要 |
否 |
结合业务分析是否由于业务上涨导致的,判断是否需要扩容。 单机/主备实例,无法扩展CPU能力,如需扩展CPU能力,请考虑切换为集群实例。 该指标仅针对单机、主备、Proxy集群实例设置,Cluster集群实例级别不支持该指标,仅在数据节点支持,即需要在实例详情的“性能监控”中选择“数据节点”页签查看。 |
CPU平均使用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:重要 |
否 |
结合业务分析是否由于业务上涨导致的,判断是否需要扩容。 单机/主备实例,无法扩展CPU能力,如需扩展CPU能力,请考虑切换为集群实例。 该指标仅针对单机、主备、Proxy集群实例设置,Cluster集群实例级别不支持该指标,仅在数据节点支持,即需要在实例详情的“性能监控”中选择“数据节点”页签查看。 |
内存利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:紧急 |
否 |
建议进行扩容。 |
活跃的客户端数量 |
0~10000 |
告警阈值:>8000 连续触发次数:2 告警级别:重要 |
否 |
建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。 仅单机和主备实例配置该指标。如果是集群实例,在数据节点和Proxy节点配置即可。 单机和主备实例,最大连接数限制为10000,可以根据业务情况对阈值进行调整。 |
新建连接数 (个/min) |
>=0 |
告警阈值:>10000 连续触发次数:2 告警级别:次要 |
- |
排查是否使用短连接,或者客户端异常连接。建议使用长连接,避免使用短连接影响性能。 仅单机和主备实例配置该指标。如果是集群实例,在数据节点和Proxy节点配置即可。 |
网络瞬时输入流量 |
>=0 |
告警阈值:>规格基准带宽的80% 连续触发次数:2 告警级别:重要 |
是 |
结合业务分析和规格带宽限制,判断是否需要扩容。 仅Redis 3.0实例的单机/主备实例进行配置,建议按Redis 3.0规格基准带宽的80%进行配置。其他实例不配置。 |
网络瞬时输出流量 |
>=0 |
告警阈值:>规格基准带宽的80% 连续触发次数:2 告警级别:重要 |
是 |
结合业务分析和规格带宽限制,判断是否需要扩容。 仅Redis 3.0实例的单机/主备实例进行配置,建议按Redis 3.0规格基准带宽的80%进行配置。其他实例不配置。 |
Memcached实例告警策略
指标名称 |
取值范围 |
告警策略 |
是否接近性能上限 |
告警处理建议 |
---|---|---|---|---|
CPU利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:重要 |
否 |
结合业务分析是否由于业务上涨导致的。 如果是单机/主备实例,无法扩展CPU能力,需要结合业务分析是否可进行业务拆分或在客户端使用多个实例组建集群。 |
内存利用率 |
0~100% |
告警阈值:>65% 连续触发次数:2 告警级别:次要 |
否 |
建议扩容。 |
活跃的客户端数量 |
0~10000 |
告警阈值:>8000 连续触发次数:2 告警级别:重要 |
否 |
建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。 |
新建连接数 |
>=0 |
告警阈值:>10000 连续触发次数:2 告警级别:次要 |
- |
排查是否使用短连接,或者客户端异常连接。建议使用长连接,避免使用短连接影响性能。 |
网络瞬时输入流量 |
>=0 |
告警阈值:>规格基准带宽的80% 连续触发次数:2 告警级别:重要 |
是 |
结合业务分析和规格带宽限制,判断是否需要扩容。 不同实例规格的带宽,请查看实例规格页面。 |
网络瞬时输出流量 |
>=0 |
告警阈值:>规格基准带宽的80% 连续触发次数:2 告警级别:重要 |
是 |
结合业务分析和规格带宽限制,判断是否需要扩容。 不同实例规格的带宽,请查看实例规格页面。 |
认证失败次数 |
>=0 |
告警阈值:>0 连续触发次数:1 告警级别:紧急 |
- |
检查密码配置是否正确。 |
Redis实例数据节点告警策略
指标名称 |
取值范围 |
告警策略 |
是否接近性能上限 |
告警处理建议 |
---|---|---|---|---|
CPU利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:重要 |
否 |
结合业务分析是否由于业务上涨导致的。 需要分析各个数据节点的CPU使用率分布是否均匀,如果节点普遍CPU高,需要考虑扩容,集群扩容会增加数据节点,分担CPU压力。 如果是单个节点CPU上涨,需要业务侧分析是否存在热key,优化业务侧代码消除热key。 |
CPU平均使用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:重要 |
否 |
结合业务分析是否由于业务上涨导致的,判断是否需要扩容。 如果读写分离/单机/主备实例,无法扩展CPU能力,需要考虑切换为集群实例。 |
内存利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:重要 |
否 |
结合业务分析是否由于业务上涨导致的。 需要分析各个数据节点的内存利用率分布是否均匀,如果节点普遍内存利用率高,需要考虑扩容。如果是单个节点内存上涨,需要业务侧分析是否存在大key,优化业务侧代码消除热大key。 |
活跃的客户端数量 |
0~10000 |
告警阈值:>8000 连续触发次数:2 告警级别:重要 |
否 |
分析业务,是否合理,如果结合业务分析连接数是合理的,建议调整告警阈值。 |
新建连接数 |
>=0 |
告警阈值:>10000 连续触发次数:2 告警级别:次要 |
- |
新建连接数多,可能是短连接导致,建议使用长连接,避免使用短连接影响性能。 |
是否存在慢日志 |
0~1 |
告警阈值:>0 连续触发次数:1 告警级别:重要 |
- |
通过慢查询功能分析具体的慢日志命令。 |
带宽使用率 |
0~200% |
告警阈值:>90% 连续触发次数:2 告警级别:重要 |
是 |
可结合网络瞬时输入流量和网络瞬时输出流量,分析业务是读业务和还是写业务导致的流量上涨。 对于单个节点带宽使用率上涨,需要分析是否有存在大key。 其中,带宽使用率超过100%,不一定导致限流,有没有被流控需要看流控次数指标。 带宽使用率没有超过100%,也有可能有限流,因为带宽使用率是上报周期实时值,一个上报周期检查一次。流控检查是秒级的。有可能存在上报周期间隔期间,流量有秒级冲高,然后回落,待上报带宽使用率指标时已恢复正常。 |
流控次数 |
>=0 |
告警阈值:>0 连续触发次数:1 告警级别:紧急 |
是 |
结合规格限制、网络瞬时输入流量和网络瞬时输出流量,查看是否扩容解决。 Redis 4.0以上版本的实例才支持该指标,Redis 3.0实例不支持。 |
Redis实例Proxy节点告警策略
指标名称 |
取值范围 |
告警策略 |
是否接近性能上限 |
告警处理建议 |
---|---|---|---|---|
CPU利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:紧急 |
是 |
建议考虑扩容,扩容会增加proxy节点。 |
内存利用率 |
0~100% |
告警阈值:>70% 连续触发次数:2 告警级别:紧急 |
是 |
建议考虑扩容,扩容会增加proxy节点。 |
活跃的客户端数量 |
0-30000 |
告警阈值:>20000 连续触发次数:2 告警级别:重要 |
否 |
建议结合业务代码对连接池等进行优化,避免连接数超过最大限制。 |
配置告警(按资源分组)
云监控服务支持资源分组功能,在使用DCS缓存服务时,您可以按照实例级别、数据节点、Proxy节点创建资源分组,从分组角度查管理实例,管理告警规则,可以极大的降低运维复杂度,提高运维效率。资源分组的更多信息,请参考资源分组介绍。
配置步骤(按指定资源)
以配置是否存在慢日志(is_slow_log_exist)监控指标的告警规则为例:
- 登录分布式缓存服务管理控制台。
- 在管理控制台左上角单击
,选择实例所在的区域。
- 单击左侧菜单栏的“缓存管理”,进入缓存实例信息页面。
- 在需要查看的缓存实例的“操作”列,单击“查看监控”,进入该实例的监控指标页面。
图3 查看实例监控指标
- 在实例监控指标页面中,找到指标名称为“是否存在慢日志”的指标项,鼠标移动到指标区域,然后单击指标右上角的
,创建告警规则。
跳转到创建告警规则页面。
- 在告警规则页面,设置告警信息。
- 设置告警名称和告警的描述。
- 设置告警策略和告警级别。
- 设置“发送通知”开关。当开启时,设置告警生效时间、产生告警时通知的对象以及触发的条件。
- 单击“立即创建”,等待创建告警规则成功。