云架构中心
云架构中心
-
卓越架构技术框架与实践
- 卓越架构技术框架简介
- 韧性支柱
- 安全性支柱
- 性能效率支柱
- 成本优化支柱
- 卓越运营支柱
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
OPS07-01 创建可操作的告警
- 风险等级
高
- 关键策略
收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。
- 设计建议
- 优化告警阈值:适当提高 内存/CPU/网络 IO 告警阈值。
- 优化日志级别:优化不合理的日志级别,把部分 ERROR 级别的日志调整为 WARNING。
- 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。
- 预警增强:对于某些影响业务方的操作,提供预警。
- 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。
- 相关云服务和工具
父主题: OPS07 进行故障分析和管理