更新时间:2024-07-16 GMT+08:00
OPS07-01 创建可操作的告警
- 风险等级
高
- 关键策略
收到告警时,一般需要做出响应,消除无须响应的告警。 比如磁盘IO 量瞬间飙升,CPU 使用率瞬间飙高,这类告警无需做出响应,对业务而言,意义就不大了。 遵循可操作性原则能避免很多误报。并且要定期统计和分析告警频率,识别高频告警,解决告警问题,清除明确的告警误报。
- 设计建议
- 优化告警阈值:适当提高 内存/CPU/网络 IO 告警阈值。
- 优化日志级别:优化不合理的日志级别,把部分 ERROR 级别的日志调整为 WARNING。
- 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。
- 预警增强:对于某些影响业务方的操作,提供预警。
- 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。
- 相关云服务和工具
父主题: OPS07 进行故障分析和管理