日志采集状态监控及告警最佳实践
在企业级应用中,通常会配置日志采集功能。然而日志采集过程中可能会出现采集中断、数据丢失等情况。为确保日志的完整性和可用性,建议您设置日志采集状态的监控与告警(例如错误日志的数量、日志的写入量等),一旦检测到异常可通过电子邮件或短信发出告警通知,以便能够迅速响应并处理相关问题。
日志采集指标监控
云原生日志采集插件使用fluent-bit组件采集日志,您可以针对fluent-bit组件配置指标监控,关注该组件的日志采集状态,及时发现问题。
- 开启fluent-bit指标采集
fluent-bit指标非基础指标,开启后,AOM服务会按照指标进行计费,详情请参见价格详情。
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签,开启“系统预置采集”功能。
- 单击“采集配置 > 系统预置采集”中的“管理”按钮。
- 打开fluent-bit任务的启用开关。
- 编辑白名单,添加fluentbit_input_ingestion_paused指标(若云原生监控插件版本≥3.12.1,无需该步骤)。
- 配置AOM/Grafana仪表盘
建议在AOM服务中创建一个仪表盘,并按普罗语句添加如下节点级参数,用来统计各个节点的日志采集情况,适用于告警。操作步骤详情请参见创建AOM仪表盘。
表1 节点级参数 参数
普罗语句(PromQL)
指标关注建议
每个节点每秒写入字节数
sum(irate(fluentbit_input_bytes_total[2m])) by (pod)
小规格应小于5MByte/s,大规格应小于10MByte/s
每个节点每秒写入日志条数
sum(irate(fluentbit_input_records_total[2m])) by (pod)
小规格应小于10000/s,大规格应小于20000/s
每个节点的日志采集input内存超限情况
sum(fluentbit_input_storage_overlimit) by (pod)
不应长期大于0,出现偶发非0无影响
每个节点的日志采集input暂停情况
sum(fluentbit_input_ingestion_paused) by (pod)
不应长期大于0,出现偶发非0无影响
日志采集状态告警配置
您可以配置日志采集状态的AOM告警,以便及时响应并处理相关问题。