文档首页/ 云容器引擎 CCE/ 用户指南/ 云原生观测/ 云原生观测最佳实践/ 日志采集状态监控及告警最佳实践
更新时间:2025-08-19 GMT+08:00

日志采集状态监控及告警最佳实践

在企业级应用中,通常会配置日志采集功能。然而日志采集过程中可能会出现采集中断、数据丢失等情况。为确保日志的完整性和可用性,建议您设置日志采集状态的监控与告警(例如错误日志的数量、日志的写入量等),一旦检测到异常可通过电子邮件或短信发出告警通知,以便能够迅速响应并处理相关问题。

日志采集指标监控

云原生日志采集插件使用fluent-bit组件采集日志,您可以针对fluent-bit组件配置指标监控,关注该组件的日志采集状态,及时发现问题。

  1. 开启fluent-bit指标采集

    fluent-bit指标非基础指标,开启后,AOM服务会按照指标进行计费,详情请参见价格详情

    1. 登录CCE控制台,单击集群名称进入集群。
    2. 在左侧导航栏中选择“配置中心”,并切换至“监控运维配置”页签,开启“系统预置采集”功能。

    3. 单击“采集配置 > 系统预置采集”中的“管理”按钮。

    4. 打开fluent-bit任务的启用开关。

    5. 编辑白名单,添加fluentbit_input_ingestion_paused指标(若云原生监控插件版本≥3.12.1,无需该步骤)。

  2. 配置AOM/Grafana仪表盘

    建议在AOM服务中创建一个仪表盘,并按普罗语句添加如下节点级参数,用来统计各个节点的日志采集情况,适用于告警。操作步骤详情请参见创建AOM仪表盘
    表1 节点级参数

    参数

    普罗语句(PromQL)

    指标关注建议

    每个节点每秒写入字节数

    sum(irate(fluentbit_input_bytes_total[2m])) by (pod)

    小规格应小于5MByte/s,大规格应小于10MByte/s

    每个节点每秒写入日志条数

    sum(irate(fluentbit_input_records_total[2m])) by (pod)

    小规格应小于10000/s,大规格应小于20000/s

    每个节点的日志采集input内存超限情况

    sum(fluentbit_input_storage_overlimit) by (pod)

    不应长期大于0,出现偶发非0无影响

    每个节点的日志采集input暂停情况

    sum(fluentbit_input_ingestion_paused) by (pod)

    不应长期大于0,出现偶发非0无影响

日志采集状态告警配置

您可以配置日志采集状态的AOM告警,以便及时响应并处理相关问题。