更新时间:2024-11-21 GMT+08:00

收集容器日志

云原生日志采集插件是基于开源fluent-bit和opentelemetry构建的云原生日志、Kubernetes事件采集插件。云原生日志采集插件支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志及Kubernetes事件日志进行采集与转发。同时支持上报Kubernetes事件到AOM,用于配置事件告警,默认上报所有异常事件和部分正常事件。

约束与限制

  • 每个集群限制50条日志规则。
  • 不采集.gz、.tar、.zip后缀类型的日志文件,且不支持采集日志文件的软链接。
  • 每个集群限制单行日志采集速率不超过10000条/秒,多行日志不超过2000条/秒。
  • 如果业务容器的数据目录是通过数据卷(Volume)挂载的,插件不支持采集它的父目录,需设置采集目录为完整的数据目录。

费用说明

LTS创建日志组免费,并每月赠送每个账号一定量免费日志采集额度,超过免费额度部分将产生费用(价格计算器)。

使用云原生日志采集插件采集日志

  1. 启用云原生日志采集插件日志采集功能

    在集群创建时启用云原生日志采集插件日志采集

    1. 登录云容器引擎(CCE)控制台。
    2. 在控制台上方导航栏,单击“购买集群”。
    3. 在“插件选择”页面中,选择“云原生日志采集插件”。
    4. 单击右下角“下一步:插件配置”,根据需求勾选以下配置。
      • 容器日志:开启后,将创建名为default-stdout的日志策略,并上报所有命名空间下的标准输出到云日志服务(LTS)。
      • Kubernetes事件:开启后,将创建名为default-event的日志策略,并上报所有命名空间下的Kubernetes事件到云日志服务(LTS)。
    5. 配置完成后,单击右下角“下一步:确认配置”,在弹出的窗口中单击“确定”,完成创建。

    为已有集群启用CCE 云原生日志采集插件日志采集

    1. 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。
    2. 未进行授权的用户需要先授权,已授权的用户直接跳转下一步。

      在弹出框中单击“确认授权”。

      图1 添加授权

    3. 页面单击“一键开启”,等待约30秒后,页面自动跳转。
      • 采集容器标准输出:开启后,将创建名为default-stdout的日志策略,并上报所有命名空间下的标准输出到云日志服务(LTS)。
      • 采集Kubernetes事件:开启后,将创建名为default-event的日志策略,并上报所有命名空间下的Kubernetes事件到云日志服务(LTS)。
      图2 开启

  2. 查看并配置日志采集策略。

    1. 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。
    2. 右上角单击“日志采集策略”,将显示当前集群所有上报LTS的日志策略。

      若启用日志采集功能时勾选了采集容器标准输出和采集Kubernetes事件,将创建两个日志策略,并对接默认的LTS日志组、日志流。

      • default-stdout采集标准输出。默认日志组:k8s-logs-{集群ID};默认日志流:stdout-{集群ID}。
      • default-event采集Kubernetes事件。默认日志组:k8s-logs-{集群ID};默认日志流:event-{集群ID}。
      图3 查看日志策略
    3. 创建日志策略:单击上方“创建日志策略”,输入要采集的配置信息。
      • 策略模板:若启用日志采集功能时未勾选采集容器标准输出和采集Kubernetes事件,或者删除了对应的日志策略,可通过该方式重新创建默认日志策略。
      • 自定义策略:用于配置自定义日志策略。
      图4 自定义策略
      表1 自定义策略参数说明

      参数

      说明

      日志类型

      指定采集哪类日志。

      • 容器标准输出:用于采集容器标准输出,可以按命名空间、工作负载名称、实例标签配置采集策略。
      • 容器文件日志用于采集容器内的日志,可以按工作负载和实例标签配置采集策略。

      日志源

      采集哪些容器的日志。

      • 所有容器:可以指定采集某个命名空间的所有容器,如不指定则采集所有命名空间的容器。
      • 指定工作负载:指定采集哪些工作负载容器的日志,可以指定采集工作负载中具体容器的日志,如不指定则采集所有容器的日志。
      • 指定实例标签:根据标签指定采集哪些工作负载容器的日志,可以指定采集工作负载中具体容器的日志,如不指定则采集所有容器的日志。

      日志格式

      • 单行文本

        每条日志仅包含一行文本,以换行符 \n 作为各条日志的分界线。

      • 多行文本

        有些程序打印的日志存在一条完整的日志数据跨占多行(例如 Java 程序日志)情况,日志采集系统默认是按行采集。如果您想在日志采集系统中按整条显示日志,可以开启多行文本,采用首行正则的方式进行匹配,当选择多行文本时,需填写日志匹配格式。

        例如:

        需采集的日志格式如下,则需填写时间的正则匹配,在日志匹配格式处填写:\d{4}-\d{2}-\d{2} \d{2}\:\d{2}\:\d{2}.*

        则下面以日期开头三行日志会作为一条完整日志。
        2022-01-01 00:00:00 Exception in thread "main" java.lang.RuntimeException: Something has gone wrong, aborting!
        at com.myproject.module.MyProject.badMethod(MyProject.java:22)
        at com.myproject.module.MyProject.oneMoreMethod(MyProject.java:18)

      上报到云日志服务(LTS)

      用于配置日志上报的日志组和日志流。

      • 使用默认日志组/日志流:将为您自动选择默认日志组(k8s-log-{集群ID})和默认的日志流(stdout-{集群ID})。
      • 自定义日志组/日志流:可在下拉框选择任意日志组和日志流。
        • 日志组是云日志服务进行日志管理的基本单位。如果您未创建日志组,CCE会提示您进行创建,默认名称为k8s-log-{集群ID},如 k8s-log-bb7eaa87-07dd-11ed-ab6c-0255ac1001b3。
        • 日志流(LogStream):日志流是日志读写的基本单位,日志组中可以创建日志流,将不同类型的日志分类存储,方便对日志进一步分类管理。在安装插件或者根据模板创建日志策略时,会自动创建以下日志流:

          容器日志:默认名称为stdout-{集群ID},如 stdout-bb7eaa87-07dd-11ed-ab6c-0255ac1001b3。

          k8s事件:默认名称为event-{集群ID},如 event-bb7eaa87-07dd-11ed-ab6c-0255ac1001b3。

    4. 编辑日志策略:单击“编辑”按钮,可对已经存在的日志策略进行修改。
    5. 删除日志策略:单击“删除”按钮,可对已经存在的日志策略进行删除。

  3. 查看日志。

    1. 登录云容器引擎(CCE)控制台,单击集群名称进入集群,选择左侧导航栏的“日志中心”。
    2. 日志中心下有3个页签,支持不同类型日志查看。
      • 容器日志:显示默认日志组(k8s-log-{集群ID})下默认日志流(stdout-{集群ID})中的所有日志数据,支持通过工作负载搜索。
        图5 容器日志查询
      • Kubernetes事件:显示默认日志组(k8s-log-{集群ID})下默认日志流(event-{集群ID})中的所有日志数据,用于查询集群产生的Kubernetes事件。
      • 全局日志查询:支持查看所有日志组日志流下的日志信息。可通过选择日志流查看所选日志流中的日志信息,默认会选择集群默认日志组(k8s-log-{集群ID}),可通过单击切换日志组右侧的图标切换其他日志组。
        图6 全局日志查询
    3. 单击右上角“日志采集策略”,单击“查看日志”,可以直接跳转至对应日志策略的日志列表。
      图7 查看日志

常见问题处理

  • 插件中除log-operator外组件均未就绪,且出现异常事件“实例挂卷失败”。

    解决方案:请查看log-operator日志,安装插件时,其余组件所需的配置文件需要log-operator生成,log-operator生成配置出错,会导致所有组件无法正常启动。

    日志信息如下:

    MountVolume.SetUp failed for volume "otel-collector-config-vol":configmap "log-agent-otel-collector-config" not found
  • log-operator标准输出报错:Failed to create log group, the number of log groups exceeds the quota

    示例:

    2023/05/05 12:17:20.799 [E] call 3 times failed, resion: create group failed, projectID: xxx, groupName: k8s-log-xxx, err: create groups status code: 400, response: {"error_code":"LTS.0104","error_msg":"Failed to create log group, the number of log groups exceeds the quota"}, url: https://lts.cn-north-4.myhuaweicloud.com/v2/xxx/groups, process will retry after 45s

    解决方案:LTS日志组有配额限制,如果出现该报错,请前往LTS下删除部分无用的日志组。限制详情见:日志组

  • 日志无法上报,otel组件标准输出报错:log's quota has full

    解决方案

    云日志服务(LTS)有免费赠送的额度,超出后将收费,报错说明免费额度已用完,如果需要继续使用,请前往云日志服务控制台“配置中心”,打开“超额继续采集日志”开关。

    图8 配额设置
  • 采集容器内日志,且采集目录配置了通配符,日志无法采集。

    排查方法:请检查工作负载配置中Volume挂载情况,如果业务容器的数据目录是通过数据卷(Volume)挂载的,插件不支持采集它的父目录,需设置采集目录为完整的数据目录。例如/var/log/service目录是数据卷挂载的路径,则设置采集目录为/var/log或/var/log/*将采集不到该目录下的日志,需设置采集目录为/var/log/service。

    解决方案:若日志生成目录为/application/logs/{应用名}/*.log,建议工作负载挂载Volume时,直接挂载/application/logs,日志策略中配置采集路径为/application/logs/*/*.log