计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

日志中心FAQ

更新时间:2025-02-18 GMT+08:00

如何关闭日志中心

关闭容器日志、kubernetes事件采集

方法一:进入“日志中心”,单击右上角“日志采集策略”,删除对应的日志策略。其中default-event为默认上报kubernetes事件,default-stdout为默认上报标准输出。

图1 删除日志采集策略

方法二:进入“插件中心”,卸载CCE 云原生日志采集插件,注意:卸载后插件将不再上报kubernetes事件到AOM。

关闭控制面组件日志采集

进入“日志中心 > 控制面组件日志”,单击“配置控制面组件日志”,取消勾选不需要采集的组件。

图2 配置控制面组件日志

关闭控制面审计日志采集

进入“日志中心 > 控制面审计日志”,单击“配置控制面审计日志”,取消勾选不需要采集的组件。

图3 配置控制面审计日志

插件中除log-operator外组件均未就绪

问题现象:插件中除log-operator外组件均未就绪,且出现异常事件“实例挂卷失败”。

解决方案:请查看log-operator日志,安装插件时,其余组件所需的配置文件需要log-operator生成,log-operator生成配置出错,会导致所有组件无法正常启动。

日志信息如下:

MountVolume.SetUp failed for volume "otel-collector-config-vol":configmap "log-agent-otel-collector-config" not found

log-operator标准输出报错

问题现象

2023/05/05 12:17:20.799 [E] call 3 times failed, reason: create group failed, projectID: xxx, groupName: k8s-log-xxx, err: create groups status code: 400, response: {"error_code":"LTS.0104","error_msg":"Failed to create log group, the number of log groups exceeds the quota"}, url: https://lts.cn-north-4.myhuaweicloud.com/v2/xxx/groups, process will retry after 45s

解决方案:LTS日志组有配额限制,如果出现该报错,请前往LTS下删除部分无用的日志组。限制详情见:日志组

节点容器引擎为docker时采集不到容器文件日志

问题现象

配置了容器文件路径采集,采集的目录不是挂载到容器内的,且节点容器引擎为docker,采集不到日志。

解决方案

请检查工作负载所在节点的容器存储模式是否为Device Mapper,Device Mapper不支持采集容器内日志(创建日志策略时已提示此限制)。检查方法如下:

  1. 进入业务工作负载所在节点。
  2. 执行docker info | grep "Storage Driver"
  3. 若返回的Storage Driver值为Device Mapper,则该日志无法采集。
图4 创建日志策略

日志无法上报,otel组件标准输出报错:log's quota has full

图5 otel组件报错信息

解决方案

云日志服务(LTS)有免费赠送的额度,超出后将收费,报错说明免费额度已用完,如果需要继续使用,请前往云日志服务控制台“配置中心”,打开“超额继续采集日志”开关。

图6 配额设置

采集容器内日志,且采集目录配置了通配符,日志无法采集

排查方法:请检查工作负载配置中Volume挂载情况,如果业务容器的数据目录是通过数据卷(Volume)挂载的,插件不支持采集它的父目录,需设置采集目录为完整的数据目录。例如/var/log/service目录是数据卷挂载的路径,则设置采集目录为/var/log或/var/log/*将采集不到该目录下的日志,需设置采集目录为/var/log/service。

解决方案:若日志生成目录为/application/logs/{应用名}/*.log,建议工作负载挂载Volume时,直接挂载/application/logs,日志策略中配置采集路径为/application/logs/*/*.log

fluent-bit容器组一直重启

排查方法:节点上fluent-bit容器组一直重启,且通过kubectl describe pod命令查看Pod重启原因为OOM。查询该fluent-bit所在节点存在大量被驱逐的Pod,资源被占用导致出现OOM。

解决方案:删除节点上被驱逐的Pod。

节点OS为Ubuntu 18.04时出现日志无法采集

排查方法:重启当前节点的fluent-bit pod,查看日志是否正常采集。如依然无法采集,请确认需要采集的文件是否为打包镜像时已经存在于镜像中的日志文件。对于容器日志采集的场景来说,镜像打包时已存在的文件的日志非运行日志,属于无效日志无法采集。该问题为社区已知问题,详情请参见开源issue

解决方案:若需要采集打包镜像时已经存在于镜像中的日志文件,建议添加在创建工作负载时,设置“生命周期>启动后命令”,在工作负载Pod启动前,先删除原来日志文件,使日志文件重新生成。

采集Job日志时出现日志无法采集

排查方法:确认Job的存活时间。若Job存活时间低于1分钟,日志还未被采集,Pod就已经被销毁,可能存在日志采集不到的情况。

解决方案:延长Job的存活时间。

云原生日志采集插件运行正常,部分日志策略未生效

解决方案

  • 若未生效的日志策略采集类型为事件类型或插件版本低于1.5.0,则检查log-agent-otel-collector工作负载的标准输出。

    可在插件中心单击 “云原生日志采集插件”名称,在“实例列表”中选择 log-agent-otel-collector 最右侧的日志查看。

    图7 查看log-agent-otel-collector实例日志
  • 若未生效的日志策略类型不为事件类型,且插件版本高于1.5.0,则检查需要采集的容器所在节点的log-agent-fluent-bit实例日志。
    图8 查看log-agent-fluent-bit实例日志

    容器选择fluent-bit,并在日志中查看关键字“fail to push {event/log} data via lts exporter”,查看后面的errorMessage。

    图9 查看fluent-bit容器日志
    1. 若报错为“The log streamId does not exist.”,则日志组或日志流不存在,可前往“日志中心>日志采集策略”中,通过“编辑”“删除”重建日志策略,更新策略中的日志组日志流。
    2. 其余报错可前往LTS搜索错误码,查看报错原因。

log-agent-otel-collector组件出现OOM

排查方法

  1. 查看log-agent-otel-collector组件标准输出,查看近期是否有错误日志。
    kubectl logs -n monitoring log-agent-otel-collector-xxx

    若存在报错请优先处理报错,确认日志恢复正常采集。

  2. 若日志近期没有报错,且仍然出现OOM,则参考以下步骤进行处理:
    1. 进入“日志中心”,单击“展开日志条数统计图”查看日志统计图。若上报的日志组日志流不是默认日志组日志流,则单击“全局日志查询”页签,选择上报的日志组和日志流后进行查看。
      图10 查看日志统计
    2. 根据统计图中的柱状图,计算每秒上报的日志量,检查是否超过当前规格的日志采集性能。

      若超过当前规格的日志采集性能,可尝试增加log-agent-otel-collector副本数或提高log-agent-otel-collector的内存上限。

    3. 若CPU使用率超过90%,则需要提高log-agent-otel-collector的CPU上限。

节点负载过多,采集日志时缺少部分Pod信息

问题:插件版本在1.5.0以上,采集容器内日志或容器标准输出过程中出现日志缺少部分Pod信息,例如podID、podName等。

排查方法

进入“插件中心”,单击“云原生日志采集插件”,选择实例列表,找到对应节点的log-agent-fluent-bit,单击“更多>日志”。

图11 查看log-agent-fluent-bit实例日志

容器选择fluent-bit,并在日志中查看关键字“cannot increase buffer: current=512000 requested=*** max=512000”。

图12 查看fluent-bit容器日志

解决方案

前往节点执行kubectl edit deploy -n monitoring log-agent-log-operator, 编辑log-operator容器的命令行参数,添加命令行--kubernetes-buffer-size=20MB,当前默认值为16MB,请根据节点pod信息总大小估算该值大小。0为无限制。

注意:

若升级插件,则需要重新配置该参数。

图13 修改log-operator容器命令行参数

如何修改集群日志中心的日志存储时间?

  1. 在“集群管理”页面,将鼠标悬浮至集群名称上方,查看当前集群ID。

    图14 查看集群ID

  2. 进入云日志服务,根据集群ID查询对应的日志组和日志流。

    图15 查询日志组

  3. 找到对应的日志组,单击“修改”,设置日志存储时间。

    说明:

    日志存储时间影响将日志存储费用。

    图16 修改日志存储时间

如何修复日志采集策略中日志组(流)不存在的问题?

  • 场景一:默认日志组(流)不存在

    以Kubernetes事件为例:当默认日志组(流)不存在时,控制台中的“Kubernetes事件”页面会提示当前日志组(流)不存在,您可以单击“创建默认日志组(流)”进行重新创建。

    重建后的默认日志组(流)的ID会发生变化,对接默认日志组(流)的已有采集策略无法生效,请参见场景二进行修复。

    图17 创建默认日志组(流)
  • 场景二:默认日志组(流)存在但与日志采集策略不一致
    • 支持修改的日志采集策略,例如default-stdout,修复方案如下:
      1. 登录CCE集群控制台,前往“日志中心”。
      2. 单击右上角“日志采集策略”,在对应的日志采集策略的操作栏中单击“编辑”。
      3. 选择“自定义日志组/日志流”,然后将其设置为集群的默认日志组(流)。
      图18 设置默认日志组(流)
    • 不支持修改的日志采集策略,例如default-event,则需要重建对应采集策略,修复方案如下:
      1. 登录CCE集群控制台,前往“日志中心”。
      2. 单击右上角“日志采集策略”,在对应的日志采集策略的操作栏中单击“删除”。
      3. 然后单击“创建日志采集策略”,选择策略模板中的“采集kubernetes事件”,单击“确定”进行创建。
  • 场景三:自定义日志组(流)不存在

    CCE界面暂不支持非默认日志组(流)的创建,请到云日志服务(LTS)进行重新创建。

    创建完毕后,参考以下步骤进行修复:

    1. 登录CCE集群控制台,前往“日志中心”。
    2. 单击右上角“日志采集策略”,在对应的日志采集策略的操作栏中单击“编辑”。
    3. 选择“自定义日志组/日志流”,然后将其设置为新建的日志组(流)。
    图19 设置自定义日志组(流)

Pod调度到CCI后,采集不到日志

若使用profile控制Pod调度到CCI后,出现调度到CCI的Pod采集不到日志的情况,且确认采集策略在CCE侧功能正常。

请检查CCE突发弹性引擎(对接CCI)插件版本是否低于1.3.54,若低于该版本,请升级插件。

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容