文档首页/ 云容器引擎 CCE/ 常见问题/ 节点/ 节点运行/ CCE AI套件(NVIDIA GPU)插件升级后,GPU节点事件中出现告警如何解决?
更新时间:2025-07-17 GMT+08:00

CCE AI套件(NVIDIA GPU)插件升级后,GPU节点事件中出现告警如何解决?

问题现象

CCE AI套件(NVIDIA GPU)插件升级后,查看GPU节点事件时,存在以下告警信息:

  • 告警一

    事件名称:XGPUKmodNeedUpgrade

    K8S事件:GPU serverid: xxx, info: XGPU kmod on node xx.xx.xx.xx needs upgrade

  • 告警二

    事件名称:XGPUKmodAbnormal

    K8S事件:XGPU kmod on node %s is abnormal

问题根因

  • 告警一:在CCE AI套件(NVIDIA GPU)插件升级前,未提前清空GPU节点中的GPU虚拟化负载,导致插件升级过程中跳过了xgpu kmod升级,造成xgpu kmod版本与插件版本不匹配,产生告警。
  • 告警二:CCE AI套件(NVIDIA GPU)插件升级过程中,xgpu kmod升级故障。

上述告警对现有业务无影响,但可能导致插件插件新特性或缺陷修复无法生效,建议及时处理以保障功能完整性。