文档首页/ 云容器引擎 CCE/ 用户指南/ 集群/ 升级集群/ 升级前检查异常问题排查/ CCE AI套件(NVIDIA GPU)插件关键参数检查异常处理
更新时间:2025-04-22 GMT+08:00
分享

CCE AI套件(NVIDIA GPU)插件关键参数检查异常处理

检查项内容

检查CCE AI套件(NVIDIA GPU)插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。

解决方案

  1. 使用kubectl连接集群。
  2. 执行以下命令获取插件实例详情。

    kubectl get ds nvidia-driver-installer -nkube-system -oyaml

  3. 请检查UpdateStrategy字段值是否被修改为OnDelete,应改回RollingUpdate。
  4. 请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致,若不一致,请在页面上修改为正确的驱动版本。

相关文档