更新时间:2024-08-22 GMT+08:00
分享

GPU插件关键参数检查异常处理

检查项内容

检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。

解决方案

  1. 使用kubectl连接集群。
  2. 执行以下命令获取插件实例详情。

    kubectl get ds nvidia-driver-installer -nkube-system -oyaml

  3. 请检查UpdateStrategy字段值是否被修改为OnDelete,应改回RollingUpdate。
  4. 请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致,若不一致,请在页面上修改为正确的驱动版本。

相关文档