更新时间:2024-08-22 GMT+08:00
GPU插件关键参数检查异常处理
检查项内容
检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。
解决方案
- 使用kubectl连接集群。
- 执行以下命令获取插件实例详情。
kubectl get ds nvidia-driver-installer -nkube-system -oyaml
- 请检查UpdateStrategy字段值是否被修改为OnDelete,应改回RollingUpdate。
- 请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致,若不一致,请在页面上修改为正确的驱动版本。