更新时间:2025-07-17 GMT+08:00
工作负载异常:GPU节点部署服务时报错
问题现象
在CCE集群的GPU节点上部署服务出现如下问题:
- 容器无法查看显存。
- 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。
- 2个是能正常访问的CUDA版本分别是10.1和10.0
- 其他服务CUDA版本也在这2个范围内
- 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
问题定位
- GPU插件的驱动版本较低,单独下载驱动安装后正常。
- 工作负载中未声明需要gpu资源。
建议方案
节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。
- GPU节点:
- 插件版本为2.0.0以下时,请执行以下命令:
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
- 插件版本为2.0.0及以上时,请执行以下命令:
cd /usr/local/nvidia/bin && ./nvidia-smi
- 插件版本为2.0.0以下时,请执行以下命令:
- 容器:
- 当集群版本在1.27及以下时,请执行以下命令:
cd /usr/local/nvidia/bin && ./nvidia-smi
- 当集群版本在1.28及以上时,请执行以下命令:
cd /usr/bin && ./nvidia-smi
- 当集群版本在1.27及以下时,请执行以下命令:
若能正常返回GPU信息,说明设备可用,插件安装成功。
如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。

nvidia驱动建议放在OBS桶里,并设置为公共读。