文档首页/ 云容器引擎 CCE/ 常见问题/ 工作负载/ 工作负载异常问题排查/ 工作负载异常：GPU节点部署服务时报错

更新时间：2025-07-18 GMT+08:00

工作负载异常：GPU节点部署服务时报错

问题现象

在CCE集群的GPU节点上部署服务出现如下问题：

容器无法查看显存。
部署了7个GPU服务，有2个是能正常访问的，其他启动时都有报错。
- 2个是能正常访问的CUDA版本分别是10.1和10.0
- 其他服务CUDA版本也在这2个范围内
在GPU服务容器中发现一些新增的文件core.*，在以前的部署中没有出现过。

问题定位

GPU插件的驱动版本较低，单独下载驱动安装后正常。
工作负载中未声明需要gpu资源。

建议方案

节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败，请排查nvidia驱动是否下载成功。

GPU节点：
- 插件版本为2.0.0以下时，请执行以下命令：
```
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
```
- 插件版本为2.0.0及以上时，请执行以下命令：
```
cd /usr/local/nvidia/bin && ./nvidia-smi
```
容器：
- 当集群版本在1.27及以下时，请执行以下命令：
```
cd /usr/local/nvidia/bin && ./nvidia-smi
```
- 当集群版本在1.28及以上时，请执行以下命令：
```
cd /usr/bin && ./nvidia-smi
```

若能正常返回GPU信息，说明设备可用，插件安装成功。

如果驱动地址填写错误，需要将插件卸载后重新安装，并配置正确的地址。

nvidia驱动建议放在OBS桶里，并设置为公共读。

相关链接

父主题：工作负载异常问题排查

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问