文档首页/ 云容器引擎 CCE/ 用户指南（吉隆坡区域）/ 常见问题/ 工作负载/ 工作负载异常问题排查/ 工作负载异常：GPU节点部署服务时报错

更新时间：2025-12-08 GMT+08:00

查看PDF

工作负载异常：GPU节点部署服务时报错

问题现象

在CCE集群的GPU节点上部署服务出现如下问题：

容器无法查看显存。
部署了7个GPU服务，有2个是能正常访问的，其他启动时都有报错。
- 2个是能正常访问的CUDA版本分别是10.1和10.0
- 其他服务CUDA版本也在这2个范围内
在GPU服务容器中发现一些新增的文件core.*，在以前的部署中没有出现过。

问题定位

GPU插件的驱动版本较低，单独下载驱动安装后正常。
工作负载中未声明需要gpu资源。

建议方案

节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败，请排查nvidia驱动是否下载成功。

GPU节点：
- 插件版本为2.0.0以下时，请执行以下命令：
```
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
```
- 插件版本为2.0.0及以上时，请执行以下命令：
```
cd /usr/local/nvidia/bin && ./nvidia-smi
```
容器：
- 当集群版本在1.27及以下时，请执行以下命令：
```
cd /usr/local/nvidia/bin && ./nvidia-smi
```
- 当集群版本在1.28及以上时，请执行以下命令：
```
cd /usr/bin && ./nvidia-smi
```

若能正常返回GPU信息，说明设备可用，插件安装成功。

如果驱动地址填写错误，需要将插件卸载后重新安装，并配置正确的地址。

nvidia驱动建议放在OBS桶里，并设置为公共读。

相关链接

GPU节点使用nvidia驱动启动容器排查思路

父主题： 工作负载异常问题排查

上一篇：工作负载异常：已停止

下一篇：容器异常退出状态码

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消