文档首页/ 云容器引擎 CCE/ 常见问题/ 节点/ 节点运行/ GPU节点使用nvidia驱动启动容器排查思路

更新时间：2026-05-21 GMT+08:00

GPU节点使用nvidia驱动启动容器排查思路

集群中的节点是否有资源调度失败的事件？

问题现象：

节点运行正常且有GPU资源，但报如下失败信息：

0/9 nodes are available: 9 insufficient nvidia.com/gpu

排查思路：

确认节点标签是否已经打上nvidia资源。
查看nvidia驱动运行是否正常。
到插件运行所在的节点上，查看驱动的安装日志，路径为“/opt/cloud/cce/nvidia/nvidia_installer.log”或“ /usr/local/nvidia/nvidia-installer.log”。

查看nvidia容器标准输出日志：

过滤容器id
```
crictl ps -a | grep nvidia
```
查看日志
```
crictl logs 容器id 
```

业务上报nvidia版本和cuda版本不匹配？

在业务容器中确认cuda版本，执行类似如下命令（以cuda官方查询方法为准）：
```
cat /usr/local/cuda/version.txt
```
查看容器所在节点的nvidia驱动版本支持的cuda版本范围，是否包含容器中的cuda版本。节点中查看驱动支持的最高cuda版本，执行“nvidia-smi”命令。

相关链接

工作负载异常：GPU节点部署服务时报错

父主题：节点运行

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问