更新时间:2026-05-21 GMT+08:00
GPU节点使用nvidia驱动启动容器排查思路
集群中的节点是否有资源调度失败的事件?
问题现象:
节点运行正常且有GPU资源,但报如下失败信息:
0/9 nodes are available: 9 insufficient nvidia.com/gpu
排查思路:
业务上报nvidia版本和cuda版本不匹配?
- 在业务容器中确认cuda版本,执行类似如下命令(以cuda官方查询方法为准):
cat /usr/local/cuda/version.txt
- 查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。节点中查看驱动支持的最高cuda版本,执行“nvidia-smi”命令。

