更新时间:2024-01-04 GMT+08:00
GPU节点使用nvidia驱动启动容器排查思路
集群中的节点是否有资源调度失败的事件?
问题现象:
节点运行正常且有GPU资源,但报如下失败信息:
0/9 nodes are aviable: 9 insufficient nvida.com/gpu
排查思路:
业务上报nvidia版本和cuda版本不匹配?
容器中查看cuda的版本,执行如下命令:
cat /usr/local/cuda/version.txt
然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。
相关链接
父主题: 节点运行