集群中的节点是否有资源调度失败的事件?
问题现象:
节点运行正常且有GPU资源,但报如下失败信息:
0/9 nodes are aviable: 9 insufficient nvida.com/gpu
排查思路:
- 确认节点标签是否已经打上nvidia资源。
- 查看nvidia驱动运行是否正常。
到插件运行所在的节点上,查看驱动的安装日志,路径如下所示:
/opt/cloud/cce/nvidia/nvidia_installer.log
查看nvidia容器标准输出日志:
过滤容器id
docker ps –a | grep nvidia
查看日志
docker logs 容器id
业务上报nvidia版本和cuda版本不匹配?
容器中查看cuda的版本,执行如下命令:
cat /usr/local/cuda/version.txt
然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。