文档首页/ 云容器引擎 CCE/ 常见问题/ 节点/ 节点运行/ GPU节点使用nvidia驱动启动容器排查思路
更新时间:2024-07-02 GMT+08:00

GPU节点使用nvidia驱动启动容器排查思路

集群中的节点是否有资源调度失败的事件?

问题现象:

节点运行正常且有GPU资源,但报如下失败信息:

0/9 nodes are aviable: 9 insufficient nvida.com/gpu

排查思路:

  1. 确认节点标签是否已经打上nvidia资源。

  2. 查看nvidia驱动运行是否正常。
    到插件运行所在的节点上,查看驱动的安装日志,路径如下所示:
    /opt/cloud/cce/nvidia/nvidia_installer.log

    查看nvidia容器标准输出日志:

    过滤容器id

    docker ps –a | grep nvidia

    查看日志

    docker logs 容器id 

业务上报nvidia版本和cuda版本不匹配?

容器中查看cuda的版本,执行如下命令:

cat /usr/local/cuda/version.txt

然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。