文档首页> 云容器引擎 CCE> 常见问题> 模板插件> GPU节点使用nvidia驱动启动容器排查思路
更新时间:2022-05-06 GMT+08:00
分享

GPU节点使用nvidia驱动启动容器排查思路

集群中的节点是否有资源调度失败的事件?

问题现象:

节点运行正常且有GPU资源,但报如下失败信息:

0/9 nodes are aviable: 9 insufficient nvida.com/gpu

排查思路:

  1. 确认节点标签是否已经打上nvidia资源。

  2. 查看nvidia驱动运行是否正常。
    到插件运行所在的节点上,查看驱动的安装日志,路径如下所示:
    /opt/cloud/cce/nvidia/nvidia_installer.log

    查看nvidia容器标准输出日志:

    过滤容器id

    docker ps –a | grep nvidia

    查看日志

    docker logs 容器id 

业务上报nvidia版本和cuda版本不匹配?

容器中查看cuda的版本,执行如下命令:

cat /usr/local/cuda/version.txt

然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。

我需要升级nvidia驱动,如何操作?

您如果需要更高版本的nvidia驱动,升级操作必须按如下操作:

  1. 升级GPU插件。

    在CCE控制台中,单击左侧栏目树中“插件管理”,单击右侧的“插件实例”页签,单击gpu-beta插件下方的“升级”按钮,完成插件升级。

  2. 在ECS控制台重启节点。
分享:

模板插件所有常见问题

more

close