检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
链接复制成功!
问题现象:
节点运行正常且有GPU资源,但报如下失败信息:
0/9 nodes are available: 9 insufficient nvidia.com/gpu
排查思路:
/opt/cloud/cce/nvidia/nvidia_installer.log
查看nvidia容器标准输出日志:
过滤容器id
docker ps –a | grep nvidia
查看日志
docker logs 容器id
容器中查看cuda的版本,执行如下命令:
cat /usr/local/cuda/version.txt
然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。
工作负载异常:GPU节点部署服务时报错
在使用文档中是否遇到以下问题
意见反馈(选填)
请至少选择一项反馈信息并填写问题反馈
字符长度不能超过500