文档首页 > > 常见问题> 容器工作负载类> 为什么exec进入容器后执行GPU相关的操作报错?

为什么exec进入容器后执行GPU相关的操作报错?

分享
更新时间: 2019/06/24 GMT+08:00

问题现象:

exec进入容器后执行GPU相关的操作(例如nvidia-smi、使用tensorflow运行GPU训练任务等)报错“cannot open shared object file: No such file or directory”。

问题原因:

安全容器内的cuda库位置为/usr/local/nvidia/lib64,您需要添加/usr/local/nvidia/lib64到LD_LIBRARY_PATH,才能正确地找到cuda库。

解决方法:

使用kubectl exec或者前端console登录进入带GPU的容器时,先执行命令export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nvidia/lib64,然后再执行其他GPU相关的操作命令。

分享:

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问