为什么exec进入容器后执行GPU相关的操作报错？

问题现象：

exec进入容器后执行GPU相关的操作（例如nvidia-smi、使用tensorflow运行GPU训练任务等）报错“cannot open shared object file: No such file or directory”。

问题原因：

安全容器内的cuda库位置为/usr/local/nvidia/lib64，您需要添加/usr/local/nvidia/lib64到LD_LIBRARY_PATH，才能正确地找到cuda库。

解决方法：

使用kubectl exec或者前端console登录进入带GPU的容器时，先执行命令export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nvidia/lib64，然后再执行其他GPU相关的操作命令。

父主题： 容器工作负载类

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨