重装的包与镜像装CUDA版本不匹配

问题现象

在现有镜像基础上，重新装了引擎版本，或者编译了新的CUDA包，出现如下错误：

1.“RuntimeError: cuda runtime error (11) : invalid argument at /pytorch/aten/src/THC/THCCachingHostAllocator.cpp:278”
2.“libcudart.so.9.0 cannot open shared object file no such file or directory”
3.“Make sure the device specification refers to a valid device, The requested device appeares to be a GPU,but CUDA is not enabled”

原因分析

出现该问题的可能原因如下：

新安装的包与镜像中带的CUDA版本不匹配。

处理方法

必现的问题，使用本地Pycharm远程连接Notebook调试安装。

先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。
重装torch等，需要注意选择与上一步版本相匹配的版本。

建议与总结

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。

直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。

父主题： 云上迁移适配故障

上一篇：日志提示“Please upgrade numpy to >= xxx to use this pandas version”

下一篇：创建训练作业提示错误码ModelArts.2763

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消