GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error

问题现象

在Vnt1 GPU裸金属服务器（Ubuntu18.04系统），根据GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc - V”显示正确的安装信息，然后使用Pytorch下述命令验证cuda有效性：

print(torch.cuda.is_available())

显示报错：

UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at  /pytorch/c10/cuda/CUDAFunctions.cpp:100.)
  return torch._C._cuda_getDeviceCount() > 0

原因分析

nvidia-modprobe是一个Linux工具，用于在系统中加载NVIDIA驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。

通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系统中。但有时候也可能需要手动执行该命令。例如，在更新了NVIDIA驱动后，需要重新加载新版本的内核模块才能使变更生效。

此外，若使用了多个NVIDIA显卡，每个显卡都需要加载相应的内核模块才能正常工作。在这种情况下，也需要手动执行“nvidia-modprobe”命令来加载所有必要的内核模块。

处理方法

方案1：操作系统内核重新加载nvidia_uvm。
```
sudo rmmod nvidia_uvm
sudo modprobe nvidia_uvm
```
方案2：安裝nvidia-modprobe。
```
apt-get install nvidia-modprobe
```

父主题： FAQ

上一篇：Atlas800训练服务器硬件指南

下一篇：使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error

问题现象

原因分析

处理方法

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线