GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败

问题现象

在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误：

CUDA initialization: Unexpected error from cudaGetDeviceCount()

原因分析

经过对裸金属服务器排查，发现nvidia-drvier和cuda都已安装，并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联，在多卡GPU机器上，出现这种问题可能是nvidia-fabricmanger异常导致。

执行以下命令，查看NVIDIA和CUDA的版本，以及nvidia-fabricmanager的状态。
```
systemctl status nvidia-fabricmanager
```
发现nvidia-fabricmanager的服务为failed状态，尝试重新启动nvidia-fabricmanager失败，且提示以下信息：
```
nvidia-fabricmanager.service failed because the control process exited with error code
```
通过命令查看nvidia-fabricmanager的版本，发现nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致。
```
dpkg -l | grep nvidia-fabricmanager
```
卸载并重新安装正确版本的nvidia-fabricmanager，验证CUDA成功。

处理方法

查看nvidia-fabricmanager的版本，若nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致则执行下述命令卸载nvidia-fabricmanager。

dpkg -l | grep nvidia-fabricmanager
# 若有nvidia-fabricmanager软件，将其卸载
# 若无nvidia-fabricmanager软件，请跳过此命令
sudo apt-get autoremove --purge nvidia-fabricmanager-版本

安装与NVIDIA驱动版本号相等的nvidia-fabricmanager（以515.105.01举例）。

version=515.105.01
main_version=$(echo $version | awk -F '.' '{print $1}')
apt-get update
apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*

启动nvidia-fabricmanager，确保其服务状态为RUNNING。

systemctl enable nvidia-fabricmanager
systemctl start nvidia-fabricmanager
systemctl status nvidia-fabricmanager

重新验证cuda状态，输出为True。

import torch
print(torch.cuda.is_available())

父主题： FAQ

上一篇：华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案

下一篇：GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法（Pytorch模式）

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败

问题现象

原因分析

处理方法

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线