文档首页/ AI开发平台ModelArts/ 故障排除/ Lite Server/ GPU A系列裸金属服务器无法获取显卡如何解决
更新时间:2024-09-07 GMT+08:00
分享

GPU A系列裸金属服务器无法获取显卡如何解决

问题现象

在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下:

> torch.cuda.is_available()
/usr/local/lib/python3.8/dist-packages/torch/cuda/__init__.py:107: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:109.)
  return torch._C._cuda_getDeviceCount() > 0
False

原因分析

Error 802原因为缺少fabricmanager,可能由于以下原因导致nvidia-fabricmanager.servcie不工作:

  • 可能系统资源不足、如内存不足、内存泄露。
  • 硬件故障、如IB网络或者GPU互联设备故障等。
  • 没安装nvidia-fabricmanager组件或被误卸载。

处理方法

  • 若未安装fabricmanager,则需安装改组件。
  • 若已安装fabricmanager,运行以下命令重启fabricmanager.service。
    systemctl restart  nvidia-fabricmanager.service

    建议您进一步定位出nvidia-fabricmanager不工作原因,避免该问题再次发生。

相关文档