更新时间:2024-11-22 GMT+08:00
GPU A系列裸金属服务器无法获取显卡如何解决
问题现象
在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下:
> torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__.py:107: UserWarning: CUDA initialization: Unexpected error from cudaGetDeviceCount(). Did you run some cuda functions before calling NumCudaDevices() that might have already set an error? Error 802: system not yet initialized (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:109.) return torch._C._cuda_getDeviceCount() > 0 False
原因分析
Error 802原因为缺少fabricmanager,可能由于以下原因导致nvidia-fabricmanager.service不工作:
- 可能系统资源不足、如内存不足、内存泄露。
- 硬件故障、如IB网络或者GPU互联设备故障等。
- 没安装nvidia-fabricmanager组件或被误卸载。
处理方法
- 若未安装fabricmanager,则需安装改组件。
- 若已安装fabricmanager,运行以下命令重启fabricmanager.service。
systemctl restart nvidia-fabricmanager.service
建议您进一步定位出nvidia-fabricmanager不工作原因,避免该问题再次发生。
父主题: Lite Server