更新时间:2024-08-21 GMT+08:00
训练作业找不到GPU
问题现象
训练作业运行出现如下报错:
failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
原因分析
根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。
处理方法
根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU:
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7'
其中,0为服务器的GPU编号,可以为0,1,2,3等,表明对程序可见的GPU编号。如果未进行添加配置则该编号对应的GPU不可用。
父主题: GPU相关问题