更新时间:2024-04-11 GMT+08:00

训练作业找不到GPU

问题现象

训练作业运行出现如下报错:

failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected

原因分析

根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。

处理方法

根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU:

os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7'

其中,0为服务器的GPU编号,可以为0,1,2,3等,表明对程序可见的GPU编号。若未进行添加配置则该编号对应的GPU不可用。