更新时间:2025-07-14 GMT+08:00
训练作业找不到GP
问题现象
训练作业运行出现如下报错:
failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
原因分析
根据错误信息判断,报错原因为训练作业运行程序读取不到GP。
处理方法
根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GP:
os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7'
其中,0为服务器的GP编号,可以为0,1,2,3等,表明对程序可见的GP编号。如果未进行添加配置则该编号对应的GP不可用。
父主题: GP相关问题