文档首页/
AI开发平台ModelArts/
故障排除/
训练作业/
GPU相关问题/
日志提示“cuda runtime error (10) : invalid device ordinal at xxx”
更新时间:2024-08-21 GMT+08:00
日志提示“cuda runtime error (10) : invalid device ordinal at xxx”
问题现象
训练作业失败,日志报出如下错误:
RuntimeError: cuda runtime error (10) : invalid device ordinal at xxx
图1 错误日志
原因分析
可以从以下角度排查:
- 请检查CUDA_VISIBLE_DEVICES设置的值是否与作业规格匹配。例如您选择4卡规格的作业,实际可用的卡ID为0、1、2、3,但是您在进行cuda相关的运算时,例如"tensor.to(device="cuda:7")",将张量搬到了7号GPU卡上,超过了实际可用的ID号。
- 如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。
处理方法
- 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。
- 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。
建议与总结
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
- 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
- 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
父主题: GPU相关问题