更新时间:2024-05-23 GMT+08:00
训练作业运行失败排查指导
问题现象
训练作业的“状态”出现“运行失败”的现象。
原因分析及处理方法
- 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。
- 原因:Moxing在进行文件复制时,未找到train_data_obs目录。
- 处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。
另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。
- 查看训练作业的“日志”,出现报错“CUDA capability sm_80 is not compatible with the current PyTorch installation.The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70'”。
- 原因:训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡,不支持sm_80。
- 处理建议:使用自定义镜像创建训练作业,并安装高版本的cuda以及对应的PyTorch版本。
- 查看训练作业的“日志”,出现报错“ERROR:root:label_map.pbtxt cannot be found. It will take a long time to open every annotation files to generate a tmp label_map.pbtxt.”。
- 如果使用的是AI Gallery订阅的算法,建议先检查数据的标签是否有问题。
- 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。
物体检测类算法仅支持矩形label框。
- 查看训练作业的“日志”,出现报错“RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500 (errno: 98 - Address already in use).”。
- 原因:训练作业的端口号有冲突。
- 处理建议:更改代码中的端口号,重启训练作业。
- 查看训练作业的“日志”,出现报错“WARNING: root: Retry=7, Wait=0.4, Times tamp=1697620658.6282516”。
- 原因:Moxing版本太低。
- 处理建议:联系技术支持将Moxing版本升级至2.1.6及以上版本。
父主题: 训练作业运行失败