更新时间:2024-04-11 GMT+08:00

训练作业运行失败排查指导

问题现象

训练作业的“状态”出现“运行失败”的现象。

原因分析及处理方法

  • 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”
    • 原因:Moxing在进行文件复制时,未找到train_data_obs目录。
    • 处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。

      另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。

  • 查看训练作业的“日志”,出现报错“NVIDIA A30 with CUDA capability sm_80 is not compatible with the current PyTorch installation.The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70'”
    • 原因:训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡,不支持sm_80。
    • 处理建议:使用自定义镜像创建训练作业,并安装高版本的cuda以及对应的PyTorch版本。
  • 查看训练作业的“日志”,出现报错“ERROR:root:label_map.pbtxt cannot be found. It will take a long time to open every annotation files to generate a tmp label_map.pbtxt.”
    • 如果使用的是AI Gallery订阅的算法,建议先检查数据的标签是否有问题。
    • 如果使用的是物体检测类算法,建议检查数据的label框是否为非矩形。

      物体检测类算法仅支持矩形label框。

  • 查看训练作业的“日志”,出现报错“RuntimeError: The server socket has failed to listen on any local network address. The server socket has failed to bind to [::]:29500 (errno: 98 - Address already in use). The server socket has failed to bind to 0.0.0.0:29500 (errno: 98 - Address already in use).”
    • 原因:训练作业的端口号有冲突。
    • 处理建议:更改代码中的端口号,重启训练作业。
  • 查看训练作业的“日志”,出现报错“WARNING: root: Retry=7, Wait=0.4, Times tamp=1697620658.6282516”
    • 原因:Moxing版本太低。
    • 处理建议:联系技术支持将Moxing版本升级至2.1.6及以上版本。