更新时间:2024-04-30 GMT+08:00

训练作业失败,返回错误码139

问题现象

训练作业运行失败,返回错误码139,如下图所示:

原因分析

出现该问题的可能原因如下

  • pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。
  • 用户代码问题,出现了内存越界、非法访问内存空间的情况。
  • 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。

处理方法

  1. 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。
    图1 PIP安装对比图
  2. 推荐您使用本地Pycharm远程连接Notebook调试。
  3. 如果上述情况都解决不了,请联系技术支持工程师。

建议与总结

在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。