更新时间:2024-10-30 GMT+08:00
训练作业失败,返回错误码139
问题现象
训练作业运行失败,返回错误码139,如下图所示:
[Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f INFO;root:Using OBS-Python-SDK-3.1.2
原因分析
出现该问题的可能原因如下
- pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。
- 用户代码问题,出现了内存越界、非法访问内存空间的情况。
- 未知系统问题导致,建议先尝试重建作业,重建后仍然失败,建议提工单定位。
处理方法
- 如果存在之前能跑通,什么都没修改,过了一阵跑不通的情况,先去排查跑通和跑不通的日志是否存在pip源更新了依赖包,如下图,安装之前跑通的老版本即可。
图1 PIP安装对比图
- 推荐您使用本地Pycharm远程连接Notebook调试。
- 如果上述情况都解决不了,请联系技术支持工程师。
建议与总结
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
- 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
- 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
父主题: 业务代码问题