更新时间:2024-11-22 GMT+08:00
训练日志失败分析
在ModelArts Standard中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
ModelArts Standard提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因,在训练日志界面上给出提示。提示包括三部分:失败的可能原因、推荐的解决方案以及对应的日志(底色标红部分)。
图1 训练故障识别
ModelArts Standard会对部分常见训练错误给出分析建议,目前还不能识别所有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。
常见训练问题定位思路如下:
- 根据日志界面提示中提供的分析建议解决。
- 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
- 重建作业:建议重建作业进行重试,大概率能修复问题。
- 上一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。
- 最后,如果以上均不能解决问题,可以提工单进行人工咨询。
父主题: 模型训练高可靠性