更新时间:2024-05-23 GMT+08:00
分享

如何通过训练日志定位问题

在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。

ModelArts提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因,在训练日志界面上给出提示。提示包括三部分:失败的可能原因、推荐的解决方案以及对应的日志(底色标红部分)。

图1 训练故障识别

ModelArts会对部分常见训练错误给出分析建议,目前还不能识别所有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。

常见训练问题定位思路如下:

  1. 根据日志界面提示中提供的分析建议解决。
    • 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
    • 重建作业:建议重建作业进行重试,大概率能修复问题。
  2. 上一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。
  3. 也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。
  4. 最后,如果以上均不能解决问题,可以提工单进行人工咨询。
分享:

    相关文档

    相关产品