更新时间:2024-05-23 GMT+08:00
分享

什么是训练作业日志

训练日志定义

训练日志用于记录训练作业运行过程和异常信息,为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。

训练日志包括普通训练日志和Ascend相关日志。

  • 普通日志说明:当使用Ascend之外的资源训练时仅产生普通训练日志,普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts平台日志。
  • Ascend场景日志说明:使用Ascend资源训练时会产生device日志、plog日志、proc log单卡训练日志、MindSpore日志、普通日志。
图1 ModelArts训练日志

只有MindSpore+Ascend训练场景下会产生单独的MindSpore日志。其他AI引擎的日志都包含在普通日志中,无法区分。

训练日志的时效性

从日志产生的时效性上可以分为以下3种情况:

  • 实时日志:训练作业实时运行时产生,在ModelArts训练作业详情页面上可以查看。
  • 历史日志:训练作业结束后,可以在ModelArts训练作业详情页面上查看历史日志,ModelArts系统自动保存30天。
  • 永久日志:转存到OBS桶中的训练日志,在创建训练作业时,打开永久保存日志开关设置作业日志路径即可将日志转存至OBS路径。Ascend训练场景下,默认要求填写作业日志在OBS的存放路径,其他资源的训练场景下,永久保存日志开关需要用户手动开启。
    图2 开启永久保存日志开关

实时日志和历史日志都是标准日志输出,内容上没有区别。Ascend训练场景下,永久日志中会包含Ascend日志,这部分日志内容在ModelArts界面上看不到。

相关章节

  • 在ModelArts训练作业详情页,训练日志窗口提供了日志预览、日志下载、日志中搜索关键字能力,具体请参见如何查看训练作业日志
  • ModelArts还提供了训练作业失败定位与分析功能,方便用户通过日志快速定位并解决训练作业问题,具体请参见如何通过训练日志定位问题
分享:

    相关文档

    相关产品