更新时间:2024-05-23 GMT+08:00

查看训练作业事件

训练作业的(从用户可看见训练任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。

方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示:

  • 训练作业创建成功
  • 训练作业创建失败报错:
  • 准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时
  • 训练作业已排队,正在等待资源分配
  • 训练作业排队失败
  • 训练作业开始运行
  • 训练作业运行成功
  • 训练作业运行失败
  • 训练作业被抢占
  • 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理
  • 训练作业已重启
  • 训练作业已被手动终止
  • 训练作业已被终止(最大运行时长:1h)
  • 训练作业已被终止(最大运行时长:3h)
  • 训练作业已被手动删除
  • 计费信息同步结束
  • [worker-0] 训练环境预检中
  • [worker-0] [耗时: 秒] 预检完成
  • [worker-0] [耗时: 秒] 检查失败。发现异常:
  • [worker-0] [耗时: 秒] 检查失败。发现错误:
  • [worker-0] 训练代码下载中
  • [worker-0] [耗时: 秒] 训练代码下载完成
  • [worker-0] [耗时: 秒] 训练代码下载失败,失败原因:
  • [worker-0] 训练输入下载中
  • [worker-0] [耗时: 秒] 训练输入(参数名称:)下载完成
  • [worker-0] [耗时: 秒] 训练输入(参数名称:)下载失败,失败原因:
  • [worker-0] 正在安装Python依赖包,导入文件:
  • [worker-0] [耗时: 秒] Python依赖包安装完成,导入文件:
  • [worker-0] 训练任务开始运行
  • [worker-0] 训练任务运行结束,退出码
  • [worker-0] 训练输入上传中
  • [worker-0] [耗时: 秒] 训练输出(参数名称:)上传完成

训练运行到结束的过程中,关键事件支持手动/自动刷新。

查看操作

  1. 在ModelArts管理控制台的左侧导航栏中选择“训练管理 > 训练作业”
  2. 在训练作业列表中,单击作业名称进入训练作业详情页面。
  3. 在训练作业详情页面,单击“事件”页签查看事件信息。
    图1 查看事件信息