更新时间:2024-08-16 GMT+08:00
查看训练作业事件
训练作业的(从用户可看见训练任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。
方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示:
- 训练作业创建成功
- 训练作业创建失败报错:
- 准备阶段超时。可能原因是跨区域算法同步或者创建共享存储超时
- 训练作业已排队,正在等待资源分配
- 训练作业排队失败
- 训练作业开始运行
- 训练作业运行成功
- 训练作业运行失败
- 训练作业被抢占
- 系统检测到您的作业疑似卡死,请及时前往作业详情界面查看并处理
- 训练作业已重启
- 训练作业已被手动终止
- 训练作业已被终止(最大运行时长:1h)
- 训练作业已被终止(最大运行时长:3h)
- 训练作业已被手动删除
- 计费信息同步结束
- [worker-0] 训练环境预检中
- [worker-0] [耗时: 秒] 预检完成
- [worker-0] [耗时: 秒] 检查失败。发现异常:
- [worker-0] [耗时: 秒] 检查失败。发现错误:
- [worker-0] 训练代码下载中
- [worker-0] [耗时: 秒] 训练代码下载完成
- [worker-0] [耗时: 秒] 训练代码下载失败,失败原因:
- [worker-0] 训练输入下载中
- [worker-0] [耗时: 秒] 训练输入(参数名称:)下载完成
- [worker-0] [耗时: 秒] 训练输入(参数名称:)下载失败,失败原因:
- [worker-0] 正在安装Python依赖包,导入文件:
- [worker-0] [耗时: 秒] Python依赖包安装完成,导入文件:
- [worker-0] 训练任务开始运行
- [worker-0] 训练任务运行结束,退出码
- [worker-0] 训练输入上传中
- [worker-0] [耗时: 秒] 训练输出(参数名称:)上传完成
训练运行到结束的过程中,关键事件支持手动/自动刷新。
查看操作
- 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。
- 在训练作业列表中,单击作业名称进入训练作业详情页面。
- 在训练作业详情页面,单击“事件”页签查看事件信息。
图1 查看事件信息
父主题: 管理模型训练作业