训练失败定位方法
- 在训练任务列表查看任务失败原因
模型启动训练后,可以在模型训练列表中查看训练任务的状态,当任务状态为“失败”时,可将鼠标放置在“失败”上,可以查看到任务失败的概要信息。
图1 查看训练失败日志
- 在任务详情页查看训练任务运行关键事件信息。
单击任务名,进入任务详情页面再单击“事件”,可选择需要查看的训练任务子任务运行事件,通过事件可以观察到当前任务的运行情况,也可以按照事件类型进行过滤,事件类型分为:正常、异常、告警。
图2 查看关键事件
- 获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。
在ModelArts Studio训练任务页面单击需要查看的任务名,进入“任务详情”页,在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。
图3 工作流节点
训练任务运行失败时,可在“任务详情 > 基本信息 > 任务状态”处查看失败状态。当任务状态为“运行失败”时,可通过单击“查看失败节点列表”获取训练任务故障节点及退出码信息。
图4 查看失败节点信息
- 获取当前任务的失败详情。
在ModelArts Studio训练任务页面单击需要查看的任务名,进入“日志”页,选择节点和任务信息,可以看到详细日志。如果勾选系统日志,会把ModelArts Studio训练的系统日志一并打印出来。
图5 查看日志