训练异常定位方法
1. 在训练任务列表查看任务失败原因。
模型启动训练后,可以在模型训练列表中查看训练任务的状态,当任务状态为“失败”时,可将鼠标放置在“失败”上,可以查看到任务失败的概要信息。
2. 在任务详情页查看训练任务运行关键事件信息。
单击任务名,进入任务详情页面再单击“事件”,可选择需要查看的训练任务子任务运行事件,通过事件可以观察到当前任务的运行情况,也可以按照事件类型进行过滤,事件类型分为:正常、异常、告警。
3. 获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。
在ModelArts Studio训练任务页面单击需要查看的任务名,进入“任务详情”页,在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。
当训练任务运行失败时,可在详情页—基本信息—任务状态处,当任务状态为“运行失败”时,可通过单击“查看失败节点清单”获取训练任务故障节点及退出码信息。