更新时间:2025-12-30 GMT+08:00
分享

训练失败定位方法

  1. 在训练任务列表查看任务失败原因

    模型启动训练后,可以在模型训练列表中查看训练任务的状态,当任务状态为“失败”时,可将鼠标放置在“失败”上,可以查看到任务失败的概要信息。

    图1 查看训练失败日志
  2. 在任务详情页查看训练任务运行关键事件信息。

    单击任务名,进入任务详情页面再单击“事件”,可选择需要查看的训练任务子任务运行事件,通过事件可以观察到当前任务的运行情况,也可以按照事件类型进行过滤,事件类型分为:正常、异常、告警。

    图2 查看关键事件
  3. 获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。

    在ModelArts Studio训练任务页面单击需要查看的任务名,进入“任务详情”页,在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。

    图3 工作流节点

    训练任务运行失败时,可在“任务详情 > 基本信息 > 任务状态”处查看失败状态。当任务状态为“运行失败”时,可通过单击“查看失败节点列表”获取训练任务故障节点及退出码信息。

    图4 查看失败节点信息
  4. 获取当前任务的失败详情。

    在ModelArts Studio训练任务页面单击需要查看的任务名,进入“日志”页,选择节点和任务信息,可以看到详细日志。如果勾选系统日志,会把ModelArts Studio训练的系统日志一并打印出来。

    图5 查看日志

相关文档