查看Deepseek大模型训练状态与指标
查看模型训练状态
模型启动训练后,模型的训练任务状态请在“模型训练”页面进行查看。单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。
|
训练状态 |
训练状态含义 |
|---|---|
|
初始化 |
模型训练任务正在进行初始化配置,准备开始训练。 |
|
等待创建 |
模型训练任务可用算力不足,等待创建,待其他运行中的任务算力释放后开始创建。 |
|
排队中 |
模型训练任务正在排队,请稍等。 |
|
运行中 |
模型正在训练中,训练过程尚未结束。 |
|
停止中 |
模型训练正在停止中。 |
|
已停止 |
模型训练已被用户手动停止。 |
|
失败 |
模型训练过程中出现错误,需查看日志定位训练失败原因。 |
|
已完成 |
模型训练已完成。 |
获取训练日志
单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。
对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。
训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。
训练异常定位方法
模型训练失败时,可以按照如下定位思路对训练任务做初步定位。
- 在训练任务列表查看任务失败原因。
模型启动训练后,可以在模型训练列表中查看训练任务的状态,当任务状态为“失败”时,可将鼠标放置在“失败”上,可以查看到任务失败的概要信息。

- 单击任务名,进入任务详情页查看训练任务运行关键事件信息。
单击“事件”页签,可查看训练任务子任务运行事件,通过事件可以观察到当前任务的运行情况。事件可以按照“正常、异常、告警”三类事件类型过滤。

- 获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。
在ModelArts Studio训练任务页面单击需要查看的任务名,进入“任务详情”页,在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。

- 当训练任务运行失败时,可查看“模型训练详情 > 基本信息 > 状态”,单击“查看失败节点清单”获取训练任务故障节点及退出码信息。
- 训练作业遇到问题时,可查看“模型训练详情 > 日志”,多数场景下的问题可以通过日志报错信息直接定位。
如果训练作业运行失败,ModelArts Studio会自动识别导致作业失败的原因,在训练日志界面上给出提示并对部分常见训练错误给出分析建议。包含失败的可能原因和推荐的解决方案。
图3 训练错误分析建议
针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。

