查看NLP大模型训练状态与指标

模型启动训练后，可以在模型训练列表中查看训练任务的状态，单击任务名称可以进入详情页查看训练结果、任务详情、日志等信息。

查看模型训练状态

在模型训练列表中查看训练任务的状态，各状态说明详见表1。

表1 训练状态说明
训练状态	训练状态含义
初始化	模型训练任务正在进行初始化配置，准备开始训练。
等待创建	模型训练任务可用算力不足，等待创建，待其他运行中的任务算力释放后开始创建。
排队中	模型训练任务正在排队，请稍等。
运行中	模型正在训练中，训练过程尚未结束。
停止中	模型训练正在停止中。
已停止	模型训练已被用户手动停止。
失败	模型训练过程中出现错误，需查看日志定位训练失败原因。
已完成	模型训练已完成。

查看训练指标

对于训练状态为“已完成”的任务，单击任务名称，可在“训练结果”页面查看训练指标，模型的训练指标介绍请参见表2。

图1 查看训练指标

表2 训练指标说明
模型	训练指标	指标说明
NLP大模型	训练损失值(Training Loss)	训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标，通常情况下越小越好。一般来说，一个正常的Loss曲线应该是单调递减的，即随着训练的进行，Loss值不断减小，直到收敛到一个较小的值。 NLP中采用的是交叉熵损失函数。计算公式为： q(xi) 是文本的第 i 个单词为 xi 的模型的概率估计。公式通过 “对数概率平均取负” 的方式，将NLP模型对每个token的预测概率转化为可优化的损失值。主要运用交叉熵思想，衡量模型预测分布与真实标签的差异，通过最小化损失让模型学会更准确地生成或理解语言序列。
NLP大模型	训练精度	强化学习（DPO）训练过程中的指标，表示优选回答（chosen response）与拒绝（rejected response）回答的奖励差值，衡量模型优选回答优于被拒回答的概率。计算方式：一个训练步的数据中优选回答的奖励分数大于拒绝回答的奖励分数的比例。
NLP大模型	训练优选回复的奖励	强化学习（DPO）训练过程中的指标，表示模型对人类标注的优选回答（chosen response）的偏好得分。计算方式：在一个训练步的数据中，通过模型对两个候选回复的得分差（优选回复得分减去拒绝回复得分）并经Sigmoid函数映射到[0, 1]范围来确定其奖励分数，得分越高表示越符合人类偏好。
NLP大模型	训练拒绝回复的奖励	强化学习（DPO）训练过程中的指标，表示模型对被人类拒绝的回答（rejected response）的偏好得分。计算方式：在一个训练步的数据中，通过模型对两个候选回复的得分差（拒绝回复得分减去优选回复得分）并经Sigmoid函数映射到[0, 1]范围来确定其奖励分数，得分越低表示越不符合人类偏好。
NLP大模型	验证损失值	强化学习（DPO）训练中运行验证集的指标，表示模型在验证集上的损失值。值越小，意味着模型对验证集数据的泛化能力越好。
NLP大模型	验证精度	强化学习（DPO）训练中运行验证集的指标，表示优选回答（chosen response）与拒绝（rejected response）回答的奖励差值，衡量模型优选回答优于被拒回答的概率。计算方式：在验证集中优选回答的奖励分数大于拒绝回答的奖励分数的比例。
NLP大模型	验证优选回复的奖励	强化学习（DPO）训练中运行验证集的指标，表示模型对人类标注的优选回答（chosen response）的偏好得分。计算方式：在验证集中，通过模型对两个候选回复的得分差（优选回复得分减去拒绝回复得分）并经Sigmoid函数映射到[0, 1]范围来确定其奖励分数，得分越高表示越符合人类偏好。
NLP大模型	验证拒绝回复的奖励	强化学习（DPO）训练中运行验证集的指标，表示模型对被人类拒绝的回答（rejected response）的偏好得分。计算方式：在验证集中，通过模型对两个候选回复的得分差（拒绝回复得分减去优选回复得分）并经Sigmoid函数映射到[0, 1]范围来确定其奖励分数，得分越低表示越不符合人类偏好。
NLP大模型	语言模型损失（kl_loss）	强化学习（GRPO）训练过程中的指标，用于衡量当前模型与基座模型的分布偏移程度。值越大，表明当前模型与训练前的基座模型输出分布差异越大。
NLP大模型	策略梯度损失（pg_loss）	强化学习（GRPO）训练过程中的指标，用于反映当前策略生成的动作（如文本响应）相对于旧策略的优势（advantage）调整。值越小，表明模型奖励函数更合理，策略更稳定。
NLP大模型	最大奖励值（reward_max）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代的最大奖励值。用来反映模型在最佳情况下的表现，体现其潜在能力或环境中的高回报场景。
NLP大模型	最小奖励值（reward_min）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代的最小奖励值。用来反映模型在最差情况下的表现，可能反映策略的脆弱性或环境中的低回报状态。
NLP大模型	奖励平均值（reward_mean）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代的奖励平均值。用来衡量模型的整体平均表现，是评估训练效果的核心指标。
NLP大模型	输入问题的最大长度（prompt_length_max）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代输入提示（prompt）的最大长度。用来反映可能存在影响计算资源占用（如显存、内存）或模型性能的情况。
NLP大模型	输入问题的最小长度（prompt_length_min）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代输入提示（prompt）的最小长度。用来反映数据分布中的极端情况或潜在异常的情况。
NLP大模型	输入问题的长度平均值（prompt_length_mean）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代输入提示（prompt）长度的平均值。用来衡量输入提示长度的整体分布情况，帮助评估模型的计算效率和输入数据的典型复杂度。
NLP大模型	模型回复的最大长度（response_length_max）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代生成响应（response）的最大长度。用来模型生成冗余内容、过度扩展答案的倾向，或极端情况下的表现。
NLP大模型	模型回复的最小长度（response_length_min）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代生成响应（response）的最小长度。用来反映模型在某些情况下输出不完整、信息不足或异常终止。
NLP大模型	模型回复的长度平均值（response_length_mean）	强化学习（GRPO）训练过程中的指标，表示训练周期内单步迭代生成响应（response）长度的平均值。用来衡量模型生成响应的整体长度分布，评估生成结果的稳定性和一致性。

获取训练日志

单击训练任务名称，可以在“日志”页面查看训练过程中产生的日志。

对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见NLP大模型训练常见报错与解决方案。

训练日志可以按照不同的节点（训练阶段）进行筛选查看。分布式训练时，任务被分配到多个工作节点上进行并行处理，每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点（如worker-0表示第一个工作节点）进行筛选查看。

图2 获取训练日志

训练异常定位方法

模型训练失败时，可以按照如下定位思路对训练任务做初步定位。

在训练任务列表查看任务失败原因。
模型启动训练后，可以在模型训练列表中查看训练任务的状态，当任务状态为“失败”时，可将鼠标放置在“失败”上，可以查看到任务失败的概要信息。
单击任务名，进入任务详情页查看训练任务运行关键事件信息。
单击“事件”页签，可查看训练任务子任务运行事件，通过事件可以观察到当前任务的运行情况。事件可以按照“正常、异常、告警”三类事件类型过滤。
获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。
在ModelArts Studio训练任务页面单击需要查看的任务名，进入“任务详情”页，在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。
当训练任务运行失败时，可查看“模型训练详情 > 基本信息 > 状态”，单击“查看失败节点列表”获取训练任务故障节点及退出码信息。
训练作业遇到问题时，可查看“模型训练详情 > 日志”，多数场景下的问题可以通过日志报错信息直接定位。
如果训练作业运行失败，ModelArts Studio会自动识别导致作业失败的原因，在训练日志界面上给出提示并对部分常见训练错误给出分析建议。包括失败的可能原因和推荐的解决方案。

图3 训练错误分析建议

针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做综合判断。