查看NLP大模型训练状态与指标
模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。
查看模型训练状态
在模型训练列表中查看训练任务的状态,各状态说明详见表1。
查看训练指标
对于已完成训练,训练状态是“训练完成”状态的任务,单击任务名称,可在“训练结果”页面查看训练指标,模型的训练指标介绍请参见表2。
模型 |
训练指标 |
指标说明 |
---|---|---|
NLP大模型 |
训练损失值 |
训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 |
困惑度 |
用来衡量大语言模型预测一个语言样本的能力,数值越低,准确率也就越高,表明模型性能越好。 |
|
指标看板 |
|
获取训练日志
单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见NLP大模型训练常见报错与解决方案。
训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。