更新时间:2024-09-03 GMT+08:00
分享

查看训练任务详情与训练指标

模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。

图1 模型训练列表

不同类型的训练方法可支持查看的训练指标有所差异,训练指标和训练方法的关系如下:

表1 训练指标和训练方法对应关系

训练指标\模型类型

自监督训练

有监督训练

训练损失值

模型准确率

×

指标看板

×

困惑度

×

训练损失值指标介绍

训练损失值(Training Loss)是一种衡量模型预测结果和真实结果差距的指标,通常情况下越小越好。

一般来说,一个正常的Loss曲线是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。以下给出了几种正常的Loss曲线形式:

图2 正常的Loss曲线:平滑下降
图3 正常的Loss曲线:阶梯下降

如果您发现Loss曲线出现了以下几种情况,可能意味着模型训练状态不正常:

  • Loss曲线上升:Loss曲线上升的原因可能是数据质量差,或学习率设置过大,使得模型在最优解附近震荡,甚至跳过最优解,导致无法收敛。您可以尝试提升数据质量或减小学习率来解决。
    图4 异常的Loss曲线:上升
  • Loss曲线平缓,保持高位:Loss曲线平缓且保持高位不下降的原因可能是目标任务的难度较大,或模型的学习率设置过小,导致模型的收敛速度太慢,无法达到最优解。您可以尝试增大训练轮数或者增大学习率来解决。
    图5 异常的Loss曲线:平缓且保持高位
  • Loss曲线异常抖动:Loss曲线异常抖动的原因可能是训练数据质量差,比如数据存在噪声或分布不均衡,导致训练不稳定。您可以尝试提升数据质量来解决。
    图6 异常的Loss曲线:异常抖动

模型准确率指标介绍

模型准确率:正确预测(标注与预测完全匹配)的样本数与总样本数的比例。模型准确率越高,表明模型性能越好。

指标看板介绍

指标看板使用BLEU指标评价模型,其核心思想是计算准确率。例如,给定一个标准译文(reference)和一个算法生成的句子(candidate),BLEU-1的计算公式为候选句中出现于标准译文中的单词数(m)与候选句总单词数(n)的比值,即m/n。指标看板通过BLEU-1、BLEU-2与BLEU-4评价模型性能。

  • BLEU-1:机器翻译、⽂本摘要等生成类任务常用的评价指标。用于评估模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。
  • BLEU-2:机器翻译、⽂本摘要等生成类任务常用的评价指标。用于评估模型生成句子与实际句子在中词组层面的匹配度,数值越高,表明模型性能越好。
  • BLEU-4:机器翻译、⽂本摘要等生成类任务常用的评价指标。它通过将模型生成结果和标注结果分别按1-gram、2-gram、3-gram和4-gram拆分后,然后计算加权平均精确率。其中,n-gram指的是一个句子中连续的n个单词片段。BLEU-4 的数值越高,表明模型性能越好。

困惑度指标介绍

困惑度用来衡量大语言模型预测一个语言样本的能力。数值越低,准确率越高,表明模型性能越好。

相关文档