查看训练任务详情与训练指标
模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。
不同类型的训练方法可支持查看的训练指标有所差异,训练指标和训练方法的关系如下:
训练指标\模型类型 |
自监督训练 |
有监督训练 |
---|---|---|
训练损失值 |
√ |
√ |
模型准确率 |
× |
√ |
指标看板 |
× |
√ |
困惑度 |
× |
√ |
训练损失值指标介绍
训练损失值(Training Loss)是一种衡量模型预测结果和真实结果差距的指标,通常情况下越小越好。
一般来说,一个正常的Loss曲线是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。以下给出了几种正常的Loss曲线形式:
如果您发现Loss曲线出现了以下几种情况,可能意味着模型训练状态不正常:
- Loss曲线上升:Loss曲线上升的原因可能是数据质量差,或学习率设置过大,使得模型在最优解附近震荡,甚至跳过最优解,导致无法收敛。您可以尝试提升数据质量或减小学习率来解决。
图4 异常的Loss曲线:上升
- Loss曲线平缓,保持高位:Loss曲线平缓且保持高位不下降的原因可能是目标任务的难度较大,或模型的学习率设置过小,导致模型的收敛速度太慢,无法达到最优解。您可以尝试增大训练轮数或者增大学习率来解决。
图5 异常的Loss曲线:平缓且保持高位
- Loss曲线异常抖动:Loss曲线异常抖动的原因可能是训练数据质量差,比如数据存在噪声或分布不均衡,导致训练不稳定。您可以尝试提升数据质量来解决。
图6 异常的Loss曲线:异常抖动
模型准确率指标介绍
模型准确率:正确预测(标注与预测完全匹配)的样本数与总样本数的比例。模型准确率越高,表明模型性能越好。
指标看板介绍
指标看板使用BLEU指标评价模型,其核心思想是计算准确率。例如,给定一个标准译文(reference)和一个算法生成的句子(candidate),BLEU-1的计算公式为候选句中出现于标准译文中的单词数(m)与候选句总单词数(n)的比值,即m/n。指标看板通过BLEU-1、BLEU-2与BLEU-4评价模型性能。
- BLEU-1:机器翻译、⽂本摘要等生成类任务常用的评价指标。用于评估模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。
- BLEU-2:机器翻译、⽂本摘要等生成类任务常用的评价指标。用于评估模型生成句子与实际句子在中词组层面的匹配度,数值越高,表明模型性能越好。
- BLEU-4:机器翻译、⽂本摘要等生成类任务常用的评价指标。它通过将模型生成结果和标注结果分别按1-gram、2-gram、3-gram和4-gram拆分后,然后计算加权平均精确率。其中,n-gram指的是一个句子中连续的n个单词片段。BLEU-4 的数值越高,表明模型性能越好。
困惑度指标介绍
困惑度用来衡量大语言模型预测一个语言样本的能力。数值越低,准确率越高,表明模型性能越好。