盘古大模型 PanguLargeModels
盘古大模型 PanguLargeModels
- 功能总览
- 产品介绍
- 计费说明
- 快速入门
-
用户指南
- 盘古大模型服务ModelArts Studio大模型开发平台使用流程
- 准备工作
- 在模型广场查看模型
- 使用数据工程构建数据集
- 开发盘古NLP大模型
- 开发盘古CV大模型
- 开发盘古预测大模型
- 开发盘古科学计算大模型
- 开发盘古搜索规划模型
- 开发盘古向量&重排模型
- 开发盘古行业大模型
- 开发Deepseek大模型
- 开发图像搜索模型
- 开发提示词工程
- 开发Agent应用
- 管理空间资产
- 管理资源池
- 最佳实践
- API参考
- SDK参考
-
常见问题
- 高频常见问题
- 大模型概念类
-
大模型微调训练类
- 无监督领域知识数据量无法支持增量预训练,如何进行模型学习
- 如何调整训练参数,使盘古大模型效果最优
- 如何判断盘古大模型训练状态是否正常
- 如何评估微调后的盘古大模型是否正常
- 如何调整推理参数,使盘古大模型效果最优
- 为什么微调后的盘古大模型总是重复相同的回答
- 为什么微调后的盘古大模型的回答中会出现乱码
- 为什么微调后的盘古大模型的回答会异常中断
- 为什么微调后的盘古大模型只能回答训练样本中的问题
- 为什么在微调后的盘古大模型中输入训练样本问题,回答完全不同
- 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差
- 为什么多轮问答场景的盘古大模型微调效果不好
- 数据量足够,为什么盘古大模型微调效果仍然不好
- 数据量和质量均满足要求,为什么盘古大模型微调效果不好
- 大模型使用类
- 提示词工程类
- 视频帮助
- 文档下载
- 通用参考
本文导读
展开导读
链接复制成功!
如何判断盘古大模型训练状态是否正常
判断训练状态是否正常,通常可以通过观察训练过程中Loss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。
您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。
以下给出了几种正常的Loss曲线形式:
图1 正常的Loss曲线:平滑下降

图2 正常的Loss曲线:阶梯下降

如果您发现Loss曲线出现了以下几种情况,可能意味着模型训练状态不正常:
- Loss曲线上升:Loss上升的原因可能是由于数据质量差,或者学习率设置得过大,使得模型在最优解附近震荡,甚至跳过最优解,导致无法收敛。您可以尝试提升数据质量或者减小学习率的方式来解决。
图3 异常的Loss曲线:上升
- Loss曲线平缓,保持高位:Loss保持平缓且保持高位不下降的原因可能是由于目标任务的难度较大,或者模型的学习率设置得过小,导致模型的收敛速度太慢,无法达到最优解。您可以尝试增大训练轮数或者增大学习率的方式来解决。
图4 异常的Loss曲线:平缓且保持高位
- Loss曲线异常抖动:Loss曲线异常抖动的原因可能是由于训练数据质量差,比如数据存在噪声或者分布不均衡,导致训练过程不稳定。你可以尝试提升数据质量的方式来解决。
图5 异常的Loss曲线:异常抖动
父主题: 大模型微调训练类