本文导读

展开导读

文档首页/ 盘古大模型 PanguLargeModels/ 常见问题/ 大模型微调训练类/ 如何调整训练参数，使盘古大模型效果最优

如何调整训练参数，使盘古大模型效果最优

更新时间：2025-02-25 GMT+08:00

查看PDF

模型微调参数的选择没有标准答案，不同的场景，有不同的调整策略。一般微调参数的影响会受到以下几个因素的影响：

目标任务的难度：如果目标任务的难度较低，模型能较容易的学习知识，那么少量的训练轮数就能达到较好的效果。反之，若任务较复杂，那么可能就需要更多的训练轮数。
数据量级：如果微调数据很多，从客观上来说越多的数据越能接近真实分布，那么可以使用较大的学习率和较大的批量大小，以提高训练效率。如果微调数据量相对较少，则可以使用较小的学习率和较小的数据批量大小，避免过拟合。
通用模型的规格：如果模型参数规模较小，那么可能需要较大的学习率和较大的批量大小，以提高训练效率。如果规模较大，那么可能需要较小的学习率和较小的批量大小，防止内存溢出。

这里提供了一些微调参数的建议值和说明，供您参考：

表1 微调参数的建议和说明
训练参数	范围	建议值	说明
训练轮数（epoch）	1~50	2/4/8/10	训练轮数是指需要完成全量训练数据集训练的次数。训练轮数越大，模型学习数据的迭代步数就越多，可以学得更深入，但过高会导致过拟合；训练轮数越小，模型学习数据的迭代步数就越少，过低则会导致欠拟合。您可根据任务难度和数据规模进行调整。一般来说，如果目标任务的难度较大或数据量级很小，可以使用较大的训练轮数，反之可以使用较小的训练轮数。如果您没有专业的调优经验，可以优先使用平台提供的默认值，再结合训练过程中模型的收敛情况动态调整。
数据批量大小（batch_size）	>=1	4/8	数据批量大小是指对数据集进行分批读取训练时，所设定的每个批次数据大小。批量大小越大，训练速度越快，但是也会占用更多的内存资源，并且可能导致收敛困难或者过拟合；批量大小越小，内存消耗越小，但是收敛速度会变慢，同时模型更容易受到数据噪声的影响，从而导致模型收敛困难。您可根据数据和模型的规模进行调整。一般来说，如果数据量级很小或模型参数规模很大，可以使用较小的批量大小，反之可以使用较大的批量大小。如果您没有专业的调优经验，可以优先使用平台提供的默认值，再结合训练过程中的实际情况动态调整。
学习率（learning_rate）	0~1	1e-6~5e-4	学习率是在梯度下降的过程中更新权重时的超参数，过高会导致模型在最优解附近震荡，甚至跳过最优解，无法收敛，过低则会导致模型收敛速度过慢。您可根据数据和模型的规模进行调整。一般来说，如果数据量级很小或模型参数规模很大，可以使用较小的学习率，反之可以使用较大的学习率。如果您没有专业的调优经验，可以优先使用平台提供的默认值，再结合训练过程中模型的收敛情况动态调整。
学习率衰减比率（learning_rate_decay_ratio）	0~1	0.01~0.1	学习率衰减比率用于设置训练过程中的学习率衰减的最小值。计算公式为：最小学习率=学习率*学习率衰减比率。

说明：

参数的选择没有标准答案，您需要根据任务的实际情况进行调整，以上建议值仅供参考。

父主题： 大模型微调训练类

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

文档反馈

咨询盘古Doer

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容

登录并提交直接提交取消