更新时间:2025-09-12 GMT+08:00
分享

超参设置

迭代步数/Iterations

表示模型参数/权重更新的次数。在调优过程中,Qwen2-72B-1K模型的每一个Iterations会消耗512条训练数据,其他模型的每一个Iterations会消耗32条训练数据。

当数据集是数百量级,则建议迭代4~8个epoch(epoch表示整个数据集被完整地用于一次训练的次数);当数据集是数千量级,则建议迭代2~4个epoch;当数据集是更大数量,则建议迭代1~2个epoch。

总Iterations = 整个数据集完整训练需要的Iterations * epoch。例如,当一个数据集有3200条数据,完整训练一个数据集的Iterations为100,迭代2个epoch,总Iterations就是200。

取值范围:1~100000

学习率/learning_rate

设置每个迭代步数(iteration)模型参数/权重更新的速率。学习率设置的过高会导致模型难以收敛,过低则会导致模型收敛速度过慢。

取值范围:[0, 0.1]

默认值:0.00002

建议微调场景的学习率设置在10-5这个量级。

相关文档