分析评测结果并优化模型
根据模型评测结果优化:
增量预训练的核心目标是在一个已经训练好的基座模型上,使用新的、特定的数据(例如特定领域知识、新的时间段的知识)进行继续训练,期望模型能够吸收新知识的同时,不遗忘原有的通用能力
因此,评价一个模型好坏的核心思想是:“收益有多大,代价有多高?”
首先针对模型的领域能力,需要对比增量预训练前后模型在领域评测集上的性能提升是否符合预期,当前模型领域能力是否满足真实场景要求。其次针对模型的通用能力,需要对比模型的综合知识是否发生遗忘,文本理解能力是否有下降等。
- 符合预期:如果模型的领域能力符合预期,可以在真实场景中使用,且模型的通用能力只有小幅度下降。那么考虑基于保存的checkpoint进行领域微调,进一步强化模型的问答能力,并对齐回答格式。
- 不符合预期:
- 如果模型的领域能力没有达到预期,可以首先检查领域数据中是否存在低质量数据,这部分数据往往对模型的危害较大,需要进一步进行加工处理,提升数据的质量。在保证数据的质量达到要求的情况下,可以进一步增加领域数据的比例,如果领域数据的数据量很小,则可以适当对领域数据进行上采样,从而提高模型的领域能力。
- 如果模型的领域能力相比增量预训练前没有明显提升,可能是该部分领域数据在预训练的时候已经被模型学习过了,可以对领域数据集进行进一步的筛选与去重,保证知识的差异化。
- 如果模型的通用能力下降较为严重,则考虑增加通用指令数据的比例,同时提高数据集的质量。
- 如果模型对于与训练集同源的评测集的指标得分不高,则可以考虑适当增加模型的训练轮数。