分析评测结果并优化模型
根据模型评测结果优化
微调的核心目标是在一个已经训练好的基座模型上,使用特定的数据提升模型在某个特定的任务或领域的表现,期望模型能够吸收新知识的同时,不遗忘原有的通用能力。
因此,评价一个模型好坏的核心思想是:“收益有多大,代价有多高?”
首先针对模型的领域能力,需要对比微调前后模型在领域评测集上的性能提升是否符合预期,当前模型领域能力是否满足真实场景要求。其次针对模型的通用能力,需要对比模型的综合知识是否发生遗忘,文本理解能力是否有下降等。
- 符合预期:如果模型的领域能力符合预期,可以在真实场景中使用,且模型的通用能力只有小幅度下降。那么考虑基于保存的checkpoint进行领域微调,进一步强化模型的问答能力,并对齐回答格式。
- 不符合预期:
- 如果模型的领域能力没有达到预期,可以首先检查领域数据中是否存在低质量数据,这部分数据往往对模型的危害较大,需要进一步进行加工处理,提升数据的质量。在保证数据的质量达到要求的情况下,可以进一步增加领域数据的比例,如果领域数据的数据量很小,则可以适当对领域数据进行上采样,从而提高模型的领域能力。
- 如果模型的领域能力相比增量预训练前没有明显提升,可能是该部分领域数据在预训练的时候已经被模型学习过了,可以对领域数据集进行进一步的筛选与去重,保证知识的差异化。
- 如果模型的通用能力下降较为严重,则考虑增加通用指令数据的比例,同时提高数据集的质量。
- 如果模型对于与训练集同源的评测集的指标得分不高,则可以考虑适当增加模型的训练轮数。
调优案例说明
以催收意图识别为例,该场景需要识别以下6种不同意图:
- 咨询:通常是一般性问题询问或请求客服帮助解决问题。
- 投诉:当用户对服务、产品或处理不满,明确要求作为投诉问题来处理。
- 表扬:用户称赞服务。
- 建议:用户提出改进建议。
- 催复:在银行业务的工单分类中,“催复”通常指客户或内部人员针对某一未及时得到回复的工单(如咨询、投诉、建议等)发起的催促请求,目的是要求银行加快处理进度或明确答复时限。
- 投诉撤销:撤回之前的投诉。
通过以上意图可以看出,在获取数据的过程中, 强调了明确要求作为投诉问题来处理才算作投诉意图,但是获取蒸馏数据的过程中,模型依然倾向于将用户的抱怨识别为投诉意图,而非咨询意图。
优化方案:使用多次拒绝采样和提示样结合的方式, 增加蒸馏数据的意图识别准确性, 并通过规则校验模型答复结果是否正确,过滤掉模型答复错误的样例。 最终,模型学会了以合理的方式思考并回答该问题。
优化后, 模型的分析过程明显完全符合期望的方向, 以下为训练过后,模型的思考过程:
用户说:“不是着急用啊的钱。” 这表达了不满,但不满是隐含的,没有明确投诉。
在投诉定义中:用户对服务不满,明确要求作为投诉处理。用户没有说“我要投诉”,所以可能不是投诉。
用户是在报告问题,请求帮助,所以可能还是咨询。