更新时间:2025-09-16 GMT+08:00
分享

分析评测结果并优化模型

根据模型评测结果优化

模型蒸馏的主要目标是将“教师模型”的知识迁移到“学生模型”上面,让“学生模型”在某个特定的场景下,性能表现能够达到接近“教师模型”的性能水平。与此同时需要注意的是,经过蒸馏训练的“学生模型”,期望其通用领域的能力不要有大幅度的下降。

因此,评价一个模型好坏的核心思想是:“收益有多大,代价有多高?”

首先针对模型的领域场景能力,需要对比蒸馏训练前后模型在评测集上的性能提升是否符合预期,当前模型的思考过程是否合理,当前模型是否满足真实场景要求。其次针对模型的通用能力,需要对比模型的综合知识是否发生遗忘,文本理解能力是否有下降等。

  • 符合预期:模型的领域场景能力符合预期,可以在真实场景中使用,且模型的通用能力只有小幅度下降。
  • 不符合预期
    • 如果模型的领域场景能力没有达到预期,或思考过程与预期不一致,可以首先检查领域数据中是否存在低质量数据,这部分数据往往对模型的危害较大,需要进一步进行加工处理,提升数据的质量。在保证数据的质量达到要求的情况下,可以进一步增加领域数据的比例,如果领域数据的数据量很小,则可以适当对领域数据进行上采样,从而提高模型的领域能力。
    • 如果模型的通用能力下降较为严重,则考虑增加通用指令数据的比例,同时提高数据集的质量。
    • 如果模型对于与训练集同源的评测集的指标得分不高,则可以考虑适当增加模型的训练轮数。

调优案例说明

以催收意图识别为例,该场景需要识别以下6种不同意图:

  • 咨询:通常是一般性问题询问或请求客服帮助解决问题。
  • 投诉:当用户对服务、产品或处理不满,明确要求作为投诉问题来处理
  • 表扬:用户称赞服务。
  • 建议:用户提出改进建议。
  • 催复:在银行业务的工单分类中,“催复”通常指客户或内部人员针对某一未及时得到回复的工单(如咨询、投诉、建议等)发起的催促请求,目的是要求银行加快处理进度或明确答复时限。
  • 投诉撤销:撤回之前的投诉。

我们发现,在进行数据蒸馏时,“教师模型”会不可避免地将部分数据的分类弄错,即使占比较少,但是仍然会影响最终的模型准确率。为此,需要对蒸馏得到的数据进行进一步的处理和筛选,严格校验模型答复结果是否正确,过滤掉模型答复错误的样例。 在提高数据质量后,模型回复的准确率有了进一步提升。

相关文档