模型蒸馏典型问题
- 在进行模型蒸馏的过程中,“教师模型”的一些缺陷也会被学到,如模型蒸馏得到的回复是错误的,或包含有害信息的。
在得到蒸馏数据之后,应当对数据进行进一步清洗,结合真实数据对错误内容和有害内容进行校准或过滤,保证数据质量。数据质量对模型的性能至关重要。
- 真实场景对“学生模型”的性能要求与实际模型规模不匹配。
这是模型蒸馏的一个主要矛盾,我们希望在较小规模的模型上获得较强的模型能力,但是模型的能力上限和规模是相关的,我们不可能完全复制“教师模型”的能力。为此,对于规模较小的模型,通常来说我们需要聚焦某一个小场景(如本案例中的催收意图识别场景),针对性地进行优化。
- 模型发生在蒸馏数据集上发生过拟合,即:训练loss已经很低,但是在验证集上表现不佳。
通常是因为“教师模型”蒸馏得到的数据较为单一,建议进行多次蒸馏采样,增加蒸馏数据的多样性,从而避免“学生模型”学习到“教师模型”的“偏见信息”。