大小模型投机推理
什么是大小模型投机
大小模型投机是一种优化推理性能的技术,主要用于加速大语言模型(LLM)的生成过程。大小模型投机是一种利用小模型快速生成候选 token 序列,再由大模型进行验证的推理加速技术。小模型负责“投机”生成若干 token,大模型则并行验证这些 token 的合理性。如果候选 token 被接受,则跳过部分计算;否则回退到第一个错误位置重新生成。
主要应用场景
适用场景:
- 对时延要求较高的场景。
- 缺少专门的Eagle模型,可直接复用同系列模型的较小模型作为投机模型。
不适用场景:
- 吞吐量较大的场景(batchsize较大,算力遇到瓶颈)。