更新时间:2025-11-06 GMT+08:00
分享

大小模型投机推理

什么是大小模型投机

大小模型投机是一种优化推理性能的技术,主要用于加速大语言模型(LLM)的生成过程。大小模型投机是一种利用小模型快速生成候选 token 序列,再由大模型进行验证的推理加速技术。小模型负责“投机”生成若干 token,大模型则并行验证这些 token 的合理性。如果候选 token 被接受,则跳过部分计算;否则回退到第一个错误位置重新生成。

主要应用场景

适用场景

  • 对时延要求较高的场景。
  • 缺少专门的Eagle模型,可直接复用同系列模型的较小模型作为投机模型。

不适用场景

  • 吞吐量较大的场景(batchsize较大,算力遇到瓶颈)。

相关文档