文档首页/ 魔坊(ModelArts)模型训推平台/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理其它版本/ 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导(6.5.908)/ 推理关键特性使用/ 投机推理/ 大小模型投机推理
更新时间:2026-04-22 GMT+08:00
大小模型投机推理
什么是大小模型投机
大小模型投机是一种优化推理性能的技术,主要用于加速大语言模型(LLM)的生成过程。大小模型投机是一种利用小模型快速生成候选 token 序列,再由大模型进行验证的推理加速技术。小模型负责“投机”生成若干 token,大模型则并行验证这些 token 的合理性。如果候选 token 被接受,则跳过部分计算;否则回退到第一个错误位置重新生成。
主要应用场景
适用场景:
- 对时延要求较高的场景。
- 缺少专门的Eagle模型,可直接复用同系列模型的较小模型作为投机模型。
- 需要保证大小模型的权重文件中 config.json文件下的"vocab_size",即词表相同。

不适用场景:
- 吞吐量较大的场景(batchsize较大,算力遇到瓶颈)。
父主题: 投机推理