大小模型投机推理

什么是大小模型投机

大小模型投机是一种优化推理性能的技术，主要用于加速大语言模型（LLM）的生成过程。大小模型投机是一种利用小模型快速生成候选 token 序列，再由大模型进行验证的推理加速技术。小模型负责“投机”生成若干 token，大模型则并行验证这些 token 的合理性。如果候选 token 被接受，则跳过部分计算；否则回退到第一个错误位置重新生成。

主要应用场景

适用场景：

对时延要求较高的场景。
缺少专门的Eagle模型，可直接复用同系列模型的较小模型作为投机模型。

不适用场景：

吞吐量较大的场景(batchsize较大，算力遇到瓶颈)。

工作原理

起草阶段：使用小模型生成一段候选 token 序列。
验证阶段：将候选序列输入大模型进行并行计算，验证其概率分布是否一致。

启用大小投机参数

配置项	配置参数	取值类型	配置说明
--speculative-config	num_speculative_tokens	int	每次预测的 token 数量。
	method	str	投机方法："draft_model"。
	model	str	投机模型路径。

父主题： 投机推理

上一篇：N-Gram投机

下一篇：Eagle/Eagle3投机推理

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问