文档首页/魔坊(ModelArts)模型训推平台/最佳实践/LLM大语言模型推理/LLM大语言模型推理其它版本/主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导(6.5.908)/推理关键特性使用/投机推理/Eagle/Eagle3投机推理
更新时间:2025-12-15 GMT+08:00
Eagle/Eagle3投机推理
什么是Eagle/Eagle3投机
相比大小模型投机,Eagle/Eagle3投机仅有一层模型参数,同时使用历史生成的token和该token对应的hidden states作为投机模型的输入。这种方式提高了投机模型生成的效率。
主要应用场景
适用场景:
- 对时延要求较高的场景。
- 有专门的Eagle/Eagle3模型。
不适用场景:
- 吞吐量较大的场景(batchsize较大,算力遇到瓶颈)。
- 没有对应的Eagle/Eagle3模型
父主题:投机推理

