文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型推理/
主流开源大模型基于Lite Server适配Ascend-vLLM框架NPU推理指导/
推理关键特性使用/
投机推理/
Eagle/Eagle3投机推理
更新时间:2025-11-06 GMT+08:00
Eagle/Eagle3投机推理
什么是Eagle/Eagle3投机
相比大小模型投机,Eagle/Eagle3投机仅有一层模型参数,同时使用历史生成的token和该token对应的hidden states作为投机模型的输入。这种方式提高了投机模型生成的效率。
主要应用场景
适用场景:
- 对时延要求较高的场景。
- 有专门的Eagle/Eagle3模型。
不适用场景:
- 吞吐量较大的场景(batchsize较大,算力遇到瓶颈)。
- 没有对应的Eagle/Eagle3模型
父主题: 投机推理