更新时间:2025-11-06 GMT+08:00
分享

Eagle/Eagle3投机推理

什么是Eagle/Eagle3投机

相比大小模型投机,Eagle/Eagle3投机仅有一层模型参数,同时使用历史生成的token和该token对应的hidden states作为投机模型的输入。这种方式提高了投机模型生成的效率。

主要应用场景

适用场景

  • 对时延要求较高的场景。
  • 有专门的Eagle/Eagle3模型。

不适用场景

  • 吞吐量较大的场景(batchsize较大,算力遇到瓶颈)。
  • 没有对应的Eagle/Eagle3模型

相关文档