文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型推理/
主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(New)/
推理关键特性使用/
投机推理/
N-Gram投机
更新时间:2025-09-17 GMT+08:00
N-Gram投机
什么是N-Gram投机
N-Gram投机是一种优化推理性能的技术,主要用于加速大语言模型(LLM)的生成过程。它通过 N-Gram 匹配 来预测后续可能的 token,减少模型的计算量,从而提高生成速度。
主要应用场景
适用场景:
- 长文本生成(如故事、代码补全)。
- 高重复性任务(如批量问答、翻译)。
不适用场景:
- 短文本生成(投机收益不明显)。
- 高随机性任务(如创意写作,N-Gram 匹配率低)。
父主题: 投机推理