更新时间:2025-06-19 GMT+08:00
分享

什么是KVCache

KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新Token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升了推理效率。

相关文档