文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理历史版本文档/ 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）/ Ascend-vLLM介绍

更新时间：2025-07-29 GMT+08:00

查看PDF

Ascend-vLLM介绍

Ascend-vLLM概述

vLLM是GPU平台上广受欢迎的大模型推理框架，因其高效的continuous batching和pageAttention功能而备受青睐。此外，vLLM还具备投机推理和自动前缀缓存等关键功能，使其在学术界和工业界都得到了广泛应用。

Ascend-vLLM是华为云针对NPU优化的推理框架，继承了vLLM的优点，并通过特定优化实现了更高的性能和易用性。它使得在NPU卡上运行大模型变得更加高效和便捷，为用户带来了极大的便利和性能提升。Ascend-vLLM可广泛应用于各种大模型推理任务，特别是在需要高性能和高效率的场景中，如自然语言处理、图像生成和语音识别等。

Ascend-vLLM的主要特点

易用性：Ascend-vLLM简化了在大模型上的部署和推理过程，使开发者可以更轻松地使用它。
易开发性：提供了友好的开发和调试环境，便于模型的调整和优化。
高性能：通过自研特性和针对NPU的优化，如PD分离、前后处理、sample等，实现了高效的推理性能。

Ascend-vLLM架构

Ascend-vLLM架构图如下所示。

图1 Ascend-vLLM架构图
点击放大

点击放大

算子：使用CANN基础算子和高性能融合算子，同时支持用户自定义算子，持续迭代优化，提高推理效率。
模型：结构实现和社区一致，Huggingface模型开箱即用，同时可以快速适配新模型。
调用：提供高性能算子下发和图模式两种方案，兼顾性能和灵活性。
特性：服务调度、特性实现和社区一致，针对昇腾硬件做亲和替换和优化。
接口：离线SDK、在线OpenAI Server和社区完全一致，无缝迁移。

父主题： 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）

上一篇：主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）

下一篇：支持的模型列表

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问