文档首页/ 魔坊（ModelArts）模型训推平台/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理其它版本/ 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导（6.5.908）/ 各模型支持的最小卡数和最大序列

更新时间：2026-07-04 GMT+08:00

各模型支持的最小卡数和最大序列

基于vLLM部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。

以下值是在gpu-memory-utilization为0.95时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

以Qwen3-8B为例，NPU卡显存为64GB时，至少需要1张卡运行推理业务，1张卡运行的情况下，推荐的最大序列max-model-len长度最大是32K，此处的单位K是1024，即32*1024。

测试方法：gpu-memory-utilization设置为0.95，以4k、8k、16k递增max-model-len，直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明（大语言模型）
序号	模型名	64GB显存		备注
序号	模型名	最小卡数	最大序列(K) max-model-len	备注
1	Qwen2.5-14B-Instruct	1	32	/
2	Qwen3-8B	1	32	/
3	Qwen3-32B	2	32	/
4	Qwen3-Embedding-8B	1	40	/
5	Qwen3-Reranker-8B	1	40	仅支持1卡部署
6	bge-large-en-v1.5	1	0.5	/

父主题： 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导（6.5.908）

上一篇：支持的模型列表

下一篇：版本说明和要求

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问