文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理历史版本文档/ 主流开源大模型基于Lite Server&Cluster适配Ascend-vLLM PyTorch NPU推理指导（6.5.905）/ 资源规划、准备环境/ 各模型支持的最小卡数和最大序列

更新时间：2025-07-29 GMT+08:00

查看PDF

各模型支持的最小卡数和最大序列

基于vLLM（v0.8.5.rc1）部署推理服务时，不同模型推理支持的最小昇腾Snt9b卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。

以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

以QwQ-32B为例，NPU卡显存为32GB时，至少需要4张卡运行推理业务，4张卡运行的情况下，推荐的最大序列max-model-len长度最大是32K，此处的单位K是1024，即32*1024。

测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态benchmark下的最大max-model-len。

bge-reranker-v2-m3模型使用openai启动服务，发送推理请求使用的是接口curl -X POST http://localhost:port/v1/rerank。

表1 **基于vLLM不同模型推理支持Snt9b最小卡数和最大序列说明**
模型类别	模型名	64GB显存
模型类别	模型名	最小卡数	最大序列(K) max-model-len
LLM	DeepSeek-R1-Distill-Llama-8B	1	128
	DeepSeek-R1-Distill-Llama-70B	4	64
	DeepSeek-R1-Distill-Qwen-1.5B	1	128
	DeepSeek-R1-Distill-Qwen-7B	1	32
	DeepSeek-R1-Distill-Qwen-14B	1	32
	DeepSeek-R1-Distill-Qwen-32B	2	64
	GLM4-9B	1	128
	Qwen2-0.5B	1	256
	Qwen2-1.5B	1	128
	Qwen2-7B	1	32
	Qwen2-72B	4	64
	Qwen2-57B-A14B	2	16
	Qwen2.5-0.5B	1	32
	Qwen2.5-1.5B	1	32
	Qwen2.5-3B	1	32
	Qwen2.5-7B	1	32
	Qwen2.5-14B	1	32
	Qwen2.5-32B	2	64
	Qwen2.5-72B	4	32
	Qwen3-0.6B	1	32
	Qwen3-1.7B	1	32
	Qwen3-4B	1	32
	Qwen3-8B	1	128
	Qwen3-14B	1	64
	Qwen3-32B	2	64
	Qwen3-30B-A3B	2	128
	Qwen3-235B-A22B	16	64
	QwQ-32B	2	64
多模态理解	Qwen2.5-vl-7B	1	32
	Qwen2.5-vl-72B	4	32
	Internvl2.5-38B	2	32
	Qwen2.5-vl-72B-AWQ	2	32
	Gemma-3-27B	2	16
Embeding&Rerank	bge-base-en-v1.5	1	0.5
	bge-base-zh-v1.5	1	0.5
	bge-large-en-v1.5	1	0.5
	bge-large-zh-v1.5	1	0.5
	bge-m3	1	8
	bge-reranker-v2-m3	1	8

父主题： 资源规划、准备环境

上一篇：资源规划、准备环境

下一篇：准备资源环境

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问