文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理历史版本文档/ 主流开源大模型基于Lite Server适配Ascend-vLLM框架NPU推理指导（6.5.907）/ 各模型支持的最小卡数和最大序列

更新时间：2025-11-06 GMT+08:00

查看PDF

各模型支持的最小卡数和最大序列

基于vLLM部署推理服务时，不同模型推理支持的最小NPU卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。

以下值是在gpu-memory-utilization为0.95时测试得出，为服务部署所需的最小NPU卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

以Qwen3-14b为例，NPU卡显存为64GB时，至少需要1张卡运行推理业务，1张卡运行的情况下，推荐的最大序列max-model-len长度最大是32K，此处的单位K是1024，即32*1024。

测试方法：gpu-memory-utilization为0.95下，以4k、8k、16k递增max-model-len，直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明
序号	模型名	64GB显存
序号	模型名	最小卡数	最大序列(K) max-model-len
1	DeepSeek-R1-Distill-Llama-8B	1	32
2	DeepSeek-R1-Distill-Llama-70B	4	32
3	DeepSeek-R1-Distill-Qwen-1.5B	1	32
4	DeepSeek-R1-Distill-Qwen-7B	1	32
5	DeepSeek-R1-Distill-Qwen-14B	1	32
6	DeepSeek-R1-0528-Qwen3-8B	1	32
7	glm-4-9b	1	32
8	llama3-8b	1	32
9	llama3-70b	4	32
10	llama3.1-8b	1	32
11	llama3.1-70b	4	32
12	llama-3.2-1B	1	32
13	llama-3.2-3B	1	32
14	qwen2-0.5b	1	32
15	qwen2-1.5b	1	32
16	qwen2-7b	1	32
17	qwen2-72b	4	32
18	qwen2.5-0.5b	1	32
19	qwen2.5-1.5b	1	32
20	qwen2.5-3b	1	32
21	qwen2.5-7b	1	32
22	qwen2.5-14b	1	32
23	qwen2.5-32b	2	32
24	qwen2.5-72b	4	32
25	qwen3-0.6b	1	32
26	qwen3-1.7b	1	32
27	qwen3-4b	1	32
28	qwen3-8b	1	32
29	qwen3-14b	1	32
30	qwen3-30b-a3b	2	32
31	qwen3-32b	2	32
32	qwen3-235b-a22b	16	64
33	QwQ-32B	2	32
34	bge-reranker-v2-m3	1	8
35	bge-base-en-v1.5	1	0.5
36	bge-base-zh-v1.5	1	0.5
37	bge-large-en-v1.5	1	0.5
38	bge-large-zh-v1.5	1	0.5
39	bge-m3	1	8
40	qwen2-vl-2B	1	8
41	qwen2-vl-7B	1	32
42	qwen2-vl-72B	4	32
43	qwen2.5-vl-7B	1	32
44	qwen2.5-vl-32B	1	32
45	qwen2.5-vl-72B	4	48
46	internvl2.5-26B	1	8
47	InternVL2-Llama3-76B-AWQ	2	8
48	gemma3-27B	1	4
49	Qwen3-Embedding-0.6B	1	32
50	Qwen3-Embedding-4B	1	40
51	Qwen3-Embedding-8B	1	40
52	Qwen3-Reranker-0.6B	1	40
53	Qwen3-Reranker-4B	1	40
54	Qwen3-Reranker-8B	1	40
55	Qwen3-Coder-480B-A35B	32	64
56	internvl3-8B	1	16
57	internvl3-14B	1	16
58	internvl3-38B	2	16
59	internvl3-78B	4	32

父主题： 主流开源大模型基于Lite Server适配Ascend-vLLM框架NPU推理指导（6.5.907）

上一篇：支持的模型列表

下一篇：版本说明和要求

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问