文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理历史版本文档/ 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）/ 附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

更新时间：2025-01-18 GMT+08:00

查看PDF

附录：基于vLLM不同模型推理支持最小卡数和最大序列说明

基于vLLM（v0.6.3）部署推理服务时，不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明，如下面的表格所示。

以下值是在gpu-memory-utilization为0.9时测试得出，为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度，不代表最佳性能。

以llama2-13b为例，NPU卡显存为32GB时，至少需要2张卡运行推理业务，2张卡运行的情况下，推荐的最大序列max-model-len长度最大是16K，此处的单位K是1024，即16*1024。

测试方法：gpu-memory-utilization为0.9下，以4k、8k、16k递增max-model-len，直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明
序号	模型名	32GB显存		64GB显存
序号	模型名	最小卡数	最大序列(K) max-model-len	最小卡数	最大序列(K) max-model-len
1	llama-7b	1	16	1	32
2	llama-13b	2	16	1	16
3	llama-65b	8	16	4	16
4	llama2-7b	1	16	1	32
5	llama2-13b	2	16	1	16
6	llama2-70b	8	32	4	64
7	llama3-8b	1	32	1	128
8	llama3.1-8b	1	32	1	128
9	llama3-70b	8	32	4	64
10	llama3.1-70b	8	32	4	64
11	llama3.2-1b	1	128	1	128
12	llama3.2-3b	1	128	1	128
13	qwen-7b	1	8	1	32
14	qwen-14b	2	16	1	16
15	qwen-72b	8	8	4	16
16	qwen1.5-0.5b	1	128	1	256
17	qwen1.5-7b	1	8	1	32
18	qwen1.5-1.8b	1	64	1	128
19	qwen1.5-14b	2	16	1	16
20	qwen1.5-32b	4	32	2	64
21	qwen1.5-72b	8	8	4	16
22	qwen1.5-110b	-	-	8	128
23	qwen2-0.5b	1	128	1	256
24	qwen2-1.5b	1	64	1	128
25	qwen2-7b	1	8	1	32
26	qwen2-72b	8	32	4	64
27	qwen2.5-0.5b	1	32	1	32
28	qwen2.5-1.5b	1	32	1	32
29	qwen2.5-3b	1	32	1	32
30	qwen2.5-7b	1	32	1	32
31	qwen2.5-14b	2	32	1	32
32	qwen2.5-32b	4	32	2	64
33	qwen2.5-72b	8	32	4	32
34	chatglm2-6b	1	64	1	128
35	chatglm3-6b	1	64	1	128
36	glm-4-9b	1	32	1	128
37	baichuan2-7b	1	8	1	32
38	baichuan2-13b	2	4	1	4
39	yi-6b	1	64	1	128
40	yi-9b	1	32	1	64
41	yi-34b	4	32	2	64
42	deepseek-llm-7b	1	16	1	32
43	deepseek-coder-33b-instruct	4	32	2	64
44	deepseek-llm-67b	8	32	4	64
45	mistral-7b	1	32	1	128
46	mixtral-8x7b	4	8	2	32
47	gemma-2b	1	64	1	128
48	gemma-7b	1	8	1	32
49	falcon-11b	1	8	1	64
50	llava-1.5-7b	1	16	1	32
51	llava-1.5-13b	1	8	1	16
52	llava-v1.6-7b	1	16	1	32
53	llava-v1.6-13b	1	8	1	16
54	llava-v1.6-34b	4	32	2	64
55	internvl2-8b	1	16`	1	32
56	internvl2-26b	2	8	1	8
57	internvl2-40b	-	-	2	32
58	internVL2-Llama3-76B	-	-	4	8
59	MiniCPM-v2.6	-	-	1	8
60	llama-3.1-405B-AWQ	-	-	8	32
61	qwen2-57b-a14b	-	-	2	16
62	deepseek-v2-lite-16b	2	4	1	4
63	deepseek-v2-236b	-	-	8	4
64	qwen2-vl-2B	1	8	1	8
65	qwen2-vl-7B	1	8	1	32
66	qwen2-vl-72B	-	-	4	32
67	qwen-vl	1	64	1	64
68	qwen-vl-chat	1	64	1	64
69	MiniCPM-v2	2	16	1	16

“-”表示不支持。

父主题： 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）

上一篇：Eagle投机小模型训练

下一篇：附录：大模型推理常见问题

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问