各模型支持的最小卡数和最大序列
基于vLLM部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。
以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以Qwen3-14b为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。
测试方法:gpu-memory-utilization为0.95下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。
序号 |
模型名 |
64GB显存 |
|
---|---|---|---|
最小卡数 |
最大序列(K) max-model-len |
||
1 |
DeepSeek-R1-Distill-Llama-8B |
1 |
32 |
2 |
DeepSeek-R1-Distill-Llama-70B |
4 |
32 |
3 |
DeepSeek-R1-Distill-Qwen-1.5B |
1 |
32 |
4 |
DeepSeek-R1-Distill-Qwen-7B |
1 |
32 |
5 |
DeepSeek-R1-Distill-Qwen-14B |
1 |
32 |
6 |
glm-4-9b |
1 |
32 |
7 |
llama3-8b |
1 |
32 |
8 |
llama3-70b |
4 |
32 |
9 |
llama3.1-8b |
1 |
32 |
10 |
llama3.1-70b |
4 |
32 |
11 |
llama-3.2-1B |
1 |
32 |
12 |
llama-3.2-3B |
1 |
32 |
13 |
qwen2-0.5b |
1 |
32 |
14 |
qwen2-1.5b |
1 |
32 |
15 |
qwen2-7b |
1 |
32 |
16 |
qwen2-72b |
4 |
32 |
17 |
qwen2.5-0.5b |
1 |
32 |
18 |
qwen2.5-1.5b |
1 |
32 |
19 |
qwen2.5-3b |
1 |
32 |
20 |
qwen2.5-7b |
1 |
32 |
21 |
qwen2.5-14b |
1 |
32 |
22 |
qwen2.5-32b |
2 |
32 |
23 |
qwen2.5-72b |
4 |
32 |
24 |
qwen3-0.6b |
1 |
32 |
25 |
qwen3-1.7b |
1 |
32 |
26 |
qwen3-4b |
1 |
32 |
27 |
qwen3-8b |
1 |
32 |
28 |
qwen3-14b |
1 |
32 |
29 |
qwen3-30b-a3b |
2 |
32 |
30 |
qwen3-32b |
2 |
32 |
31 |
qwen3-235b-a22b |
16 |
64 |
32 |
QwQ-32B |
2 |
32 |
33 |
bge-reranker-v2-m3 |
1 |
8 |
34 |
bge-base-en-v1.5 |
1 |
0.5 |
35 |
bge-base-zh-v1.5 |
1 |
0.5 |
36 |
bge-large-en-v1.5 |
1 |
0.5 |
37 |
bge-large-zh-v1.5 |
1 |
0.5 |
38 |
bge-m3 |
1 |
8 |
39 |
qwen2-vl-2B |
1 |
8 |
40 |
qwen2-vl-7B |
1 |
32 |
41 |
qwen2-vl-72B |
4 |
32 |
42 |
qwen2.5-vl-7B |
1 |
8 |
43 |
qwen2.5-vl-32B |
1 |
32 |
44 |
qwen2.5-vl-72B |
4 |
48 |
45 |
internvl2.5-26B |
1 |
8 |
46 |
InternVL2-Llama3-76B-AWQ |
2 |
8 |
47 |
gemma3-27B |
1 |
4 |