各模型支持的最小卡数和最大序列
基于vLLM部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。
以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以Qwen3-14b为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。
测试方法:gpu-memory-utilization为0.95下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。
|
序号 |
模型名 |
64GB显存 |
|
|---|---|---|---|
|
最小卡数 |
最大序列(K) max-model-len |
||
|
1 |
DeepSeek-R1-Distill-Llama-8B |
1 |
32 |
|
2 |
DeepSeek-R1-Distill-Llama-70B |
4 |
32 |
|
3 |
DeepSeek-R1-Distill-Qwen-1.5B |
1 |
32 |
|
4 |
DeepSeek-R1-Distill-Qwen-7B |
1 |
32 |
|
5 |
DeepSeek-R1-Distill-Qwen-14B |
1 |
32 |
|
6 |
DeepSeek-R1-0528-Qwen3-8B |
1 |
32 |
|
7 |
GLM-4-9B |
1 |
32 |
|
8 |
Llama3-8B |
1 |
32 |
|
9 |
Llama3-70B |
4 |
32 |
|
10 |
Llama3.1-8B |
1 |
32 |
|
11 |
Llama3.1-70B |
4 |
32 |
|
12 |
Llama-3.2-1B |
1 |
32 |
|
13 |
Llama-3.2-3B |
1 |
32 |
|
14 |
Qwen2-0.5B |
1 |
32 |
|
15 |
Qwen2-1.5B |
1 |
32 |
|
16 |
Qwen2-7B |
1 |
32 |
|
17 |
Qwen2-72B |
4 |
32 |
|
18 |
Qwen2.5-0.5B |
1 |
32 |
|
19 |
Qwen2.5-1.5B |
1 |
32 |
|
20 |
Qwen2.5-3B |
1 |
32 |
|
21 |
Qwen2.5-7B |
1 |
32 |
|
22 |
Qwen2.5-14B |
1 |
32 |
|
23 |
Qwen2.5-32B |
2 |
32 |
|
24 |
Qwen2.5-72B |
4 |
32 |
|
25 |
Qwen3-0.6B |
1 |
32 |
|
26 |
Qwen3-1.7B |
1 |
32 |
|
27 |
Qwen3-4B |
1 |
32 |
|
28 |
Qwen3-8B |
1 |
32 |
|
29 |
Qwen3-14B |
1 |
32 |
|
30 |
Qwen3-30B-A3B |
2 |
32 |
|
31 |
Qwen3-32B |
2 |
32 |
|
32 |
Qwen3-235B-A22B |
16 |
64 |
|
33 |
Qwen3-235B-A22B-Thinking-2507 |
16 |
64 |
|
34 |
Qwen3-235B-A22B-Instruct-2507 |
16 |
64 |
|
35 |
QwQ-32B |
2 |
32 |
|
36 |
bge-reranker-v2-m3 |
1 |
8 |
|
37 |
bge-base-en-v1.5 |
1 |
0.5 |
|
38 |
bge-base-zh-v1.5 |
1 |
0.5 |
|
39 |
bge-large-en-v1.5 |
1 |
0.5 |
|
40 |
bge-large-zh-v1.5 |
1 |
0.5 |
|
41 |
bge-m3 |
1 |
8 |
|
42 |
Qwen2-VL-2B |
1 |
8 |
|
43 |
Qwen2-VL-7B |
1 |
32 |
|
44 |
Qwen2-VL-72B |
4 |
32 |
|
45 |
Qwen2.5-VL-7B |
1 |
32 |
|
46 |
Qwen2.5-VL-32B |
1 |
32 |
|
47 |
Qwen2.5-VL-72B |
4 |
48 |
|
48 |
InternVL2.5-26B |
1 |
8 |
|
49 |
InternVL2-Llama3-76B-AWQ |
2 |
8 |
|
50 |
Gemma3-27B |
1 |
4 |
|
51 |
Qwen3-Embedding-0.6B |
1 |
32 |
|
52 |
Qwen3-Embedding-4B |
1 |
40 |
|
53 |
Qwen3-Embedding-8B |
1 |
40 |
|
54 |
Qwen3-Reranker-0.6B |
1 |
40 |
|
55 |
Qwen3-Reranker-4B |
1 |
40 |
|
56 |
Qwen3-Reranker-8B |
1 |
40 |
|
57 |
Qwen3-Coder-480B-A35B |
32 |
64 |
|
58 |
InternVL3-8B |
1 |
16 |
|
59 |
InternVL3-14B |
1 |
16 |
|
60 |
InternVL3-38B |
2 |
16 |
|
61 |
InternVL3-78B |
4 |
32 |