更新时间:2025-08-27 GMT+08:00
分享

各模型支持的最小卡数和最大序列

基于vLLM部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。

以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

以Qwen3-14b为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。

测试方法:gpu-memory-utilization为0.95下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明

序号

模型名

64GB显存

最小卡数

最大序列(K)

max-model-len

1

DeepSeek-R1-Distill-Llama-8B

1

32

2

DeepSeek-R1-Distill-Llama-70B

4

32

3

DeepSeek-R1-Distill-Qwen-1.5B

1

32

4

DeepSeek-R1-Distill-Qwen-7B

1

32

5

DeepSeek-R1-Distill-Qwen-14B

1

32

6

glm-4-9b

1

32

7

llama3-8b

1

32

8

llama3-70b

4

32

9

llama3.1-8b

1

32

10

llama3.1-70b

4

32

11

llama-3.2-1B

1

32

12

llama-3.2-3B

1

32

13

qwen2-0.5b

1

32

14

qwen2-1.5b

1

32

15

qwen2-7b

1

32

16

qwen2-72b

4

32

17

qwen2.5-0.5b

1

32

18

qwen2.5-1.5b

1

32

19

qwen2.5-3b

1

32

20

qwen2.5-7b

1

32

21

qwen2.5-14b

1

32

22

qwen2.5-32b

2

32

23

qwen2.5-72b

4

32

24

qwen3-0.6b

1

32

25

qwen3-1.7b

1

32

26

qwen3-4b

1

32

27

qwen3-8b

1

32

28

qwen3-14b

1

32

29

qwen3-30b-a3b

2

32

30

qwen3-32b

2

32

31

qwen3-235b-a22b

16

64

32

QwQ-32B

2

32

33

bge-reranker-v2-m3

1

8

34

bge-base-en-v1.5

1

0.5

35

bge-base-zh-v1.5

1

0.5

36

bge-large-en-v1.5

1

0.5

37

bge-large-zh-v1.5

1

0.5

38

bge-m3

1

8

39

qwen2-vl-2B

1

8

40

qwen2-vl-7B

1

32

41

qwen2-vl-72B

4

32

42

qwen2.5-vl-7B

1

8

43

qwen2.5-vl-32B

1

32

44

qwen2.5-vl-72B

4

48

45

internvl2.5-26B

1

8

46

InternVL2-Llama3-76B-AWQ

2

8

47

gemma3-27B

1

4

相关文档