更新时间:2025-11-19 GMT+08:00
分享

各模型支持的最小卡数和最大序列

基于vLLM部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。

以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

以Qwen3-14b为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。

测试方法:gpu-memory-utilization为0.95下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明

序号

模型名

64GB显存

最小卡数

最大序列(K)

max-model-len

1

DeepSeek-R1-Distill-Llama-8B

1

32

2

DeepSeek-R1-Distill-Llama-70B

4

32

3

DeepSeek-R1-Distill-Qwen-1.5B

1

32

4

DeepSeek-R1-Distill-Qwen-7B

1

32

5

DeepSeek-R1-Distill-Qwen-14B

1

32

6

DeepSeek-R1-0528-Qwen3-8B

1

32

7

GLM-4-9B

1

32

8

Llama3-8B

1

32

9

Llama3-70B

4

32

10

Llama3.1-8B

1

32

11

Llama3.1-70B

4

32

12

Llama-3.2-1B

1

32

13

Llama-3.2-3B

1

32

14

Qwen2-0.5B

1

32

15

Qwen2-1.5B

1

32

16

Qwen2-7B

1

32

17

Qwen2-72B

4

32

18

Qwen2.5-0.5B

1

32

19

Qwen2.5-1.5B

1

32

20

Qwen2.5-3B

1

32

21

Qwen2.5-7B

1

32

22

Qwen2.5-14B

1

32

23

Qwen2.5-32B

2

32

24

Qwen2.5-72B

4

32

25

Qwen3-0.6B

1

32

26

Qwen3-1.7B

1

32

27

Qwen3-4B

1

32

28

Qwen3-8B

1

32

29

Qwen3-14B

1

32

30

Qwen3-30B-A3B

2

32

31

Qwen3-32B

2

32

32

Qwen3-235B-A22B

16

64

33

Qwen3-235B-A22B-Thinking-2507

16

64

34

Qwen3-235B-A22B-Instruct-2507

16

64

35

QwQ-32B

2

32

36

bge-reranker-v2-m3

1

8

37

bge-base-en-v1.5

1

0.5

38

bge-base-zh-v1.5

1

0.5

39

bge-large-en-v1.5

1

0.5

40

bge-large-zh-v1.5

1

0.5

41

bge-m3

1

8

42

Qwen2-VL-2B

1

8

43

Qwen2-VL-7B

1

32

44

Qwen2-VL-72B

4

32

45

Qwen2.5-VL-7B

1

32

46

Qwen2.5-VL-32B

1

32

47

Qwen2.5-VL-72B

4

48

48

InternVL2.5-26B

1

8

49

InternVL2-Llama3-76B-AWQ

2

8

50

Gemma3-27B

1

4

51

Qwen3-Embedding-0.6B

1

32

52

Qwen3-Embedding-4B

1

40

53

Qwen3-Embedding-8B

1

40

54

Qwen3-Reranker-0.6B

1

40

55

Qwen3-Reranker-4B

1

40

56

Qwen3-Reranker-8B

1

40

57

Qwen3-Coder-480B-A35B

32

64

58

InternVL3-8B

1

16

59

InternVL3-14B

1

16

60

InternVL3-38B

2

16

61

InternVL3-78B

4

32

相关文档