更新时间:2026-07-04 GMT+08:00
分享

各模型支持的最小卡数和最大序列

基于vLLM部署推理服务时,不同模型推理支持的最小NPU卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。

以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小NPU卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

以Qwen3-8B为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。

测试方法:gpu-memory-utilization设置为0.95,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。

表1 基于vLLM不同模型推理支持最小卡数和最大序列说明(大语言模型)

序号

模型名

64GB显存

备注

最小卡数

最大序列(K)

max-model-len

1

Qwen2.5-14B-Instruct

1

32

/

2

Qwen2.5-72B-Instruct

4

32

/

3

Qwen3-8B

1

32

/

4

Qwen3-32B

2

32

/

5

Qwen3-Embedding-0.6B

1

32

/

6

Qwen3-Embedding-4B

1

40

/

7

Qwen3-Embedding-8B

1

40

/

8

Qwen3-Reranker-0.6B

1

40

仅支持1卡部署

9

Qwen3-Reranker-4B

1

40

仅支持1卡部署

10

Qwen3-Reranker-8B

1

40

仅支持1卡部署

11

bge-reranker-v2-m3

1

8

/

12

bge-large-en-v1.5

1

0.5

/

表2 基于vLLM不同模型推理支持最小卡数和最大序列说明(多模态模型)

序号

模型名

64GB显存

最小卡数

最大序列(K)

max-model-len

1

Qwen2.5-VL-7B

1

32

2

Qwen2.5-VL-32B

2

32

3

Qwen2.5-VL-72B

4

48

相关文档