更新时间:2025-07-29 GMT+08:00
分享

各模型支持的最小卡数和最大序列

基于vLLM(v0.8.5.rc1)部署推理服务时,不同模型推理支持的最小昇腾Snt9b卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。

以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

以QwQ-32B为例,NPU卡显存为32GB时,至少需要4张卡运行推理业务,4张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。

测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。

bge-reranker-v2-m3模型使用openai启动服务,发送推理请求使用的是接口curl -X POST http://localhost:port/v1/rerank。

表1 基于vLLM不同模型推理支持Snt9b最小卡数和最大序列说明

模型类别

模型名

64GB显存

最小卡数

最大序列(K)

max-model-len

LLM

DeepSeek-R1-Distill-Llama-8B

1

128

DeepSeek-R1-Distill-Llama-70B

4

64

DeepSeek-R1-Distill-Qwen-1.5B

1

128

DeepSeek-R1-Distill-Qwen-7B

1

32

DeepSeek-R1-Distill-Qwen-14B

1

32

DeepSeek-R1-Distill-Qwen-32B

2

64

GLM4-9B

1

128

Qwen2-0.5B

1

256

Qwen2-1.5B

1

128

Qwen2-7B

1

32

Qwen2-72B

4

64

Qwen2-57B-A14B

2

16

Qwen2.5-0.5B

1

32

Qwen2.5-1.5B

1

32

Qwen2.5-3B

1

32

Qwen2.5-7B

1

32

Qwen2.5-14B

1

32

Qwen2.5-32B

2

64

Qwen2.5-72B

4

32

Qwen3-0.6B

1

32

Qwen3-1.7B

1

32

Qwen3-4B

1

32

Qwen3-8B

1

128

Qwen3-14B

1

64

Qwen3-32B

2

64

Qwen3-30B-A3B

2

128

Qwen3-235B-A22B

16

64

QwQ-32B

2

64

多模态理解

Qwen2.5-vl-7B

1

32

Qwen2.5-vl-72B

4

32

Internvl2.5-38B

2

32

Qwen2.5-vl-72B-AWQ

2

32

Gemma-3-27B

2

16

Embeding&Rerank

bge-base-en-v1.5

1

0.5

bge-base-zh-v1.5

1

0.5

bge-large-en-v1.5

1

0.5

bge-large-zh-v1.5

1

0.5

bge-m3

1

8

bge-reranker-v2-m3

1

8

相关文档