各模型支持的最小卡数和最大序列
基于vLLM部署推理服务时,不同模型推理支持的最小NPU卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。
以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小NPU卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以Qwen3-8B为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。
测试方法:gpu-memory-utilization设置为0.95,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。
| 序号 | 模型名 | 64GB显存 | 备注 | |
|---|---|---|---|---|
| 最小卡数 | 最大序列(K) max-model-len | |||
| 1 | Qwen2.5-14B-Instruct | 1 | 32 | / |
| 2 | Qwen2.5-72B-Instruct | 4 | 32 | / |
| 3 | Qwen3-8B | 1 | 32 | / |
| 4 | Qwen3-32B | 2 | 32 | / |
| 5 | Qwen3-Embedding-0.6B | 1 | 32 | / |
| 6 | Qwen3-Embedding-4B | 1 | 40 | / |
| 7 | Qwen3-Embedding-8B | 1 | 40 | / |
| 8 | Qwen3-Reranker-0.6B | 1 | 40 | 仅支持1卡部署 |
| 9 | Qwen3-Reranker-4B | 1 | 40 | 仅支持1卡部署 |
| 10 | Qwen3-Reranker-8B | 1 | 40 | 仅支持1卡部署 |
| 11 | bge-reranker-v2-m3 | 1 | 8 | / |
| 12 | bge-large-en-v1.5 | 1 | 0.5 | / |
| 序号 | 模型名 | 64GB显存 | |
|---|---|---|---|
| 最小卡数 | 最大序列(K) max-model-len | ||
| 1 | Qwen2.5-VL-7B | 1 | 32 |
| 2 | Qwen2.5-VL-32B | 2 | 32 |
| 3 | Qwen2.5-VL-72B | 4 | 48 |