各模型支持的最小卡数和最大序列
基于vLLM(v0.7.2)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以QwQ-32B为例,NPU卡显存为32GB时,至少需要4张卡运行推理业务,4张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。
测试方法:gpu-memory-utilization为0.9下,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。
bge-reranker-v2-m3模型使用openai启动服务,发送推理请求使用的是接口curl -X POST http://localhost:port/v1/rerank。
序号 |
模型名 |
32GB显存 |
64GB显存 |
||
---|---|---|---|---|---|
最小卡数 |
最大序列(K) max-model-len |
最小卡数 |
最大序列(K) max-model-len |
||
1 |
QwQ-32B |
4 |
32 |
2 |
64 |
2 |
qwen2.5-vl-7B |
1 |
8 |
1 |
32 |
3 |
qwen2.5-vl-72B |
- |
- |
4 |
32 |
4 |
internvl2.5-38B |
- |
- |
2 |
32 |
5 |
DeepSeek-R1-Distill-Llama-8B |
1 |
32 |
1 |
128 |
6 |
DeepSeek-R1-Distill-Llama-70B |
8 |
32 |
4 |
64 |
7 |
DeepSeek-R1-Distill-Qwen-1.5B |
1 |
64 |
1 |
128 |
8 |
DeepSeek-R1-Distill-Qwen-7B |
1 |
8 |
1 |
32 |
9 |
DeepSeek-R1-Distill-Qwen-14B |
2 |
32 |
1 |
32 |
10 |
DeepSeek-R1-Distill-Qwen-32B |
4 |
32 |
2 |
64 |
11 |
bge-reranker-v2-m3 |
1 |
0.5 |
1 |
0.5 |
“-”表示不支持。