支持的模型列表
本文档中基于Ascend-vLLM框架支持的推理模型列表如表1 支持的大语言模型列表和表2 支持的多模态模型列表所示,各模型支持的最小卡数和最大序列请参见各模型支持的最小卡数和最大序列章节。
序号 |
模型名称 |
是否支持fp16/bf16推理 |
是否支持W4A16量化 |
是否支持W8A8量化 |
是否支持W8A16量化 |
是否支持 kv-cache-int8量化 |
是否支持reasoning-content |
开源权重获取地址 |
---|---|---|---|---|---|---|---|---|
1 |
QwQ-32B |
√ |
x |
x |
x |
x |
√ |
|
2 |
DeepSeek-R1-Distill-Llama-8B |
√ |
x |
x |
x |
x |
x |
|
3 |
DeepSeek-R1-Distill-Llama-70B |
√ |
x |
x |
x |
x |
x |
|
4 |
DeepSeek-R1-Distill-Qwen-1.5B |
√ |
x |
x |
x |
x |
x |
|
5 |
DeepSeek-R1-Distill-Qwen-7B |
√ |
x |
x |
x |
x |
x |
|
6 |
DeepSeek-R1-Distill-Qwen-14B |
√ |
x |
x |
x |
x |
x |
|
7 |
DeepSeek-R1-Distill-Qwen-32B |
√ |
x |
x |
x |
x |
x |
|
8 |
bge-reranker-v2-m3 |
√ |
x |
x |
x |
x |
x |