支持的模型列表
序号 | 模型名称 | 是否支持fp16/bf16推理 | 是否支持W4A16量化 | 是否支持W8A8量化 | 是否支持kv-cache-int8量化 | 是否支持Ascend_turbo graph | 是否支持Acl_graph | v0/v1 后端 | 开源权重获取地址 |
|---|---|---|---|---|---|---|---|---|---|
1 | qwen2.5-14b | √ | x | x | x | √ | √ | v1 | |
2 | qwen2.5-32b | √ | x | x | x | √ | √ | v1 | |
3 | qwen2.5-72b | √ | x | √ | x | √ | √ | v1 | |
4 | qwen3-8b | √ | x | √ | x | √ | √ | v1 | |
5 | qwen3-30b-a3b | √ | x | x | x | √ | x | v1 | |
6 | qwen3-32b | √ | x | √ | x | √ | √ | v1 | |
7 | qwen3-235b-a22b | √ | x | x | x | √ | x | v1 | |
8 | Qwen3-Coder-480B-A35B | x | x | √ | x | √ | √ | v1 | - |
9 | Qwen3-Embedding-0.6B | √ | x | x | x | x | √ | v0 | |
10 | Qwen3-Embedding-4B | √ | x | x | x | x | √ | v0 | |
11 | Qwen3-Embedding-8B | √ | x | x | x | x | √ | v0 | |
12 | Qwen3-Reranker-0.6B | √ | x | x | x | x | √ | v0 | |
13 | Qwen3-Reranker-4B | √ | x | x | x | x | √ | v0 | |
14 | Qwen3-Reranker-8B | √ | x | x | x | x | √ | v0 | |
15 | bge-reranker-v2-m3 | √ | x | x | x | x | √ | v0 | |
16 | bge-base-en-v1.5 | √ | x | x | x | x | √ | v0 | |
17 | bge-base-zh-v1.5 | √ | x | x | x | x | √ | v0 | |
18 19 | bge-m3 | √ | x | x | x | x | √ | v0 |
说明:以下模型能力与开源社区保持一致,未做其他额外能力增强
Qwen3-Embedding-0.6B/Qwen3-Embedding-4B/Qwen3-Embedding-8B
Qwen3-Reranker-0.6B/Qwen3-Reranker-4B/Qwen3-Reranker-8B
bge-reranker-v2-m3/bge-large-en-v1.5/bge-large-zh-v1.5/bge-m3
序号 | 模型名称 | 是否支持fp16/bf16推理 | 是否支持W4A16量化 | 是否支持W8A8量化 | 是否支持W8A16量化 | 是否支持kv-cache-int8量化 | 开源权重获取地址 | 备注 |
|---|---|---|---|---|---|---|---|---|
1 | qwen2.5-vl-7B | √ | x | x | x | x | https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct/tree/main | - |
2 | qwen2.5-vl-32B | √ | x | x | x | x | https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct/tree/main | - |
3 | qwen2.5-vl-72B | √ | √ | x | x | x | https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct/tree/main https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct-AWQ/tree/main | awq版本只支持eager模式 --enforce-eager |
4 | gemma3-27B | √ | x | x | x | x | - |

各模型支持的卡数请参见各模型支持的最小卡数和最大序列章节。

