支持的模型列表
| 序号 | 模型名称 | 是否支持fp16/bf16推理 | 是否支持W4A16量化 | 是否支持W8A8量化 | 是否支持kv-cache-int8量化 | 是否支持Ascend_turbo graph | 是否支持Acl_graph | v0/v1 后端 | 开源权重获取地址 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Qwen2.5-14B-Instruct | √ | x | x | x | √ | √ | v1 | |
| 2 | Qwen2.5-72B-Instruct | √ | x | √ | x | √ | √ | v1 | |
| 3 | Qwen3-8B | √ | x | √ | x | √ | √ | v1 | |
| 4 | Qwen3-32B | √ | x | √ | x | √ | √ | v1 | |
| 5 | Qwen3-Embedding-0.6B | √ | x | x | x | x | √ | v0 | |
| 6 | Qwen3-Embedding-4B | √ | x | x | x | x | √ | v0 | |
| 7 | Qwen3-Embedding-8B | √ | x | x | x | x | √ | v0 | |
| 8 | Qwen3-Reranker-0.6B | √ | x | x | x | x | √ | v0 | |
| 9 | Qwen3-Reranker-4B | √ | x | x | x | x | √ | v0 | |
| 10 | Qwen3-Reranker-8B | √ | x | x | x | x | √ | v0 | |
| 11 | bge-reranker-v2-m3 | √ | x | x | x | x | √ | v0 | |
| 12 | bge-large-en-v1.5 | √ | x | x | x | x | √ | v0 |
说明:以下模型能力与开源社区保持一致,未做其他额外能力增强
Qwen3-Embedding-0.6B/Qwen3-Embedding-4B/Qwen3-Embedding-8B
Qwen3-Reranker-0.6B/Qwen3-Reranker-4B/Qwen3-Reranker-8B
bge-reranker-v2-m3/bge-large-en-v1.5
| 序号 | 模型名称 | 是否支持fp16/bf16推理 | 是否支持W4A16量化 | 是否支持W8A8量化 | 是否支持W8A16量化 | 是否支持kv-cache-int8量化 | 开源权重获取地址 | 备注 |
|---|---|---|---|---|---|---|---|---|
| 1 | qwen2.5-vl-7B | √ | x | x | x | x | https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct/tree/main | - |
| 2 | qwen2.5-vl-32B | √ | x | x | x | x | https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct/tree/main | - |
| 3 | qwen2.5-vl-72B | √ | √ | x | x | x | https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct/tree/main https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct-AWQ/tree/main | awq版本只支持eager模式 --enforce-eager |
