支持的模型列表
序号 | 模型名称 | 是否支持fp16/bf16推理 | 是否支持W4A16量化 | 是否支持W8A8量化 | 是否支持kv-cache-int8量化 | 是否支持Ascend_turbo graph | 是否支持Acl_graph | v0/v1 后端 | 开源权重获取地址 |
|---|---|---|---|---|---|---|---|---|---|
1 | Qwen2.5-14B | √ | x | x | x | √ | √ | v1 | |
2 | Qwen3-8B | √ | x | √ | x | √ | √ | v1 | |
3 | Qwen3-32B | √ | x | √ | x | √ | √ | v1 | |
4 | Qwen3-235B-A22B-Thinking-2507 | x | x | √ | x | √ | x | v1 | - |
5 | Qwen3-Embedding-8B | √ | x | x | x | x | √ | v0 | |
6 | Qwen3-Reranker-8B | √ | x | x | x | x | √ | v0 | |
7 | bge-large-en-v1.5 | √ | x | x | x | x | √ | v0 |
说明:以下模型能力与开源社区保持一致,未做其他额外能力增强
Qwen3-Embedding-8B、Qwen3-Reranker-8B、bge-large-en-v1.5

各模型支持的卡数请参见各模型支持的最小卡数和最大序列章节。

