更新时间:2026-03-30 GMT+08:00
分享

支持的模型列表

表1 支持的大语言模型列表和权重获取地址

序号

模型名称

是否支持fp16/bf16推理

是否支持W4A16量化

是否支持W8A8量化

是否支持kv-cache-int8量化

是否支持Ascend_turbo graph

是否支持Acl_graph

v0/v1 后端

开源权重获取地址

1

qwen2.5-14b

x

x

x

v1

https://huggingface.co/Qwen/Qwen2.5-14B-Instruct

2

qwen2.5-72b

x

x

v1

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct

3

qwen3-8b

x

x

v1

https://huggingface.co/Qwen/Qwen3-8B

4

qwen3-32b

x

x

v1

https://huggingface.co/Qwen/Qwen3-32B

5

Qwen3-Embedding-0.6B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Embedding-0.6B

6

Qwen3-Embedding-4B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Embedding-4B

7

Qwen3-Embedding-8B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Embedding-8B

8

Qwen3-Reranker-0.6B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Reranker-0.6B

9

Qwen3-Reranker-4B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Reranker-4B

10

Qwen3-Reranker-8B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Reranker-8B

11

bge-reranker-v2-m3

x

x

x

x

v0

https://huggingface.co/BAAI/bge-reranker-v2-m3

12

bge-large-en-v1.5

x

x

x

x

v0

https://huggingface.co/BAAI/bge-large-en-v1.5

说明:以下模型能力与开源社区保持一致,未做其他额外能力增强

Qwen3-Embedding-0.6B/Qwen3-Embedding-4B/Qwen3-Embedding-8B

Qwen3-Reranker-0.6B/Qwen3-Reranker-4B/Qwen3-Reranker-8B

bge-reranker-v2-m3/bge-large-en-v1.5

表2 支持的多模态模型列表和权重获取地址

序号

模型名称

是否支持fp16/bf16推理

是否支持W4A16量化

是否支持W8A8量化

是否支持W8A16量化

是否支持kv-cache-int8量化

开源权重获取地址

备注

1

qwen2.5-vl-7B

x

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct/tree/main

-

2

qwen2.5-vl-32B

x

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct/tree/main

-

3

qwen2.5-vl-72B

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct/tree/main

https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct-AWQ/tree/main

awq版本只支持eager模式

--enforce-eager

各模型支持的卡数请参见各模型支持的最小卡数和最大序列章节。

相关文档