更新时间:2026-03-26 GMT+08:00
分享

支持的模型列表

表1 支持的大语言模型列表和权重获取地址

序号

模型名称

是否支持fp16/bf16推理

是否支持W4A16量化

是否支持W8A8量化

是否支持kv-cache-int8量化

是否支持Ascend_turbo graph

是否支持Acl_graph

v0/v1 后端

开源权重获取地址

1

qwen2.5-14b

x

x

x

v1

https://huggingface.co/Qwen/Qwen2.5-14B-Instruct

2

qwen2.5-32b

x

x

x

v1

https://huggingface.co/Qwen/Qwen2.5-32B-Instruct

3

qwen2.5-72b

x

x

v1

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct

4

qwen3-8b

x

x

v1

https://huggingface.co/Qwen/Qwen3-8B

5

qwen3-30b-a3b

x

x

x

x

v1

https://huggingface.co/Qwen/Qwen3-30B-A3B

6

qwen3-32b

x

x

v1

https://huggingface.co/Qwen/Qwen3-32B

7

qwen3-235b-a22b

x

x

x

x

v1

https://huggingface.co/Qwen/Qwen3-235B-A22B

8

Qwen3-Coder-480B-A35B

x

x

x

v1

-

9

Qwen3-Embedding-0.6B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Embedding-0.6B

10

Qwen3-Embedding-4B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Embedding-4B

11

Qwen3-Embedding-8B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Embedding-8B

12

Qwen3-Reranker-0.6B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Reranker-0.6B

13

Qwen3-Reranker-4B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Reranker-4B

14

Qwen3-Reranker-8B

x

x

x

x

v0

https://huggingface.co/Qwen/Qwen3-Reranker-8B

15

bge-reranker-v2-m3

x

x

x

x

v0

https://huggingface.co/BAAI/bge-reranker-v2-m3

16

bge-base-en-v1.5

x

x

x

x

v0

https://huggingface.co/BAAI/bge-base-en-v1.5

17

bge-base-zh-v1.5

x

x

x

x

v0

https://huggingface.co/BAAI/bge-base-zh-v1.5

18

19

bge-m3

x

x

x

x

v0

https://huggingface.co/BAAI/bge-m3

说明:以下模型能力与开源社区保持一致,未做其他额外能力增强

Qwen3-Embedding-0.6B/Qwen3-Embedding-4B/Qwen3-Embedding-8B

Qwen3-Reranker-0.6B/Qwen3-Reranker-4B/Qwen3-Reranker-8B

bge-reranker-v2-m3/bge-large-en-v1.5/bge-large-zh-v1.5/bge-m3

表2 支持的多模态模型列表和权重获取地址

序号

模型名称

是否支持fp16/bf16推理

是否支持W4A16量化

是否支持W8A8量化

是否支持W8A16量化

是否支持kv-cache-int8量化

开源权重获取地址

备注

1

qwen2.5-vl-7B

x

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct/tree/main

-

2

qwen2.5-vl-32B

x

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct/tree/main

-

3

qwen2.5-vl-72B

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct/tree/main

https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct-AWQ/tree/main

awq版本只支持eager模式

--enforce-eager

4

gemma3-27B

x

x

x

x

https://huggingface.co/google/gemma-3-27b-it/tree/main

-

各模型支持的卡数请参见各模型支持的最小卡数和最大序列章节。

相关文档