更新时间:2026-05-14 GMT+08:00
分享

资源规划

该解决方案主要部署的模型列表

表1 支持的模型及其最小卡数和最大序列(6.5.908版本

序号

模型分类

模型名称

是否支持fp16/bf16推理

是否支持W8A8量化

v0/v1 后端

最小卡数(64G显存)

最大序列(K)

max-model-len

开源权重获取地址

1

大语言模型

Qwen3-14B

x

v1

1

32

https://huggingface.co/Qwen/Qwen3-14B

2

Qwen3-30B-A3B-Instruct-2507

x

v1

2

32

https://huggingface.co/Qwen/Qwen3-30B-A3B

3

Qwen3-32B

x

v1

2

32

https://huggingface.co/Qwen/Qwen3-32B

4

Qwen3-235B-A22B-Thinking-2507

x

v1

16

64

https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507

5

Qwen3-235B-A22B-Instruct-2507

x

v1

16

64

https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

6

DeepSeek-R1-Distill-Llama-70B

x

v1

4

32

https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-70B

7

Embedding&Rerank

Qwen3-Embedding-8B

x

v0

1

40

https://huggingface.co/Qwen/Qwen3-Embedding-8B

8

Qwen3-Reranker-8B

x

v0

1

40

https://huggingface.co/Qwen/Qwen3-Reranker-8B

9

bge-reranker-v2-m3

x

v0

1

8

https://huggingface.co/BAAI/bge-reranker-v2-m3

10

bge-large-zh-v1.5

x

v0

1

0.5

https://huggingface.co/BAAI/bge-large-zh-v1.5

11

bge-m3

x

v0

1

8

https://huggingface.co/BAAI/bge-m3

12

多模态

Qwen3-VL-30B-A3B-Instruct

x

v1

2

32

https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Instruct

13

Qwen3-VL-32B-Instruct

x

v1

2

32

https://huggingface.co/Qwen/Qwen3-VL-32B-Instruct

14

Qwen3-VL-235B-A22B-Instruct

x

v1

16

32

https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct

15

Qwen3-VL-235B-A22B-Instruct

x

v1

8

32

/

表2 支持的模型及其最小卡数和最大序列(开源版本)

序号

模型名称

是否支持fp16/bf16推理

是否支持W8A8量化

v0/v1 后端

最小卡数(64G显存)

最大序列(K)

max-model-len

开源权重获取地址

1

Qwen3.6-35B-A3B

x

v1

2

128

https://modelscope.cn/models/Qwen/Qwen3.6-35B-A3B/files

2

Qwen3.6-27B

x

v1

2

128

https://modelscope.cn/models/Qwen/Qwen3.6-27B/files

3

Qwen3-Next-80B-A3B-Instruct

x

v1

4

128

https://modelscope.cn/models/Qwen/Qwen3-Next-80B-A3B-Instruct/files

4

DeepSeek-V4-Flash-w8a8-mtp

x

v1

8

128

/

相关文档