更新时间:2026-03-18 GMT+08:00
分享

资源规划

该解决方案主要部署的模型列表

表1 支持的模型及其最小卡数和最大序列

序号

模型名称

是否支持fp16/bf16推理

是否支持W8A8量化

v0/v1 后端

最小卡数(64G显存)

最大序列(K)

max-model-len

开源权重获取地址

1

Qwen3-14B

x

v1

1

32

https://huggingface.co/Qwen/Qwen3-14B

2

Qwen3-30B-A3B

x

v1

2

32

https://huggingface.co/Qwen/Qwen3-30B-A3B

3

Qwen3-32B

x

v1

2

32

https://huggingface.co/Qwen/Qwen3-32B

相关文档