更新时间:2025-07-29 GMT+08:00
分享

支持的模型列表

本文档中基于Ascend-vLLM框架支持的推理模型列表如表1 支持的大语言模型列表表2 支持的多模态模型列表所示,各模型支持的最小卡数和最大序列请参见各模型支持的最小卡数和最大序列章节。

表1 支持的大语言模型列表和权重获取地址

序号

模型名称

是否支持fp16/bf16推理

是否支持W4A16量化

是否支持W8A8量化

是否支持W8A16量化

是否支持

kv-cache-int8量化

是否支持reasoning-content

开源权重获取地址

1

QwQ-32B

x

x

x

x

Qwen/QwQ-32B at main (huggingface.co)

2

DeepSeek-R1-Distill-Llama-8B

x

x

x

x

x

deepseek-ai/DeepSeek-R1-Distill-Llama-8B · Hugging Face

3

DeepSeek-R1-Distill-Llama-70B

x

x

x

x

x

deepseek-ai/DeepSeek-R1-Distill-Llama-70B · Hugging Face

4

DeepSeek-R1-Distill-Qwen-1.5B

x

x

x

x

x

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B · Hugging Face

5

DeepSeek-R1-Distill-Qwen-7B

x

x

x

x

x

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B · Hugging Face

6

DeepSeek-R1-Distill-Qwen-14B

x

x

x

x

x

deepseek-ai/DeepSeek-R1-Distill-Qwen-14B · Hugging Face

7

DeepSeek-R1-Distill-Qwen-32B

x

x

x

x

x

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B · Hugging Face

8

bge-reranker-v2-m3

x

x

x

x

x

bge-reranker-v2-m3 · 模型库 (modelscope.cn)

表2 支持的多模态模型列表和权重获取地址

序号

模型名称

是否支持fp16/bf16推理

是否支持W4A16量化

是否支持W8A8量化

是否支持W8A16量化

是否支持

kv-cache-int8量化

开源权重获取地址

1

internvl2.5-38B

x

x

x

x

https://huggingface.co/OpenGVLab/InternVL2_5-38B

2

qwen2.5-vl-7B

x

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct

3

qwen2.5-vl-72B

x

x

x

x

https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct

相关文档