文档首页/ 魔坊（ModelArts）模型训推平台/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理其它版本/ 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导（6.5.908）/ 支持的模型列表

更新时间：2026-07-04 GMT+08:00

支持的模型列表

表1 支持的大语言模型列表和权重获取地址
序号	模型名称	是否支持fp16/bf16推理	是否支持W4A16量化	是否支持W8A8量化	是否支持kv-cache-int8量化	是否支持Ascend_turbo graph	是否支持Acl_graph	v0/v1 后端	开源权重获取地址
1	Qwen2.5-14B-Instruct	√	x	x	x	√	√	v1	https://huggingface.co/Qwen/Qwen2.5-14B-Instruct
2	Qwen3-8B	√	x	√	x	√	√	v1	https://huggingface.co/Qwen/Qwen3-8B
3	Qwen3-32B	√	x	√	x	√	√	v1	https://huggingface.co/Qwen/Qwen3-32B
4	Qwen3-Embedding-8B	√	x	x	x	x	√	v0	https://huggingface.co/Qwen/Qwen3-Embedding-8B
5	Qwen3-Reranker-8B	√	x	x	x	x	√	v0	https://huggingface.co/Qwen/Qwen3-Reranker-8B
6	bge-large-en-v1.5	√	x	x	x	x	√	v0	https://huggingface.co/BAAI/bge-large-en-v1.5

说明：以下模型能力与开源社区保持一致，未做其他额外能力增强

Qwen3-Embedding-8B、Qwen3-Reranker-8B、bge-large-en-v1.5

各模型支持的卡数请参见各模型支持的最小卡数和最大序列章节。

父主题： 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导（6.5.908）

上一篇：Ascend-vLLM介绍

下一篇：各模型支持的最小卡数和最大序列

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问