文档首页/ 魔坊(ModelArts)模型训推平台/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理其它版本/ 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导(6.5.908)/ 支持的模型列表
更新时间:2026-04-22 GMT+08:00
支持的模型列表
| 序号 | 模型名称 | 是否支持fp16/bf16推理 | 是否支持W4A16量化 | 是否支持W8A8量化 | 是否支持kv-cache-int8量化 | 是否支持Ascend_turbo graph | 是否支持Acl_graph | v0/v1 后端 | 开源权重获取地址 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Qwen2.5-14B-Instruct | √ | x | x | x | √ | √ | v1 | |
| 2 | Qwen3-8B | √ | x | √ | x | √ | √ | v1 | |
| 3 | Qwen3-32B | √ | x | √ | x | √ | √ | v1 | |
| 4 | Qwen3-Embedding-8B | √ | x | x | x | x | √ | v0 | |
| 5 | Qwen3-Reranker-8B | √ | x | x | x | x | √ | v0 | |
| 6 | bge-large-en-v1.5 | √ | x | x | x | x | √ | v0 |
说明:以下模型能力与开源社区保持一致,未做其他额外能力增强
Qwen3-Embedding-8B、Qwen3-Reranker-8B、bge-large-en-v1.5
