文档首页/ 魔坊(ModelArts)模型训推平台/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理其它版本/ 主流开源大模型基于轻量算力节点适配Ascend-vLLM框架NPU推理指导(6.5.908)/ 各模型支持的最小卡数和最大序列
更新时间:2026-07-04 GMT+08:00
各模型支持的最小卡数和最大序列
基于vLLM部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。
以下值是在gpu-memory-utilization为0.95时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
以Qwen3-8B为例,NPU卡显存为64GB时,至少需要1张卡运行推理业务,1张卡运行的情况下,推荐的最大序列max-model-len长度最大是32K,此处的单位K是1024,即32*1024。
测试方法:gpu-memory-utilization设置为0.95,以4k、8k、16k递增max-model-len,直至达到能执行静态benchmark下的最大max-model-len。