更新时间:2025-07-29 GMT+08:00
分享

推理特性列表

Ascend-vLLM v0.8.5.rc1的功能支持原则:与vLLM-Ascend v0.8.5.rc1保持一致。支持的推理特性可参考vLLM-Ascend 0.8.5rc1支持的特性

表1 支持的推理特性列表

推理特性

使用方式

使用说明

限制

Reasoning Outputs

参考vllm介绍使用reasoning-outputs、或者Reasoning Outputs

--enable-reasoning

--reasoning-parser=deepseek_r1

仅DeepSeek-R1-Distill、Qwen3、QwQ、DeepSeek-R1支持

量化

使用W8A8量化

使用AWQ量化

_

当前版本只支持使用llm-compressor工具的W8A8量化和AWQ量化

Lora Adapters

参考vllm介绍使用

_

_

Structured Outputs

参考vllm介绍使用Structured Outputs

--guided-decoding-backend=xgrammar

_

Tool Calling

参考vllm介绍使用Tool Calling

--enable-auto-tool-choice

--tool-call-parser=hermes

Qwen3、QwQ支持

CANN Graph

_

不要设置INFER_MODE,即默认模式下,部分模型会默认使用CANNGraph

_

ngram

参考vllm介绍使用

服务启动参数:

--speculative-config '{"num_speculative_tokens":1,"method":"ngram","prompt_lookup_min":1,"prompt_lookup_max":8}'

benchmark参数:

--use-spec-decode --num-speculative-tokens=1

与 top_p、top_k 采样不兼容。

Qwen2.5 7B 72B支持

相关文档