推理特性列表
Ascend-vLLM v0.8.5.rc1的功能支持原则:与vLLM-Ascend v0.8.5.rc1保持一致。支持的推理特性可参考vLLM-Ascend 0.8.5rc1支持的特性。
推理特性 |
使用方式 |
使用说明 |
限制 |
---|---|---|---|
Reasoning Outputs |
参考vllm介绍使用reasoning-outputs、或者Reasoning Outputs |
--enable-reasoning --reasoning-parser=deepseek_r1 |
仅DeepSeek-R1-Distill、Qwen3、QwQ、DeepSeek-R1支持 |
量化 |
_ |
当前版本只支持使用llm-compressor工具的W8A8量化和AWQ量化 |
|
Lora Adapters |
_ |
_ |
|
Structured Outputs |
参考vllm介绍使用Structured Outputs |
--guided-decoding-backend=xgrammar |
_ |
Tool Calling |
参考vllm介绍使用Tool Calling |
--enable-auto-tool-choice --tool-call-parser=hermes |
Qwen3、QwQ支持 |
CANN Graph |
_ |
不要设置INFER_MODE,即默认模式下,部分模型会默认使用CANNGraph |
_ |
ngram |
服务启动参数: --speculative-config '{"num_speculative_tokens":1,"method":"ngram","prompt_lookup_min":1,"prompt_lookup_max":8}' benchmark参数: --use-spec-decode --num-speculative-tokens=1 |
与 top_p、top_k 采样不兼容。 Qwen2.5 7B 72B支持 |