Reasoning Outputs
使用场景
支持Qwen3系列等思考模型,这些模型会生成包含推理步骤和最终结论的输出。Reasoning Outputs能力可以在输出中返回一个附加字段reasoning_content,其中包含导致最终结论的思考过程和推理步骤。
支持模型
| 型号系列 | 解析器名称 | 是否支持关闭思维链输出 |
|---|---|---|
| Qwen3-8B Qwen3-32B | qwen3 | 是 |
约束限制
Reasoning Outputs功能仅适用于OpenAI的/v1/chat/completions接口。
启动Reasoning Outputs功能
在启动推理服务时添加如下命令。
--enable-reasoning --reasoning-parser qwen3
reasoning parser即解析器名称。
关闭模型思维链输出
当前部分Qwen3系列(详细见支持模型列表)模型支持在发起推理请求时,通过增加模板参数: "enable_thinking": false 的方式来关闭思维链,请求体示例如下:
{
"model": "Qwen3-32B",
"chat_template_kwargs": {
"enable_thinking": false
},
"messages": [
{
"role": "user",
"content": "你好"
}
],
"temperature": 0,
"stream": false
} 取消max token参数对Reasoning Content的限制
Ascend-vLLM支持在启动推理服务之前通过设置环境变量的方式,打开或者关闭“取消max token对reasoning content的限制”的能力,环境变量使用示例如下:
export ENABLE_MAX_TOKENS_EXCLUDE_REASONING=1
- 不设置此环境变量或者环境变量值设置为0时,max token参数会控制并截断reasoning content字段返回的长度,此行为与社区保持一致;
- 此环境变量值设置为1时,max token不控制和截断reasoning content字段内容,只控制content字段返回的长度。该特性和beam-search特性冲突,因为beam-search 下每个候选长度可能不同,提前剔除 reasoning 部分会导致提前截断,因此建议关闭beam-search测试;