Reasoning Outputs

使用场景

支持DeepSeek R1，Qwen3 系列等思考模型，这些模型会生成包含推理步骤和最终结论的输出。Reasoning Outputs能力可以在输出中返回一个附加字段reasoning_content，其中包含导致最终结论的思考过程和推理步骤。

支持模型

型号系列	解析器名称
DeepSeek R1 系列	deepseek_r1
QwQ-32B 型	deepseek_r1
Qwen3 系列	qwen3

约束限制

Reasoning Outputs功能仅适用于OpenAI的/v1/chat/completions接口。

启动Reasoning Outputs功能

在启动推理服务时添加如下命令。

--enable-reasoning --reasoning-parser xxx

注：XXX为与模型适配的reasoning parser的名称。

关闭模型思维链输出

当前仅Qwen3系列模型支持在发起推理请求时，通过增加模板参数： "enable_thinking": false 的方式来关闭思维链，请求体示例如下：

{
  "model": "Qwen3-8B",
  "chat_template_kwargs": {
    "enable_thinking": false
  },
  "messages": [
    {
      "role": "user",
      "content": "你好"
    }
  ],
  "temperature": 0,
  "stream": false
}

取消max token参数对Reasoning Content的限制

Ascend-vLLM支持在启动推理服务之前通过设置环境变量的方式，打开或者关闭“取消max token对reasoning content的限制”的能力，环境变量使用示例如下：

export ENABLE_MAX_TOKENS_EXCLUDE_REASONING=1

不设置此环境变量或者环境变量值设置为0时，max token参数会控制并截断reasoning content字段返回的长度，此行为与社区保持一致；
此环境变量值设置为1时，max token不控制和截断reasoning content字段内容，只控制content字段返回的长度；

父主题： 推理关键特性使用

上一篇：Tool Calling

下一篇：推理服务精度评测

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消