文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型推理/
LLM大语言模型推理历史版本文档/
主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导(6.5.902)/
Reasoning Outputs
更新时间:2025-05-07 GMT+08:00
Reasoning Outputs
场景描述
使用QWQ模型时,如果需要在推理请求返回结果时,同时返回深度思考过程,则需要启动Reasoning outputs功能。
约束限制
- Reasoning Outputs当前仅支持QWQ模型。
- Reasoning Outputs功能仅适用于OpenAI的/v1/chat/completions接口。
- Reasoning Outputs与guided-decoding不兼容,不可同时使用。
- Reasoning Outputs与structured_outputs和tool_calling不兼容。
- 不支持请求参数stop和stop_token_ids,当前版本会导致思考过程被提前截断。
启动Reasoning Outputs功能
在启动服务时添加如下命令。
--enable-reasoning --reasoning-parser deepseek_r1