更新时间:2026-06-16 GMT+08:00
分享

在线服务预测请求超时

问题现象

在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,报错“CF2.E00003”

原因分析

CF2.E00003表示该请求响应超时。

处理办法

方法1:在大模型 API 调用中,max_tokens 与响应耗时呈线性正相关,可适当减小预测请求中的max_tokens。

方法2:在线推理-服务信息的高可用配置中,可以修改服务的“请求超时时间”,详情请见修改在线推理的服务配置信息

图1 请求超时时间

方法3:预测页面发起的请求,响应超时时间是60s,如果超过60s,可以通过API方式访问。

相关文档