更新时间:2026-06-16 GMT+08:00
在线服务预测请求超时
问题现象
在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,报错“CF2.E00003”。
原因分析
CF2.E00003表示该请求响应超时。
处理办法
方法1:在大模型 API 调用中,max_tokens 与响应耗时呈线性正相关,可适当减小预测请求中的max_tokens。
方法2:在线推理-服务信息的高可用配置中,可以修改服务的“请求超时时间”,详情请见修改在线推理的服务配置信息。
图1 请求超时时间
方法3:预测页面发起的请求,响应超时时间是60s,如果超过60s,可以通过API方式访问。
父主题: 服务预测