文档首页/ 魔坊（ModelArts）模型训推平台/ 推理部署/ 推理部署（新版）/ 高阶功能/ 智能路由策略

更新时间：2026-07-06 GMT+08:00

智能路由策略

场景描述

在大规模在线推理场景中，请求分发策略会直接影响到响应时延、负载均衡、会话连续性、服务稳定性等。ModelArts推理在线服务提供了智能路由策略，可根据业务诉求灵活分发流量。适用于以下典型场景：

负载均衡与流量打散
 高并发场景下，需将请求均匀分发到多个实例，避免单点过载、减少排队延迟，提升整体吞吐。
低时延优先
 流式生成、实时问答等场景，优先分发到首Token时延最低的实例，显著降低响应延迟。
IP 亲和访问
 来自同一客户端 IP 的请求固定路由到同一实例，便于会话缓存、连接复用、日志追踪。
服务等级保障（SLO）
核心业务优先占用低延迟资源，优先保障高SLO优先级服务的时延目标。
动态负载调度
 结合连接数、首Token时延、自定义指标综合评估，将请求转发到负载最轻的实例，避免资源浪费。

约束限制

资源池限制：仅专属资源池支持智能路由策略；公共资源池不支持。
策略组合：同一部署只能选择一种智能路由策略，不可叠加。
实例要求：智能路由仅对运行中、正常状态的实例生效；异常实例不参与调度。

智能路由策略配置

登录ModelArts管理控制台，在左侧菜单栏中选择“模型推理>在线推理”，进入在线服务管理页面。部署在线服务时，在“高级配置 ”中勾选“智能路由策略”，并根据业务需要设置具体策略。在线服务部署具体操作请参见推理在线服务单机部署。

图1 智能路由策略

开启智能路由后，需要配置智能路由策略，支持如下策略：

表1 智能路由策略说明
策略	核心规则	适用场景	优势	不适用
轮询	按照顺序依次将请求任务分发给不同的实例，确保请求任务在集群中平均分布，实现负载均衡。	通用推理服务：图片分类、文本审核、内容识别、数据结构化等单次独立调用、无上下文依赖的标准化推理业务流量均匀压测场景：业务压力测试、集群性能验收，均衡打满所有实例算力基础通用业务集群：中小型企业统一 AI 算力出口，无特殊时延、会话需求	配置最简单、调度开销最小，杜绝单点流量积压	多轮对话、长连接交互、需要固定实例缓存的业务
源IP哈希	基于客户端IP地址计算哈希值分配请求，确保同一IP请求固定路由到同一实例。适用于会话缓存场景。	客户端固定访问业务：企业内网办公 AI 工具、固定区域员工统一调用推理接口本地缓存复用场景：实例本地缓存热门推理结果，同 IP 重复请求直接命中缓存，大幅提速访问日志溯源场景：按客户端 IP 归集请求，方便运维排查用户访问异常、统计区域调用量轻量固定会话业务：无需登录账号，仅依靠访问 IP 区分用户的简易交互服务	天然实现简易会话绑定，连接复用率高	大量动态公网 IP、移动端流动 IP 接入场景
优先最小连接数	实时统计各推理实例当前活跃连接数量，自动将新请求分发至连接数最少的空闲实例，避免过载	长连接推理业务：流式语音识别、实时视频解析、长时间 AI 任务处理突发流量波动业务：电商大促审核、活动高峰期内容风控、临时批量推理任务实例算力不均集群：集群内实例配置性能不一致，自动避让高负载实例高并发短时请求：政务批量数据处理、批量文件 AI 解析	快速消化空闲算力，避免部分实例满载卡死、部分实例闲置	极致低时延优先、固定会话交互场景
优先最小首token时延	智能路由在处理请求时，优先将请求转发至首Token平均时延最小的节点上。从接收请求到开始处理第一个Token的最小允许时延。即使当前系统资源空闲，服务也会等待至少这个时延后才开始处理。	大模型实时对话：智能客服、在线问答、实时文案生成、人机即时交互前端实时展示业务：网页端 AI 写作、APP 智能问答、弹窗实时推理反馈低时延强诉求业务：工业实时质检、车载实时 AI 分析、设备边缘联动推理用户体验优先 C 端业务：面向大众用户的 AI 工具，优先保障体感响应速度	极致压缩首次响应耗时，用户使用体验最优	大批量离线推理、不计较时延只求吞吐量的业务
综合负载	基于连接数、首Token时延和自定义指标，将请求转发至综合压力更小的实例上。负载较低的实例会优先接收新请求，以避免资源浪费和过载风险。综合负载需要配置“指标采集接口”的协议（HTTPS或HTTP）和端口号端口号为镜像内部监听端口，建议使用 1024~65535；推荐 9090、9100、8088。	混合业务集群：同一集群同时承载对话推理、批量处理、内容审核多种业务大型企业统一 AI 推理平台：多部门共用算力池，业务类型杂乱无统一调用特征 7×24 小时稳定运维场景：无人值守自动调度，全自动平衡全维度资源压力异构算力混合集群：GPU、NPU 不同算力节点混合部署，智能匹配最优资源	全局资源利用率最高，集群整体运行最平稳	单一极致性能诉求、固定会话强绑定业务
SLO优先级	预先给不同推理服务划分服务等级优先级（可设置为 0~3，0为最高），优先保障高优先级服务的时延。	政企分级业务调度：核心政务服务、民生刚需AI业务设高优先级，普通办公辅助AI设低优先级企业核心业务保障：营收相关付费AI服务优先级高于内部免费测试业务业务限流分级场景：流量高峰时段，优先保障付费客户、核心渠道调用，限制次要业务流量云上算力资源配额管控：按业务重要性分配算力权重，实现资源优先级隔离	严格保障核心业务 SLA 服务指标，优先保障核心业务稳定可用	所有业务平权、无等级划分的通用推理集群

父主题：高阶功能

上一篇：密钥挂载

下一篇：可靠性

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问