更新时间:2026-06-18 GMT+08:00
分享

智能路由策略

场景描述

在大规模在线推理场景中,请求分发策略会直接影响到响应时延、负载均衡、会话连续性、服务稳定性等。ModelArts推理在线服务提供了智能路由策略,可根据业务诉求灵活分发流量。适用于以下典型场景:

  • 负载均衡与流量打散

    高并发场景下,需将请求均匀分发到多个实例,避免单点过载、减少排队延迟,提升整体吞吐。

  • 低时延优先

    流式生成、实时问答等场景,优先分发到首 Token 时延最低的实例,显著降低响应延迟。

  • IP 亲和访问

    来自同一客户端 IP 的请求固定路由到同一实例,便于会话缓存、连接复用、日志追踪。

  • 服务等级保障(SLO)

    核心业务优先占用低延迟资源,优先保障高 SLO 优先级服务的时延目标。

  • 动态负载调度

    结合连接数、首Token时延、自定义指标综合评估,将请求转发到负载最轻的实例,避免资源浪费。

约束限制

  • 资源池限制:仅专属资源池支持智能路由策略;公共资源池不支持。
  • 策略组合:同一部署只能选择一种智能路由策略,不可叠加。
  • 实例要求:智能路由仅对运行中、正常状态的实例生效;异常实例不参与调度。

智能路由策略配置

登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“高级配置 ”中勾选“智能路由策略”,并根据业务需要设置具体策略。在线服务部署具体操作请参见推理在线服务单机部署

图1 智能路由策略

开启智能路由后,需要配置智能路由策略,支持如下策略:

表1 智能路由策略说明

策略

核心规则

适用场景

优势

不适用

轮询

按照顺序依次将请求任务分发给不同的实例,确保请求任务在集群中平均分布,实现负载均衡。

  • 通用推理服务:图片分类、文本审核、内容识别、数据结构化等单次独立调用、无上下文依赖的标准化推理业务
  • 流量均匀压测场景:业务压力测试、集群性能验收,均衡打满所有实例算力
  • 基础通用业务集群:中小型企业统一 AI 算力出口,无特殊时延、会话需求

配置最简单、调度开销最小,杜绝单点流量积压

多轮对话、长连接交互、需要固定实例缓存的业务

源IP哈希

基于客户端IP地址计算哈希值分配请求,确保同一IP请求固定路由到同一实例。适用于会话缓存场景。

  • 客户端固定访问业务:企业内网办公 AI 工具、固定区域员工统一调用推理接口
  • 本地缓存复用场景:实例本地缓存热门推理结果,同 IP 重复请求直接命中缓存,大幅提速
  • 访问日志溯源场景:按客户端 IP 归集请求,方便运维排查用户访问异常、统计区域调用量
  • 轻量固定会话业务:无需登录账号,仅依靠访问 IP 区分用户的简易交互服务

天然实现简易会话绑定,连接复用率高

大量动态公网 IP、移动端流动 IP 接入场景

优先最小连接数

实时统计各推理实例当前活跃连接数量,自动将新请求分发至连接数最少的空闲实例,避免过载

  • 长连接推理业务:流式语音识别、实时视频解析、长时间 AI 任务处理
  • 突发流量波动业务:电商大促审核、活动高峰期内容风控、临时批量推理任务
  • 实例算力不均集群:集群内实例配置性能不一致,自动避让高负载实例
  • 高并发短时请求:政务批量数据处理、批量文件 AI 解析

快速消化空闲算力,避免部分实例满载卡死、部分实例闲置

极致低时延优先、固定会话交互场景

优先最小首token时延

智能路由在处理请求时,优先将请求转发至首Token平均时延最小的节点上。从接收请求到开始处理第一个Token的最小允许时延。即使当前系统资源空闲,服务也会等待至少这个时延后才开始处理。

  • 大模型实时对话:智能客服、在线问答、实时文案生成、人机即时交互
  • 前端实时展示业务:网页端 AI 写作、APP 智能问答、弹窗实时推理反馈
  • 低时延强诉求业务:工业实时质检、车载实时 AI 分析、设备边缘联动推理
  • 用户体验优先 C 端业务:面向大众用户的 AI 工具,优先保障体感响应速度

极致压缩首次响应耗时,用户使用体验最优

大批量离线推理、不计较时延只求吞吐量的业务

综合负载

基于连接数、首Token时延和自定义指标,将请求转发至综合压力更小的实例上。负载较低的实例会优先接收新请求,以避免资源浪费和过载风险。

综合负载需要配置“指标采集接口”的协议(HTTPS或HTTP)和端口号

端口号为镜像内部监听端口,建议使用 1024~65535;推荐 9090、9100、8088。

  • 混合业务集群:同一集群同时承载对话推理、批量处理、内容审核多种业务
  • 大型企业统一 AI 推理平台:多部门共用算力池,业务类型杂乱无统一调用特征
  • 7×24 小时稳定运维场景:无人值守自动调度,全自动平衡全维度资源压力
  • 异构算力混合集群:GPU、NPU 不同算力节点混合部署,智能匹配最优资源

全局资源利用率最高,集群整体运行最平稳

单一极致性能诉求、固定会话强绑定业务

SLO优先级

预先给不同推理服务划分服务等级优先级(可设置为 0~3,0为最高),优先保障高优先级服务的时延。

  • 政企分级业务调度:核心政务服务、民生刚需AI业务设高优先级,普通办公辅助AI设低优先级
  • 企业核心业务保障:营收相关付费AI服务优先级高于内部免费测试业务
  • 业务限流分级场景:流量高峰时段,优先保障付费客户、核心渠道调用,限制次要业务流量
  • 云上算力资源配额管控:按业务重要性分配算力权重,实现资源优先级隔离

严格保障核心业务 SLA 服务指标,优先保障核心业务稳定可用

所有业务平权、无等级划分的通用推理集群

相关文档