智能路由策略
场景描述
在大规模在线推理场景中,请求分发策略会直接影响到响应时延、负载均衡、会话连续性、服务稳定性等。ModelArts推理在线服务提供了智能路由策略,可根据业务诉求灵活分发流量。适用于以下典型场景:
约束限制
- 资源池限制:仅专属资源池支持智能路由策略;公共资源池不支持。
- 策略组合:同一部署只能选择一种智能路由策略,不可叠加。
- 实例要求:智能路由仅对运行中、正常状态的实例生效;异常实例不参与调度。
智能路由策略配置
登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“高级配置 ”中勾选“智能路由策略”,并根据业务需要设置具体策略。在线服务部署具体操作请参见推理在线服务单机部署。
开启智能路由后,需要配置智能路由策略,支持如下策略:
| 策略 | 核心规则 | 适用场景 | 优势 | 不适用 |
|---|---|---|---|---|
| 轮询 | 按照顺序依次将请求任务分发给不同的实例,确保请求任务在集群中平均分布,实现负载均衡。 |
| 配置最简单、调度开销最小,杜绝单点流量积压 | 多轮对话、长连接交互、需要固定实例缓存的业务 |
| 源IP哈希 | 基于客户端IP地址计算哈希值分配请求,确保同一IP请求固定路由到同一实例。适用于会话缓存场景。 |
| 天然实现简易会话绑定,连接复用率高 | 大量动态公网 IP、移动端流动 IP 接入场景 |
| 优先最小连接数 | 实时统计各推理实例当前活跃连接数量,自动将新请求分发至连接数最少的空闲实例,避免过载 |
| 快速消化空闲算力,避免部分实例满载卡死、部分实例闲置 | 极致低时延优先、固定会话交互场景 |
| 优先最小首token时延 | 智能路由在处理请求时,优先将请求转发至首Token平均时延最小的节点上。从接收请求到开始处理第一个Token的最小允许时延。即使当前系统资源空闲,服务也会等待至少这个时延后才开始处理。 |
| 极致压缩首次响应耗时,用户使用体验最优 | 大批量离线推理、不计较时延只求吞吐量的业务 |
| 综合负载 | 基于连接数、首Token时延和自定义指标,将请求转发至综合压力更小的实例上。负载较低的实例会优先接收新请求,以避免资源浪费和过载风险。 综合负载需要配置“指标采集接口”的协议(HTTPS或HTTP)和端口号 端口号为镜像内部监听端口,建议使用 1024~65535;推荐 9090、9100、8088。 |
| 全局资源利用率最高,集群整体运行最平稳 | 单一极致性能诉求、固定会话强绑定业务 |
| SLO优先级 | 预先给不同推理服务划分服务等级优先级(可设置为 0~3,0为最高),优先保障高优先级服务的时延。 |
| 严格保障核心业务 SLA 服务指标,优先保障核心业务稳定可用 | 所有业务平权、无等级划分的通用推理集群 |