更新时间:2026-06-18 GMT+08:00
分享

流量策略

场景描述

ModelArts在线推理服务提供多部署流量调度能力,针对同一个在线推理服务下创建的多个部署实例,可为每个部署配置独立的流量权重值,平台按照各部署权重相对占比,自动将推理服务调用请求按比例进行分流分发,实现模型灰度发布、A/B 测试、故障切流、流量按需分配等的精细化运维管控。

针对已有部署配置的在线服务,可以通过修改流量权重操作,设置当前服务下各个部署的流量权重。具体规则如下:

  • 单一部署流量权重:单一部署的流量权重数值为不超过100的整数。
  • 多部署流量权重分配:按比例分流到不同部署中。
  • 所有部署的流量权重全部设置为 0:系统自动将流量平均分配到所有正常运行的部署,保障服务不中断。
  • 开启镜像流量:系统将固定比例(10%)的实际流量复制至相应部署中,做影子验证,不影响用户请求。
表1 场景使用举例

常见使用场景

业务目标

配置方式

价值

模型版本灰度发布

新版本模型上线不中断服务,降低故障风险,逐步放量验证。

  1. 在同一在线服务下部署稳定旧版V1与新版V2
  2. 流量权重:V1=90,V2=10
  3. 观察QPS、延迟、准确率、报错率等,逐步调整流量权重为V1=50,V2=50
  4. 出现异常时,将V1权重切回100,快速回滚

零停机发布,风险可控、用户无感知

线上A/B测试,对比模型效果

对比多版本、多策略模型的真实线上效果,支撑迭代决策。

  1. 在同一在线服务下部署V1(基准)与部署V2(实验组)
  2. 流量权重:V1=50,V2=50
  3. 统一入口,按权重分流,观察QPS、延迟、准确率、报错率等

用真实流量客观评估,避免离线评估偏差

镜像流量(影子测试),安全验证新版本

不影响线上用户,用真实流量校验新版本兼容性、性能、稳定性。

  1. 对新版本部署开启镜像流量
  2. 系统自动复制10%生产流量到新版本部署
  3. 新版本部署不承担真实应答,只做观测。

真实验证,零业务风险,适合大模型或关键服务上线前校验

多部署负载均衡与弹性扩缩容

高峰抗流量、低谷省资源,提升利用率与稳定性。

  • 高峰:多部署权重均等(如 30:30:30),共同扛量
  • 低谷:保留 1 个主力部署权重 100,其他缩容 / 停止
  • 全部权重设为 0:系统自动均分流量,防单点过载

动态适配负载、减少资源浪费、提升可用性

多模型、多业务线流量调度

同一推理端点共享资源,按优先级 或重要性分配流量

核心业务模型:权重 70

次要 / 实验模型:权重 30

资源紧张时调低非核心权重,保障核心 SLA

资源复用、成本优化、业务优先级清晰

快速故障隔离与无损回滚

某版本异常时快速止损,不影响整体服务

异常版本权重立即设为 0

流量全量切回稳定版本(权重 = 100)

隔离问题部署排查修复

快速止损、业务几乎无损、运维效率高

测试环境快速迭代验证

开发、测试并行验证,不污染生产流量

生产部署:权重 100

测试部署:不设置权重+开启镜像流量

用影子流量验证,验证通过再灰度放量

测试与生产隔离、迭代安全高效

约束限制

镜像流量仅在同步调用中存在,异步调用无该参数。

查看/修改流量权重

登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。

方式一:

在服务列表中,单击某个服务名称进入服务详情页,在服务详情页的“部署”页签,查看该服务的实际流量比例。实际流量比例是由流量权重配置和部署状态计算所得的值。

图1 查看流量比例

在流量权重区域,单击“修改配置”,修改该部署的流量比例。

图2 修改流量权重

表2 流量权重策略参数说明

参数

说明

镜像流量

也称为影子流量,是一种安全的部署验证功能,它能将生产流量的副本实时同步到新版本部署,而不会影响实际用户请求。为您提供了一个与生产环境完全一致的"影子"测试环境。

镜像流量开启需满足服务为HTTP/HTTPS协议。

部署开启镜像流量后将不再接收实际流量。此时流量权重不参与预计流量比例计算,系统将按照统一策略,将固定比例(10%)的实际流量复制至相应部署中来帮助您安全地验证模型。请确保资源配置充足,以承载镜像流量。

镜像流量在同步调用中存在,异步调用无该参数。

流量权重

设置当前服务下部署的流量权重,服务调用请求会根据权重比例动态分配至部署上,单一部署的流量权重数值为不超过100的整数。若所有部署的流量权重全部设置为0,为避免服务中断,流量将自动进行均分。

开启镜像流量后,镜像流量不参与实际流量的权重计算,流量权重默认为固定比例,暂不支持修改。

每个服务请至少保留1个实际接受请求的部署。

预计流量比例

预计流量比例是单个部署实例组预期接收用户的流量与总流量比值。实际流量比例是由流量权重配置和部署状态计算所得的值。

方式二:

在服务列表中,单击某个服务名称进入服务详情页,在服务详情页的“服务”页签,查看该服务的流量权重。单击“修改流量分配”,修改当前服务下部署的流量权重。
图3 查看流量权重

方式三:

在服务列表页右侧的操作列,单击更多>流量策略,修改流量权重。

图4 流量策略

修改完成后,单击“确定”提交任务。

相关文档