流量策略
场景描述
ModelArts在线推理服务提供多部署流量调度能力,针对同一个在线推理服务下创建的多个部署实例,可为每个部署配置独立的流量权重值,平台按照各部署权重相对占比,自动将推理服务调用请求按比例进行分流分发,实现模型灰度发布、A/B 测试、故障切流、流量按需分配等的精细化运维管控。
针对已有部署配置的在线服务,可以通过修改流量权重操作,设置当前服务下各个部署的流量权重。具体规则如下:
- 单一部署流量权重:单一部署的流量权重数值为不超过100的整数。
- 多部署流量权重分配:按比例分流到不同部署中。
- 所有部署的流量权重全部设置为 0:系统自动将流量平均分配到所有正常运行的部署,保障服务不中断。
- 开启镜像流量:系统将固定比例(10%)的实际流量复制至相应部署中,做影子验证,不影响用户请求。
| 常见使用场景 | 业务目标 | 配置方式 | 价值 |
|---|---|---|---|
| 模型版本灰度发布 | 新版本模型上线不中断服务,降低故障风险,逐步放量验证。 |
| 零停机发布,风险可控、用户无感知 |
| 线上A/B测试,对比模型效果 | 对比多版本、多策略模型的真实线上效果,支撑迭代决策。 |
| 用真实流量客观评估,避免离线评估偏差 |
| 镜像流量(影子测试),安全验证新版本 | 不影响线上用户,用真实流量校验新版本兼容性、性能、稳定性。 |
| 真实验证,零业务风险,适合大模型或关键服务上线前校验 |
| 多部署负载均衡与弹性扩缩容 | 高峰抗流量、低谷省资源,提升利用率与稳定性。 |
| 动态适配负载、减少资源浪费、提升可用性 |
| 多模型、多业务线流量调度 | 同一推理端点共享资源,按优先级 或重要性分配流量 | 核心业务模型:权重 70 次要 / 实验模型:权重 30 资源紧张时调低非核心权重,保障核心 SLA | 资源复用、成本优化、业务优先级清晰 |
| 快速故障隔离与无损回滚 | 某版本异常时快速止损,不影响整体服务 | 异常版本权重立即设为 0 流量全量切回稳定版本(权重 = 100) 隔离问题部署排查修复 | 快速止损、业务几乎无损、运维效率高 |
| 测试环境快速迭代验证 | 开发、测试并行验证,不污染生产流量 | 生产部署:权重 100 测试部署:不设置权重+开启镜像流量 用影子流量验证,验证通过再灰度放量 | 测试与生产隔离、迭代安全高效 |
约束限制
镜像流量仅在同步调用中存在,异步调用无该参数。
查看/修改流量权重
登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。
方式一:
在服务列表中,单击某个服务名称进入服务详情页,在服务详情页的“部署”页签,查看该服务的实际流量比例。实际流量比例是由流量权重配置和部署状态计算所得的值。

在流量权重区域,单击“修改配置”,修改该部署的流量比例。
| 参数 | 说明 |
|---|---|
| 镜像流量 | 也称为影子流量,是一种安全的部署验证功能,它能将生产流量的副本实时同步到新版本部署,而不会影响实际用户请求。为您提供了一个与生产环境完全一致的"影子"测试环境。 镜像流量开启需满足服务为HTTP/HTTPS协议。 部署开启镜像流量后将不再接收实际流量。此时流量权重不参与预计流量比例计算,系统将按照统一策略,将固定比例(10%)的实际流量复制至相应部署中来帮助您安全地验证模型。请确保资源配置充足,以承载镜像流量。 镜像流量在同步调用中存在,异步调用无该参数。 |
| 流量权重 | 设置当前服务下部署的流量权重,服务调用请求会根据权重比例动态分配至部署上,单一部署的流量权重数值为不超过100的整数。若所有部署的流量权重全部设置为0,为避免服务中断,流量将自动进行均分。 开启镜像流量后,镜像流量不参与实际流量的权重计算,流量权重默认为固定比例,暂不支持修改。 每个服务请至少保留1个实际接受请求的部署。 |
| 预计流量比例 | 预计流量比例是单个部署实例组预期接收用户的流量与总流量比值。实际流量比例是由流量权重配置和部署状态计算所得的值。 |
方式二:
方式三:
在服务列表页右侧的操作列,单击更多>流量策略,修改流量权重。
修改完成后,单击“确定”提交任务。