更新时间:2026-06-18 GMT+08:00
分享

在线服务部署滚动升级

场景描述

滚动升级是ModelArts推理在线服务平滑迭代、无中断更新的核心能力,通过逐步替换部署副本,实现服务版本升级、镜像更新、模型替换、配置变更等操作,全程业务无感知、请求不中断。

典型适用场景:

  • 模型版本迭代:大模型 / 小模型更新权重、微调后升级,避免服务整体下线;
  • 镜像更新:修复漏洞、优化性能、升级依赖包,零停机替换实例;
  • 配置变更:调整资源规格、环境变量、健康检查参数,平滑生效;
  • 灰度发布:分批上线新版本,验证稳定性后全量推广,降低风险;
  • 高可用运维:服务异常时,滚动重启实例,保障业务连续性。

约束限制

  • 资源池约束:专属资源池和公共资源池均支持滚动升级。
  • 镜像约束:支持自定义镜像和预置镜像;但镜像必须可正常启动、无致命错误。
  • 副本数约束:无效实例数 ≥ 0 才能实现真正无中断升级;无效实例数 = 100% 会短暂中断。
  • 健康检查约束:建议已配置健康检查,避免新实例未就绪就承接流量。
  • 升级中断约束:升级过程中若资源不足、镜像错误,会终止升级,旧实例继续运行。

滚动升级配置操作

登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“部署管理配置 > 更多配置”中设置“最大浪涌部署副本数”“最大无效部署副本数”。具体操作请参见推理在线服务单机部署

“最大浪涌部署副本数”:每次滚动升级能超出目标部署副本数的最大比例。

“最大无效部署副本数”:每次滚动升级能少于目标部署副本数的最大比例。若最大无效部署副本数等于目标部署副本数,则部署有停止风险(最小存活部署副本数 = 部署副本数 - 最大无效部署副本数)。

表1 配置建议

应用场景

配置建议

通用生产配置(零中断)

最大浪涌部署副本数:1%

最大无效部署副本数:1%

快速升级配置(低延迟)

最大浪涌部署副本数:25%

最大无效部署副本数:25%

灰度测试配置(小批量)

最大浪涌部署副本数:10%

最大无效部署副本数:10%

单实例应急配置(允许短暂中断)

最大浪涌部署副本数:100%

最大无效部署副本数:100%

相关文档