在线服务部署滚动升级
场景描述
滚动升级是ModelArts推理在线服务平滑迭代、无中断更新的核心能力,通过逐步替换部署副本,实现服务版本升级、镜像更新、模型替换、配置变更等操作,全程业务无感知、请求不中断。
典型适用场景:
- 模型版本迭代:大模型 / 小模型更新权重、微调后升级,避免服务整体下线;
- 镜像更新:修复漏洞、优化性能、升级依赖包,零停机替换实例;
- 配置变更:调整资源规格、环境变量、健康检查参数,平滑生效;
- 灰度发布:分批上线新版本,验证稳定性后全量推广,降低风险;
- 高可用运维:服务异常时,滚动重启实例,保障业务连续性。
约束限制
- 资源池约束:专属资源池和公共资源池均支持滚动升级。
- 镜像约束:支持自定义镜像和预置镜像;但镜像必须可正常启动、无致命错误。
- 副本数约束:无效实例数 ≥ 0 才能实现真正无中断升级;无效实例数 = 100% 会短暂中断。
- 健康检查约束:建议已配置健康检查,避免新实例未就绪就承接流量。
- 升级中断约束:升级过程中若资源不足、镜像错误,会终止升级,旧实例继续运行。
滚动升级配置操作
登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。部署在线服务时,在“部署管理配置 > 更多配置”中设置“最大浪涌部署副本数”和“最大无效部署副本数”。具体操作请参见推理在线服务单机部署。
“最大浪涌部署副本数”:每次滚动升级能超出目标部署副本数的最大比例。
“最大无效部署副本数”:每次滚动升级能少于目标部署副本数的最大比例。若最大无效部署副本数等于目标部署副本数,则部署有停止风险(最小存活部署副本数 = 部署副本数 - 最大无效部署副本数)。
| 应用场景 | 配置建议 |
|---|---|
| 通用生产配置(零中断) | 最大浪涌部署副本数:1% 最大无效部署副本数:1% |
| 快速升级配置(低延迟) | 最大浪涌部署副本数:25% 最大无效部署副本数:25% |
| 灰度测试配置(小批量) | 最大浪涌部署副本数:10% 最大无效部署副本数:10% |
| 单实例应急配置(允许短暂中断) | 最大浪涌部署副本数:100% 最大无效部署副本数:100% |