更新时间:2026-02-04 GMT+08:00
在线服务升级回滚失败
问题现象
服务事件中有异常、告警事件,事件信息包含:升级回滚失败、资源不足等关键字。
图1 服务事件
原因分析
资源池资源不足,回滚作业一直等待资源启动部署。
处理办法
释放或者增加资源池资源,方法如下。
- 方法一:升级部署:缩减部署的实例数、修改部署单元的单元实例规格。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。
- 单击目标服务名称,进入服务详情页面,切换到“部署”页签。
- 选择要升级的部署卡片,单击“升级”,进入服务“升级部署”页面。
- 查看资源池NPU/GPU/CPU/内存可用数量,评估镜像所需资源,调整资源配置中的“部署实例数”、单元配置中的“单元实例规格”和“资源实例数”,保证有充足的资源启动镜像。
更多参数说明请见《用户指南:部署在线服务-部署配置》。图2 升级部署
- 方法二:停止或者删除一些服务:通过资源池名称/资源池ID筛选服务列表中的服务,评估暂无业务的在线服务,执行停止或者删除服务操作,可以释放资源池资源。
删除服务操作请见《用户指南:删除服务》。
- 方法三:资源池扩容:找到部署所在的资源池,给资源池扩容。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
- 单击在线服务名称,进入在线服务的详情页面,切换到“部署”页签。
- 单击待扩容的在线服务部署,然后单击资源池名称,进入资源池详情页。
图3 在线服务详情
- 单击“更多>扩缩容”,进入专属资源池扩缩容页面。
- 调整资源配置,单击“提交”,在弹出的确认框中单击“确定”完成扩缩容。
更多参数说明请见扩缩容专属资源池。
父主题: 服务部署