更新时间:2026-02-04 GMT+08:00
分享

在线服务升级回滚失败

问题现象

服务事件中有异常、告警事件,事件信息包含:升级回滚失败、资源不足等关键字。

图1 服务事件

原因分析

资源池资源不足,回滚作业一直等待资源启动部署。

处理办法

释放或者增加资源池资源,方法如下。

  • 方法一:升级部署:缩减部署的实例数、修改部署单元的单元实例规格。
    1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理>在线推理”,进入在线服务管理页面。
    2. 单击目标服务名称,进入服务详情页面,切换到“部署”页签。
    3. 选择要升级的部署卡片,单击“升级”,进入服务“升级部署”页面。
    4. 查看资源池NPU/GPU/CPU/内存可用数量,评估镜像所需资源,调整资源配置中的“部署实例数”、单元配置中的“单元实例规格”“资源实例数”,保证有充足的资源启动镜像。
      更多参数说明请见《用户指南:部署在线服务-部署配置》。
      图2 升级部署
  • 方法二:停止或者删除一些服务:通过资源池名称/资源池ID筛选服务列表中的服务,评估暂无业务的在线服务,执行停止或者删除服务操作,可以释放资源池资源。

    停止服务操作请见《用户指南:停止服务部署》。

    删除服务操作请见《用户指南:删除服务》。

  • 方法三:资源池扩容:找到部署所在的资源池,给资源池扩容。
    1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
    2. 单击在线服务名称,进入在线服务的详情页面,切换到“部署”页签。
    3. 单击待扩容的在线服务部署,然后单击资源池名称,进入资源池详情页。
      图3 在线服务详情
    4. 单击“更多>扩缩容”,进入专属资源池扩缩容页面。
    5. 调整资源配置,单击“提交”,在弹出的确认框中单击“确定”完成扩缩容。

      更多参数说明请见扩缩容专属资源池

相关文档