更新时间:2026-02-04 GMT+08:00
分享

在线服务部署实例异常

问题现象

在线服务的“部署”因实例异常,状态变为“告警、异常”。

  1. 登录ModelArts管理控制台,在左侧导航栏中选择“模型推理 > 在线推理”,在服务列表中,单击服务名称,进入服务详情页面。
  2. 在服务详情页面,切换到“事件”页签,查看事件信息。

    在服务事件中出现异常事件:“部署【XXX】状态由“运行中”转变为“告警”、“部署【XXX】状态由“运行中”转变为“异常”

    • 事件中提示的错误信息包含“可用实例数减少至N”
      图1 可部署状态告警

      图2 部署状态异常

    • 事件中提示的错误信息包含“资源池已被解纳管”
      图3 资源池已被解纳管

    • 事件中提示的错误信息包含“没有可用的实例”
      图4 没有可用的实例

原因分析及处理办法

表1 部署实例异常原因分析及处理办法

错误信息

分析原因

处理办法

可用实例数减少至N

可能是资源池节点故障,导致部署的实例个数减少。

检查资源池节点状态,详情请见查看资源池节点

可能是手动删除实例后,pod调度失败,实例无法重新拉起。

“服务事件”右边页签是“Pod事件”,切换到“Pod事件”页签,查看pod原始事件,定位到pod启动失败的根因。

可能是健康检查失败。

资源池已被解纳管

资源池的作业类型,移除了选项“新版推理服务”,导致资源池被解纳管,该资源池下的所有部署状态会变为异常。

修改资源池的作业类型,作业类型添加“新版推理服务”,重新纳管资源池,详情请见修改专属资源池支持的作业类型

然后依次执行停止服务、启动服务。

没有可用的实例

资源池节点下电后,资源池的组件operator不可用,该资源池节点下部署的所有pod都是异常状态。

给资源池节点上电,资源池的组件operator会自动恢复,部署里的实例也会自动恢复。

相关文档