在线服务部署实例异常
问题现象
在线服务的“部署”因实例异常,状态变为“告警、异常”。
- 登录ModelArts管理控制台,在左侧导航栏中选择“模型推理 > 在线推理”,在服务列表中,单击服务名称,进入服务详情页面。
- 在服务详情页面,切换到“事件”页签,查看事件信息。
在服务事件中出现异常事件:“部署【XXX】状态由“运行中”转变为“告警”、“部署【XXX】状态由“运行中”转变为“异常”。
- 事件中提示的错误信息包含“可用实例数减少至N”
图1 可部署状态告警
图2 部署状态异常
- 事件中提示的错误信息包含“资源池已被解纳管”
图3 资源池已被解纳管
- 事件中提示的错误信息包含“没有可用的实例”
图4 没有可用的实例
- 事件中提示的错误信息包含“可用实例数减少至N”
原因分析及处理办法
|
错误信息 |
分析原因 |
处理办法 |
|---|---|---|
|
可用实例数减少至N |
可能是资源池节点故障,导致部署的实例个数减少。 |
检查资源池节点状态,详情请见查看资源池节点。 |
|
可能是手动删除实例后,pod调度失败,实例无法重新拉起。 |
“服务事件”右边页签是“Pod事件”,切换到“Pod事件”页签,查看pod原始事件,定位到pod启动失败的根因。 |
|
|
可能是健康检查失败。 |
||
|
资源池已被解纳管 |
资源池的作业类型,移除了选项“新版推理服务”,导致资源池被解纳管,该资源池下的所有部署状态会变为异常。 |
修改资源池的作业类型,作业类型添加“新版推理服务”,重新纳管资源池,详情请见修改专属资源池支持的作业类型。 然后依次执行停止服务、启动服务。 |
|
没有可用的实例 |
资源池节点下电后,资源池的组件operator不可用,该资源池节点下部署的所有pod都是异常状态。 |
给资源池节点上电,资源池的组件operator会自动恢复,部署里的实例也会自动恢复。 |