在线服务创建部署失败
问题现象
在线服务部署创建失败。
- 登录ModelArts管理控制台,在左侧导航栏选择“模型推理 > 在线推理”,在服务列表中,单击部署失败的服务名称,进入服务详情页面。
- 在服务详情页面,切换到“事件”页签,查看事件信息。
在服务事件中出现异常事件:部署【XXX】创建失败。
- 事件中提示的错误信息包含“部署时间超过N分钟”
图1 部署时间超过N分钟
- 事件中提示的错误信息包含“资源池资源不足”
图2 资源池资源不足
- 事件中提示的错误信息包含“DEW凭据不存在”
图3 DEW凭据不存在
- 事件中提示的错误信息包含“DEW凭据中未解析到AK/SK或者解析到的AK/SK不可用”
图4 DEW凭据中未解析到AK/SK或者解析到的AK/SK不可用
- 事件中提示的错误信息包含“sfs turbo 不可用”
图5 sfs turbo 不可用
- 事件中提示的错误信息包含“部署时间超过N分钟”
原因分析及处理办法
|
错误信息 |
分析原因 |
处理办法 |
|---|---|---|
|
部署时间超过N分钟 |
设置的部署超时时间过短。 |
部署启动比较慢,通过升级在线服务部署修改部署配置,增长部署超时时间。详情请见《用户指南:升级在线服务部署》。 |
|
资源池的cpu等资源不足,pod调度失败。 |
释放或者增加资源池资源。详情请见资源池资源不足处理办法。 |
|
|
部署配置的容器启动用户组ID,没有镜像路径的权限。 |
可以移除部署配置里的“指定容器运行用户ID>用户组ID(可选)”,或者使用拥有镜像路径权限的用户组ID。 |
|
|
资源池资源不足 |
资源池资源不足。 |
释放或者增加资源池资源。详情请见资源池资源不足处理办法。 |
|
DEW凭据不存在 |
DEW凭据不存在。 |
请前往DEW服务控制台检查DEW凭据是否被删除,或者AK/SK不可用。 |
|
“DEW凭据中未解析到AK/SK或者解析到的AK/SK不可用” |
账号的AK/SK不可用。 |
查看账号的AK/SK是否存在。 |
|
SFS Turbo 不可用 |
SFS Turbo与资源池网络的关联已经解除,或者关联状态异常。 |
查看资源池网络与SFS Turbo的关联是否正常。如关联状态异常,请重新创建SFS Turbo,关联资源池网络。升级部署时,“代码来源”选择新的SFS Turbo。详情请见SFS Turbo不可用处理办法。 |
资源池资源不足处理办法
释放或者增加资源池资源,方法如下。
- 方法一:升级部署:缩减部署的实例数、修改部署单元的规格类型。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入在线推理管理页面。
- 单击目标服务名称,进入服务详情页面,切换到“部署”页签。
- 选择要升级的部署卡片,单击“升级”,进入服务“升级部署”页面。
- 查看资源池NPU/GPU/CPU/内存可用数量,评估镜像所需资源,调整资源配置中的“部署实例数”、环境配置中的“资源实例数”和“规格类型”,保证有充足的资源启动镜像。
更多参数说明请见《用户指南:部署在线服务-部署配置》。图6 升级部署
- 方法二:停止或者删除一些服务:通过资源池名称/资源池ID筛选服务列表中的服务,评估暂无业务的在线服务,执行停止或者删除服务操作,可以释放资源池资源。
删除服务操作请见《用户指南:删除服务》。
- 方法三:资源池扩容:找到部署所在的资源池,给资源池扩容。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
- 单击在线服务名称,进入在线服务的详情页面,切换到“部署”页签。
- 单击待扩容的在线服务部署,然后单击资源池名称,进入资源池详情页。
图7 在线服务详情
- 单击“更多>扩缩容”,进入专属资源池扩缩容页面。
- 调整资源配置,单击“提交”,在弹出的确认框中单击“确定”完成扩缩容。
更多参数说明请见扩缩容专属资源池。
SFS Turbo不可用处理办法
步骤一:查看资源池与sfs turbo关联状态
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理”。
- 在“专属算力资源>资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态、节点状态、资源池类型、创建时间搜索。
旧版路径:在“专属资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态、节点状态、资源池类型、创建时间搜索。
- 在资源池列表中,单击某一资源池名称,进入资源池详情页,查看资源池的网络名称。
图8 资源池网络
- 在控制台“网络管理”页面找到资源池的网络,单击已关联SFS Turbo列的数字,查看列表中关联的SFS Turbo是否包含部署详情中的SFS Turbo,以及SFS Turbo的关联状态。
图9 查看SFS Turbo状态
如果资源池网络未关联部署详情的SFS Turbo,或者关联状态异常,请重新关联新的SFS Turbo。
步骤二:资源池网络关联SFS Turbo
- 在“网络管理”页面,单击网络管理列表中某个网络操作列的“更多 > 关联SFS Turbo”。
- 在“关联SFS Turbo”弹窗中,选择SFS Turbo。可选择多个SFS Turbo。如果没有SFS Turbo,可单击输入框右侧“创建SFS Turbo”创建。
图10 关联SFS Turbo
- 单击“确定”创建关联。
步骤三:在线服务升级部署选择新的SFS Turbo
在服务升级部署时选择,“代码来源”选择新的SFS Turbo。升级部署操作请见《用户指南:升级在线服务部署》。
