更新时间:2026-02-04 GMT+08:00
分享

在线服务创建部署失败

问题现象

在线服务部署创建失败。

  1. 登录ModelArts管理控制台,在左侧导航栏选择“模型推理 > 在线推理”,在服务列表中,单击部署失败的服务名称,进入服务详情页面。
  2. 在服务详情页面,切换到“事件”页签,查看事件信息。

    在服务事件中出现异常事件:部署【XXX】创建失败。

    • 事件中提示的错误信息包含“部署时间超过N分钟”
      图1 部署时间超过N分钟

    • 事件中提示的错误信息包含“资源池资源不足”
      图2 资源池资源不足

    • 事件中提示的错误信息包含“DEW凭据不存在”
      图3 DEW凭据不存在

    • 事件中提示的错误信息包含“DEW凭据中未解析到AK/SK或者解析到的AK/SK不可用”
      图4 DEW凭据中未解析到AK/SK或者解析到的AK/SK不可用

    • 事件中提示的错误信息包含“sfs turbo 不可用”
      图5 sfs turbo 不可用

原因分析及处理办法

表1 部署创建失败原因分析及处理办法

错误信息

分析原因

处理办法

部署时间超过N分钟

设置的部署超时时间过短。

部署启动比较慢,通过升级在线服务部署修改部署配置,增长部署超时时间。详情请见《用户指南:升级在线服务部署》。

资源池的cpu等资源不足,pod调度失败。

释放或者增加资源池资源。详情请见资源池资源不足处理办法

部署配置的容器启动用户组ID,没有镜像路径的权限。

可以移除部署配置里的“指定容器运行用户ID>用户组ID(可选)”,或者使用拥有镜像路径权限的用户组ID。

资源池资源不足

资源池资源不足。

释放或者增加资源池资源。详情请见资源池资源不足处理办法

DEW凭据不存在

DEW凭据不存在。

请前往DEW服务控制台检查DEW凭据是否被删除,或者AK/SK不可用。

“DEW凭据中未解析到AK/SK或者解析到的AK/SK不可用”

账号的AK/SK不可用。

查看账号的AK/SK是否存在。

SFS Turbo 不可用

SFS Turbo与资源池网络的关联已经解除,或者关联状态异常。

查看资源池网络与SFS Turbo的关联是否正常。如关联状态异常,请重新创建SFS Turbo,关联资源池网络。升级部署时,“代码来源”选择新的SFS Turbo。详情请见SFS Turbo不可用处理办法

资源池资源不足处理办法

释放或者增加资源池资源,方法如下。

  • 方法一:升级部署:缩减部署的实例数、修改部署单元的规格类型。
    1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入在线推理管理页面。
    2. 单击目标服务名称,进入服务详情页面,切换到“部署”页签。
    3. 选择要升级的部署卡片,单击“升级”,进入服务“升级部署”页面。
    4. 查看资源池NPU/GPU/CPU/内存可用数量,评估镜像所需资源,调整资源配置中的“部署实例数”、环境配置中的“资源实例数”“规格类型”,保证有充足的资源启动镜像。
      更多参数说明请见《用户指南:部署在线服务-部署配置》。
      图6 升级部署
  • 方法二:停止或者删除一些服务:通过资源池名称/资源池ID筛选服务列表中的服务,评估暂无业务的在线服务,执行停止或者删除服务操作,可以释放资源池资源。

    停止服务操作请见《用户指南:停止服务部署》。

    删除服务操作请见《用户指南:删除服务》。

  • 方法三:资源池扩容:找到部署所在的资源池,给资源池扩容。
    1. 登录ModelArts管理控制台,在左侧菜单栏中选择“模型推理 > 在线推理”,进入“在线推理”管理页面。
    2. 单击在线服务名称,进入在线服务的详情页面,切换到“部署”页签。
    3. 单击待扩容的在线服务部署,然后单击资源池名称,进入资源池详情页。
      图7 在线服务详情
    4. 单击“更多>扩缩容”,进入专属资源池扩缩容页面。
    5. 调整资源配置,单击“提交”,在弹出的确认框中单击“确定”完成扩缩容。

      更多参数说明请见扩缩容专属资源池

SFS Turbo不可用处理办法

步骤一:查看资源池与sfs turbo关联状态

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理”。
  2. 在“专属算力资源>资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态、节点状态、资源池类型、创建时间搜索。

    旧版路径:在“专属资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态、节点状态、资源池类型、创建时间搜索。

  3. 在资源池列表中,单击某一资源池名称,进入资源池详情页,查看资源池的网络名称。
    图8 资源池网络

  4. 在控制台“网络管理”页面找到资源池的网络,单击已关联SFS Turbo列的数字,查看列表中关联的SFS Turbo是否包含部署详情中的SFS Turbo,以及SFS Turbo的关联状态。
    图9 查看SFS Turbo状态

    如果资源池网络未关联部署详情的SFS Turbo,或者关联状态异常,请重新关联新的SFS Turbo。

步骤二:资源池网络关联SFS Turbo

  1. “网络管理”页面,单击网络管理列表中某个网络操作列的“更多 > 关联SFS Turbo”
  2. 在“关联SFS Turbo”弹窗中,选择SFS Turbo。可选择多个SFS Turbo。如果没有SFS Turbo,可单击输入框右侧“创建SFS Turbo”创建。
    图10 关联SFS Turbo

  3. 单击“确定”创建关联。
    图11 关联成功

步骤三:在线服务升级部署选择新的SFS Turbo

在服务升级部署时选择,“代码来源”选择新的SFS Turbo。升级部署操作请见《用户指南:升级在线服务部署》。

相关文档