文档首页/ AI开发平台ModelArts/ 故障排除/ Lite Cluster/ 资源池创建失败的原因与解决方法?
更新时间:2024-09-30 GMT+08:00
分享

资源池创建失败的原因与解决方法?

本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。

问题定位

您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题:

  1. 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。
  2. 单击“操作记录”中失败状态的报错信息。
    图1 查看报错信息

解决方法

  • ModelArts权限管理的委托权限不足,导致创建失败?

    解决方法请参见ModelArts创建委托授权

  • 申请的资源中包含受限购买的资源规格,导致购买失败?
    当前modelarts.bm.npu.arm.8snt9b3.d为受限购买,需要提前联系ModelArts运营或提工单申请开通资源规格。
    图2 报错信息
  • ECS、EVS配额不足,导致创建失败?
    集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额
    图3 报错信息(1)
    图4 报错信息(2)
  • 资源售罄或容量不足,导致创建失败?

    减少资源池节点数量,或提工单给ModelArts申请更多资源。

    图5 报错信息
  • ECS、BMS节点创建失败?

    查看资源池失败报错信息:

  • 集群纳管节点失败?

    查看资源池失败报错信息:

    • 查看资源池失败报错信息,包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。
    • 其他报错请提工单联系ModelArts运维进一步定位解决。
  • 集群容器网段不足,导致创建失败?
    图6 报错信息

    用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下:

    1. ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。
      图7 设置容器网段
    2. ModelArts Lite池,选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划
  • 账号冻结导致创建失败?

    查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。

  • 订单取消导致资源创建失败?

    查看资源池失败报错信息,存在"the operation is canceled by customer",表示资源池对应订单已取消,取消原因可能为超时未支付、用户自主取消,需重新购买。

  • 其他错误

    可通过F12查看浏览器请求信息,选择标红的pools接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。

    图8 报错信息

    如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下:

    {
        "error_code": "ModelArts.50004000",
        "error_msg": "Bad request. spec.clusters[0].providerId: Invalid value: \"77f6f112-a631-11eb-8dae-0255ac100b0d\": the cluster 77f6f112-a631-11eb-8dae-0255ac100b0d is not available"
    }

相关文档