更新时间:2025-08-19 GMT+08:00
资源池创建失败的原因与解决方法?
本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。
问题定位
您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题:
- 登录ModelArts控制台,左侧导航栏单击“AI专属资源池 > 弹性集群Cluster”“”,单击资源池列表右上角的“操作记录”查看创建失败的资源池。
- 单击“操作记录”中失败状态的报错信息。
图1 查看报错信息
解决方法
- ModelArts权限管理的委托权限不足,导致创建失败?
解决方法请参见ModelArts创建委托授权。
- 申请的资源中包含受限购买的资源规格,导致购买失败?
当前modelarts.bm.npu.arm.8snt9b3.d为受限购买,需要提前联系ModelArts运营或提工单申请开通资源规格。
- ECS、EVS配额不足,导致创建失败?
集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额。
- 资源售罄或容量不足,导致创建失败?
减少资源池节点数量,或提工单给ModelArts申请更多资源。
图2 报错信息 - ECS、BMS节点创建失败?
查看资源池失败报错信息:
- 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。
- 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。
- 包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施
- 其他报错请提工单联系ModelArts运维进一步定位解决。
- 集群纳管节点失败?
查看资源池失败报错信息:
- 查看资源池失败报错信息,包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。
- 其他报错请提工单联系ModelArts运维进一步定位解决。
- 集群容器网段不足,导致创建失败?
用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下:
- ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。
- ModelArts Lite池,选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。
- 账号冻结导致创建失败?
查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。
- 订单取消导致资源创建失败?
查看资源池失败报错信息,存在"the operation is canceled by customer",表示资源池对应订单已取消,取消原因可能为超时未支付、用户自主取消,需重新购买。
- 其他错误
可通过F12查看浏览器请求信息,选择标红的pools接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。
如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下:
{ "error_code": "ModelArts.50004000", "error_msg": "Bad request. spec.clusters[0].providerId: Invalid value: \"77f6f112-a631-11eb-8dae-0255ac100b0d\": the cluster 77f6f112-a631-11eb-8dae-0255ac100b0d is not available" }
父主题: Lite Cluster