资源池创建失败的原因与解决方法?
本文主要介绍在ModelArts资源池创建失败时,如何查找失败原因,并解决问题。
问题定位
您可以参考以下步骤,查看资源池创建失败的报错信息,并根据相应的解决方法解决问题:
- 登录ModelArts控制台,单击弹性集群,单击资源池列表上方的“操作记录”查看创建失败的资源池。
- 单击“操作记录”中失败状态的报错信息。
图1 查看报错信息
解决方法
- ModelArts权限管理的委托权限不足,导致创建失败?
解决方法请参见ModelArts创建委托授权。
- 申请的资源中包含受限购买的资源规格,导致购买失败?
当前modelarts.bm.npu.arm.8snt9b3.d为受限购买,需要提前联系ModelArts运营或提工单申请开通资源规格。图2 报错信息
- ECS、EVS配额不足,导致创建失败?
- 资源售罄或容量不足,导致创建失败?
减少资源池节点数量,或提工单给ModelArts申请更多资源。
图5 报错信息
- ECS、BMS节点创建失败?
查看资源池失败报错信息:
- 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。
- 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。
- 包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施
- 其他报错请提工单联系ModelArts运维进一步定位解决。
- 集群纳管节点失败?
查看资源池失败报错信息:
- 查看资源池失败报错信息,包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。
- 其他报错请提工单联系ModelArts运维进一步定位解决。
- 集群容器网段不足,导致创建失败?
图6 报错信息
用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下:
- ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。
图7 设置容器网段
- ModelArts Lite池,选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。
- ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。
- 账号冻结导致创建失败?
查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。
- 订单取消导致资源创建失败?
查看资源池失败报错信息,存在"the operation is canceled by customer",表示资源池对应订单已取消,取消原因可能为超时未支付、用户自主取消,需重新购买。
- 其他错误
可通过F12查看浏览器请求信息,选择标红的pools接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。
图8 报错信息
如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下:
{ "error_code": "ModelArts.50004000", "error_msg": "Bad request. spec.clusters[0].providerId: Invalid value: \"77f6f112-a631-11eb-8dae-0255ac100b0d\": the cluster 77f6f112-a631-11eb-8dae-0255ac100b0d is not available" }