更新时间:2024-08-16 GMT+08:00
分享

创建Standard专属资源池

本章节主要介绍创建Standard专属资源池的详细操作。

前提条件

  • 已经创建虚拟私有云。
  • 已经创建子网。

创建网络

ModelArts网络是承载ModelArts资源池节点的网络连接,基于华为云的VPC进行封装,对用户仅提供网络名称以及CIDR网段的选择项,为了防止在打通VPC的时候有网段的冲突,因此提供了多个CIDR网段的选项,用户可以根据自己的实际情况进行选择。虚拟私有云VPC是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。

  1. 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,默认进入“资源池”页面。
  2. 切换到“网络”页签,单击“创建”,弹出“创建网络”页面。
    图1 网络列表
  3. 在“创建网络”弹窗中填写网络信息。
    • 网络名称:创建网络时默认生成网络名称,也可自行修改。
    • 网段类型:可选“预置”和“自定义”。
    • IPV6:开启IPv6功能后,将自动为子网分配IPv6网段,暂不支持自定义设置IPv6网段,该功能一旦开启,将不能关闭。(如果创建网络时未勾选开启IPv6,也可在创建网络后在操作列单击“启动IPv6”,如图3
    图2 创建网络
    图3 启动IPv6
    • 单用户最多可创建20个网络。
    • 网段设置以后不能修改,避免与将要打通的VPC网段冲突。可能冲突的网段包括:
      • 用户的vpc网段
      • 容器网段(固定是172.16.0.0/16)
      • 服务网段(固定是10.247.0.0/16)
  4. 确认无误后,单击“确定”

打通VPC(可选)

通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。

  1. “网络”页签,单击网络列表中某个网络操作列的“打通VPC”
    图4 打通VPC
  2. 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。

    需要打通的对端网络不能和当前网段重叠。

    图5 打通VPC参数选择
    • 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。
    • 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。
    • 支持1个VPC下多个子网的打通,如果VPC下有多个子网,会显示“+”,您可单击“+”即可添加子网(上限10个)。
    • 如果需要使用打通VPC的方式实现专属资源池访问公网,由于要访问的公网地址不确定,一般是建议用户在VPC中创建SNAT。此场景下,在打通VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的缺省路由。当您开启默认路由后,在打通VPC时,会将ModelArts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加缺省路由即可完成网络配置。

购买AI专属集群

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群Cluster”。
  2. 在“弹性集群Cluster”页签,单击“购买AI专属集群”,进入购买AI专属集群界面,参见下表填写参数。
    表1 AI专属集群的参数说明

    参数名称

    子参数

    说明

    名称

    -

    专属资源池的名称。

    只能以小写字母开头,由小写字母、数字、中划线(-)组成,不能以中划线结尾。

    描述

    -

    专属资源池的简要说明。

    使用场景

    -

    选择使用场景,“ModelArts Standard”“ModelArts Lite”。创建“ModelArts Lite”相关资料请见《ModelArts Lite Cluster用户指南》。该参数仅在贵阳一区域显示。

    计费模式

    -

    选择计费模式,“包年/包月”“按需计费”

    资源池类型

    -

    可选物理资源池和逻辑资源池。逻辑资源池与规格有关,如果无逻辑规格则不显示逻辑资源池。

    作业类型

    -

    根据业务需要,选择该资源池支持的作业类型。

    • 物理资源池:支持“开发环境”、“训练作业”和“推理服务”的作业类型。
    • 逻辑资源池:仅支持“训练作业”的作业类型。

    IPv6

    -

    开启IPv6功能。如果开启了此功能,要求资源池绑定的网络也开启IPv6功能,网络开启IPv6可以参考创建网络章节。该功能一旦开启,将不能关闭。

    当前支持IPv6功能的有如下规格:

    • modelarts.kc1.2xlarge.4
    • modelarts.vm.cpu.16u32g.d
    • modelarts.vm.cpu.16u64g.d
    • modelarts.vm.cpu.24u48g.d
    • modelarts.vm.cpu.48u96g.d
    • modelarts.vm.cpu.8ud

    网络

    -

    表示服务实例运行在指定的网络中,可以与该网络中的其他云服务资源实例互通。

    在下拉框中选择,如果没有可用网络,单击右侧的“创建”,创建一个可用的网络。创建网络相关可以参考创建网络章节。

    规格管理

    规格类型

    请根据界面提示选择需要使用的规格。平台分配的资源规格包含了一定的系统损耗,实际可用的资源量小于规格标称的资源。实际可用的资源量可在专属资源池创建成功后,在详情页的“节点”页签中查看。

    当前部分规格为受限购买(如Ascend规格),需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(如果无客户经理可提交工单反馈)。

    可用区

    您可以根据实际情况选择随机分配”“指定AZ”。可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。

    • 随机分配:系统自动分配可用区。
    • 指定AZ:指定资源池节点在哪个可用区域。考虑系统容灾时,推荐指定节点在同一个可用区。可设置可用区的节点数。

    节点数量

    选择专属资源池的节点数,选择的节点数越多,计算性能越强。

    当“可用区”选择“指定AZ”时,节点数量会根据可用区的数据自动计算,此处无须再次设置。

    说明:

    单次创建时,节点数建议不大于30,否则可能触发限流导致创建失败。

    部分规格支持整柜购买,此时节点数量会显示为“数量*整柜”,购买的节点总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。整柜下的节点生命周期需保持一致,需要一起创建、一起删除。

    图6 整柜购买

    高级选项

    开启后,可设置容器引擎空间大小。

    容器引擎空间大小仅支持整数, 默认值与最小值为50G,不同规格的最大值不同,数值有效范围请参考界面提示。自定义设置容器引擎空间大小不会造成额外费用增加。

    自定义驱动

    -

    默认关闭。部分GPU和Ascend规格资源池允许自定义安装驱动。集群中默认会安装驱动,无需用户操作。只有需要指定驱动版本时,需要开启。

    GPU驱动/Ascend驱动

    -

    打开“自定义驱动”开关,显示此参数,选择GPU/Ascend驱动。如果规格类型为GPU则显示“GPU驱动”,如果规格类型为Ascend则显示“Ascend驱动”。

    购买时长

    -

    选择购买时长。只有选择“包年/包月”计费模式时才需填写。

    自动续费

    -

    是否自动续费。只有选择“包年/包月”计费模式时才需填写。

    • 按月购买:自动续费周期为1个月。
    • 按年购买:自动续费周期为1年。

    高级选项

    -

    选中“现在配置”,可配置标签信息、网段、控制节点分布。

    标签

    -

    ModelArts支持对接标签管理服务TMS,在ModelArts中创建资源消耗性任务(例如:创建Notebook、训练作业、推理在线服务)时,可以为这些任务配置标签,通过标签实现资源的多维分组管理。

    标签详细用法请参见ModelArts如何通过标签实现资源分组管理

    说明:

    可以在标签输入框下拉选择TMS预定义标签,也可以自己输入自定义标签。预定义标签对所有支持标签功能的服务资源可见。租户自定义标签只对自己服务可见。

    网段

    -

    可选默认和自定义。

    • 默认:系统随机分配一个不冲突的网段供用户使用,因后续不支持修改建议商用场景选择手动分配,确保网段符合用户诉求。
    • 自定义:需要自定义K8S容器网段和K8S服务网段。
      • K8S容器网段:集群下容器使用的网段,决定了集群下容器的数量上限。创建后不可修改。
      • K8S服务网段:同一集群下容器互相访问时使用的Service资源的网段。决定了Service资源的上限。 创建后不可修改。

    控制节点分布

    -

    控制节点的分布位置,可选择随机分配和自定义。

    • 随机分配:随机分配控制节点可用区,尽可能将控制节点随机分布在不同可用区以提高容灾能力 。如果某可用区资源不足,将分配至资源充足的可用区,优先保障集群创建成功,可能无法保障可用区级容灾。
    • 自定义:自定义选择控制节点的可用区。

    控制节点推荐尽可能随机分布在不同可用区以提高容灾能力。

  3. 单击“下一步”确认规格。规格确认无误后,单击“提交”,即可创建专属资源池。
    • 当资源池创建成功后,资源池的状态会变成“运行中”,当“节点个数”中的“可用”和“总数”值大于0时,资源池才能下发任务。
      图7 查看资源池
    • 可以将鼠标放在“创建中”字样上,查看当前创建过程详情。如果单击查看详情,可跳转到“操作记录”中。
      图8 创建中状态
    • 可以在资源池列表左上角“操作记录”中查看资源池的任务记录。
      图9 操作记录
      图10 查看资源池状态

常见问题

创建专属资源池时,能选到规格但最终创建时发生报错,提示无可用资源?

由于专属资源的可选规格是动态监测的,因此在极少数情况下会出现,规格在购买界面可以被选择,但由于没有及时支付和创建资源池,导致该规格售罄创建失败。

建议您在创建界面更换规格重新创建资源池。

为什么无法使用资源池节点上的全部CPU资源?

由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8U,节点分配给系统组件部分CPU,可用的资源会小于8U。

建议您在启动任务前,在该资源池的详情页中,单击“节点”页签,查看实际可用的CPU资源。

相关文档