创建Standard专属资源池
在AI开发过程中,由于业务需求的多样化和资源使用的复杂性,为满足特定业务对资源确定性、安全性、高效性的严格要求,创建专属资源池成为必要举措。
专属资源池是一种为特定用户、业务或项目专门划分和预留的资源集合,这些资源在物理或逻辑上与其他资源隔离开来,以确保特定需求能够得到满足。
ModelArts Standard专属资源池提供了在使用ModelArts进行AI开发(包括创建Workflow工作流、创建Notebook实例、创建训练作业、创建推理服务)所需的计算资源。更多Standard资源池介绍请见Standard资源池功能介绍。
ModelArts Standard专属资源池以弹性集群的方式提供专属计算资源,需要通过创建Standard专属资源池获取计算资源,以满足您在使用ModelArts过程中特定的业务需求。
本章节主要介绍创建Standard专属资源池的详细操作。
计费影响
在创建Standard专属资源池时,会产生计算资源的计费,计算资源为进行运行开发环境、模型训练和部署服务的费用。具体内容如表1所示。
|
计费项 |
计费项说明 |
适用的计费模式 |
计费公式 |
|
|---|---|---|---|---|
|
计算资源 |
专属资源池 |
使用计算资源的用量。 具体费用可参见ModelArts价格详情。 |
按需计费 |
规格单价 * 计算节点个数 * 使用时长 |
|
包年/包月 |
规格单价 * 计算节点个数 * 购买时长 |
|||
|
存储资源 |
云硬盘EVS |
用户挂载的容器数据盘。 创建Standard专属资源池时,挂载了容器数据盘(EVS),则这部分存储计费。 |
跟随专属资源池计费模式 |
规格单价 * 磁盘大小 * 磁盘数量 * 使用时长或购买时长 |
前提条件
保证足够的资源配额,如果当前专属资源池配额限制无法满足使用需要,您可以申请扩大配额,详情请见配额与限制。
登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”,在标准算力集群列表右上角可查看当前专属资源池配额(可用/总量)。
步骤一:创建网络
ModelArts网络是承载ModelArts资源池节点的网络连接,基于华为云的VPC进行封装,对用户仅提供网络名称以及CIDR网段的选择项。为了防止在打通VPC的时候有网段的冲突,ModelArts网络提供了多个CIDR网段的选项,用户可以根据自己的实际情况进行选择。
虚拟私有云VPC是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。
单用户最多可创建15个网络。创建网络操作步骤如下。
- 登录ModelArts管理控制台,在左侧导航栏中选择“资源管理 > 网络管理”,单击“创建网络”。
- 在“创建网络”弹窗中填写网络信息。
- 网络名称:创建网络时默认生成网络名称,也可自行修改。
- 网段类型:可选“预置”和“自定义”。自定义网络,建议使用网段:10.0.0.0/8~24、172.16.0.0/12~24、192.168.0.0/16~24,子网掩码可选范围8-28。如您要使用推理服务,请避免VPC网段与推理保留网段冲突:192.168.100.0/24,10.255.0.0/20。
图1 创建网络
- 确认无误后,单击“确定”。
网络创建后,可在网络管理页面查看已创建的网络。
步骤二:打通VPC(可选)
打通VPC通常指在不同的VPC之间或者VPC与其他网络环境之间建立网络连接,以实现资源共享和安全通信。
通过打通VPC,可以方便用户跨VPC使用资源,实现资源共享、提升数据传输效率、保障业务连续性等。
在打通VPC前,需要提前创建好待打通的VPC和子网,详情请见创建虚拟私有云和子网。
- 在“资源管理>网络管理”页签,单击网络列表中某个网络操作列的“打通VPC”。
图2 打通VPC
- 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。
需要打通的对端网络不能和当前网段重叠。
图3 打通VPC参数选择
- 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云,详情请见创建虚拟私有云和子网。
- 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。
- 支持1个VPC下多个子网的打通,如果VPC下有多个子网,会显示“+”,单击“+”即可添加子网(上限10个)。
- 如果需要使用打通VPC的方式实现专属资源池访问公网,由于要访问的公网地址不确定,一般是建议用户在VPC中创建SNAT。此场景下,在打通VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的缺省路由。当您开启默认路由后,在打通VPC时,会将ModelArts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加缺省路由即可完成网络配置。
步骤三:创建Standard专属资源池
ModelArts Standard专属资源池以弹性集群的方式提供专属计算资源,需要通过创建Standard专属资源池获取计算资源,以满足您在使用ModelArts过程中特定的业务需求。
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群 (Standard Cluster)”。
- 在“标准算力集群 (Standard Cluster) ”页面,单击“购买标准算力集群”,进入购买标准算力集群界面,参见下表填写参数。
表2 AI专属集群的参数说明 参数名称
子参数
说明
计费模式
-
计费模式可以选择“包年/包月”或“按需计费”。
- 包年/包月是预付费模式,按订单的购买周期计费,适用于可预估资源使用周期的场景,其价格比按需计费模式更优惠。
- 按需计费是后付费模式,按云服务器的实际使用时长计费,可以随时开通/删除云服务器。
集群规格
集群名称
Standard专属资源池的名称。
只能以小写字母开头,由小写字母、数字、中划线(-)组成,不能以中划线结尾,长度范围4-30个字符。
资源池类型
可选物理资源池。
物理资源池是指实际的硬件资源集合,包括GPU、NPU、CPU等计算资源。这些资源是ModelArts运行的基础,用户在创建逻辑子池之前,必须先创建一个物理资源池。物理资源池支持不同的作业类型,如训练、推理等。
物理资源池不支持弹性资源,优势是提供更高的隔离性,物理隔离,网络专属,且支持网络打通等。
作业类型
Standard资源池提供了在使用ModelArts进行AI开发作业所需的计算资源。
根据业务需要,选择该资源池支持的作业类型,包括“开发环境”、“训练作业”、“推理服务”。
集群高级配置
当“资源池类型”选择“物理资源池”时,需要配置集群规格和控制节点分布。
- 集群规格:可以保持默认或选择自定义。选择自定义时,支持设置集群规模、开启控制节点高可用开关。
- 集群规模:表示资源池支持管理的最大实例数量,请根据业务场景选择。
- 控制节点高可用:开启后,系统为您的集群创建三个控制平面节点,确保集群的可靠性。如果集群规模为1000/2000节点,则必须开启。如果关闭高可用,您的集群只会创建一个控制平面节点。资源池创建后,控制节点高可用的开启或关闭状态不可修改。
- 控制节点分布:可以选择随机分配,也可以指定可用区。控制节点推荐尽可能随机分布在不同可用区以提高容灾能力。
- 随机分配:系统会随机分配控制节点的可用区,尽可能将控制节点随机分布在不同可用区以提高容灾能力 。如果某可用区资源不足,将分配至资源充足的可用区,优先保障集群创建成功,可能无法保障可用区级容灾。
- 指定可用区:自定义选择控制节点的可用区。
网络
ModelArts网络
指定资源池运行的网络,可以与该网络中的其他云服务资源实例互通。仅物理资源池需要设置网络。
在下拉框中选择,如果没有可用网络,单击右侧的“创建”,创建一个可用的网络。创建网络相关可以参考步骤一:创建网络章节。
如您要使用推理服务,请避免VPC网段与推理保留网段冲突:192.168.0.0/16,172.16.0.0/16,10.247.0.0/16,10.255.0.0/16,172.16.0.0/16,10.247.0.0/16。
IPv6网络
开启IPv6功能。如果开启了此功能,要求资源池绑定的网络也开启IPv6功能,网络开启IPv6可以参考步骤一:创建网络章节。该功能一旦开启,将不能关闭。
节点池规格配置
节点类型
- 普通节点:单一物理主机或虚拟主机,提供基础的独立计算、存储和网络资源。
- 超节点:融合架构节点,提供大规模计算资源池,支持灵活调配和高密度部署。超节点专门用于支持大规模的模型推理任务。这些服务器通常配备有多个计算卡(如昇腾NPU),能够提供强大的计算能力,以满足高负载的推理需求。超节点资源仅支持西南-贵阳一、华北三、华北-乌兰察布一和华东二区域。
- 整柜节点:整台物理机独占资源,提供极高隔离性、性能和资源确定性。
资源类型
可以根据需要选择“裸金属服务器”或“弹性云服务器”。
- 裸金属服务器:是一款兼具弹性云服务器和物理机性能的计算类服务器,为您和您的企业提供专属的云上物理服务器。
- 弹性云服务器:是一种可随时自助获取、可弹性伸缩的云服务器,可帮助您打造可靠、安全、灵活、高效的应用环境,确保服务持久稳定运行,提升运维效率。
CPU架构
资源类型的CPU架构,支持x86和ARM两种不同的CPU架构,同时支持x86和ARM异构调度。请根据实际需要选择。
- x86:如果使用GPU资源建议选择x86。适用于大多数通用计算场景,支持广泛的软件生态。
- ARM:如果使用NPU资源建议选择ARM。适用于特定优化场景,如移动应用、嵌入式系统等,具有低功耗优势。
实例规格类型
支持CPU、GPU、NPU三种芯片规格资源,根据实际需要选择。请先选择CPU架构,再根据具体需求选择实例规格。具体规格有区域差异,以最终显示为准。
- CPU:通用计算架构,计算性能较低,适合通用任务,计算性能较低。
- GPU:并行计算架构,适合并行任务,计算性能高,支持多卡分布式训练,适用于深度学习训练、图像处理等场景。
- NPU:专用 AI 架构,适合 AI 任务,计算性能极高,支持多节点分布式部署,适用于AI 模型训练、推理加速等场景。
“作业类型”为“开发环境”和“推理服务”时,不支持异构资源池。
选择多个规格为“实例规格类型”是 “CPU”资源或者“ NPU”下实例规格为“Snt9b”“Snt9b23”资源时,支持下发同构训练任务。同一异构资源池“CPU架构”只允许选择x86或者arm64的一种规格类型。
实例规格
在下拉框中选择需要使用的规格。平台分配的资源规格包含了一定的系统损耗,实际可用的资源量小于规格标称的资源。
当前部分规格为受限购买(如NPU规格),需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(如果无客户经理可提交工单反馈)。
可用区
您可以根据实际情况选择“随机可用区”或“指定可用区”。可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。
- 随机可用区:系统自动分配可用区。
- 指定可用区:指定资源池节点在哪个可用区域。考虑系统容灾时,推荐指定节点在同一个可用区。可设置可用区的实例数。
实例数
选择专属资源池的实例数,选择的实例数越多,计算性能越强。
当“可用区”选择“指定可用区”时,实例数会根据可用区的数据自动计算,此处无需再次设置。
单次创建时,实例数建议不大于30,否则可能触发限流导致创建失败。
存储配置-系统盘存储方式
选择实例规格后,可以看到每个实例自带的系统盘存储方式、系统盘类型和容量。系统盘存储方式只能是本地盘或云硬盘,不允许修改。
部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘存储方式、系统盘类型和容量。此时,系统盘存储方式仅支持“云硬盘 EVS”(包括通用SSD、高IO和超高IO)。
存储配置-容器盘存储方式
可以看到每个实例自带的容器盘存储方式、容器盘类型、容量和个数等。容器盘存储方式只能是本地盘或云硬盘,不允许修改。
部分规格没有携带容器盘,在创建专属资源池时支持设置容器盘的存储方式。此时,容器盘存储方式只能是本地盘或云硬盘,具体以控制台实际显示为准。云硬盘包括通用SSD、高IO和超高IO。
部分规格支持设置容器盘的写入模式,写入模式包括“线性”和“条带化”。
- 线性:线性逻辑卷是将一个或多个物理卷整合为一个逻辑卷,实际写入数据时会先往一个基本物理卷上写入,当存储空间占满时再往另一个基本物理卷写入。
- 条带化:创建逻辑卷时指定条带化,当实际写入数据时会将连续的数据分成大小相同的块,然后依次存储在多个物理卷上,实现数据的并发读写从而提高读写性能。条带化模式的存储池不支持扩容。
存储配置-添加容器数据盘
部分规格支持额外挂载容器数据盘,可以看到“添加容器数据盘”参数,单击该参数前面的+号,可以给专属资源池的每个实例额外挂载容器数据盘,此处挂载的盘都是EVS云硬盘,会单独收费。
支持设置挂载盘的容器盘类型、容量和数量,具体取值以控制台实际显示为准。
容器盘高级配置-指定磁盘空间(%)
容器盘空间默认划分为两块,一块用于存放容器引擎 (Docker/Containerd) 工作目录、容器镜像的数据和镜像元数据;另一块用于Kubelet组件和EmptyDir临时存储等。通过“指定磁盘空间”参数定义容器引擎和容器镜像在数据盘上占用的空间比例上限,剩余空间将分配给Kubelet组件和EmptyDir临时缓存使用。
指定的磁盘空间大小将直接影响容器引擎空间的可用存储上限。
容器盘的类型是本地盘时,不支持设置“指定磁盘空间”。
容器盘高级配置-容器引擎空间(GiB)
该参数限制的是POD容器空间分配的大小。可指定容器引擎空间大小。
容器引擎空间大小仅支持整数, 默认值与最小值为50GiB,不同规格的最大值不同,数值有效范围请参考界面提示。自定义设置容器引擎空间大小不会造成额外费用增加。
该参数限制了单个POD作业使用磁盘的大小。
高可用冗余
资源池创建时,部分实例规格支持开启高可用冗余。部分规格未配置高可用冗余,具体以控制台界面为准。
- 高可用冗余节点将被隔离,工作负载无法调度到冗余节点上。
- 高可用冗余节点会作为备用节点与节点的故障检测配合使用,在普通节点故障时自动进行切换。
冗余实例数量:当此规格设置的高可用冗余实例数量。
单个超节点的冗余节点数量:当“节点类型”为“超节点”或“整柜节点”时,此规格设置每个超节点要冗余的节点数。当前实际冗余节点数为实例数*单个超节点冗余节点数。
镜像配置
勾选“镜像配置”后,支持设置预置镜像的操作系统。
GPU驱动/NPU驱动
部分GPU和NPU规格资源池允许自定义安装驱动。集群中默认会安装驱动,无需用户操作,只需要指定驱动版本即可。
如果实例规格类型为GPU则显示“GPU驱动”,如果实例规格类型为NPU则显示“NPU驱动”。
新增节点池
单击“新增节点池”,可创建多个节点池。根据业务设置各个节点池配置。
当前仅“实例规格类型”为“CPU”,“实例规格”为Snt9b1、Snt9b2、Snt9b3、Snt9b23,“作业类型”仅选择“训练作业”时,支持新增节点池。无法新增节点池时,控制台界面“新增节点池”会置灰,具体以控制台为准。
插件配置
选择插件
ModelArts提供多种类型的插件,通过添加插件选择性扩展资源池功能,以满足业务需求。
默认安装插件如下:
- 节点故障检测(ModelArts Node Agent)
ModelArts节点故障检测是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题。
- 指标监控插件(ModelArts Metric Collector)
默认内置插件,以节点守护程序运行,可采集节点及作业各类监控指标,并上报到AOM。
- AI套件(NVIDIA GPU)
AI套件(NV GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
仅实例规格类型选择“GPU”时自动安装。
- AI套件(Ascend NPU)
支持容器里使用huawei NPU设备的管理插件。
仅实例规格类型选择“NPU”时自动安装。
- Volcano调度器(Volcano Scheduler)
Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。
作业类型选择“训练作业”时自动安装。
单击各插件的“查看详情”,可查看对应插件的功能介绍、版本更新特性等具体信息。
高级配置
网段
可选默认和自定义。
- 默认:系统随机分配一个不冲突的网段供用户使用,因后续不支持修改建议商用场景选择手动分配,确保网段符合用户诉求。
- 自定义:需要自定义K8S容器网段和K8S服务网段。
- K8S容器网段:集群下容器使用的网段,决定了集群下容器的数量上限。创建后不可修改。
- K8S服务网段:同一集群下容器互相访问时使用的Service资源的网段。决定了Service资源的上限。 创建后不可修改。
如您要使用推理服务,请避免vpc网段与推理保留网段冲突:192.168.0.0/16,172.16.0.0/16,10.247.0.0/16,10.255.0.0/16,172.16.0.0/16,10.247.0.0/16。
集群描述(可选)
输入集群描述信息,方便查找区分集群。长度范围0-100个字符。
标签
单击“添加标签”,可以为Standard资源池配置标签信息,通过标签实现资源的分组管理。也可以在创建完成后的Standard资源池详情页面中通过“标签”页签设置标签信息。此处的标签信息可以同步标签管理服务TMS中预定义的标签信息,也可以输入自定义标签。
TMS预定义标签对所有支持标签功能的服务资源可见。自定义标签只对自己服务可见。
最多添加20个标签。
购买时长
-
选择购买时长。只有选择“包年/包月”计费模式时才需选择。
自动续费
是否自动续费。只有选择“包年/包月”计费模式时才需选择。自动续费时系统从可用余额扣款,详情请见自动续费。
- 按月购买:自动续费周期为1个月。
- 按年购买:自动续费周期为1年。
- 单击“立即购买”确认规格。产品规格和协议许可确认无误后,单击“提交”,即可创建专属资源池。
- 当资源池创建成功后,资源池的状态会变成“运行中”。
- 可以将鼠标放在“创建中”字样上,查看当前创建过程详情。如果单击查看详情,可跳转到“操作记录”中。
- 可以在资源池列表左上角“操作记录”中查看资源池的任务记录。
图4 查看资源池状态
常见问题
创建专属资源池时,能选到规格但最终创建时发生报错,提示无可用资源?
由于专属资源的可选规格是动态监测的,因此在极少数情况下会出现,规格在购买界面可以被选择,但由于没有及时支付和创建资源池,导致该规格售罄创建失败。
建议您在创建界面更换规格重新创建资源池。
为什么无法使用资源池节点上的全部CPU资源?
由于资源池节点上会安装系统、插件等内容,因此不能完全使用所有资源。例如:资源池节点是8U,节点分配给系统组件部分CPU,可用的资源会小于8U。
建议您在启动任务前,在该资源池的详情页中,单击“节点”页签,查看实际可用的CPU资源。
ModelArts支持使用ECS创建专属资源池吗?
不支持。创建资源池时,只能选择界面提供的“未售罄”节点规格进行创建。专属资源池的节点规格后台是对应的ECS资源,但是无法使用账号下购买的ECS,作为ModelArts专属资源池。
在ModelArts中公共资源池和专属资源池的区别是什么?
- 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建一个专属资源池,然后在AI开发过程中选择此专属资源池。
- 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。 用户下发训练作业、部署模型、使用开发环境实例等,均可以使用ModelArts提供的公共资源池完成,按照使用量计费,方便快捷。
专属资源池和公共资源池的能力主要差异请见在ModelArts中公共资源池和专属资源池的区别是什么?
创建资源池失败
在资源池创建失败或变更失败,可通过查看资源池的“操作记录”和“失败记录”查看失败状态的资源池信息,进一步定位操作失败的具体原因,详情请见创建资源池失败。