创建标准算力集群2.0
操作场景
本章节的操作在本地云和协同云均需进行。主要介绍在本地云和协同云创建标准算力集群2.0,创建完成的集群用于构建资源池联邦。
前提条件
- 标准算力集群2.0资源池节点均创建在用户VPC网络下,需要用户在本地云和协同云各准备一个VPC,两个VPC的网段互不重叠并通过DC/VPN+ER打通。
- 确保VPC下可创建至少2个子网,以保障在跨云场景下的网络通信。
操作步骤
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 标准算力集群2.0”。 图1 标准算力集群创建入口
- 在“标准算力集群2.0”页签,单击“创建标准算力集群2.0”,进入“创建标准算力集群2.0”界面,参见下方参数说明填写。标准算力集群2.0资源池使用的用户VPC及其子网,参照表2 网络参数说明填写。
表1 表1 集群规格参数说明 参数名称
参数说明
集群名称
填写集群名称。
说明:集群名称以小写字母开头,支持小写字母、数字和中划线(-),不能以中划线(-)结尾。长度范围为4-15个字符,以保证资源池ID总长度不超过48。
作业类型
选择作业类型。
根据业务需要,选择该资源池支持的作业类型,包括“开发环境”、“训练作业”和“推理服务”。
说明:标准算力集群2.0当前仅支持训练作业场景。
集群高级配置
- 集群规格:可以保持默认或选择自定义。选择自定义时,支持设置集群规模、开启控制节点高可用开关。
- 集群规模:表示资源池支持管理的最大实例数量,请根据业务场景选择。创建完成后集群规模支持扩容,不支持缩容。
- 控制节点高可用:开启后,系统为您的集群创建三个控制平面节点,确保集群的可靠性。如果集群规模为1000/2000节点,则必须开启。如果关闭高可用,您的集群只会创建一个控制平面节点。资源池创建后,控制节点高可用的开启或关闭状态不可修改。
- 控制节点分布:可以选择随机分配,也可以指定可用区。控制节点推荐随机分布在不同可用区以提高容灾能力。
- 随机分配:系统会随机分配控制节点的可用区,尽可能将控制节点随机分布在不同可用区以提高容灾能力 。如果某可用区资源不足,将分配至资源充足的可用区,优先保障集群创建成功,但可能无法保障可用区级容灾。
- 指定可用区:自定义选择控制节点的可用区。
表2 表2 网络参数说明 参数名称
参数说明
虚拟私有云
为新建集群选择一个虚拟私有云。
用户选择的VPC需要与步骤2中所选择的VPC保持一致,且需要确保本地云和协同云的VPC已通过DC/VPN+ER打通。
默认节点子网
选定子网后,资源池中的节点会默认使用此子网中的IP地址。
容器子网
用于选择容器所在子网。指定后将使用云原生网络2.0网络(ENI网络),容器子网决定了集群下容器的数量上限。创建标准算力集群2.0必须指定。
跨参数面子网
用于本地云和协同云之间的跨参数面通信,跨参数面子网不可与默认节点子网和容器子网重复。在跨云场景下需指定。
K8S网段
可选默认和自定义。
- 默认:系统随机分配一个不冲突的网段供用户使用,因后续不支持修改建议商用场景选择手动分配,确保网段符合用户诉求。
- 自定义:需要自定义K8S容器网段和K8S服务网段。
- K8S容器网段:集群下容器使用的网段,决定了集群下容器的数量上限。创建后不可修改。
- K8S服务网段:同一集群下容器互相访问时使用的Service资源的网段,决定了Service资源的上限。创建后不可修改。
服务网段
根据“K8S网段”的选择填写合适网段。
表3 表3 默认规格参数说明 参数名称
参数说明
CPU架构
资源类型的CPU架构,支持X86和ARM两种不同的CPU架构,同时支持X86和ARM64异构调度。请根据实际需要选择。
- X86:如果使用GPU资源请选择X86。适用于大多数通用计算场景,支持广泛的软件生态。
- ARM64:如果使用NPU资源请选择ARM。适用于特定优化场景,如移动应用、嵌入式系统等,具有低功耗优势。
实例规格类型
支持CPU、GPU、Ascend三种芯片规格资源,根据实际需要选择。请先选择CPU架构,再根据具体需求选择实例规格。具体规格有区域差异,以最终显示为准。
- CPU:通用计算架构,计算性能较低,适合通用任务。
- GPU:并行计算架构,计算性能高,适合并行任务。支持多卡分布式训练,适用于深度学习训练、图像处理等场景。
- Ascend:专用AI架构,计算性能极高,适合AI任务。支持多节点分布式部署,适用于AI模型训练、推理加速等场景。
实例规格
在下拉框中选择需要使用的规格。平台分配的资源规格包含了一定的系统损耗,实际可用的资源量小于规格标称的资源。实际可用的资源量可在专属资源池创建成功后,在详情页的“节点”页签中查看。
当前部分规格为受限购买(如Ascend规格),需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(如果无客户经理可提交工单反馈)。
可用区
您可以根据实际情况选择“随机分配”或“指定可用区”。可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。如果您需要提高工作负载的高可靠性,建议您将云服务器创建在不同的可用区。
- 随机分配:系统自动分配可用区。
- 指定可用区:指定资源池节点所属的可用区域。考虑系统容灾时,推荐将节点部署在同一个可用区。可设置可用区的实例数。
实例数
选择专属资源池的实例数,选择的实例数越多,计算性能越强。说明:- 当“可用区”选择“指定可用区”时,实例数会根据可用区的数据自动计算,此处无需再次设置。
- 单次创建时,实例数建议不大于30,否则可能触发限流导致创建失败。
节点高级配置
开启“节点高级配置”开关后,支持设置容器引擎空间大小和实例的操作系统。
表4 表4 高级配置参数说明 参数名称
参数说明
集群描述
输入集群描述信息,便于查找和区分集群。
添加标签
单击“添加标签”,可以为集群配置标签信息,通过标签实现资源的分组管理。
此处的标签信息可以同源标签管理服务TMS中预定义的标签信息,也可以输入自定义标签。也可以在创建完成后的标准算力集群2.0详情页面中通过“标签”页签设置标签信息。
TMS预定义标签对所有支持标签功能的服务资源可见。自定义标签只对自己服务可见。
图2 网络填写页面示例
- 集群规格:可以保持默认或选择自定义。选择自定义时,支持设置集群规模、开启控制节点高可用开关。
- 填写完成后,单击“立即创建”。
- 创建完成后在“标准算力集群2.0”页面可以查看已创建的集群资源池。
- 本地云切换至协同云,参照步骤2-步骤4,在协同云完成标准算力集群2.0的创建。