管理专属资源池的节点池
为帮助您更好地管理内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。
进入节点池管理页面
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)。
- 在页面,单击资源池名称,进入资源池详情页。
- 在资源池详情页,单击“节点池”页签,您可以创建、更新和删除节点池。
图1 节点池管理
创建节点池
- 当您需要更多节点池时,可单击“创建节点池”新增节点池,参考表1填写参数。
表1 创建节点池参数说明 参数名称
参数说明
节点池名称
填写节点池名称。也可以在创建成功后在详情页对节点池名称行修改。
小写字母开头, 支持小写字母. 数字. 中划线(-), 不能以中划线(-)结尾,不能以-default结尾,长度范围2-50个字符。
实例规格
资源类型的CPU架构,支持x86和ARM两种不同的CPU架构,同时支持x86和ARM异构调度。请根据实际需要选择。
- x86:如果使用GPU资源建议选择x86。适用于大多数通用计算场景,支持广泛的软件生态。
- ARM:如果使用NPU资源建议选择ARM。适用于特定优化场景,如移动应用、嵌入式系统等,具有低功耗优势。
支持NPU、GPU、CPU三种芯片规格资源,根据实际需要选择。具体规格有区域差异,以最终显示为准。
- NPU:专用 AI 架构,适合 AI 任务,计算性能极高,支持多节点分布式部署,适用于AI 模型训练、推理加速等场景。
- GPU:并行计算架构,适合并行任务,计算性能高,支持多卡分布式训练,适用于深度学习训练、图像处理等场景。
- CPU:通用计算架构,计算性能较低,适合通用任务,计算性能较低。
“作业类型”为“模型部署(旧版)”时,不支持异构资源池。
“实例规格类型”选择完成后显示对应的实例规格名称、规格类型、节点规模(台)、NPU/GPU(卡)、vCPUs和内存(GiB)等信息。
选择需要使用的规格。平台分配的资源规格包含了一定的系统损耗,实际可用的资源量小于规格标称的资源。实际可用的资源量可在专属资源池创建成功后,在详情页的“节点”页签中查看。
当前部分规格为受限购买(如NPU规格),需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(如果无客户经理可提交工单反馈)。
操作系统
支持设置预置操作系统的镜像。选择操作系统及其版本和镜像。选择镜像时可选择“自动匹配镜像”,服务会根据您选择的驱动匹配最优镜像。
- 预置镜像:由华为云官方提供的镜像,覆盖华为自研的HCE OS、EulerOS镜像和第三方商业镜像,您可以根据实际需要选择。
- Huawei Cloud EulerOS镜像:Huawei Cloud EulerOS(简称HCE)是基于openEuler构建的云上操作系统。HCE打造云原生、高性能、高安全、易迁移等能力,加速用户业务上云,提升用户的应用创新空间,可替代CentOS、EulerOS等公共镜像。
- 华为自研EulerOS镜像:EulerOS是基于开源技术的企业级Linux操作系统软件,具备高安全性、高可扩展性、高性能等技术特性,能够满足客户IT基础设施和云计算服务等多业务场景需求。
说明:
EulerOS是基于开源操作系统openEuler进行开发的华为内部的操作系统。
- 第三方商业镜像:经华为云严格测试并制作发布,皆已正版授权,能够保证镜像安全、稳定。
可用区
可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。
分为“随机可用区”或“指定可用区”。
- 随机可用区:系统自动分配可用区。
- 指定可用区:指定资源池节点在哪个可用区域。考虑系统容灾时,推荐指定节点在同一个可用区。可设置可用区的实例数。
目标总实例数
如果“可用区”选择“指定可用区”,不用另外设置“目标总实例数”。“目标总实例数”默认为可用区ID对应的实例数总和。
如果购买资源池时,实例数量采用整柜方式购买(部分规格支持),则在扩缩容时为整柜方式扩缩容,目标总实例数等于“数量*整柜”。“整柜”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。
如果购买资源池时,实例规格为Snt9b23类型,即超节点规格,实例数量采用步长方式购买,则在扩缩容时为步长方式扩缩容,目标总实例数等于“数量*步长”。“步长”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。
系统盘
选择实例规格后,可以看到每个实例自带的系统盘存储方式、系统盘类型和容量。数据的存储位置,系统盘存储方式只能是本地盘或云硬盘。
部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘存储方式、系统盘类型和容量。此时,系统盘存储方式仅支持“云硬盘 EVS”(包括通用SSD、高IO和超高IO)。
容器盘
可以看到每个实例自带的容器盘存储方式、容器盘类型、容量(GiB)数量(个)和写入模式等。
数据的存储位置,容器盘存储方式只能是本地盘或云硬盘。
部分规格没有携带容器盘,在创建专属资源池时支持设置容器盘的存储方式。此时,容器盘存储方式只能是本地盘或云硬盘,具体以控制台实际显示为准。云硬盘包括通用SSD、高IO和超高IO。
部分规格支持设置容器盘的写入模式,写入模式包括“线性”和“条带化”。
容器运行时空间分配
容器盘有两种空间分配方式,分为共享磁盘空间和指定磁盘空间。
-
共享磁盘空间:采用容器引擎和Kubelet共享磁盘空间的方式,不在划分容器引擎 (Docker/Containerd)和Kubelet组件的空间。
- 指定磁盘空间:容器盘空间默认划分为两块,一块用于存放容器引擎 (Docker/Containerd) 工作目录、容器镜像的数据和镜像元数据;另一块用于Kubelet组件和EmptyDir临时存储等。
- 容器引擎和容器镜像空间占比:容器引擎和容器镜像在数据盘上占用的空间比例上限,剩余空间将分配给Kubelet组件和EmptyDir临时缓存使用。
- Kubelet组件和EmptyDir临时缓存空间占比:表示Kubelet组件和EmptyDir临时缓存使用的空间。
“容器引擎和容器镜像空间占比”将直接影响“容器引擎空间(GiB)”的可用存储上限。
警告:- 开启共享磁盘后,部分容器占用过多磁盘空间可能影响其他业务,请合理规划使用。
- 节点池创建成功后,可以修改该配置。修改配置后,新建节点生效,存量已创建节点不影响。修改容器运行时空间分配后,新建节点将与存量节点产生配置差异,可能影响业务运行一致性,请谨慎操作。如需统一配置,可对存量节点进行重置。
容器引擎空间限制
该参数限制的是POD容器空间分配的大小。可指定容器引擎空间大小。
容器引擎空间大小仅支持整数, 默认值与最小值为50GiB,不同规格的最大值不同,数值有效范围请参考界面提示。
不限制容器引擎空间可能导致磁盘被占满,影响节点稳定性,建议通过指定大小设置合理上限。
自定义设置容器引擎空间大小不会造成额外费用增加。
容器引擎空间大小
当“容器引擎空间限制”选择“指定大小”时,显示该参数。
修改容器引擎空间大小仅作用在新建节点上,且会导致资源池内该规格下节点的dockerBaseSize不一致,可能会使得部分任务在不同节点的运行情况不一致。
数据盘
部分规格支持额外挂载容器数据盘,可以看到“添加容器数据盘”参数,单击该参数前面的+号,可以给专属资源池的每个实例额外挂载容器数据盘,此处挂载的盘都是EVS云硬盘,会单独收费。
支持设置挂载盘的容器盘类型、容量和数量,具体取值以控制台实际显示为准。
节点自动恢复
勾选启用后,当检测到节点故障时,系统将自动重启或修复故障节点,无需用户干预。此外,节点池中的存量故障节点也会自动恢复。
系统会在故障节点空闲时根据配置自动修复,无需手动操作。
若未启用自动修复功能,故障节点将仅被标记,需手动前往事件中心授权修复。
勾选启用后,至少需要选择一项恢复方式:
- “节点重启”:当节点故障时重启节点,但存储在内存中数据会丢失。
- “系统维修”:当节点故障时自动进入维修进程,系统维护过程中,宿主机可能会进入下电状态,云服务器不可用。
- “更换本地盘”:当节点故障时自动更换本地盘,但是之前故障本地盘上的数据会丢失。
配置后,在“资源管理 > 辅助工具 > 事件中心”(旧版控制台:“资源管理 > 事件中心”)页可以查看到自动恢复的记录(授权方式:自动授权)。
节点计费模式
指定节点计费模式。用户增加实例数量时,可以打开“节点计费模式”开关,为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动续费功能。例如用户可以在包周期的资源池中创建按需的节点,如果用户不指定该参数,创建的节点计费模式和资源池保持一致。计费详情请参见计费影响。
- 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”。
- 在弹框中单击“确定”。
创建完成可以在节点池管理页面查看已创建的节点池信息。
查看节点池信息
修改节点池配置
- 当您想更新节点池配置时,可单击操作列的“修改配置”,对配置进行更新操作。相关参数请参见表1。
- 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”。
- 在弹框中单击“确定”。
更新完成可以在节点池管理页面查看已更新的节点池信息。
删除节点池
当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,确认会影响的关联资源和关联作业,单击“删除”后输入“DELETE”并单击“确定”即可。
针对未退订或释放的包年/包月的节点,请前往资源池详情页查看资源池节点并退订或释放包年/包月节点。
每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。
驱动升级
当用户需要升级节点池驱动时,可以单击节点池列表的操作列中“更多 > 驱动升级”进入驱动升级界面进行驱动升级。更多详细内容请参见升级专属资源池驱动。
