更新时间:2026-02-14 GMT+08:00
分享

管理专属资源池的节点池

为帮助您更好地管理专属资源池内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点

进入节点池管理页面

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 资源池页面,单击资源池名称,进入资源池详情页。
  3. 在资源池详情页,单击“节点池”页签,您可以创建、更新和删除节点池。
    图1 节点池管理

创建节点池

  1. 当您需要更多节点池时,可单击“创建节点池”新增节点池,参考表1填写参数。
    表1 创建节点池参数说明

    参数名称

    参数说明

    节点池名称

    填写节点池名称。也可以在创建成功后在详情页对节点池名称行修改。

    小写字母开头, 支持小写字母. 数字. 中划线(-), 不能以中划线(-)结尾,不能以-default结尾,长度范围2-50个字符。

    实例规格

    资源类型的CPU架构,支持x86和ARM两种不同的CPU架构,同时支持x86和ARM异构调度。请根据实际需要选择。

    • x86如果使用GPU资源建议选择x86。适用于大多数通用计算场景,支持广泛的软件生态。
    • ARM:如果使用NPU资源建议选择ARM。适用于特定优化场景,如移动应用、嵌入式系统等,具有低功耗优势。

    支持NPU、GPU、CPU三种芯片规格资源,根据实际需要选择。具体规格有区域差异,以最终显示为准。

    • NPU:专用 AI 架构,适合 AI 任务,计算性能极高,支持多节点分布式部署,适用于AI 模型训练、推理加速等场景。
    • GPU:并行计算架构,适合并行任务,计算性能高,支持多卡分布式训练,适用于深度学习训练、图像处理等场景。
    • CPU:通用计算架构,计算性能较低,适合通用任务,计算性能较低。

    “作业类型”“模型部署(旧版)”时,不支持异构资源池。

    “实例规格类型”选择完成后显示对应的实例规格名称、规格类型、节点规模(台)、NPU/GPU(卡)、vCPUs和内存(GiB)等信息。

    选择需要使用的规格平台分配的资源规格包含了一定的系统损耗,实际可用的资源量小于规格标称的资源。实际可用的资源量可在专属资源池创建成功后,在详情页的“节点”页签中查看。

    当前部分规格为受限购买(如NPU规格),需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(如果无客户经理可提交工反馈)。

    操作系统

    支持设置预置操作系统的镜像。选择操作系统及其版本和镜像。选择镜像时可选择“自动匹配镜像”,服务会根据您选择的驱动匹配最优镜像。

    • 预置镜像:由华为云官方提供的镜像,覆盖华为自研的HCE OS、EulerOS镜像和第三方商业镜像,您可以根据实际需要选择
      • Huawei Cloud EulerOS镜像:Huawei Cloud EulerOS(简称HCE)是基于openEuler构建的云上操作系统。HCE打造云原生、高性能、高安全、易迁移等能力,加速用户业务上云,提升用户的应用创新空间,可替代CentOS、EulerOS等公共镜像。
      • 华为自研EulerOS镜像EulerOS是基于开源技术的企业级Linux操作系统软件,具备高安全性、高可扩展性、高性能等技术特性,能够满足客户IT基础设施和云计算服务等多业务场景需求。
        说明:

        EulerOS是基于开源操作系统openEuler进行开发的华为内部的操作系统。

      • 第三方商业镜像经华为云严格测试并制作发布,皆已正版授权,能够保证镜像安全、稳定。

    可用区

    可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。

    分为随机可用区”“指定可用区”

    • 随机可用区:系统自动分配可用区。
    • 指定可用区:指定资源池节点在哪个可用区域。考虑系统容灾时,推荐指定节点在同一个可用区。可设置可用区的实例数。

    目标总实例数

    如果“可用区”选择“指定可用区”,不用另外设置“目标总实例数”“目标总实例数”默认为可用区ID对应的实例数总和。

    如果购买资源池时,实例数量采用整柜方式购买(部分规格支持),则在扩缩容时为整柜方式扩缩容,目标总实例数等于“数量*整柜”。“整柜”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。

    如果购买资源池时,实例规格为Snt9b23类型,即超节点规格,实例数量采用步长方式购买,则在扩缩容时为步长方式扩缩容,目标总实例数等于“数量*步长”。“步长”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。

    系统盘

    选择实例规格后,可以看到每个实例自带的系统盘存储方式、系统盘类型和容量。数据的存储位置,系统盘存储方式只能是本地盘或云硬盘。

    部分规格没有携带系统盘,在创建专属资源池时支持设置系统盘存储方式、系统盘类型和容量。此时,系统盘存储方式仅支持“云硬盘 EVS”(包括通用SSD、高IO和超高IO)。

    容器盘

    可以看到每个实例自带的容器盘存储方式、容器盘类型、容量(GiB)数量(个)和写入模式等。

    数据的存储位置,容器盘存储方式只能是本地盘或云硬盘。

    部分规格没有携带容器盘,在创建专属资源池时支持设置容器盘的存储方式。此时,容器盘存储方式只能是本地盘或云硬盘,具体以控制台实际显示为准。云硬盘包括通用SSD、高IO和超高IO。

    部分规格支持设置容器盘的写入模式,写入模式包括“线性”和“条带化”。

    • 线性:线性逻辑卷是将一个或多个物理卷整合为一个逻辑卷,实际写入数据时会先往一个基本物理卷上写入,当存储空间占满时再往另一个基本物理卷写入。
    • 条带化:创建逻辑卷时指定条带化,当实际写入数据时会将连续的数据分成大小相同的块,然后依次存储在多个物理卷上,实现数据的并发读写从而提高读写性能。条带化模式的存储池不支持扩容。

      启用持久化存储卷条带化功能至少需要 2 块相同规格与容量的硬盘。

    容器运行时空间分配

    容器盘有两种空间分配方式,分为共享磁盘空间和指定磁盘空间。

    • 共享磁盘空间:采用容器引擎和Kubelet共享磁盘空间的方式,不在划分容器引擎 (Docker/Containerd)和Kubelet组件的空间。

    • 指定磁盘空间:容器盘空间默认划分为两块,一块用于存放容器引擎 (Docker/Containerd) 工作目录、容器镜像的数据和镜像元数据;另一块用于Kubelet组件和EmptyDir临时存储等。
      • 容器引擎和容器镜像空间占比:容器引擎和容器镜像在数据盘上占用的空间比例上限,剩余空间将分配给Kubelet组件和EmptyDir临时缓存使用。
      • Kubelet组件和EmptyDir临时缓存空间占比:表示Kubelet组件和EmptyDir临时缓存使用的空间。

    “容器引擎和容器镜像空间占比”将直接影响“容器引擎空间(GiB)”的可用存储上限。

    警告:
    • 开启共享磁盘后,部分容器占用过多磁盘空间可能影响其他业务,请合理规划使用。
    • 节点池创建成功后,可以修改该配置。修改配置后,新建节点生效,存量已创建节点不影响。修改容器运行时空间分配后,新建节点将与存量节点产生配置差异,可能影响业务运行一致性,请谨慎操作。如需统一配置,可对存量节点进行重置。

    容器引擎空间限制

    该参数限制的是POD容器空间分配的大小。可指定容器引擎空间大小。

    容器引擎空间大小仅支持整数, 默认值与最小值为50GiB,不同规格的最大值不同,数值有效范围请参考界面提示。

    不限制容器引擎空间可能导致磁盘被占满,影响节点稳定性,建议通过指定大小设置合理上限。

    自定义设置容器引擎空间大小不会造成额外费用增加。

    容器引擎空间大小

    当“容器引擎空间限制”选择“指定大小”时,显示该参数。

    修改容器引擎空间大小仅作用在新建节点上,且会导致资源池内该规格下节点的dockerBaseSize不一致,可能会使得部分任务在不同节点的运行情况不一致。

    数据盘

    部分规格支持额外挂载容器数据盘,可以看到“添加容器数据盘”参数,单击该参数前面的+号,可以给专属资源池的每个实例额外挂载容器数据盘,此处挂载的盘都是EVS云硬盘,会单独收费。

    支持设置挂载盘的容器盘类型、容量和数量,具体取值以控制台实际显示为准。

    节点自动恢复

    勾选启用后,当检测到节点故障时,系统将自动重启或修复故障节点,无需用户干预。此外,节点池中的存量故障节点也会自动恢复。

    系统会在故障节点空闲时根据配置自动修复,无需手动操作。

    若未启用自动修复功能,故障节点将仅被标记,需手动前往事件中心授权修复。

    勾选启用后,至少需要选择一项恢复方式:

    • “节点重启”:当节点故障时重启节点,但存储在内存中数据会丢失。
    • “系统维修”:当节点故障时自动进入维修进程,系统维护过程中,宿主机可能会进入下电状态,云服务器不可用。
    • “更换本地盘”:当节点故障时自动更换本地盘,但是之前故障本地盘上的数据会丢失。

    配置后,在“资源管理 > 辅助工具 > 事件中心”(旧版控制台:“资源管理 > 事件中心”)页可以查看到自动恢复的记录(授权方式:自动授权)。

    节点计费模式

    指定节点计费模式。用户增加实例数量时,可以打开“节点计费模式”开关,为资源池新扩容的节点设置不同于资源池的计费模式、购买时长和开启自动续费功能。例如用户可以在包周期的资源池中创建按需的节点,如果用户不指定该参数,创建的节点计费模式和资源池保持一致。计费详情请参见计费影响

  2. 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”
  3. 在弹框中单击“确定”

    创建完成可以在节点池管理页面查看已创建的节点池信息。

查看节点池信息

  1. 当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。
  2. 查找搜索节点池

    在节点池管理页面的搜索栏中,支持通过节点池名称、规格 、容器引擎空间大小、可用区等关键字搜索节点池。

  3. 设置节点池列表显示信息

    在节点池管理页面中,单击右上角的设置图标,支持对节点池列表中显示的信息进行自定义。

修改节点池配置

  1. 当您想更新节点池配置时,可单击操作列的“修改配置”,对配置进行更新操作。相关参数请参见表1
  2. 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”
  3. 在弹框中单击“确定”

    更新完成可以在节点池管理页面查看已更新的节点池信息。

删除节点池

当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,确认会影响的关联资源和关联作业,单击“删除”后输入“DELETE”并单击“确定”即可。

针对未退订或释放的包年/包月的节点,请前往资源池详情页查看资源池节点并退订或释放包年/包月节点。

每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。

驱动升级

当用户需要升级节点池驱动时,可以单击节点池列表的操作列中“更多 > 驱动升级”进入驱动升级界面进行驱动升级。更多详细内容请参见升级专属资源池驱动

相关文档