更新时间:2025-08-14 GMT+08:00

管理Lite Cluster节点池

为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点

进入节点池管理页面

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
  2. 在“轻量算力集群 (Lite Cluster)”页面,单击Lite Cluster名称,进入资源详情页。
  3. 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。
    图1 节点池管理

创建节点池

  1. 当您需要更多节点池时,可单击“创建节点池”新增节点池,参考表1填写参数。
    表1 节点池参数说明

    参数

    说明

    节点池名称

    新建节点池的名称,可自定义。

    只能以小写字母开头,由小写字母、数字、中划线(-)组成,不能以中划线(-)结尾,不能以-default结尾。

    实例规格

    支持CPU、GPU、Ascend三种芯片规格资源,根据实际需要选择。

    • CPU:通用计算架构,适合通用任务,计算性能较低,适用于轻量级适合通用任务,计算性能较低。
    • GPU:并行计算架构,适合并行任务,计算性能高,支持多卡分布式训练,适用于深度学习训练、图像处理等场景。
    • Ascend:专用 AI 架构,适合 AI 任务,计算性能极高,支持多节点分布式部署,适用于AI 模型训练、推理加速等场景。

    操作系统

    可以指定实例的操作系统。

    可用区

    根据实际情况选择随机分配”“指定可用区”。可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。

    • 随机分配:系统自动分配可用区。
    • 指定可用区:指定资源池实例在哪个可用区域。考虑系统容灾时,推荐指定实例在同一个可用区。可设置可用区的实例数。

    目标实例数

    选择节点池的节点个数,数量越多,计算性能越强。

    当“可用区”选择“指定可用区”时,实例数量会根据可用区的数据自动计算,此处无需再次设置。

    单次创建时,实例数建议不大于30,否则可能触发限流导致创建失败。

    目标总实例数不能超过节点池集群规模,如果节点池集群规模选择默认,目标总实例数不能超过50,具体请以控制台界面为准。

    部分区域的部分规格支持整柜购买,此时实例数会显示为“数量*整柜”,购买的实例总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。整柜下的实例生命周期需保持一致,需要一起创建、一起删除。

    虚拟私有云

    默认为CCE集群所在VPC网络,不可修改。

    K8S标签

    设置附加到Kubernetes对象(比如Pod)上的键值对。最多可以添加20条标签。使用该标签可区分不同节点,可结合工作负载的亲和能力实现容器Pod调度到指定节点的功能。

    污点

    默认为空。支持给节点加污点来设置反亲和性,每个节点最多配置20条污点。

    容器引擎

    容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。此处支持选择Docker和Containerd。Containerd和Docker的详细差异对比请见容器引擎

    如果CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。如果CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。其余CCE集群版本,支持选择Containerd或Docker作为容器引擎。

    节点子网

    选择同一VPC网络下的子网作为节点子网,新创建的节点池将会使用该子网资源。

    关联安全组

    用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。节点安全组需要放通一些端口以保障节点通信。如果不关联安全组将会使用集群中默认的节点安全组规则。

    资源标签

    通过为资源添加标签,可以对资源进行自定义标记,实现资源分类。

    安装后执行脚本

    请输入脚本命令,命令中不能包含中文字符,需传入Base64转码后的脚本,转码后的字符数不能超过2048。脚本将在Kubernetes软件安装后执行,不影响Kubernetes软件安装。

    请不要在安装后执行脚本中使用reboot命令立即重启,如果需要重启,可以使用“shutdown -r 1”命令延迟1分钟重启。

    节点计费模式

    用户增加节点数量时,可以打开“节点计费模式”开关,为新创建的节点指定不同于资源池的计费模式或购买时长。

    不选择时计费信息默认和资源池保持一致。例如用户可以在包周期的资源池中创建按需的节点。若用户不指定该参数,则新扩容的节点计费模式和资源池保持一致。

    如果新创建的节点计费模式选择包周期,则需要选择勾选新增节点是否自动续费。勾选自动续费后,新增节点到期后会自动续期。

    如果原节点池的计费模式为包周期,打开“节点计费模式”开关,修改新创建节点的计费说明时,如果计费模式仍为包周期,计费周期不能设置晚于原节点池的计费周期。例如原节点池的计费模式为包周期且6个月以后到期,增加节点数量时,新的节点计费说明选择包周期时,计费周期不能晚于6个月以后。

  2. 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”
  3. 在弹框中确认是否勾选新增节点自动续费,单击“确定”

    创建完成可以在节点池管理页面查看已创建的节点池信息。

节点池配置弹性伸缩

根据Pod调度状态及资源使用情况对节点池的节点进行自动扩容缩容,同时支持多可用区、多实例规格、指标触发和周期触发等多种伸缩模式,满足不同的节点伸缩场景。

节点池使用弹性伸缩功能前,需要安装集群弹性引擎插件,更多详情请见集群弹性引擎

查看节点列表

当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。

更新节点池

  1. 当您想更新节点池配置时,可单击操作列的“更多>修改配置”,对配置进行更新操作。相关参数请参见表1

    需注意以下事项:

    • 目标总实例数不能超过节点池集群规模,如果节点池集群规模选择默认,目标总实例数不能超过50,具体请以控制台界面为准。
    • 更新节点池配置时,高级配置仅对新增的节点生效,其中“存量节点标签及污点”“存量节点资源标签”支持对存量节点同步改动(勾选对应的复选框)。

      节点池中更新的“资源标签”信息会同步到节点上。

      图2 更新节点池
  2. 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”
  3. 在弹框中确认是否勾选新增节点自动续费,单击“确定”

    更新完成可以在节点池管理页面查看已更新的节点池信息。

升级Lite Cluster资源池驱动

当Lite Cluster资源池中的节点含有GPU/Ascend资源时,资源池节点性能如果无法满足现有业务,升级驱动可以修复已知问题、提升性能或者支持新功能,确保资源池性能和兼容性得到优化。

可单击操作列的“更多>驱动升级”升级Lite Cluster资源池GPU/Ascend驱动,详情请见升级Lite Cluster资源池驱动

删除节点池

当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,确认会影响的关联资源和关联作业,单击“删除”后输入“DELETE”并单击“确定”即可。

针对未退订或释放的包年/包月的节点,请单击“立即前往”,前往资源池详情页删除/退订/释放节点

每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。

查看节点池的存储配置

在节点池管理的“更多>修改配置”页面,可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小等参数。

图3 修改节点池配置

在Lite资源池的扩缩容页面,也可以查看节点池的存储配置信息。

查找搜索节点池

在节点池管理页面的搜索栏中,支持通过节点池名称、规格 、容器引擎空间大小、可用区等关键字搜索节点池。

设置节点池列表显示信息

在节点池管理页面中,单击右上角的设置图标,支持对节点池列表中显示的信息进行自定义。