管理Lite Cluster节点池
为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。
进入节点池管理页面
- 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”。
- 在“轻量算力集群 (Lite Cluster)”页面,单击Lite Cluster名称,进入资源详情页。
- 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。
图1 节点池管理
创建节点池
- 当您需要更多节点池时,可单击“创建节点池”新增节点池,参考表1填写参数。
表1 节点池参数说明 参数
说明
节点池名称
新建节点池的名称,可自定义。
只能以小写字母开头,由小写字母、数字、中划线(-)组成,不能以中划线(-)结尾,不能以-default结尾。
实例规格
支持CPU、GPU、Ascend三种芯片规格资源,根据实际需要选择。
- CPU:通用计算架构,适合通用任务,计算性能较低,适用于轻量级适合通用任务,计算性能较低。
- GPU:并行计算架构,适合并行任务,计算性能高,支持多卡分布式训练,适用于深度学习训练、图像处理等场景。
- Ascend:专用 AI 架构,适合 AI 任务,计算性能极高,支持多节点分布式部署,适用于AI 模型训练、推理加速等场景。
操作系统
可以指定实例的操作系统。
可用区
根据实际情况选择“随机分配”或“指定可用区”。可用区是在同一区域下,电力、网络隔离的物理区域。可用区之间内网互通,不同可用区之间物理隔离。
- 随机分配:系统自动分配可用区。
- 指定可用区:指定资源池实例在哪个可用区域。考虑系统容灾时,推荐指定实例在同一个可用区。可设置可用区的实例数。
目标实例数
选择节点池的节点个数,数量越多,计算性能越强。
当“可用区”选择“指定可用区”时,实例数量会根据可用区的数据自动计算,此处无需再次设置。
单次创建时,实例数建议不大于30,否则可能触发限流导致创建失败。
目标总实例数不能超过节点池集群规模,如果节点池集群规模选择默认,目标总实例数不能超过50,具体请以控制台界面为准。
部分区域的部分规格支持整柜购买,此时实例数会显示为“数量*整柜”,购买的实例总数为两者的乘积。整柜购买可实现不同任务间的物理隔离,避免通信冲突,在任务规模增大的同时保证计算性能线性度不下降。整柜下的实例生命周期需保持一致,需要一起创建、一起删除。
虚拟私有云
默认为CCE集群所在VPC网络,不可修改。
K8S标签
设置附加到Kubernetes对象(比如Pod)上的键值对。最多可以添加20条标签。使用该标签可区分不同节点,可结合工作负载的亲和能力实现容器Pod调度到指定节点的功能。
污点
默认为空。支持给节点加污点来设置反亲和性,每个节点最多配置20条污点。
容器引擎
容器引擎是Kubernetes最重要的组件之一,负责管理镜像和容器的生命周期。Kubelet通过Container Runtime Interface (CRI) 与容器引擎交互,以管理镜像和容器。此处支持选择Docker和Containerd。Containerd和Docker的详细差异对比请见容器引擎。
如果CCE集群版本低于1.23,仅支持选择Docker作为容器引擎。如果CCE集群版本大于等于1.27,仅支持选择Containerd作为容器引擎。其余CCE集群版本,支持选择Containerd或Docker作为容器引擎。
节点子网
选择同一VPC网络下的子网作为节点子网,新创建的节点池将会使用该子网资源。
关联安全组
用于指定节点池创建出来的节点使用的安全组。最多选择4个安全组。节点安全组需要放通一些端口以保障节点通信。如果不关联安全组将会使用集群中默认的节点安全组规则。
资源标签
通过为资源添加标签,可以对资源进行自定义标记,实现资源分类。
安装后执行脚本
请输入脚本命令,命令中不能包含中文字符,需传入Base64转码后的脚本,转码后的字符数不能超过2048。脚本将在Kubernetes软件安装后执行,不影响Kubernetes软件安装。
请不要在安装后执行脚本中使用reboot命令立即重启,如果需要重启,可以使用“shutdown -r 1”命令延迟1分钟重启。
节点计费模式
用户增加节点数量时,可以打开“节点计费模式”开关,为新创建的节点指定不同于资源池的计费模式或购买时长。
不选择时计费信息默认和资源池保持一致。例如用户可以在包周期的资源池中创建按需的节点。若用户不指定该参数,则新扩容的节点计费模式和资源池保持一致。
如果新创建的节点计费模式选择包周期,则需要选择勾选新增节点是否自动续费。勾选自动续费后,新增节点到期后会自动续期。
如果原节点池的计费模式为包周期,打开“节点计费模式”开关,修改新创建节点的计费说明时,如果计费模式仍为包周期,计费周期不能设置晚于原节点池的计费周期。例如原节点池的计费模式为包周期且6个月以后到期,增加节点数量时,新的节点计费说明选择包周期时,计费周期不能晚于6个月以后。
- 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”。
- 在弹框中确认是否勾选新增节点自动续费,单击“确定”。
创建完成可以在节点池管理页面查看已创建的节点池信息。
节点池配置弹性伸缩
根据Pod调度状态及资源使用情况对节点池的节点进行自动扩容缩容,同时支持多可用区、多实例规格、指标触发和周期触发等多种伸缩模式,满足不同的节点伸缩场景。
节点池使用弹性伸缩功能前,需要安装集群弹性引擎插件,更多详情请见集群弹性引擎。
查看节点列表
当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。
更新节点池
- 当您想更新节点池配置时,可单击操作列的“更多>修改配置”,对配置进行更新操作。相关参数请参见表1。
需注意以下事项:
- 目标总实例数不能超过节点池集群规模,如果节点池集群规模选择默认,目标总实例数不能超过50,具体请以控制台界面为准。
- 更新节点池配置时,高级配置仅对新增的节点生效,其中“存量节点标签及污点”、“存量节点资源标签”支持对存量节点同步改动(勾选对应的复选框)。
节点池中更新的“资源标签”信息会同步到节点上。
图2 更新节点池
- 确认配置信息,鼠标移至配置费用,可查看并确认费用明细,确认完成后,单击“确认”。
- 在弹框中确认是否勾选新增节点自动续费,单击“确定”。
更新完成可以在节点池管理页面查看已更新的节点池信息。
升级Lite Cluster资源池驱动
当Lite Cluster资源池中的节点含有GPU/Ascend资源时,资源池节点性能如果无法满足现有业务,升级驱动可以修复已知问题、提升性能或者支持新功能,确保资源池性能和兼容性得到优化。
可单击操作列的“更多>驱动升级”升级Lite Cluster资源池GPU/Ascend驱动,详情请见升级Lite Cluster资源池驱动。
删除节点池
当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,确认会影响的关联资源和关联作业,单击“删除”后输入“DELETE”并单击“确定”即可。
针对未退订或释放的包年/包月的节点,请单击“立即前往”,前往资源池详情页删除/退订/释放节点。
每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。
查看节点池的存储配置
在节点池管理的“更多>修改配置”页面,可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小等参数。

在Lite资源池的扩缩容页面,也可以查看节点池的存储配置信息。
查找搜索节点池
在节点池管理页面的搜索栏中,支持通过节点池名称、规格 、容器引擎空间大小、可用区等关键字搜索节点池。
设置节点池列表显示信息
在节点池管理页面中,单击右上角的设置图标,支持对节点池列表中显示的信息进行自定义。