更新时间:2025-08-14 GMT+08:00

管理Lite Cluster节点

节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行替换、删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。

删除/退订/释放节点

  • 如果是“按需计费”的资源池,您可单击操作列的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对单个节点的资源释放。

    如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对多个节点的资源释放。

  • 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对节点的资源释放。支持批量退订节点。
  • 如果是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。不支持批量释放处于宽限期的节点。

    部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。

  • 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
  • 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
  • 仅有一个节点时,无法进行删除/退订/释放操作。

开启/关闭删除锁

为了防止节点被误删除或退订,您可以根据业务对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。

  • 仅支持对资源池中的节点开启删除锁功能进行节点保护,暂不支持对未纳管到资源池中的游离节点开启删除锁功能。
  • 开启删除锁功能仅对节点删除/退订操作进行限制,节点替换、重启节点、重置节点等其他操作不受限制,删除包含开启删除锁节点的资源池操作也不受限制。
  • 开启删除锁:单击操作列的“更多>开启删除锁”,在对话框中确认即将开启删除锁的节点信息,确认完后在文本框输入“YES”,单击“确定”,即可对节点开启删除锁。

    如果想批量对多个节点开启删除锁,勾选待开启删除锁的节点名称前的复选框,然后单击名称上方的“更多>开启删除锁”,即可实现对多个节点开启删除锁。

  • 关闭删除锁:单击操作列的“更多>关闭删除锁”,在对话框中确认即将关闭删除锁的节点信息,确认完后在文本框输入“YES”,单击“确定”,即可对节点关闭删除锁。

    如果想批量对多个节点关闭删除锁,勾选待关闭删除锁的节点名称前的复选框,然后单击名称上方的“更多>关闭删除锁”,即可关闭多个节点的删除锁。

查询插件组件

在资源池详情页面的“节点管理”页签,可以查看当前节点的插件资源占用情况

单击节点操作列的“更多>查询插件组件”,可在“组件列表”弹框中查看与插件相关的实例资源占用情况。

图1 实例列表

续费/开通自动续费/修改自动续费

对于包年/包月的节点,在“节点管理”页签中提供了续费、开通自动续费和修改自动续费功能,并支持对多个节点进行批量操作。

自动续费时系统从可用余额扣款,详情请见自动续费

重置节点

“节点管理”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击节点列表上方的“更多>重置”按钮,可实现对多个节点的重置。

下发重置节点任务时需要填写以下参数。

表1 重置参数说明

参数名称

说明

操作系统

选择下拉框中支持的操作系统。

配置方式

选择重置节点的配置方式。

  • 按节点比例:重置任务包含多个节点时,可以设置同时被重置节点的最高比例。
  • 按实例数量:重置任务包含多个节点时,可以设置同时被重置节点的最大个数。

驱动版本

可以在下拉框中指定重置节点的驱动版本。

单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”)。重置节点操作不会收取费用。

  • 重置节点将影响相关业务的运行,重置时本地盘会被清空、节点上的k8s标签会被清除,请谨慎操作。
  • 节点状态为“可用”的节点才能进行重置。
  • 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
  • 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。
  • 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。
  • GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。

事件中心页面授权运维

针对ModelArts运维平台告警的故障节点,控制台“资源管理>事件中心”页面记录故障节点的计划事件,包括故障节点的基本信息、事件类型、事件状态、事件描述等,并支持授权和重部署操作,授权华为技术支持对故障节点进行运维。

  • 授权操作可执行条件

    故障节点可执行授权操作的事件类型和事件状态如表2所示。

    表2 授权操作执行条件

    事件类型

    事件状态

    可执行授权操作

    系统维护

    待授权

    授权、重部署

    本地盘恢复

    待授权

    授权、重部署

    本地盘修复后,请通过重置节点完成对分区的修复。

    警告:

    授权后本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。

    节点重启

    待授权

    授权

    运维授权

    待授权

    授权

    超节点维护

    待授权

    授权

    超节点重部署

    待授权

    重部署

    超节点重部署需要在物理超节点内。在超节点满售时,不支持重部署,操作授权按钮为置灰状态。

    超节点本地盘恢复

    待授权

    授权

    警告:

    授权后本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。

  • 授权操作

    当故障节点满足如表2所示的条件时,可通过授权操作授权华为技术支持对故障节点进行运维。

    您可在控制台“资源管理>事件中心”页面,找到对应节点,在操作列单击“授权”,在弹出的提示框中单击“确认”即可完成授权。

    如果计划事件不满足如表2所示的条件,操作授权按钮为置灰状态。

    在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。

  • 重部署操作

    当故障节点满足如表2所示的重部署操作执行条件时,可通过重部署操作授权华为技术支持对故障节点进行重部署。

    在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。

    重部署节点恢复更快,但本地盘数据将丢失,请谨慎操作。重部署前请先迁移业务和备份数据。

    1. 在控制台“资源管理>事件中心”页面,找到对应节点,在操作列单击“重部署”

      如果计划事件不满足如表2所示的重部署操作执行条件,操作重部署按钮为置灰状态。

    2. 确认是否勾选“强制重部署”,并在输入框中输入“YES”,单击“确认”即可完成授权。

      由于重部署能力依赖节点的状态,当节点不可用时,无法完成重部署流程,如果勾选强制重部署,当节点不可用时,可通过强制重部署来将节点重部署。

      强制重部署会在节点重部署完成后进行节点重置,会导致服务器的本地盘数据和云盘数据全部丢失,请谨慎操作。

重启节点

在节点的操作列,选择更多>重启,支持重启单个节点。也可以勾选节点名称,在节点列表上方单击“重启”,进行批量重启节点操作。重启节点将影响相关业务的运行,请谨慎操作。

添加/编辑/删除资源标签

资源标签用于方便管理资源的计费账单。

在节点的操作列,选择更多>编辑资源标签,支持编辑单个节点的资源标签。

也可以勾选节点名称,在节点列表上方单击“更多 > 添加/编辑资源标签”或者“删除资源标签”,批量操作节点资源标签。

图2 添加/编辑/删除资源标签

导出节点数据

支持导出Lite资源池的节点信息到Excel表格中,方便查阅。

勾选节点名称,在节点列表上方单击“导出 > 导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”,在浏览器的下载记录中查看导出的Excel表格。

驱动升级

支持升级Lite资源池内单个节点驱动版本,或批量升级多个节点的驱动版本。详情请参见升级Lite Cluster资源池单个节点驱动章节。

查找搜索节点

在节点管理页面的搜索栏中,支持通过节点名称、状态、批次、驱动版本、驱动状态、IP地址、节点池、资源标签等关键字搜索节点。

设置节点列表显示信息

在节点管理页面中,单击右上角的设置图标,支持对节点列表中显示的信息进行自定义。