管理Lite Cluster节点
节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行替换、删除、重置等操作。
- 删除/退订/释放节点:
- 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。
若想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。
- 若是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
- 若是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。
部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。
- 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
- 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
- 仅有一个节点时,无法进行删除/退订/释放操作。
- 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。
- 替换节点:
“节点管理”页签中提供对单个节点替换的功能。可单击操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。
单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。
替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。
- 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。
- 替换节点时需确保有空闲节点资源,否则替换可能失败。
- 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。
- 重置节点
“节点管理”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。
如图1,下发重置节点任务时需要填写以下参数:
表1 重置参数说明 参数名称
说明
操作系统
选择下拉框中支持的操作系统。
配置方式
选择重置节点的配置方式。
- 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。
- 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。
单击“操作记录”可查看当前资源池重置节点的操作记录(如图2)。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”(如图3)。重置节点操作不会收取费用。
- 重置节点将影响相关业务的运行,重置时本地盘会被清空、节点上的k8s标签会被清除,请谨慎操作。
- 节点状态为“可用”的节点才能进行重置。
- 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
- 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。
- 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。
- GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。
- 授权运维
华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行。您可在资源池详情页的节点页签下,找到对应节点,在操作列单击“更多 > 授权”,在弹出的提示框中单击“确认”即可完成授权。
图4 授权
正常情况下,该授权按钮为置灰状态。当华为云技术支持发起运维申请后,按钮会变为可点状态。
在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。