管理专属资源池节点
专属资源池支持对故障节点进行修复操作,目前提供了热备节点(旧版:高可用冗余)、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。
热备节点(旧版:高可用冗余)
- 视频介绍
- 功能介绍
热备节点(旧版:高可用冗余)作为专属资源池内的备用节点,能够在普通节点故障时自动进行切换,可以提升资源池整体的可用性和容错能力,有效避免单个节点故障造成的业务受损,保证业务的连续性和稳定性。用户可以根据自身业务的可靠性要求设置池内的高可用实例数量。
- 有作业运行的节点不能设置为热备节点。
- 热备节点不能用于业务运行,这将影响资源池的实际可用实例数量。因此节点设置为备热节点后,不能在此节点下发NoteBook作业。
- 在资源池下发任务时,请注意选择实际可用的实例数量,当选择的实例数未剔除资源池的热备节点实例数时,会导致任务下发失败。
- 热备节点(旧版:高可用冗余)的运行机制:
- 热备节点将被隔离,默认设置为不可调度,工作负载无法调度到节点上。
- 热备节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,热备节点能够在普通节点故障时自动进行切换。切换后,原“热备节点”与“故障节点”交换热备节点标签,原“热备节点”自动解隔离成为普通节点,“故障节点”则成为“热备节点”,由于热备节点仅是对故障节点的切换,此时仍需对切换后的故障节点进行维修,维修后才能用于后续的自动切换。故障节点修复后,“热备节点”标签维持不变,修复好的节点变为新的热备节点。
- 对于超节点而言,上述热备节点的规则限制在同批次的子节点之间。
相比于其他故障修复方式,热备节点可使用户免于关注节点状态,减少运维成本。但由于用户需要付费购买备用节点作为热备节点,因此资源成本会提高。
物理池如果创建了资源队列(旧版:逻辑子池),且该资源队列开启了透明化功能(透明化功能为受限使用功能,通过提工单申请权限),则物理池不再支持“热备节点”功能,仅可在物理池内的资源队列中使用该功能。
如何设置热备节点(旧版:高可用冗余):当前支持从节点池角度批量设置多个热备节点,也支持设置单个节点为热备节点。
节点池内热备节点的建议比例: 每种资源规格建议按5%设置,如每20个节点中挑选一个作为1个热备节点。
- 资源池批量设置多个热备节点(旧版:高可用冗余)
- 设置单节点为热备节点(旧版:高可用冗余)
- 开启热备节点(旧版:高可用冗余)
挑选无业务节点作为热备节点使用,在资源池详情页,“节点”页签下,在想要开启热备节点(旧版:高可用冗余)的节点操作列,单击“更多 > 设置为热备节点”,设置成功后,该节点状态为“备用节点”,鼠标移至状态处,显示“该节点已开启热备节点(旧版:高可用冗余)”。
如果想批量设置节点开启热备节点(旧版:高可用冗余),可勾选多个节点后,单击列表上方的“开启热备节点(旧版:高可用冗余)”按钮实现批量开启。
图3 开启热备节点(旧版:高可用冗余)能力
图4 热备节点(旧版:高可用冗余)
- 关闭热备节点(旧版:高可用冗余)
在资源池详情页,“节点”页签下,在想要关闭热备节点的节点操作列,单击“更多 > 关闭热备节点(旧版:高可用冗余)”,设置成功后,该节点热备节点列标签变为“可调度”。
取消热备节点将会解除隔离,工作负载可正常调度到节点上,节点不再作为备用节点使用。
如果想批量设置节点关闭热备节点,可勾选多个节点后,单击列表上方的“关闭热备节点(旧版:高可用冗余)”按钮实现批量关闭。
图5 关闭热备节点(旧版:高可用冗余)能力
- 开启热备节点(旧版:高可用冗余)
重置节点
当节点出现故障、节点需要升级操作系统、资源池或集群需要调整时,可以进行重置节点操作。
在专属资源池详情页的“节点”页签中,提供节点重置的功能。
- 重置节点将影响相关业务的运行,该机型若存在磁盘,则磁盘上的数据会被清除,不可恢复,请谨慎操作。
- 节点状态为“可用”或“不可用”的节点才能进行重置。
- 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
- 当节点池处于驱动升级状态时,该节点池中的节点无法进行重置节点操作。
- 节点重置成功后,可能出现短暂不可用现象,是正在拉起业务服务及健康检查,请耐心等待。
- GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。
- 批量重置时,只能批量重置相同规格。不支持一次重置多个规格。
选择需要重置的节点,单击右侧操作列的“更多 > 重置”,可实现对单个节点的重置。
勾选多个节点的复选框,单击上面“更多 > 重置”按钮,可实现对多个节点的重置。当勾选多个节点进行重置时,需要确保所勾选的节点均为同一节点池内的子节点且均为规格相同才行。
下发重置节点任务时需要填写以下参数:
| 参数名称 | 说明 |
|---|---|
| 重置节点 | 展示需要重置的节点列表和节点信息。 |
| 目标操作系统 | 重置节点时,节点默认选择当前节点池的操作系统作为升级目标。如需修改目标操作系统,请前往节点池修改配置进行调整。详情请参见修改节点池配置。 |
| 目标容器引擎 | 重置节点时,节点默认选择当前节点池的操作系统和容器引擎作为升级目标。如需修改目标操作系统,请前往节点池修改配置进行调整。 |
| 重置策略 | 批量重置节点时,将以滚动方式进行,过程中会保留部分可用节点,避免影响业务。 |
单击右侧“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。
重置节点操作不会收取费用。
重启节点
资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。
下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。
单击“操作记录”可查看当前资源池节点的操作记录。重启中节点状态为“重启中”,重启成功后,节点状态变为“可用”。重启节点操作不会收取费用。
- 重启节点将影响相关业务的运行,请谨慎操作。
- 节点状态为“可用”、“不可用”的节点才能进行重启。
- 同一时间单个节点只能处于一个重启任务中,无法对同一个节点同时下发多个重启任务。
- 当操作记录里某节点处于重置中或删除中时,无法对该节点进行重启节点操作。
- 当资源池处于驱动升级状态时,该资源池无法进行重启节点操作。
- 节点重启成功后,可能出现短暂不可用现象,是正在拉起业务服务及健康检查,请耐心等待。
迁移节点
支持资源池中按需计费的节点在不同资源池中迁移。
迁移节点必须满足如下条件:
- 节点迁移后,源资源池必须保留至少一个节点。
- 源资源池如果有资源队列,节点迁移后,源资源池的资源量必须满足资源队列的资源需求。
- 目标资源池需要有足够的可用IP,可查看目标资源池的可用IP数量。
迁移节点操作如下:
- 资源池详情页的“节点”页签中,勾选待迁移的节点名称前的复选框,然后单击名称上方的“更多>节点迁移”。
- 在“迁移节点”的页面,单击“选择资源池”。 图9 选择目标资源池
- 在“选择资源池”对话框中,勾选节点待迁移的目标资源池,单击“确定”。
- 在目标节点池中,勾选节点待迁移的目标节点池,单击“下一步:规格确认”。 图10 选择目标节点池
- 确认迁移节点的信息,单击“提交”。 图11 确认迁移节点信息
在节点列表,可以单击“操作记录”,查看当前资源池节点迁移的操作记录。
删除/退订节点
- 如果是“按需计费”的资源池,您可资源池详情的“节点”页签中,单击操作列的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对单个节点的资源释放。
如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对多个节点的资源释放。
- 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
- 如果是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。
部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。
- 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
- 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
- 仅有一个节点时,无法进行删除/退订/释放操作。
- 退订节点前需要检查节点数不小于资源队列(旧版:逻辑子池)的配额上限,当节点数小于资源队列配额上限时,资源队列可能会触发缩容。
开启/关闭删除锁
为了防止节点被误删除或退订,您可以根据业务对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。
- 仅支持对资源池中的节点开启删除锁功能进行节点保护,暂不支持对未纳管到资源池中的游离节点开启删除锁功能。
- 开启删除锁功能仅对节点删除/退订操作进行限制,重启节点、重置节点等其他操作不受限制,删除包含开启删除锁节点的资源池操作也不受限制。
- 开启删除锁:单击操作列的“更多>开启删除锁”,在对话框中确认即将开启删除锁的节点信息,确认完后在文本框输入“YES”,单击“确定”,即可对节点开启删除锁。
如果想批量对多个节点开启删除锁,勾选待开启删除锁的节点名称前的复选框,然后单击名称上方的“更多>开启删除锁”,即可实现对多个节点开启删除锁。
- 关闭删除锁:单击操作列的“更多>关闭删除锁”,在对话框中确认即将关闭删除锁的节点信息,确认完后在文本框输入“YES”,单击“确定”,即可对节点关闭删除锁。
如果想批量对多个节点关闭删除锁,勾选待关闭删除锁的节点名称前的复选框,然后单击名称上方的“更多>关闭删除锁”,即可关闭多个节点的删除锁。
节点排水
节点排水通常指在集群管理中,将某个节点上的工作负载(如Pods)安全地迁移到其他节点上,并将该节点标记为不可调度状态的过程。您可以通过控制台使用节点排水功能,安全地将节点上的Pod驱逐,后续新建的Pod都不会再调度到该节点。
在节点故障等场景下,节点排水功能可帮助您快速排空节点,将故障节点进行隔离,原节点上被驱逐的Pod将会由工作负载controller转移到其他正常可调度的节点上。
仅当节点状态为“可用-可调度”状态,才能执行节点排水操作。
排水过程中节点不可用,且节点上的作业负载会被驱逐,可能导致作业失败。
- 登录ModelArts管理控制台,在左侧导航栏中选择。
- 在资源池列表中,单击某一资源池名称,进入资源池详情页。
- 在资源池详情页“节点”页签,根据业务选择节点排水。
- 单节点排水:单击操作列的“更多>节点排水”。
- 批量节点排水:勾选多个节点,单击节点列表上方的“更多>节点排水”。
- 在弹窗确认待排水的节点信息和节点正在运行的作业,单击“一键输入”,在输入框中输入YES,单击“确定”。
当节点状态为“可用-排水成功”时,表示排水作业已完成。
当节点状态为“可用-排水失败”时,可将鼠标悬停在节点状态,查看失败原因。图12 节点排水
常见问题
专属资源池节点故障定位
对于专属资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。详情请见专属资源池节点故障定位。

