修复Standard专属资源池故障节点
Standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。
故障节点处理方式
- 替换节点:替换节点后,节点名称会发生变化。原有节点会被释放掉。
“节点”页签中提供对单个节点替换的功能。可单击操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。
单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。
替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。
- 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。
- 替换节点时需确保有空闲节点资源,否则替换可能失败。
- 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。
- 高可用冗余节点
高可用冗余节点作为专属资源池内的备用节点,能够在普通节点故障时自动进行切换,可以提升资源池整体的SLA,有效避免单个节点故障造成的业务受损。用户可以根据自身业务的可靠性要求设置池内的高可用节点数量。
高可用冗余节点不能用于业务运行,将影响资源池的实际可用节点数量。资源池下发任务时,请注意选择实际可用的节点数量,当选择的节点数未剔除资源池的高可用冗余节点数时,会导致任务持续等待。
高可用冗余节点的运行机制:
- 高可用冗余节点将被隔离,默认设置为不可调度,工作负载无法调度到节点上。
- 高可用冗余节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,高可用冗余节点能够在普通节点故障时自动进行切换,切换耗时通常在分钟内。切换后,原“高可用冗余节点”与“故障节点”交换高可用冗余标签,原“高可用冗余节点”自动解隔离成为普通节点,“故障节点”则成为“高可用冗余节点”,由于高可用冗余节点仅是对故障节点的切换,此时仍需对切换后的故障节点进行维修,维修后才能用于后续的自动切换。故障节点修复后,“高可用冗余”标签维持不变,修复好的节点变为新的高可用冗余节点。
相比于其他故障修复方式,高可用冗余节点可使用户免于关注节点状态,减少运维成本。但由于用户需要付费购买备用节点作为高可用冗余节点,因此资源成本会提高。
如何设置高可用节点
- 开启高可用冗余
挑选无业务节点作为高可用冗余节点使用,在资源池详情页,“节点”页签下,在想要开启高可用冗余的节点操作列,单击“更多 > 开启高可用冗余”,设置成功后,该节点高可用冗余列标签变为“启用”。
如果想批量设置节点开启高可用冗余,可勾选多个节点后,单击列表上方的“开启高可用冗余”按钮实现批量开启。
图1 开启高可用冗余能力
图2 高可用冗余节点
- 资源池内高可用冗余节点的建议比例: 每种资源规格建议按5%设置,如每20个节点中挑选一个作为1个高可用冗余节点。
- 无业务节点定义:在资源池详情“节点”页签下,如果GPU/Ascend的可用数等于总数,则为无业务节点。
图3 查看无业务节点
- 关闭高可用冗余
在资源池详情页,“节点”页签下,在想要关闭高可用冗余的节点操作列,单击“更多 > 关闭高可用冗余”,设置成功后,该节点高可用冗余列标签变为“--”。
取消高可用冗余将会解除隔离,工作负载可正常调度到节点上,节点不再作为备用节点使用。
如果想批量设置节点关闭高可用冗余,可勾选多个节点后,单击列表上方的“关闭高可用冗余”按钮实现批量关闭。
图4 关闭高可用冗余能力
图5 非高可用冗余
- 重置节点:需要升级节点操作系统时,可通过重置节点完成。更新节点配置时产生故障报错,也可通过重置节点修复故障。
“节点”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。
下发重置节点任务时需要填写以下参数:
表1 重置参数说明 参数名称
说明
操作系统
选择下拉框中支持的操作系统。
配置方式
选择重置节点的配置方式。
- 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。
- 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。
单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。
图6 重置节点
- 重置节点将影响相关业务的运行,请谨慎操作。
- 节点状态为“可用”的节点才能进行重置。
- 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
- 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。
- 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。
- GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。
图7 查看资源池节点
图8 操作记录
- 重启节点:
“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。
下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。
单击“操作记录”可查看当前资源池节点的操作记录。重启中节点状态为“重启中”,重启成功后,节点状态变为“可用”。重启节点操作不会收取费用。
图9 重启节点
图10 操作记录
- 重启节点将影响相关业务的运行,请谨慎操作。
- 节点状态为“可用”、“不可用”的节点才能进行重启。
- 同一时间单个节点只能处于一个重启任务中,无法对同一个节点同时下发多个重启任务。
- 当操作记录里某节点处于替换中、重置中或删除中时,无法对该节点进行重启节点操作。
- 当资源池处于驱动升级状态时,该资源池无法进行重启节点操作。
- 节点重启成功后,可能出现短暂不可用现象,是正在拉起业务服务及健康检查,请耐心等待。
- 删除/退订/释放节点:
- 如果是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。
如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。
- 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
- 如果是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。
部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。
- 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
- 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
- 仅有一个节点时,无法进行删除/退订/释放操作。
- 如果是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。
授权技术支持定位故障
华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行。您可在资源池详情页的节点页签下,找到对应节点,在操作列单击“更多 > 授权”,在弹出的提示框中单击“确认”即可完成授权。
正常情况下,该授权按钮为置灰状态。当华为云技术支持发起运维申请后,按钮会变为可点状态。
在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。