更新时间:2025-08-21 GMT+08:00

修复Standard专属资源池故障节点

Standard专属资源池支持对故障节点进行修复操作,目前提供了高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。

高可用冗余节点

  • 功能介绍

    高可用冗余节点作为专属资源池内的备用节点,能够在普通节点故障时自动进行切换,可以提升资源池整体的可用性和容错能力,有效避免单个节点故障造成的业务受损,保证业务的连续性和稳定性。用户可以根据自身业务的可靠性要求设置池内的高可用实例数量。

    高可用冗余节点不能用于业务运行,这将影响资源池的实际可用实例数量。在资源池下发任务时,请注意选择实际可用的实例数量,当选择的实例数未剔除资源池的高可用冗余实例数时,会导致任务下发失败。

  • 高可用冗余节点的运行机制:
    • 高可用冗余节点将被隔离,默认设置为不可调度,工作负载无法调度到节点上。
    • 高可用冗余节点会作为备用节点与节点的故障检测配合使用,为资源池提供故障节点自动切换能力,高可用冗余节点能够在普通节点故障时自动进行切换,切换耗时通常在分钟内。切换后,原“高可用冗余节点”“故障节点”交换高可用冗余标签,原“高可用冗余节点”自动解隔离成为普通节点,“故障节点”则成为“高可用冗余节点”,由于高可用冗余节点仅是对故障节点的切换,此时仍需对切换后的故障节点进行维修,维修后才能用于后续的自动切换。故障节点修复后,“高可用冗余”标签维持不变,修复好的节点变为新的高可用冗余节点。

      相比于其他故障修复方式,高可用冗余节点可使用户免于关注节点状态,减少运维成本。但由于用户需要付费购买备用节点作为高可用冗余节点,因此资源成本会提高。

      Standard物理池如果创建了逻辑子池,且该逻辑子池开启了透明化功能(透明化功能为白名单,通过提工单申请权限),则Standard物理池不再支持“高可用冗余”功能,仅可在Standard物理池内的逻辑子池中使用该功能。

如何设置高可用节点:当前支持从资源池角度批量设置多个高可用冗余节点,也支持设置单个节点为高可用冗余节点。

资源池内高可用冗余节点的建议比例: 每种资源规格建议按5%设置,如每20个节点中挑选一个作为1个高可用冗余节点。

如果业务节点被设置为高可用冗余节点,该节点上的作业仍会占用资源池的实际可用资源数量。然而,高可用冗余节点并不计入实际可用资源,结果可能会影响实际可用资源的节点调度作业。请注意资源池实际可用资源量为资源池总可用资源量减去高可用冗余节点所占资源数量,在设置高可用冗余节点时,请优先选择无业务节点设置为高可用冗余节点。

无业务节点定义:在资源池详情“节点”页签下,如果GPU/Ascend的可用数等于总数,即不承载业务的节点,则为无业务节点。

  • 资源池批量设置多个高可用冗余节点
    • 方式一:在购买时设置(仅Snt9C支持)

      参数说明:

      • 开启高可用冗余:是否开启资源池的高可用冗余,超节点默认开启高可用冗余。
      • 冗余节点分布策略:冗余节点的分布策略,超节点仅支持step均分:每个超节点内预留相同数量的冗余节点。
      • 冗余实例数:此规格设置的高可用冗余实例数量。冗余系数指的是冗余节点分布策略为step均分时,每个超节点内预留的冗余实例数量。
    • 方式二:在资源池详情页的规格页签设置
      图1 规格页签设置
    • 方式三:在扩缩容页面设置
  • 设置单节点为高可用冗余节点
    • 开启高可用冗余

      挑选无业务节点作为高可用冗余节点使用,在资源池详情页,“节点”页签下,在想要开启高可用冗余的节点操作列,单击“更多 > 开启高可用冗余”,设置成功后,该节点高可用冗余列标签变为“启用”。

      如果想批量设置节点开启高可用冗余,可勾选多个节点后,单击列表上方的“开启高可用冗余”按钮实现批量开启。

      图2 开启高可用冗余能力

      图3 高可用冗余节点
    • 关闭高可用冗余

      在资源池详情页,“节点”页签下,在想要关闭高可用冗余的节点操作列,单击“更多 > 关闭高可用冗余”,设置成功后,该节点高可用冗余列标签变为“--”。

      取消高可用冗余将会解除隔离,工作负载可正常调度到节点上,节点不再作为备用节点使用。

      如果想批量设置节点关闭高可用冗余,可勾选多个节点后,单击列表上方的“关闭高可用冗余”按钮实现批量关闭。

      图4 关闭高可用冗余能力
      图5 非高可用冗余

重置节点

重置节点:需要升级节点操作系统时,可通过重置节点完成。更新节点配置时产生故障报错,也可通过重置节点修复故障。

“节点”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。

实例规格为“snt9b23”系列的NPU节点暂不支持重置节点。

下发重置节点任务时需要填写以下参数:

表1 重置参数说明

参数名称

说明

操作系统

选择下拉框中支持的操作系统。

配置方式

选择重置节点的配置方式。

  • 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。
  • 按实例数量:重置任务包含多个节点时,同时被重置节点的最大个数。
图6 重置节点

单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。

  • 重置节点将影响相关业务的运行,请谨慎操作。
  • 节点状态为“可用”或“不可用”的节点才能进行重置。
  • 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
  • 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。
  • 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。
  • 节点重置成功后,可能出现短暂不可用现象,这是由于系统正在启动业务服务及健康检查所致,请耐心等待。
  • GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。
图7 操作记录

重启节点

资源池详情页的“节点”页签中提供节点重启的功能。单击操作列的“重启”,可实现对单个节点的重启。勾选多个节点的复选框,单击操作记录旁的“重启”按钮,可实现对多个节点的重启。

下发重启节点任务时需要选择对应节点,重启节点将影响相关业务的运行,请谨慎操作。

图8 重启节点

单击“操作记录”可查看当前资源池节点的操作记录。重启中节点状态为“重启中”,重启成功后,节点状态变为“可用”。重启节点操作不会收取费用。

图9 操作记录
  • 重启节点将影响相关业务的运行,请谨慎操作。
  • 节点状态为“可用”、“不可用”的节点才能进行重启。
  • 同一时间单个节点只能处于一个重启任务中,无法对同一个节点同时下发多个重启任务。
  • 当操作记录里某节点处于替换中、重置中或删除中时,无法对该节点进行重启节点操作。
  • 当资源池处于驱动升级状态时,该资源池无法进行重启节点操作。
  • 节点重启成功后,可能出现短暂不可用现象,是正在拉起业务服务及健康检查,请耐心等待。

迁移节点

支持资源池中按需计费的节点在不同资源池中迁移。

迁移节点必须满足如下条件:

  • 节点迁移后,源资源池必须保留至少一个节点。
  • 源资源池如果有逻辑子池,节点迁移后,源资源池的资源量必须满足逻辑子池的资源需求。
  • 目标资源池需要有足够的可用IP,可查看目标资源池的可用IP数量

迁移节点操作如下:

  1. 资源池详情页的“节点”页签中,勾选待迁移的节点名称前的复选框,然后单击名称上方的“更多>节点迁移”
  2. “迁移节点”的页面,单击“选择资源池”
    图10 选择目标资源池
  3. “选择资源池”对话框中,勾选节点待迁移的目标资源池,单击“确定”
  4. 在目标节点池中,勾选节点待迁移的目标节点池,单击“下一步:规格确认”
    图11 选择目标节点池
  5. 确认迁移节点的信息,单击“提交”
    图12 确认迁移节点信息

    在节点列表,可以单击“操作记录”,查看当前资源池节点迁移的操作记录。

删除/退订节点

  • 如果是“按需计费”的资源池,您可单击操作列的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对单个节点的资源释放。

    如果想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,在文本框中输入“DELETE”,单击“确定”,确认删除,即可实现对多个节点的资源释放。

  • 如果是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
  • 如果是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。

部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。

  • 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
  • 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
  • 仅有一个节点时,无法进行删除/退订/释放操作。

开启/关闭删除锁

为了防止节点被误删除或退订,您可以根据业务对节点开启删除锁。开启删除锁的节点将无法正常使用删除/退订功能,需要关闭删除锁才可以进行删除/退订。

  • 仅支持对资源池中的节点开启删除锁功能进行节点保护,暂不支持对未纳管到资源池中的游离节点开启删除锁功能。
  • 开启删除锁功能仅对节点删除/退订操作进行限制,节点替换、重启节点、重置节点等其他操作不受限制,删除包含开启删除锁节点的资源池操作也不受限制。
  • 开启删除锁:单击操作列的“更多>开启删除锁”,在对话框中确认即将开启删除锁的节点信息,确认完后在文本框输入“YES”,单击“确定”,即可对节点开启删除锁。

    如果想批量对多个节点开启删除锁,勾选待开启删除锁的节点名称前的复选框,然后单击名称上方的“更多>开启删除锁”,即可实现对多个节点开启删除锁。

  • 关闭删除锁:单击操作列的“更多>关闭删除锁”,在对话框中确认即将关闭删除锁的节点信息,确认完后在文本框输入“YES”,单击“确定”,即可对节点关闭删除锁。

    如果想批量对多个节点关闭删除锁,勾选待关闭删除锁的节点名称前的复选框,然后单击名称上方的“更多>关闭删除锁”,即可关闭多个节点的删除锁。

事件中心页面授权运维

针对ModelArts运维平台告警的故障节点,控制台“资源管理>事件中心”页面记录故障节点的计划事件,包括故障节点的基本信息、事件类型、事件状态、事件描述等,并支持授权和重部署操作,授权华为技术支持对故障节点进行运维。

  • 授权操作可执行条件

    故障节点可执行授权操作的事件类型和事件状态如表2所示。

    表2 授权操作执行条件

    事件类型

    事件状态

    可执行授权操作

    系统维护

    待授权

    授权、重部署

    本地盘恢复

    待授权

    授权、重部署

    本地盘修复后,请通过重置节点完成对分区的修复。

    警告:

    授权后本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。

    节点重启

    待授权

    授权

    运维授权

    待授权

    授权

    超节点维护

    待授权

    授权

    超节点重部署

    待授权

    重部署

    超节点重部署需要在物理超节点内。在超节点售罄时,不支持重部署,操作授权按钮为置灰状态。

    超节点本地盘恢复

    待授权

    授权

    警告:

    授权后本地盘恢复操作将会导致本地盘数据丢失,授权前请先迁移业务和备份数据。

  • 授权操作

    当故障节点满足如表2所示的条件时,可通过授权操作授权华为技术支持对故障节点进行运维。

    您可在控制台“资源管理>事件中心”页面,找到对应节点,在操作列单击“授权”,在弹出的提示框中单击“确认”即可完成授权。

    如果计划事件不满足如表2所示的条件,操作授权按钮为置灰状态。

    在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。

  • 重部署操作

    当故障节点满足如表2所示的重部署操作执行条件时,可通过重部署操作授权华为技术支持对故障节点进行重部署。

    在完成运维操作后,华为云技术支持会主动关闭已获得授权,无需您额外操作。

    重部署节点恢复更快,但本地盘数据将丢失,请谨慎操作。重部署前请先迁移业务和备份数据。

    1. 在控制台“资源管理>事件中心”页面,找到对应节点,在操作列单击“重部署”

      如果计划事件不满足如表2所示的重部署操作执行条件,操作重部署按钮为置灰状态。

    2. 确认是否勾选“强制重部署”,并在输入框中输入“YES”,单击“确认”即可完成授权。

      由于重部署能力依赖节点的状态,当节点不可用时,无法完成重部署流程,如果勾选强制重部署,当节点不可用时,可通过强制重部署来将节点重部署。

      强制重部署会在节点重部署完成后进行节点重置,会导致服务器的本地盘数据和云盘数据全部丢失,请谨慎操作。

常见问题

Standard资源池节点故障定位

对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。详情请见Standard资源池节点故障定位