文档首页/ AI开发平台ModelArts/ ModelArts Lite Cluster用户指南/ Lite Cluster资源使用/ 在Lite Cluster资源池设置并启用高可用冗余节点
更新时间:2025-09-04 GMT+08:00
分享

在Lite Cluster资源池设置并启用高可用冗余节点

场景描述

当业务在连续运行、高并发流量等场景下,一旦承载业务的节点出现故障,如果没有备份机制,可能导致业务中断等严重后果,造成巨大损失和影响。此时,需要一种保障机制来维持业务稳定运行。

高可用冗余节点是指在ModelArts平台中用于保障服务高可用性的备用节点。当业务节点发生故障时,高可用冗余节点可以快速接管服务,确保业务的连续性和稳定性,并且可根据业务流量动态分配资源,应对高并发场景。

在ModelArts Standard资源池中,已经提供了高可用冗余节点的能力,详情请见高可用冗余节点。但是Lite Cluster暂无直接设置高可用冗余节点的能力,本文主要介绍在ModelArts Lite Cluster资源池中如何手动设置高可用冗余节点,当节点出现故障时,可以启用高可用冗余节点,快速恢复业务,而不用等待故障节点修复好。

图1 高可用冗余节点

整体流程如下:

图2 设置并启用高可用冗余节点流程

步骤一:设置高可用冗余节点:通过为节点打上特定污点的方式设置高可用冗余节点。

步骤二:配置节点告警通知感知故障节点:通过配置节点告警通知,感知节点故障。

步骤三:高可用冗余节点替换故障节点:为故障节点打上故障污点,并设置节点排水,排空故障节点的任务。同时,删除高可用冗余节点的特定污点,正式启用高可用冗余节点。

步骤四:将故障节点转为新高可用冗余节点:待华为云完成故障节点维修后,将故障节点转为新高可用冗余节点。

计费影响

高可用冗余节点的计费方式和普通节点相同,会产生计算资源的计费。Lite Cluster资源池仅支持包年/包月计费模式,具体内容如表1所示。
表1 计费项

计费项

计费项说明

适用的计费模式

计费公式

计算资源

专属资源池

使用计算资源的用量。

具体费用可参见ModelArts价格详情

包年/包月

规格单价 * 计算节点个数 * 购买时长

前提条件

已创建Lite Cluster资源池,详情请见Lite Cluster资源开通

步骤一:设置高可用冗余节点

在Lite Cluster资源池使用前或使用时,通过为节点打上特定污点的方式设置高可用冗余节点。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 轻量算力集群(Lite Cluster)”,进入“轻量算力集群 (Lite Cluster)”页面。
  2. 单击资源池名称,进入资源池详情页“基本信息”页签。
  3. 单击CCE集群超链接,进入CCE集群节点管理页面。
    图3 资源池基本信息
  4. 在选定的空闲节点右侧,单击“更多>污点管理”,进入污点管理。

  5. 在污点管理弹框中,给该节点添加污点:key=backupNode,effect=NoSchedule,单击“确定”
    图4 污点管理

步骤二:配置节点告警通知感知故障节点

通过配置节点告警通知,感知节点故障。

节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。

同时,在节点故障后,您可以在ModelArts“资源管理>事件中心”,查看到该节点的计划事件,并授权华为云维修,详细请参考事件中心页面授权运维

以下步骤基于AOM1.0配置。

  1. 登录AOM控制台
  2. 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。
  3. 设置告警规则(以NPU掉卡为例)。

    • 规则类型:选择指标告警规则。
    • 配置方式:选择PromQL。
    • 默认规则:选择自定义,命令行输入框:
      sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type)
      图5 告警规则设置

    • 告警条件:选择触发条件为持续时间1分钟,产生重要告警。
    • 告警通知(可选):如果需要将告警通过邮件、手机方式通知您,可在告警通知处,为此告警规则配置行动规则。如果此处无行动规则,请新建告警行动规则。

步骤三:高可用冗余节点替换故障节点

为故障节点打上故障污点,并设置节点排水,排空故障节点的任务。同时,删除高可用冗余节点的特定污点,正式启用高可用冗余节点。

  1. 给故障节点打上故障污点。

    污点设置方式和步骤一:设置高可用冗余节点一致,设置污点key=faultyNode,effect=NoSchedule。

  2. 在CCE集群节点管理页面,选择已按步骤一:设置高可用冗余节点设置污点的高可用冗余节点,单击列表项中的“污点管理”。
    图6 污点管理
  3. 在弹出的对话框中,找到“key”“backupNode”的污点记录,单击“删除”,然后单击“确定”
    图7 删除节点污点
  4. 在CCE集群节点管理页面,在该故障节点右侧,单击“更多>节点排水”。
    图8 节点排水
  5. 在节点排水界面勾选“强制排水”,设置排水时,系统会自动将该节点设置为不可调度,同时自动打上key为“node.kubernetes.io/unschedulable”的污点。

    排空步骤1打上故障污点的故障节点上的任务,重新调度受影响的任务。

    图9 节点排水

    排水完成时,在CCE集群节点管理页面该节点状态处会显示排水成功。

  6. 待排水完成后,在故障节点右侧,单击“更多>开启调度”,并单击“是”,取消自动设置的不可调度,同时会自动去除“key”“node.kubernetes.io/unschedulable”的污点
    图10 故障节点开启调度

步骤四:将故障节点转为新高可用冗余节点

待华为云完成故障节点维修后,将故障节点转为新高可用冗余节点。

您可以在ModelArts“资源管理>事件中心”,查看到该节点的维修状态,事件状态显示为“已完成”时代表已维修完成,详细请参考事件中心页面授权运维

参考步骤一:设置高可用冗余节点步骤,对已修复的故障节点添加污点key=backupNode,effect=NoSchedule,同时去除key=faultyNode的污点。

相关文档