在Lite Cluster资源池设置并启用高可用冗余节点
场景描述
当业务在连续运行、高并发流量等场景下,一旦承载业务的节点出现故障,如果没有备份机制,可能导致业务中断等严重后果,造成巨大损失和影响。此时,需要一种保障机制来维持业务稳定运行。
高可用冗余节点是指在ModelArts平台中用于保障服务高可用性的备用节点。当业务节点发生故障时,高可用冗余节点可以快速接管服务,确保业务的连续性和稳定性,并且可根据业务流量动态分配资源,应对高并发场景。
在ModelArts Standard资源池中,已经提供了高可用冗余节点的能力,详情请见高可用冗余节点。但是Lite Cluster暂无直接设置高可用冗余节点的能力,本文主要介绍在ModelArts Lite Cluster资源池中如何手动设置高可用冗余节点,当节点出现故障时,可以启用高可用冗余节点,快速恢复业务,而不用等待故障节点修复好。

整体流程如下:

步骤一:设置高可用冗余节点:通过为节点打上特定污点的方式设置高可用冗余节点。
步骤二:配置节点告警通知感知故障节点:通过配置节点告警通知,感知节点故障。
步骤三:高可用冗余节点替换故障节点:为故障节点打上故障污点,并设置节点排水,排空故障节点的任务。同时,删除高可用冗余节点的特定污点,正式启用高可用冗余节点。
步骤四:将故障节点转为新高可用冗余节点:待华为云完成故障节点维修后,将故障节点转为新高可用冗余节点。
计费影响
计费项 |
计费项说明 |
适用的计费模式 |
计费公式 |
|
---|---|---|---|---|
计算资源 |
专属资源池 |
使用计算资源的用量。 具体费用可参见ModelArts价格详情。 |
包年/包月 |
规格单价 * 计算节点个数 * 购买时长 |
前提条件
已创建Lite Cluster资源池,详情请见Lite Cluster资源开通。
步骤二:配置节点告警通知感知故障节点
通过配置节点告警通知,感知节点故障。
节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。
同时,在节点故障后,您可以在ModelArts“资源管理>事件中心”,查看到该节点的计划事件,并授权华为云维修,详细请参考事件中心页面授权运维。

以下步骤基于AOM1.0配置。
- 登录AOM控制台
- 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。
- 设置告警规则(以NPU掉卡为例)。
- 规则类型:选择指标告警规则。
- 配置方式:选择PromQL。
- 默认规则:选择自定义,命令行输入框:
sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type)
图5 告警规则设置
- 告警条件:选择触发条件为持续时间1分钟,产生重要告警。
- 告警通知(可选):如果需要将告警通过邮件、手机方式通知您,可在告警通知处,为此告警规则配置行动规则。如果此处无行动规则,请新建告警行动规则。
步骤三:高可用冗余节点替换故障节点
为故障节点打上故障污点,并设置节点排水,排空故障节点的任务。同时,删除高可用冗余节点的特定污点,正式启用高可用冗余节点。
- 给故障节点打上故障污点。
污点设置方式和步骤一:设置高可用冗余节点一致,设置污点key=faultyNode,effect=NoSchedule。
- 在CCE集群节点管理页面,选择已按步骤一:设置高可用冗余节点设置污点的高可用冗余节点,单击列表项中的“污点管理”。
图6 污点管理
- 在弹出的对话框中,找到“key”为“backupNode”的污点记录,单击“删除”,然后单击“确定”。
图7 删除节点污点
- 在CCE集群节点管理页面,在该故障节点右侧,单击“更多>节点排水”。
图8 节点排水
- 在节点排水界面,勾选“强制排水”,设置排水时,系统会自动将该节点设置为不可调度,同时自动打上key为“node.kubernetes.io/unschedulable”的污点。
排空步骤1打上故障污点的故障节点上的任务,重新调度受影响的任务。
图9 节点排水排水完成时,在CCE集群节点管理页面该节点状态处会显示排水成功。
- 待排水完成后,在故障节点右侧,单击“更多>开启调度”,并单击“是”,取消自动设置的不可调度,同时会自动去除“key”为“node.kubernetes.io/unschedulable”的污点。
图10 故障节点开启调度
步骤四:将故障节点转为新高可用冗余节点
待华为云完成故障节点维修后,将故障节点转为新高可用冗余节点。
您可以在ModelArts“资源管理>事件中心”,查看到该节点的维修状态,事件状态显示为“已完成”时代表已维修完成,详细请参考事件中心页面授权运维。
参考步骤一:设置高可用冗余节点步骤,对已修复的故障节点添加污点key=backupNode,effect=NoSchedule,同时去除key=faultyNode的污点。