文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练/
主流开源大模型基于Lite Cluster适配AscendFactory NPU训练解决方案/
故障快恢方案/
资源HA冷备快恢说明
更新时间:2025-10-22 GMT+08:00
资源HA冷备快恢说明
在对可靠性要求比较高的场景,为保障快速故障恢复需要在超节点内预留备机。本章节介绍如何使用超节点的HA能力,实现节点级故障的快速恢复。
资源快恢整体流程
- 超节点内的节点出现故障,会产生对应故障事件和告警。
- 节点的严重故障通知相关联系人,同时会产生客户侧的告警。同时AOM配置了告警通知机制,同样也会通知到客户侧。
- 华为云的Console界面生成对应处理事件,客户点击重部署。
- 超节点内的节点自动倒换到备节点。
- 登录后台检测系统资源正常启动。
父主题: 故障快恢方案