文档首页/ 魔坊(ModelArts)模型训推平台/ 最佳实践/ LLM大语言模型训练/ LLM大语言模型训练其它版本/ 主流开源大模型基于轻量算力集群适配AscendFactory NPU训练解决方案/ 故障快恢方案/ 超节点重部署运维
更新时间:2025-12-15 GMT+08:00
超节点重部署运维
针对ModelArts运维平台告警的故障节点,控制台“资源管理>事件中心”页面记录故障节点的计划事件,包括故障节点的基本信息、事件类型、事件状态、事件描述等,并支持授权和重部署操作。针对节点资源不可服务的场景,执行重部署操作。
重部署操作
登录ModelArts控制台,进入“资源管理>事件中心”页面,查看到对应故障的节点。
- 如果计划事件不满足重部署操作执行条件,操作重部署按钮为置灰状态。
- 如果计划事件无执行的任务,则没有相关的任务列表。 图1 事件中心
- 如果出现对应的执行事件,在“事件中心”页面找到对应节点,在操作列单击“重部署”,执行重部署操作。 图2 重部署
父主题: 故障快恢方案