更新时间:2026-07-04 GMT+08:00
分享

高可用性配置场景

本章推荐一些常用场景的高可用配置,给您在配置高可用训练作业时提供一些配置参考。

表1 推荐高可用配置场景

配置场景

适用场景说明

推荐配置

配置组合

是否推荐

单机训练

适用于单机单卡、单机多卡训练。

  1. 配置CheckPoint保存路径。
  2. 在训练脚本中设置从CheckPoint恢复。
  3. 开启自动重启。
  4. 设置合理的最大重启次数。
  5. 作业失败后通过日志失败分析定位问题。

断点续训练

推荐

自动重启

推荐

作业卡死检测

可选

作业卡死重启

可选

算子重执行

通常不需要

多机多卡训练

适用于分布式训练、大规模 GPU/NPU训练。

  1. 训练脚本支持CheckPoint保存和恢复。
  2. CheckPoint保存在可靠共享存储中。
  3. 训练脚本支持重复启动,即具备可重入能力。
  4. 开启自动重启。
  5. 根据业务需要开启无条件自动重启。
  6. 开启作业卡死检测。
  7. 对长稳训练任务开启作业卡死重启。
  8. 通过事件、日志和恢复详情观察作业恢复过程。

断点续训练

必须

自动重启

推荐

无条件自动重启

推荐

作业卡死检测

推荐

作业卡死重启

推荐

Pod重调度

根据资源池能力选择

隔离式Job重调度

根据资源池能力选择

大模型长稳训练

适用于大模型预训练、微调、强化学习训练等持续时间长、资源规模大的任务。

  1. 使用稳定的共享存储保存CheckPoint。
  2. 定期保存模型、优化器、学习率调度器、随机数状态等训练状态。
  3. 支持从最近一个完整CheckPoint自动恢复。
  4. 开启自动重启和故障恢复能力。
  5. 开启作业卡死检测和卡死重启。
  6. 根据硬件场景评估是否开启算子重执行。
  7. 配置日志、事件和失败分析闭环。

断点续训练

必须

自动重启

必须

无条件自动重启

推荐

卡死检测

推荐

卡死重启

推荐

算子重执行

特定昇腾超节点场景推荐

日志失败分析

推荐

相关文档