更新时间:2026-07-03 GMT+08:00
高可用性配置场景
本章推荐一些常用场景的高可用配置,给您在配置高可用训练作业时提供一些配置参考。
| 配置场景 | 适用场景说明 | 推荐配置 | 配置组合 | 是否推荐 |
|---|---|---|---|---|
| 单机训练 | 适用于单机单卡、单机多卡训练。 |
| 断点续训练 | 推荐 |
| 自动重启 | 推荐 | |||
| 作业卡死检测 | 可选 | |||
| 作业卡死重启 | 可选 | |||
| 算子重执行 | 通常不需要 | |||
| 多机多卡训练 | 适用于分布式训练、大规模 GPU/NPU训练。 |
| 断点续训练 | 必须 |
| 自动重启 | 推荐 | |||
| 无条件自动重启 | 推荐 | |||
| 作业卡死检测 | 推荐 | |||
| 作业卡死重启 | 推荐 | |||
| Pod重调度 | 根据资源池能力选择 | |||
| 隔离式Job重调度 | 根据资源池能力选择 | |||
| 大模型长稳训练 | 适用于大模型预训练、微调、强化学习训练等持续时间长、资源规模大的任务。 |
| 断点续训练 | 必须 |
| 自动重启 | 必须 | |||
| 无条件自动重启 | 推荐 | |||
| 卡死检测 | 推荐 | |||
| 卡死重启 | 推荐 | |||
| 算子重执行 | 特定昇腾超节点场景推荐 | |||
| 日志失败分析 | 推荐 |
父主题: 模型训练高可用配置与故障恢复管理