文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练/
LLM大语言模型训练历史版本文档/
主流开源大模型基于Standard+OBS+SFS适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)/
训练脚本说明/
断点续训和故障快恢说明
更新时间:2025-07-29 GMT+08:00
断点续训和故障快恢说明
相同点
断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。
不同点
- 断点续训:可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path})
- 故障快恢:默认加载${output_dir}/saved_checkpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。

- lora微调不支持断点续训
- 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。
|──${saved_checkpoints} |──iter_0000010 |──iter_0000020 |——latest_checkpointed_iteration.txt 示例,latest_checkpointed_iteration.txt文件内容:20
- 同时开启故障快恢和断点续训时需满足以下条件:
- 如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints(加载故障快恢路径) 必须为空,否则此参数无效断点续训失效。
- 如果就是使用最新的训练权重进行断点续训(暂停+启动场景),那么可以同时指定train_auto_resume =1和 ${user_converted_ckpt_path}训练过程的权重保存路径,加载路径一致。
父主题: 训练脚本说明