文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型训练/ LLM大语言模型训练历史版本文档/ 主流开源大模型基于Standard+OBS+SFS适配MindSpeed-LLM PyTorch NPU训练指导（6.5.901）/ 训练脚本说明/ 断点续训和故障快恢说明

更新时间：2025-07-29 GMT+08:00

查看PDF

断点续训和故障快恢说明

相同点

断点续训（Checkpointing）和故障快恢都是指训练中断后可从训练中一定间隔（${save-interval}）保存的模型（包括模型参数、优化器状态、训练迭代次数等）继续训练恢复，而不需要从头开始。

不同点

断点续训：可指定加载训练过程中生成的Megatron格式权重(${user_converted_ckpt_path})
故障快恢：默认加载${output_dir}/saved_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。

lora微调不支持断点续训
启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。
```
|──${saved_checkpoints}
   |──iter_0000010   
   |──iter_0000020            
   |——latest_checkpointed_iteration.txt
示例，latest_checkpointed_iteration.txt文件内容：20
```
同时开启故障快恢和断点续训时需满足以下条件：
- 如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints（加载故障快恢路径）必须为空，否则此参数无效断点续训失效。
- 如果就是使用最新的训练权重进行断点续训（暂停+启动场景），那么可以同时指定train_auto_resume =1和 ${user_converted_ckpt_path}训练过程的权重保存路径，加载路径一致。

父主题： 训练脚本说明

上一篇：训练tokenizer文件说明

下一篇：常见错误原因和解决方法

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问