文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练推理/
主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)/
常见错误原因和解决方法/
保存ckpt时超时报错
更新时间:2024-08-17 GMT+08:00
保存ckpt时超时报错
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。
图1 报错提示
解决方法
1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
2. 忽略该报错,因为报错不影响实际报错的权重。
父主题: 常见错误原因和解决方法