文档首页/
    
      
      AI开发平台ModelArts/
      
      
        
        
        最佳实践/
        
        
        LLM大语言模型训练/
        
        
        LLM大语言模型训练历史版本文档/
        
        
        主流开源大模型基于Lite Server适配MindSpeed-LLM PyTorch NPU训练指导(6.5.901)/
        
        
        常见错误原因和解决方法/
        
      
      保存ckpt时超时报错
    
  
  
    
        更新时间:2025-07-29 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
保存ckpt时超时报错
在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。
  图1 报错提示
  
 
 
  
 解决方法
- 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。
- 忽略该报错,因为报错不影响实际报错的权重。
   父主题: 常见错误原因和解决方法
  
  
  