更新时间:2024-11-21 GMT+08:00
分享

保存ckpt时超时报错

在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。

图1 报错提示

解决方法

1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G以下)的文件内容,只要在36分钟内保存完成,就不会报超时错误。

2. 忽略该报错,因为报错不影响实际报错的权重。

相关文档