更新时间:2022-12-08 GMT+08:00
TensorFlow在OBS写入TensorBoard到达5GB时停止
问题现象
ModelArts训练作业出现如下报错:
Encountered Unknown Error EntityTooLarge Your proposed upload exceeds the maximum allowed object size.:
If the signature check failed. This could be because of a time skew. Attempting to adjust the signer
原因分析
OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。
处理方法
如果在运行训练作业的过程中出现该问题,建议处理方法如下:
- 推荐使用本地缓存的方式来解决,使用如下方法:
import moxing.tensorflow as mox mox.cache()
父主题: OBS操作相关故障