文档首页/ AI开发平台ModelArts/ 故障排除/ 训练作业/ OBS操作相关故障/ TensorFlow在OBS写入TensorBoard到达5GB时停止
更新时间:2022-12-08 GMT+08:00

TensorFlow在OBS写入TensorBoard到达5GB时停止

问题现象

ModelArts训练作业出现如下报错:

Encountered Unknown Error EntityTooLarge
Your proposed upload exceeds the maximum allowed object size.:
If the signature check failed. This could be because of a time skew. Attempting to adjust the signer

原因分析

OBS限制单次上传文件大小为5GB,TensorFlow保存summary可能是本地缓存,在每次触发flush时将该summary文件覆盖OBS上的原文件。当超过5GB后,由于达到了OBS单次导入文件大小的上限,导致无法继续写入。

处理方法

如果在运行训练作业的过程中出现该问题,建议处理方法如下:

  1. 推荐使用本地缓存的方式来解决,使用如下方法:
    import moxing.tensorflow as mox
    mox.cache()