保存模型时出现Unable to connect to endpoint错误
问题现象
训练作业保存模型时日志报错,具体信息如下:
InternalError (see above for traceback): : Unable to connect to endpoint
原因分析
OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。
处理方法
对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决:
import moxing.tensorflow as mox mox.cache()