文档首页> AI开发平台ModelArts> 故障排除> 训练作业> 内存限制故障> Tensorflow多节点作业下载数据到/cache显示No space left
更新时间:2022-11-10 GMT+08:00
分享

Tensorflow多节点作业下载数据到/cache显示No space left

问题现象

创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。

原因分析

TensorFlow多节点任务会启动parameter server(简称ps)和worker两种角色,ps和worker会被调度到相同的机器上。由于训练数据对于ps没有用,因此在代码中ps相关的逻辑不需要下载训练数据。​如果ps也下载数据到“/cache”实际下载的数据会翻倍。​例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。

处理方法

在使用Tensorflow多节点作业下载数据时,正确的下载逻辑如下:

import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--job_name", type=str, default="")
args = parser.parse_known_args()

if args[0].job_name != "ps":
    copy..............................
分享:

    相关文档

    相关产品