更新时间:2024-04-11 GMT+08:00

拷贝数据至容器中空间不足

问题现象

ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。

OSError:[Errno 28] No space left on device

原因分析

数据下载至容器的位置空间不足。

处理方法

  1. 请排查是否将数据下载至“/cache”目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。并确认该目录下并发创建的文件数量是否过大,占用过多存储空间会出现inode耗尽的情况,导致空间不足。
  2. 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。
  3. 请在代码中添加环境变量来解决。
    import os
    os.system('export TMPDIR=/cache')