更新时间:2022-09-06 GMT+08:00
分享

拷贝数据至容器中空间不足

问题现象

ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法拷贝至容器中。

OSError:[Errno 28] No space left on device

原因分析

数据下载至容器的位置空间不足。

处理方法

  1. 请排查是否将数据下载至/cache目录下,GPU规格资源的每个节点会有一个“/cache”目录,空间大小为4TB。
  2. 请排查是否使用的是GPU资源。如果使用的是CPU规格的资源,/cache与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。
  3. 请在代码中添加环境变量来解决。
    import os
    os.system('export TMPDIR=/cache')
分享:

    相关文档

    相关产品

close