更新时间:2024-08-21 GMT+08:00
日志提示“No space left on device”
问题现象
训练过程中复制数据/代码/模型时出现如下报错:
图1 错误日志
原因分析
出现该问题的可能原因如下。
- 磁盘空间不足。
- 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。
- 实际存储空间足够,却依旧报错“No Space left on device”。
同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。
触发条件和下面的因素有关:
- 文件名越长,文件数量的上限越小。
- blocksize越小,文件数量的上限越小。( blocksize,系统默认 4096B。总共有三种大小:1024B、2048B、4096B)
- 创建文件越快,越容易触发。
处理方法
- 可以参照日志提示"write line error"文档进行修复。
- 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。
- 如果是触发了欧拉操作系统的限制,有如下建议措施。
- 分目录处理,减少单个目录文件量。
- 减慢创建文件的速度。
- 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.com/solutions/29894,(可能会影响文件检索性能)。
建议与总结
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
- 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
- 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
父主题: 硬盘限制故障