更新时间:2024-05-23 GMT+08:00
日志提示“No space left on device”
问题现象
训练过程中拷贝数据/代码/模型时出现如下报错:
图1 错误日志
原因分析
出现该问题的可能原因如下。
处理方法
- 可以参照日志提示"write line error"文档进行修复。
- 如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。
- 如果是触发了欧拉操作系统的限制,有如下建议措施。
- 分目录处理,减少单个目录文件量。
- 减慢创建文件的速度。
- 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.com/solutions/29894,(可能会影响文件检索性能)。
建议与总结
在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。
- 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。
- 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
父主题: 硬盘限制故障