上传数据至OBS并预热到SFS Turbo中
上传数据至OBS
已经在OBS上创建好普通OBS桶,请参见创建普通OBS桶。
已经安装obsutil,请参考下载和安装obsutil。
- 登录Imagenet数据集下载官网地址,下载Imagenet21k数据集:http://image-net.org/。
- 下载格式转换后的annotation文件:ILSVRC2021winner21k_whole_map_train.txt和ILSVRC2021winner21k_whole_map_val.txt。
- 下载完成后将上述3个文件数据上传至OBS桶中的imagenet21k_whole文件夹中。上传方法请参考obsutil命令行工具使用指导。
OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案。
将数据从OBS预热到SFS Turbo中
SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。
训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。
- 您可通过查询联动任务详情接口查看导入任务的完成状态。
- 如果您觉得数据集规模较小或数据集变化不太频繁,不需要通过数据联动来做数据导入导出,您可借助外部工具将数据从OBS迁移到SFS Turbo中,操作指导请参考OBS和SFS之间的数据迁移,推荐使用obsutil工具。