更新时间:2025-08-27 GMT+08:00
分享

上传数据至OBS并预热到SFS Turbo中

上传数据至OBS

下载ImageNet21K数据集,并上传ImageNet21K数据集至OBS,详细操作指导请参考上传数据至OBS

OBS针对不同场景提供了多种数据上云方案,您可根据数据量、耗时、费用等需求选择适合的方案上传数据至OBS,更多内容请参考数据上云方案

将数据从OBS预热到SFS Turbo中

SFS Turbo HPC型文件系统绑定OBS桶后,可以使用数据预热功能,以减少后续训练首次访问数据耗时。

训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中。数据预热功能的具体操作可以参考创建数据导入导出任务接口或者管理SFS Turbo文件系统与OBS桶的存储联动章节的“数据预热功能”内容。

  1. 您可通过查询联动任务详情接口或者参考管理SFS Turbo文件系统与OBS桶的存储联动章节的“任务状态”内容查看导入任务的完成状态。
  2. 如果您觉得数据集规模较小或数据集变化不太频繁,不需要通过数据联动来做数据导入导出,您可借助外部工具将数据从OBS迁移到SFS Turbo中,操作指导请参考OBS和SFS之间的数据迁移,推荐使用obsutil工具。

上传训练代码

ModelArts Standard开发平台创建训练作业时支持在OBS中配置代码目录,如果代码目录中涉及大量代码文件,建议将代码文件打包成软件包上传到OBS代码目录中,训练作业启动时再将从OBS代码目录下载到本地的软件包进行解压安装,否则大规模训练时可能会存在下载超时导致训练作业启动失败的风险。

相关文档