文档首页/ AI开发平台ModelArts/ 模型训练/ 模型训练存储加速
更新时间:2026-02-06 GMT+08:00
分享

模型训练存储加速

针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。

SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存

图1 基于OBS+SFS Turbo的存储解决方案

OBS + SFS Turbo存储加速的具体方案请参见面向AI场景使用OBS+SFS Turbo的存储加速实践

当训练程序从已有Checkpoint恢复时,每张卡都需要从持久化存储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,通过AITurbo SDK的快速保存和加载Checkpoint的功能,可以有效提升训练恢复速度。具体方案请参见通过AITurbo加速保存与加载checkpoint
  • 在保存Checkpoint的时候,利用两阶段写、内存副本、异步持久化等技术保证Checkpoint的快速、高可靠存储。
  • 在加载Checkpoint的时候,利用内存快恢、Checkpoint广播等技术,大大减少后端存储的带宽压力,提升加载效率。

前提条件

  • 已有可用的OBS桶。
  • 已开通SFS Turbo服务。
  • 由于训练作业运行需消耗资源,为了避免训练失败请确保账户未欠费。
  • 确保使用的OBS目录与ModelArts在同一区域。

计费影响

在ModelArts进行模型训练时,会产生计算资源和存储资源的累计值计费。计算资源为训练作业运行的费用。存储资源包括数据存储到OBS或SFS的费用。详见模型训练计费项

设置训练存储加速

当完成上传数据至OBS并预热到SFS Turbo中步骤后,在ModelArts中创建训练作业时,设置训练“SFS Turbo”,在“文件系统”中选择SFS Turbo实例名称,并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前,自动将存储位置中的文件目录挂载到训练容器中指定路径。

图2 设置训练“SFS Turbo”

当前训练作业支持挂载多个弹性文件服务SFS Turbo,文件系统支持重复挂载,但挂载路径不可重复。文件系统目录需指定已存在的目录,否则会导致训练作业异常。

然后在超参或者环境变量中设置checkpoint和数据的挂载路径。

图3 在超参或者环境变量中设置checkpoint和数据的挂载路径

训练存储加速的代码样例

详情参见设置断点续训练

相关文档