方案概述

应用场景

近年来，AI快速发展并应用到很多领域中，AI新产品掀起一波又一波热潮，AI应用场景越来越多，有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源，包括高性能算力，高速存储和网络带宽等基础设施，即“大算力、大存力、大运力”的AI基础大设施底座，让算力发展不要偏斜。

从过去的经典AI，到今天人人谈论的大模型，自动驾驶，我们看到AI模型的参数及AI算力规模呈现出指数级的爆发增长，对存储基础设施也带来全新的挑战。

高吞吐的数据访问挑战：随着企业使用 GPU/NPU 越来越多，底层存储的 IO 已经跟不上计算能力，企业希望存储系统能提供高吞吐的数据访问能力，充分发挥 GPU/NPU 的计算性能，包括训练数据的读取，以及为了容错做的检查点（以下简称Checkpoint）保存和加载。训练数据的读取要尽量读得快，减少计算对 I/O 的等待，而 Checkpoint主要要求高吞吐、减少训练中断的时间。
文件接口方式的数据共享访问：由于 AI 架构需要使用到大规模的计算集群（GPU/NPU服务器），集群中的服务器访问的数据来自一个统一的数据源，即一个共享的存储空间。这种共享访问的数据有诸多好处，它可以保证不同服务器上访问数据的一致性，减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例，PyTorch默认会通过文件接口访问数据，AI算法开发人员也习惯使用文件接口，因此文件接口是最友好的共享存储访问方式。

如果您想了解更多本方案相关信息，或在方案使用过程中存在疑问，可通过方案咨询渠道，寻求专业人员支持。

方案架构

针对AI训练场景中面临的问题，华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储解决方案，如图所示，华为云高性能文件服务SFS Turbo HPC型支持和OBS数据联动，您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问，并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。

图1 基于OBS+SFS Turbo的华为云AI云存储解决方案
点击放大

方案优势

华为云AI云存储解决方案的主要优势如下表所示。

表1 华为云AI云存储解决方案的主要优势
序号	主要优势	详细描述
1	存算分离，资源利用率高	GPU/NPU算力和SFS Turbo存储解耦，各自按需扩容，资源利用率提升。
2	SFS Turbo高性能，加速训练过程	训练数据集高速读取，避免GPU/NPU因存储I/O等待产生空闲，提升GPU/NPU利用率。大模型TB级Checkpoint文件秒级保存和加载，减少训练任务中断时间。
3	数据导入导出异步化，不占用训练任务时长，无需部署外部迁移工具	训练任务开始前将数据从OBS导入到SFS Turbo，训练过程中写入到SFS Turbo的Checkpoint数据异步导出到OBS，均不占用训练任务时长。 SFS Turbo和OBS存储服务之间数据直接导入导出，无需部署外部数据拷贝机器及工具。
4	冷热数据自动流动，降低存储成本	SFS Turbo支持自定义数据淘汰策略，冷数据自动分级到OBS，释放高性能存储空间用于接收新的热数据。访问冷数据时SFS Turbo从OBS自动加载数据提升访问性能。
5	多AI开发平台、生态兼容	pytorch、mindspore等主流AI应用框架，kubernetes容器引擎、算法开发场景通过文件语义访问共享数据，无需适配开发。

如果您想了解更多本方案相关信息，或在方案使用过程中存在疑问，可通过方案咨询渠道，寻求专业人员支持。

父主题： 面向AI场景使用OBS+SFS Turbo的存储加速实践

上一篇：面向AI场景使用OBS+SFS Turbo的存储加速实践

下一篇：资源和成本规划

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

方案概述

应用场景

方案架构

方案优势

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线