弹性文件服务 SFS
弹性文件服务 SFS
- 最新动态
- 功能总览
- 服务公告
- 产品介绍
- 计费说明
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
- 场景代码示例
-
常见问题
- 概念类
- 规格类
- 限制类
- 网络类
- 计费类
-
其他类
- 如何从云服务器访问文件系统?
- 如何确认Linux云服务器上的文件系统处于可用状态?
- 弹性文件服务会占用用户的哪些资源?
- SFS容量型文件系统挂载后为什么容量显示为10P?
- 通用文件系统挂载后为什么会显示250TB?
- 如何在弹性文件服务SFS和对象存储服务OBS之间进行数据迁移?
- 弹性文件服务支持多可用区吗?
- 可以将SFS容量型文件系统升级为SFS Turbo文件系统吗?
- 可以将SFS Turbo标准型升级为SFS Turbo标准型-增强版吗?
- 如何在弹性文件服务SFS和云硬盘EVS之间进行数据迁移?
- 可以直接从云下访问弹性文件服务吗?
- 如何删除.nfs类型的文件?
- 将数据从SFS容量型迁移至SFS Turbo后,容量为什么变大了?
- 如何提高SFS Turbo文件系统拷贝和删除操作的效率?
- SFS Turbo二级及三级目录权限如何继承?
- 如何将SFS Turbo部署至CCE?
- 如何发挥SFS Turbo文件系统的最大性能?
- Linux内核5.4版本之后客户端的NFSv3文件系统顺序读业务场景性能不符合预期,如何处理?
- 故障排除
- 视频帮助
- 文档下载
- 通用参考
链接复制成功!
方案概述
应用场景
近年来,AI快速发展并应用到很多领域中,AI新产品掀起一波又一波热潮,AI应用场景越来越多,有自动驾驶、大模型、AIGC、科学AI等不同行业。AI人工智能的实现需要大量的基础设施资源,包括高性能算力,高速存储和网络带宽等基础设施,即“大算力、大存力、大运力”的AI基础大设施底座,让算力发展不要偏斜。
从过去的经典AI,到今天人人谈论的大模型,自动驾驶,我们看到AI模型的参数及AI算力规模呈现出指数级的爆发增长,对存储基础设施也带来全新的挑战。
- 高吞吐的数据访问挑战:随着企业使用 GPU/NPU 越来越多,底层存储的 IO 已经跟不上计算能力,企业希望存储系统能提供高吞吐的数据访问能力,充分发挥 GPU/NPU 的计算性能,包括训练数据的读取,以及为了容错做的检查点(以下简称Checkpoint)保存和加载。训练数据的读取要尽量读得快,减少计算对 I/O 的等待,而 Checkpoint主要要求高吞吐、减少训练中断的时间。
- 文件接口方式的数据共享访问:由于 AI 架构需要使用到大规模的计算集群(GPU/NPU服务器),集群中的服务器访问的数据来自一个统一的数据源,即一个共享的存储空间。这种共享访问的数据有诸多好处,它可以保证不同服务器上访问数据的一致性,减少不同服务器上分别保留数据带来的数据冗余等。另外以 AI 生态中非常流行的开源深度学习框架PyTorch为例,PyTorch默认会通过文件接口访问数据,AI算法开发人员也习惯使用文件接口,因此文件接口是最友好的共享存储访问方式。
方案架构
针对AI训练场景中面临的问题,华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储解决方案,如图所示,华为云高性能文件服务SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据异步持久化到OBS对象存储中长期低成本保存。
方案优势
华为云AI云存储解决方案的主要优势如下表所示。
序号 |
主要优势 |
详细描述 |
---|---|---|
1 |
存算分离,资源利用率高 |
GPU/NPU算力和SFS Turbo存储解耦,各自按需扩容,资源利用率提升。 |
2 |
SFS Turbo高性能,加速训练过程 |
|
3 |
数据导入导出异步化,不占用训练任务时长,无需部署外部迁移工具 |
|
4 |
冷热数据自动流动,降低存储成本 |
|
5 |
多AI开发平台、生态兼容 |
pytorch、mindspore等主流AI应用框架,kubernetes容器引擎、算法开发场景通过文件语义访问共享数据,无需适配开发。 |