更新时间:2026-06-17 GMT+08:00
分享

并行文件系统

并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件语义系统,旨在为基于对象存储服务作为统一数据湖存储的大数据场景提供解决方案。

为什么需要OBS并行文件系统

OBS服务支持对象存储桶(对象语义)和并行文件系统(POSIX文件语义),在大数据场景下建议选择并行文件系统。并行文件系统支持POSIX文件语义,通过OBSFileSystem封装,相较对象语义增加Rename、Append、hflush/hsync接口,实现完善的HDFS语义,为大数据计算提供了更好的性能。

OBS并行文件系统的优势是什么

  • 原生文件语义:支持POSIX文件语义,用户可以像操作本地硬盘一样通过标准文件系统接口进行创建、读取、重命名和删除等操作,业务应用无需修改代码即可平滑迁移。
  • 支持层级目录:采用目录树结构管理数据,执行目录重命名或统计操作时,无需像普通对象桶那样逐个修改文件,提升处理效率。
  • 海量存储容量:基于分布式存储架构构建,具备横向扩展能力,能够支撑海量数据的持续增长。

OBS并行文件系统的使用场景

华为云大数据存算分离方案基于并行文件系统的大容量高带宽能力,以及多协议共享访问技术(HDFS/POSIX/OBS API),实现Hadoop生态多计算引擎(Hive、Spark等)兼容对接,详情参见基于对象存储服务作为统一数据湖存储的大数据场景

OBS并行文件系统的工作原理

并行文件系统提供毫秒级别访问时延、TB/s级别带宽和百万级别的IOPS、高兼容性、高性能、高可扩展性、高可靠性的能力。

与对象桶的结构不同,并行文件系统访问路径中的每级目录都是一个独立的目录对象,例如“/dir01/dir02/example.txt”中“/dir01/”和“/dir01/dir02/”是目录对象,“/dir01/dir02/example.txt”是目录中的文件对象。在分层目录结构下,修改目录名仅需重命名单个目录对象,无需列举并修改指定目录前缀的全量对象。这种分层结构使并行文件系统的数据组织方式与HDFS基本一致,使用HDFS作为数据访问层的大数据分析框架可以通过OBSFileSystem插件(OBSA-HDFS)访问并行文件系统数据。

与OBS并行文件系统相关的操作和特性

并行文件系统的详细介绍和使用说明,请参见并行文件系统

相关文档