并行文件系统概述
什么是并行文件系统
并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件语义系统,旨在为基于对象存储服务作为统一数据湖存储的大数据场景提供解决方案。并行文件系统提供毫秒级别访问时延、TB/s级别带宽和百万级别的IOPS、高兼容性、高性能、高可扩展性、高可靠性的能力。
与对象桶的结构不同,并行文件系统访问路径中的每级目录都是一个独立的目录对象,例如“/dir01/dir02/example.txt”中“/dir01/”和“/dir01/dir02/”是目录对象,“/dir01/dir02/example.txt”是目录中的文件对象。在分层目录结构下,修改目录名仅需重命名单个目录对象,无需列举并修改指定目录前缀的全量对象。这种分层结构使并行文件系统的数据组织方式与HDFS基本一致,使用HDFS作为数据访问层的大数据分析框架可以通过OBSFileSystem插件(OBSA-HDFS)访问并行文件系统数据。
并行文件系统与OBS桶的功能差异详见支持的API列表。
并行文件系统使用方式
并行文件系统提供管理控制台、OBSFileSystem插件(OBSA-HDFS)以及RESTful API接口的使用方法。用户可以在任何时间和地点对存储在并行文件系统内的文件进行处理,并且可以快速获取到处理后的文件。
用户可以通过以下几种方式使用并行文件系统。
OBS桶的权限管理规则及权限要求同样适用于并行文件系统,用户在使用并行文件系统前需要确保具备OBS资源的访问权限。
