更新时间:2023-03-17 GMT+08:00
存储资源
简介
HDFS是大数据集群中的分布式文件存储服务,存放大数据集群上层应用的所有用户数据,例如写入HBase表或Hive表的数据。
目录是HDFS存储资源分配的基本单位。HDFS支持传统的层次型文件组织结构。用户或者应用程序可以创建目录,在目录中创建、删除、移动或重命名文件。租户通过指定HDFS文件系统的目录来获取存储资源。
调度机制
系统支持将HDFS目录存储到指定标签的节点上,或存储到指定硬件类型的磁盘上。例如以下业务场景:
- 实时查询与数据分析共集群时,实时查询只需部署在部分节点上,其数据也应尽可能的只存储在这些节点上。
- 关键数据根据实际业务需要保存在具有高度可靠性的节点中。
管理员可以根据实际业务需要,通过数据特征灵活配置HDFS数据存储策略,将数据保存在指定的节点上。
对于租户,存储资源是各租户所占用的HDFS资源。可以通过将指定目录的数据存储到租户配置的存储路径中,实现存储资源调度,保证租户间的数据隔离。
用户可以添加/删除租户HDFS存储目录,设置目录的文件数量配额和存储空间配额来管理存储资源。
父主题: 技术原理