HDFS文件系统目录简介
HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。
HDFS文件系统中目录结构如表1所示。
路径 | 类型 | 简略功能 | 是否可以删除 | 删除的后果 |
|---|---|---|---|---|
| 固定目录 | 存放Spark JDBCServer中metastore session临时文件。 | 否 | 任务运行失败。 |
/tmp/sparkhive-scratch | 固定目录 | 存放Spark CLI方式运行metastore session临时文件。 | 否 | 任务运行失败。 |
/tmp/logs/ | 固定目录 | 存放container日志文件。 | 是 | container日志不可查看。 |
/tmp/carbon/ | 固定目录 | 数据导入过程中,如果存在异常CarbonData数据,则将异常数据放在此目录下。 | 是 | 错误数据丢失。 |
/tmp/Loader-${作业名}_${MR作业id} | 临时目录 | 存放Loader Hbase bulkload作业的region信息,作业完成后自动删除。 | 否 | Loader Hbase Bulkload作业失败。 |
/tmp/hadoop-omm/yarn/system/rmstore | 固定目录 | ResourceManager运行状态信息。 | 是 | ResourceManager重启后状态信息丢失。 |
/tmp/archived | 固定目录 | MR任务日志在HDFS上的归档路径。 | 是 | MR任务日志丢失。 |
/tmp/hadoop-yarn/staging | 固定目录 | 保存AM运行作业运行日志、作业概要信息和作业配置属性。 | 否 | 任务运行异常。 |
/tmp/hadoop-yarn/staging/history/done_intermediate | 固定目录 | 所有任务运行完成后,临时存放/tmp/hadoop-yarn/staging目录下文件。 | 否 | MR任务日志丢失。 |
/tmp/hadoop-yarn/staging/history/done | 固定目录 | 周期性扫描线程定期将done_intermediate的日志文件转移到done目录。 | 否 | MR任务日志丢失。 |
/tmp/mr-history | 固定目录 | 存储预加载历史记录文件的路径。 | 否 | MR历史任务日志数据丢失。 |
/tmp/hive-scratch | 固定目录 | Hive运行时生成的临时数据,如会话信息等。 | 否 | 当前执行的任务会失败。 |
/user/{user}/.sparkStaging | 固定目录 | 存储SparkJDBCServer应用临时文件。 | 否 | executor启动失败。 |
/user/spark2x/jars | 固定目录 | 存放Spark2x executor运行依赖包。 | 否 | executor启动失败。 |
/user/loader | 固定目录 | 存放loader的作业脏数据以及HBase作业数据的临时存储目录。 | 否 | HBase作业失败或者脏数据丢失。 |
/user/loader/etl_dirty_data_dir | ||||
/user/loader/etl_hbase_putlist_tmp | ||||
/user/loader/etl_hbase_tmp | ||||
/user/oozie | 固定目录 | 存放oozie运行时需要的依赖库,需用户手动上传。 | 否 | oozie调度失败。 |
/user/mapred/hadoop-mapreduce-xxx.tar.gz | 固定文件 | MR分布式缓存功能使用的各jar包。 | 否 | MR分布式缓存功能无法使用。 |
/user/hive | 固定目录 | Hive相关数据存储的默认路径,包含依赖的spark lib包和用户默认表数据存储位置等。 | 否 | 用户数据丢失。 |
/user/omm-bulkload | 临时目录 | HBase批量导入工具临时目录。 | 否 | HBase批量导入任务失败。 |
/user/hbase | 临时目录 | HBase批量导入工具临时目录。 | 否 | HBase批量导入任务失败。 |
| 固定目录 | Spark eventlog数据存储目录。 | 否 | HistoryServer服务不可用,任务运行失败。 |
/flume | 固定目录 | Flume采集到HDFS文件系统中的数据存储目录。 | 否 | Flume工作异常。 |
/mr-history/tmp | 固定目录 | MapReduce作业产生的日志存放位置。 | 是 | 日志信息丢失。 |
/mr-history/done | 固定目录 | MR JobHistory Server管理的日志的存放位置。 | 是 | 日志信息丢失。 |
/tenant | 添加租户时创建 | 配置租户在HDFS中的存储目录,系统默认将自动在“/tenant”目录中以租户名称创建文件夹。 例如租户“ta1”,默认HDFS存储目录为“tenant/ta1”。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录,支持自定义存储路径。 | 否 | 租户不可用。 |
/apps{1~5}/ | 固定目录 | WebHCat使用到Hive的包的路径。 | 否 | 执行WebHCat任务会失败。 |
/hbase | 固定目录 | HBase数据存储目录。 | 否 | HBase用户数据丢失。 |
/hbaseFileStream | 固定目录 | HFS文件存储目录。 | 否 | HFS文件丢失,且无法恢复。 |
查看文件系统目录
可参考以下操作登录HDFS客户端进行查看。
- 已安装客户端,例如安装路径为“/opt/client”。
下载并安装集群客户端的具体操作,请参考安装MRS集群客户端。
- 以客户端安装用户,登录安装客户端的节点。
- 执行以下命令,切换到客户端安装目录。
cd /opt/client - 执行以下命令配置环境变量。
source bigdata_env
- 如果集群为开启了Kerberos认证的安全模式集群,执行以下命令进行用户认证。未开启Kerberos认证的普通模式集群无需执行用户认证。
kinit 组件业务用户
- 执行以下命令,查看HDFS系统目录。
hdfs dfs -ls 文件夹名称
例如执行以下命令查看HDFS系统中“/”目录下的文件信息:
hdfs dfs -ls /
例如执行后结果如下:
... drwxrwxrwx - mapred hadoop 0 2025-03-10 21:47 /mr-history drwxrwxrwx - hdfs hadoop 0 2025-03-10 21:47 /mrs drwx--x--x - admin supergroup 0 2025-03-10 21:47 /tenant drwxrwxrwx - hdfs hadoop 0 2025-03-10 21:50 /tmp drwxrwxrwx - hdfs hadoop 0 2025-03-10 21:51 /user ...
相关文档
- 如果给某目录设置quota后,往目录中写文件失败,报错“The DiskSpace quota of /tmp/tquota2 is exceeded”,请参见HDFS目录配额不足导致写文件失败。
- MRS支持配置单个目录下的文件数量,防止超过阈值导致任务出错,具体操作请参见配置HDFS单目录文件数量。
- 关于更多HDFS产品介绍及增强特性等,请参见HDFS。

