HDFS文件系统目录简介
HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件之后的添加操作。HDFS保证一个文件在一个时刻只被一个调用者执行写操作,而可以被多个调用者执行读操作。
HDFS文件系统中目录结构如下表所示。
路径 |
类型 |
简略功能 |
是否可以删除 |
删除的后果 |
---|---|---|---|---|
/tmp/spark/sparkhive-scratch |
固定目录 |
存放Spark JDBCServer中metastore session临时文件 |
否 |
任务运行失败 |
/tmp/sparkhive-scratch |
固定目录 |
存放Spark cli方式运行metastore session临时文件 |
否 |
任务运行失败 |
/tmp/carbon/ |
固定目录 |
数据导入过程中,如果存在异常CarbonData数据,则将异常数据放在此目录下 |
是 |
错误数据丢失 |
/tmp/Loader-${作业名}_${MR作业id} |
临时目录 |
存放Loader Hbase bulkload作业的region信息,作业完成后自动删除 |
否 |
Loader Hbase Bulkload作业失败 |
/tmp/logs |
固定目录 |
MR任务日志在HDFS上的聚合路径 |
是 |
MR任务日志丢失 |
/tmp/archived |
固定目录 |
MR任务日志在HDFS上的归档路径 |
是 |
MR任务日志丢失 |
/tmp/hadoop-yarn/staging |
固定目录 |
保存AM运行作业运行日志、作业概要信息和作业配置属性 |
否 |
任务运行异常 |
/tmp/hadoop-yarn/staging/history/done_intermediate |
固定目录 |
所有任务运行完成后,临时存放/tmp/hadoop-yarn/staging目录下文件 |
否 |
MR任务日志丢失 |
/tmp/hadoop-yarn/staging/history/done |
固定目录 |
周期性扫描线程定期将done_intermediate的日志文件转移到done目录 |
否 |
MR任务日志丢失 |
/tmp/mr-history |
固定目录 |
存储预加载历史记录文件的路径 |
否 |
MR历史任务日志数据丢失 |
/tmp/hive |
固定目录 |
存放Hive的临时文件 |
否 |
导致Hive任务失败 |
/tmp/hive-scratch |
固定目录 |
Hive运行时生成的临时数据,如会话信息等 |
否 |
当前执行的任务会失败 |
/user/{user}/.sparkStaging |
固定目录 |
存储SparkJDBCServer应用临时文件 |
否 |
executor启动失败 |
/user/spark/jars |
固定目录 |
存放Spark executor运行依赖包 |
否 |
executor启动失败 |
/user/loader |
固定目录 |
存放loader的作业脏数据以及HBase作业数据的临时存储目录 |
否 |
HBase作业失败或者脏数据丢失 |
/user/loader/etl_dirty_data_dir |
||||
/user/loader/etl_hbase_putlist_tmp |
||||
/user/loader/etl_hbase_tmp |
||||
/user/mapred |
固定目录 |
存放Hadoop相关的文件 |
否 |
导致Yarn启动失败 |
/user/hive |
固定目录 |
Hive相关数据存储的默认路径,包含依赖的spark lib包和用户默认表数据存储位置等 |
否 |
用户数据丢失 |
/user/omm-bulkload |
临时目录 |
HBase批量导入工具临时目录 |
否 |
HBase批量导入任务失败 |
/user/hbase |
临时目录 |
HBase批量导入工具临时目录 |
否 |
HBase批量导入任务失败 |
/sparkJobHistory |
固定目录 |
Spark eventlog数据存储目录 |
否 |
HistoryServer服务不可用,任务运行失败 |
/flume |
固定目录 |
Flume采集到HDFS文件系统中的数据存储目录 |
否 |
Flume工作异常 |
/mr-history/tmp |
固定目录 |
MapReduce作业产生的日志存放位置 |
是 |
日志信息丢失 |
/mr-history/done |
固定目录 |
MR JobHistory Server管理的日志的存放位置 |
是 |
日志信息丢失 |
/tenant |
添加租户时创建 |
配置租户在HDFS中的存储目录,系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“ta1”,默认HDFS存储目录为“tenant/ta1”。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。 |
否 |
租户不可用 |
/apps{1~5}/ |
固定目录 |
WebHCat使用到Hive的包的路径 |
否 |
执行WebHCat任务会失败 |
/hbase |
固定目录 |
HBase数据存储目录 |
否 |
HBase用户数据丢失 |
/hbaseFileStream |
固定目录 |
HFS文件存储目录 |
否 |
HFS文件丢失,且无法恢复 |
/ats/active |
固定目录 |
HDFS路径,用于存储活动的应用程序的timeline数据 |
否 |
删除后会导致tez任务运行失败 |
/ats/done |
固定目录 |
HDFS路径,用于存储完成的应用程序的timeline数据 |
否 |
删除后会自动创建 |
/flink |
固定目录 |
存放checkpoint任务数据 |
否 |
删除会导致运行任务失败 |
路径 |
类型 |
简略功能 |
是否可以删除 |
删除的后果 |
---|---|---|---|---|
/tmp/spark2x/sparkhive-scratch |
固定目录 |
存放Spark2x JDBCServer中metastore session临时文件 |
否 |
任务运行失败 |
/tmp/sparkhive-scratch |
固定目录 |
存放Spark2x cli方式运行metastore session临时文件 |
否 |
任务运行失败 |
/tmp/logs/ |
固定目录 |
存放container日志文件 |
是 |
container日志不可查看 |
/tmp/carbon/ |
固定目录 |
数据导入过程中,如果存在异常CarbonData数据,则将异常数据放在此目录下 |
是 |
错误数据丢失 |
/tmp/Loader-${作业名}_${MR作业id} |
临时目录 |
存放Loader Hbase bulkload作业的region信息,作业完成后自动删除 |
否 |
Loader Hbase Bulkload作业失败 |
/tmp/hadoop-omm/yarn/system/rmstore |
固定目录 |
ResourceManager运行状态信息 |
是 |
ResourceManager重启后状态信息丢失 |
/tmp/archived |
固定目录 |
MR任务日志在HDFS上的归档路径 |
是 |
MR任务日志丢失 |
/tmp/hadoop-yarn/staging |
固定目录 |
保存AM运行作业运行日志、作业概要信息和作业配置属性 |
否 |
任务运行异常 |
/tmp/hadoop-yarn/staging/history/done_intermediate |
固定目录 |
所有任务运行完成后,临时存放/tmp/hadoop-yarn/staging目录下文件 |
否 |
MR任务日志丢失 |
/tmp/hadoop-yarn/staging/history/done |
固定目录 |
周期性扫描线程定期将done_intermediate的日志文件转移到done目录 |
否 |
MR任务日志丢失 |
/tmp/mr-history |
固定目录 |
存储预加载历史记录文件的路径 |
否 |
MR历史任务日志数据丢失 |
/tmp/hive-scratch |
固定目录 |
Hive运行时生成的临时数据,如会话信息等 |
否 |
当前执行的任务会失败 |
/user/{user}/.sparkStaging |
固定目录 |
存储SparkJDBCServer应用临时文件 |
否 |
executor启动失败 |
/user/spark2x/jars |
固定目录 |
存放Spark2x executor运行依赖包 |
否 |
executor启动失败 |
/user/loader |
固定目录 |
存放loader的作业脏数据以及HBase作业数据的临时存储目录 |
否 |
HBase作业失败或者脏数据丢失 |
/user/loader/etl_dirty_data_dir |
||||
/user/loader/etl_hbase_putlist_tmp |
||||
/user/loader/etl_hbase_tmp |
||||
/user/oozie |
固定目录 |
存放oozie运行时需要的依赖库,需用户手动上传 |
否 |
oozie调度失败 |
/user/mapred/hadoop-mapreduce-3.1.1.tar.gz |
固定文件 |
MR分布式缓存功能使用的各jar包 |
否 |
MR分布式缓存功能无法使用 |
/user/hive |
固定目录 |
Hive相关数据存储的默认路径,包含依赖的spark lib包和用户默认表数据存储位置等 |
否 |
用户数据丢失 |
/user/omm-bulkload |
临时目录 |
HBase批量导入工具临时目录 |
否 |
HBase批量导入任务失败 |
/user/hbase |
临时目录 |
HBase批量导入工具临时目录 |
否 |
HBase批量导入任务失败 |
/spark2xJobHistory2x |
固定目录 |
Spark2x eventlog数据存储目录 |
否 |
HistoryServer服务不可用,任务运行失败 |
/flume |
固定目录 |
Flume采集到HDFS文件系统中的数据存储目录 |
否 |
Flume工作异常 |
/mr-history/tmp |
固定目录 |
MapReduce作业产生的日志存放位置 |
是 |
日志信息丢失 |
/mr-history/done |
固定目录 |
MR JobHistory Server管理的日志的存放位置 |
是 |
日志信息丢失 |
/tenant |
添加租户时创建 |
配置租户在HDFS中的存储目录,系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“ta1”,默认HDFS存储目录为“tenant/ta1”。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。 |
否 |
租户不可用 |
/apps{1~5}/ |
固定目录 |
WebHCat使用到Hive的包的路径 |
否 |
执行WebHCat任务会失败 |
/hbase |
固定目录 |
HBase数据存储目录 |
否 |
HBase用户数据丢失 |
/hbaseFileStream |
固定目录 |
HFS文件存储目录 |
否 |
HFS文件丢失,且无法恢复 |