更新时间:2025-12-10 GMT+08:00
分享

配置MR任务临时文件清理

配置场景

MR任务提交时会将相关配置文件、jar包和-files添加的文件放入HDFS上的临时目录(具体存放位置由Yarn服务配置项“yarn.app.mapreduce.am.staging-dir”决定,默认值为“/tmp/hadoop-yarn/staging”),以便Container启动以后获取相应的文件。

正常运行的MR任务会在任务结束后清理这些临时文件,但是当任务对应的Yarn任务异常退出时,这些临时文件不会被清理,长时间积攒导致该临时目录下的文件数量越来越多,占用存储空间越来越多。

用户可以参考该章节操作配置MR任务的临时文件清理策略。

约束与限制

该章节内容仅适用于MRS 3.6.0-LTS及之后版本。

配置描述

  1. 登录FusionInsight Manager。
  2. 选择“集群 > 服务 > Mapreduce > 配置 > 全部配置”。
  3. 根据实际需要搜索并修改相关参数。

    表1 参数描述

    参数

    描述

    默认值

    STAGING_MAX_LIVE_TIME

    执行任务在HDFS上的临时目录下无法追踪来源dictcp任务的缓存目录最长存活时间,

    • 执行任务在HDFS上的临时目录,可以在Yarn服务的全部配置页面搜索“yarn.app.mapreduce.am.staging-dir”参数获取。
    • 默认最长存活3天,单位:秒。
    说明:

    如果MR作业执行时长大于该参数配置时长,可能出现MR作业临时数据被定时任务清理,导致MR作业执行失败。

    259200

    MAX_CLEAN_TIME

    执行任务在HDFS上的临时目录残留信息清理周期,默认每隔1天执行一次清理。

    • 执行任务在HDFS上的临时目录,可以在Yarn服务的全部配置页面搜索“yarn.app.mapreduce.am.staging-dir”参数获取。
    • 清理对象:失败和Kill的Mapreduce任务残留的任务信息、已完成的dictcp任务的临时信息。
    • 单位:秒。

    86400

  4. 保存修改的配置。保存完成后请重新启动配置过期的服务或实例以使配置生效。

相关文档