更新时间:2024-11-26 GMT+08:00
分享

配置Spark作业失败时清理残留文件

本章节仅适用于MRS 3.3.1-LTS及之后版本。

配置场景

Spark作业失败时可能出现文件残留的情况,可能会长期积累导致磁盘空间告警,因此需要定时清理。

使用约束

  • 本特性需要启动Spark JDBCServer服务,借助JDBCServer服务常驻进程的能力定期清理残留文件。
  • 本特性需要同时配置修改Spark客户端参数、 Spark JDBCServer服务端参数。
  • 支持清理目录:
    • /user/用户/.sparkStaging/
    • /tmp/hive-scratch/用户
  • 本特性仅支持使用Yarn作为资源调度器的场景。

配置参数

  1. 在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置,修改如下参数:

参数

说明

默认值

spark.yarn.session.to.application.clean.enabled

设置为true,Spark将开启定期残余文件清理特性

false

  1. 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark > 配置 > 全部配置 >JDBCServer(角色) > 自定义”,在“custom”中添加如下参数,并重启JDBCServer服务:

参数

说明

默认值

spark.yarn.session.to.application.clean.enabled

设置为true,Spark将开启定期残余文件清理特性

false

spark.clean.residual.tmp.dir.init.delay

文件清理的初始延迟时间,单位min

5

spark.clean.residual.tmp.dir.period.delay

文件清理的间隔时间,单位min

10

相关文档