配置Spark作业失败时清理残留文件
本章节仅适用于MRS 3.3.1-LTS及之后版本。
配置场景
Spark作业失败时可能出现文件残留的情况,可能会长期积累导致磁盘空间告警,因此需要定时清理。
使用约束
- 本特性需要启动Spark JDBCServer服务,借助JDBCServer服务常驻进程的能力定期清理残留文件。
- 本特性需要同时配置修改Spark客户端参数、 Spark JDBCServer服务端参数。
- 支持清理目录:
- /user/用户/.sparkStaging/
- /tmp/hive-scratch/用户
- 本特性仅支持使用Yarn作为资源调度器的场景。
配置参数
- 在Spark客户端的“{客户端安装目录}/Spark/spark/conf/spark-defaults.conf”配置文件中进行设置,修改如下参数:
参数 |
说明 |
默认值 |
---|---|---|
spark.yarn.session.to.application.clean.enabled |
设置为true,Spark将开启定期残余文件清理特性 |
false |
- 登录FusionInsight Manager系统,选择“集群 > 服务 > Spark > 配置 > 全部配置 >JDBCServer(角色) > 自定义”,在“custom”中添加如下参数,并重启JDBCServer服务:
参数 |
说明 |
默认值 |
---|---|---|
spark.yarn.session.to.application.clean.enabled |
设置为true,Spark将开启定期残余文件清理特性 |
false |
spark.clean.residual.tmp.dir.init.delay |
文件清理的初始延迟时间,单位min |
5 |
spark.clean.residual.tmp.dir.period.delay |
文件清理的间隔时间,单位min |
10 |