更新时间:2024-11-26 GMT+08:00
分享

配置Yarn大作业扫描

Yarn大作业扫描功能主要用于监控Hive、HetuEngine、Spark等作业的本地临时文件(例如shuffle文件是否过大)、监控Hive、HetuEngine、Spark的关键HDFS目录(不支持OBS)是否过大。对于占用存储资源(本地磁盘或者关键HDFS目录)过大的作业上报事件。

本章节内容仅适用于MRS 3.5.0及之后版本。

监控的HDFS目录请参见表1

表1 监控HDFS目录

组件

监控HDFS目录

阈值

Hive

hdfs://hacluster/tmp/hive-scratch/*/

400G

Hetu

hdfs://hacluster/hetuserverhistory/*/coordinator/

100G

Spark

hdfs://hacluster/sparkJobHistory/

100G

相关配置参数请参见表2

参数入口:参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。

  • 对于大作业扫描特性中Hive组件,需要配置“hive-ext.record.mr.applicationid=true”时才能生效,详细操作步骤如下:

    参考修改集群服务配置参数进入Hive服务参数“全部配置”界面,左侧导航栏选择“HiveServer(角色) > 自定义”,在“hive.server.customized.configs”参数中添加参数名称“hive-ext.record.mr.applicationid”,值为“true”,保存配置。

  • Hive大作业扫描特性目前只针对MR引擎。
表2 参数配置

参数名称

参数描述

默认值

hetu.job.hdfs.monitor.dir

监控HetuEngine作业的大目录监控路径,不允许监控根目录。

如果需要监控的目录包含用户目录等可变目录使用/*/代替。

hdfs://hacluster/hetuserverhistory/*/coordinator/

hetu.job.appId.parser.rule

监控HetuEngine作业的大目录监控路径中作业ID的提取规则。例如:

  • {subdir}/{appid}:作业ID在监控目录的子目录中,子目录名称不固定。
  • {appid}:作业ID在监控目录下。

{appid}

hetu.job.hdfs.dir.threshold

监控HetuEngine作业的大目录阈值,超过当前阈值就会上报事件。

单位:GB。

100

hive.job.hdfs.monitor.dir

监控Hive作业的大目录监控路径,不允许监控根目录。

如果需要监控的目录包含用户目录等可变目录使用/*/代替。

hdfs://hacluster/tmp/hive-scratch/*/

hive.job.appId.parser.rule

监控Hive作业的大目录监控路径中作业ID的提取规则。例如:

  • {subdir}/{appid}:作业ID在监控目录的子目录中,子目录名称不固定。
  • {appid}:作业ID在监控目录下。

{subdir}/{appid}

hive.job.hdfs.dir.threshold

监控Hive作业的大目录阈值,超过当前阈值就会上报事件。

单位:GB。

400

spark.job.hdfs.monitor.dir

监控Spark作业的大目录监控路径,不允许监控根目录。

如果需要监控的目录包含用户目录等可变目录使用/*/代替。

hdfs://hacluster/sparkJobHistory/

spark.job.appId.parser.rule

监控Spark作业的大目录监控路径中作业ID的提取规则,例如:

  • {subdir}/{appid}:作业ID在监控目录的子目录中,子目录名称不固定。
  • {appid}:作业ID在监控目录下。

{appid}

spark.job.hdfs.dir.threshold

监控Spark作业的大目录阈值,超过当前阈值就会上报事件。

单位:GB。

100

job.monitor.local.thread.pool

获取NodeManager的监控的大作业的信息的线程数。

50

max.job.count

事件中显示大作业的数量。

10

job.monitor.local.dir.threshold

监控NodeManager本地磁盘作业目录的大小,超过当前阈值就会上报事件。

单位:GB。

20

job.monitor.check.period

大作业监控周期,配置为0表示禁用大作业监控。

单位:分钟。

10

相关文档