配置Yarn大作业扫描
Yarn大作业扫描功能主要用于监控Hive、HetuEngine、Spark等作业的本地临时文件(例如shuffle文件是否过大)、监控Hive、HetuEngine、Spark的关键HDFS目录(不支持OBS)是否过大。对于占用存储资源(本地磁盘或者关键HDFS目录)过大的作业上报事件。
本章节内容仅适用于MRS 3.5.0及之后版本。
监控的HDFS目录请参见表1。
组件 |
监控HDFS目录 |
阈值 |
---|---|---|
Hive |
hdfs://hacluster/tmp/hive-scratch/*/ |
400G |
Hetu |
hdfs://hacluster/hetuserverhistory/*/coordinator/ |
100G |
Spark |
hdfs://hacluster/sparkJobHistory/ |
100G |
相关配置参数请参见表2。
参数入口:参考修改集群服务配置参数进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。
- 对于大作业扫描特性中Hive组件,需要配置“hive-ext.record.mr.applicationid=true”时才能生效,详细操作步骤如下:
参考修改集群服务配置参数进入Hive服务参数“全部配置”界面,左侧导航栏选择“HiveServer(角色) > 自定义”,在“hive.server.customized.configs”参数中添加参数名称“hive-ext.record.mr.applicationid”,值为“true”,保存配置。
- Hive大作业扫描特性目前只针对MR引擎。
参数名称 |
参数描述 |
默认值 |
---|---|---|
hetu.job.hdfs.monitor.dir |
监控HetuEngine作业的大目录监控路径,不允许监控根目录。 如果需要监控的目录包含用户目录等可变目录使用/*/代替。 |
hdfs://hacluster/hetuserverhistory/*/coordinator/ |
hetu.job.appId.parser.rule |
监控HetuEngine作业的大目录监控路径中作业ID的提取规则。例如:
|
{appid} |
hetu.job.hdfs.dir.threshold |
监控HetuEngine作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 |
100 |
hive.job.hdfs.monitor.dir |
监控Hive作业的大目录监控路径,不允许监控根目录。 如果需要监控的目录包含用户目录等可变目录使用/*/代替。 |
hdfs://hacluster/tmp/hive-scratch/*/ |
hive.job.appId.parser.rule |
监控Hive作业的大目录监控路径中作业ID的提取规则。例如:
|
{subdir}/{appid} |
hive.job.hdfs.dir.threshold |
监控Hive作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 |
400 |
spark.job.hdfs.monitor.dir |
监控Spark作业的大目录监控路径,不允许监控根目录。 如果需要监控的目录包含用户目录等可变目录使用/*/代替。 |
hdfs://hacluster/sparkJobHistory/ |
spark.job.appId.parser.rule |
监控Spark作业的大目录监控路径中作业ID的提取规则,例如:
|
{appid} |
spark.job.hdfs.dir.threshold |
监控Spark作业的大目录阈值,超过当前阈值就会上报事件。 单位:GB。 |
100 |
job.monitor.local.thread.pool |
获取NodeManager的监控的大作业的信息的线程数。 |
50 |
max.job.count |
事件中显示大作业的数量。 |
10 |
job.monitor.local.dir.threshold |
监控NodeManager本地磁盘作业目录的大小,超过当前阈值就会上报事件。 单位:GB。 |
20 |
job.monitor.check.period |
大作业监控周期,配置为0表示禁用大作业监控。 单位:分钟。 |
10 |