文档首页/ MapReduce服务 MRS/ 组件操作指南（LTS版）/ 使用Mapreduce/ MapReduce性能调优/ 多CPU内核下MapReduce调优配置

更新时间：2024-11-30 GMT+08:00

多CPU内核下MapReduce调优配置

操作场景

当CPU内核数很多时，如CPU内核为磁盘数的3倍时的调优配置。

操作步骤

以下参数有如下两个配置入口：

服务器端配置
 进入Yarn服务参数“全部配置”界面，在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。
客户端配置
直接在客户端中修改相应的配置文件。
- HDFS客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。
- Yarn客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/yarn-site.xml。
- MapReduce客户端配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。

表1 多CPU内核设置
配置	描述	参数	默认值	Server/Client	影响	备注
节点容器槽位数	如下配置组合决定了每节点任务(map、reduce)的并发数。 “yarn.nodemanager.resource.memory-mb” “mapreduce.map.memory.mb” “mapreduce.reduce.memory.mb”	yarn.nodemanager.resource.memory-mb 说明：需要在FusionInsight Manager系统进行配置。	16384	Server	如果所有的任务(map/reduce)需要读写数据至磁盘，多个进程将会同时访问一个磁盘。这将会导致磁盘的IO性能非常低下。为了改善磁盘的性能，请确保客户端并发访问磁盘的数不大于3。	最大并发的container数量应该为[2.5 * Hadoop中磁盘配置数 ]。
		mapreduce.map.memory.mb 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。	4096	Client
		mapreduce.reduce.memory.mb 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。	4096	Client
Map输出与压缩	Map任务所产生的输出可以在写入磁盘之前被压缩，这样可以节约磁盘空间并得到更快的写盘速度，同时可以减少至Reducer的数据传输量。需要在客户端进行配置。 mapreduce.map.output.compress指定了Map任务输出结果可以在网络传输前被压缩。这是一个per-job的配置。 mapreduce.map.output.compress.codec指定用于压缩的编解码器。	mapreduce.map.output.compress 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。	true	Client	在这种情况下，磁盘的IO是主要瓶颈。所以可以选择一种压缩率非常高的压缩算法。	编解码器可配置为Snappy，Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。
Map输出与压缩		mapreduce.map.output.compress.codec 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。	org.apache.hadoop.io.compress.Lz4Codec	Client	在这种情况下，磁盘的IO是主要瓶颈。所以可以选择一种压缩率非常高的压缩算法。	编解码器可配置为Snappy，Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。
Spills	mapreduce.map.sort.spill.percent	mapreduce.map.sort.spill.percent 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/mapred-site.xml。	0.8	Client	磁盘IO是主要瓶颈，合理配置“mapreduce.task.io.sort.mb”可以使溢出至磁盘的内容最小化。	-
数据包大小	当HDFS客户端写数据至数据节点时，数据会被累积，直到形成一个包。然后这个数据包会通过网络传输。dfs.client-write-packet-size配置项可以指定该数据包的大小。这个可以通过每个job进行指定。	dfs.client-write-packet-size 说明：需要在客户端进行配置，配置文件路径：客户端安装目录/HDFS/hadoop/etc/hadoop/hdfs-site.xml。	262144	Client	数据节点从HDFS客户端接收数据包，然后将数据包里的数据单线程写入磁盘。当磁盘处于并发写入状态时，增加数据包的大小可以减少磁盘寻道时间，从而提升IO性能。	dfs.client-write-packet-size = 262144

父主题： MapReduce性能调优

上一篇：MapReduce性能调优

下一篇：配置MapReduce Job基线

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问