更新时间:2024-07-24 GMT+08:00
分享

提升HDFS写数据性能

操作场景

在HDFS中,通过调整属性的值,使得HDFS集群更适应自身的业务情况,从而提升HDFS的写性能。

本章节适用于MRS 3.x及后续版本。

操作步骤

参数入口:

在FusionInsight Manager系统中,选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”。在搜索框中输入参数名称。

表1 HDFS写性能优化配置

参数

描述

默认值

dfs.datanode.drop.cache.behind.reads

表示是否让DataNode将在缓冲区中的数据传递给客户端后自动清除缓冲区中的所有数据。

  • true:表示丢弃缓存的数据(需要在DataNode中配置)。

    当同一份数据,重复读取的次数较少时,建议设置为true,使得缓存能够被其他操作使用。

  • false:重复读取的次数较多时,设置为false能够提升重复读取的速度。
说明:

在提升写性能操作中,该参数为可选参数,请根据实际需要进行修改。

false

dfs.client-write-packet-size

客户端写包的大小。当HDFS Client往DataNode写数据时,将数据生成一个包。然后将这个包在网络上传出。此参数指定传输数据包的大小,可以通过各Job来指定。单位:字节。

在万兆网部署下,可适当增大该参数值,来提升传输的吞吐量。

262144

相关文档