HDFS客户端安装在数据节点导致数据分布不均衡
问题背景与现象
HDFS的DataNode数据分布不均匀,在某节点上磁盘使用率很高,甚至达到100%,其他节点空闲很多。
原因分析
客户端安装在该节点,根据HDFS数据副本机制,第一个副本会存放在本地机器,最终导致节点磁盘被占满,而其他节点空闲很多。
解决办法
- 针对已有不平衡的数据,执行balance脚本均衡数据。
/opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 10
其中“/opt/client”是实际的客户端安装目录。
- 针对新写入数据,将客户端安装在没有安装DataNode的节点。