更新时间:2024-11-29 GMT+08:00

配置HDFS Mover

配置场景

Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。

通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,判断该文件或目录是否满足设置的存储策略,如果不满足,则进行数据迁移,使目标目录或文件满足设定的存储策略。

配置描述

请参考修改集群服务配置参数,进入HDFS的“全部配置”页面,在搜索框中输入参数名称。

表1 参数说明

参数

描述

默认值

dfs.mover.auto.enable

是否开启数据副本迁移功能,该功能支持多种。默认值为“false”,表示关闭该特性。

false

dfs.mover.auto.cron.expression

HDFS执行自动数据迁移的CRON表达式,用于控制数据迁移操作的开始时间。仅当dfs.mover.auto.enable设置为true时才有效。默认值“0 * * * *”表示在每个整点执行任务。表达式的具体含义可参见表2

0 * * * *

dfs.mover.auto.hdfsfiles_or_dirs

指定集群执行自动副本迁移的HDFS文件或目录列表,以空格分隔。仅当dfs.mover.auto.enable设置为true时才有效。

-

表2 Cron表达式解释

说明

第1列

分钟,参数值为0~59。

第2列

小时,参数值为0~23。

第3列

日期,参数值为1~31。

第4列

月份,参数值为1~12。

第5列

星期,参数值为0~6,0表示星期日。

使用限制

若要在HDFS的客户端通过命令行执行mover功能,其命令格式如下:

hdfs mover -p <HDFS文件全路径或目录路径>

在客户端执行此命令时,用户需要具备supergroup权限。可以使用HDFS服务的系统用户hdfs,其初始密码可联系系统管理员获取。或者在集群上创建一个具有supergroup权限的用户,再在客户端中执行此命令。