配置HDFS Mover迁移数据
操作场景
Mover是一个数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。
通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,判断该文件或目录是否满足设置的存储策略,如果不满足,则进行数据迁移,使目标目录或文件满足设定的存储策略。
约束与限制
本章节适用于MRS 3.x及后续版本。
配置自动数据迁移
- 登录FusionInsight Manager。
登录集群Manager具体操作,请参考访问MRS集群Manager。
- 选择“集群 > 服务 > HDFS > 配置 > 全部配置”。
- 搜索以下参数名称,并根据需要修改参数值。
表1 参数说明 参数
描述
默认值
dfs.mover.auto.enable
是否开启数据副本迁移功能。
- true:开启
- false:关闭
false
dfs.mover.auto.cron.expression
HDFS执行自动数据迁移的CRON表达式,用于控制数据迁移操作的开始时间。
仅当“dfs.mover.auto.enable”设置为“true”时才有效。默认值“0 * * * *”表示在每个整点执行任务。表达式的具体含义可参见表2。
0 * * * *
dfs.mover.auto.hdfsfiles_or_dirs
指定集群执行自动副本迁移的HDFS文件或目录列表,以空格分隔。
仅当“dfs.mover.auto.enable”设置为“true”时才有效。
-
- 单击“保存”使配置生效。无需重启HDFS服务。
手动执行数据迁移
- 安装客户端,如果已安装则跳过。
例如安装目录为“/opt/client”,以下操作的客户端目录只是举例,请根据实际安装目录修改。
下载并安装集群客户端的具体操作,请参考安装MRS集群客户端。
- 以客户端安装用户,登录安装客户端的节点。
- 执行以下命令,切换到客户端安装目录,例如“/opt/client”。
cd /opt/client
- 执行以下命令配置环境变量。
source bigdata_env
- 如果集群为安全模式,执行以下命令进行用户认证。普通模式集群无需执行用户认证。该用户需要具备supergroup权限。
kinit 组件业务用户
- 执行mover功能,其命令格式如下:
hdfs mover -p <HDFS文件或目录路径>
-p:指定要迁移的HDFS文件或目录的路径。可以指定单个文件,也可以指定一个目录,如果指定目录,则会迁移该目录下的所有文件。