更新时间:2025-08-04 GMT+08:00
分享

配置HDFS Mover迁移数据

操作场景

Mover是一个数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。

通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,判断该文件或目录是否满足设置的存储策略,如果不满足,则进行数据迁移,使目标目录或文件满足设定的存储策略。

约束与限制

本章节适用于MRS 3.x及后续版本。

配置自动数据迁移

  1. 登录FusionInsight Manager。

    登录集群Manager具体操作,请参考访问MRS集群Manager

  2. 选择“集群 > 服务 > HDFS > 配置 > 全部配置”。
  3. 搜索以下参数名称,并根据需要修改参数值。

    表1 参数说明

    参数

    描述

    默认值

    dfs.mover.auto.enable

    是否开启数据副本迁移功能。

    • true:开启
    • false:关闭

    false

    dfs.mover.auto.cron.expression

    HDFS执行自动数据迁移的CRON表达式,用于控制数据迁移操作的开始时间。

    仅当“dfs.mover.auto.enable”设置为“true”时才有效。默认值“0 * * * *”表示在每个整点执行任务。表达式的具体含义可参见表2

    0 * * * *

    dfs.mover.auto.hdfsfiles_or_dirs

    指定集群执行自动副本迁移的HDFS文件或目录列表,以空格分隔。

    仅当“dfs.mover.auto.enable”设置为“true”时才有效。

    -

    表2 Cron表达式解释

    说明

    第1列

    分钟,参数值为0~59。

    第2列

    小时,参数值为0~23。

    第3列

    日期,参数值为1~31。

    第4列

    月份,参数值为1~12。

    第5列

    星期,参数值为0~6,0表示星期日。

  4. 单击“保存”使配置生效。无需重启HDFS服务。

手动执行数据迁移

  1. 安装客户端,如果已安装则跳过。

    例如安装目录为“/opt/client”,以下操作的客户端目录只是举例,请根据实际安装目录修改。

    下载并安装集群客户端的具体操作,请参考安装MRS集群客户端

  2. 以客户端安装用户,登录安装客户端的节点。
  3. 执行以下命令,切换到客户端安装目录,例如“/opt/client”。

    cd /opt/client

  4. 执行以下命令配置环境变量。

    source bigdata_env

  5. 如果集群为安全模式,执行以下命令进行用户认证。普通模式集群无需执行用户认证。该用户需要具备supergroup权限。

    kinit 组件业务用户

  6. 执行mover功能,其命令格式如下:

    hdfs mover -p <HDFS文件或目录路径>

    -p:指定要迁移的HDFS文件或目录的路径。可以指定单个文件,也可以指定一个目录,如果指定目录,则会迁移该目录下的所有文件。

相关文档