更新时间:2024-08-01 GMT+08:00
分享

使用Loader从HBase导出数据到HDFS/OBS

操作场景

该任务指导用户使用Loader将数据从HBase导出到HDFS/OBS。

前提条件

  • 创建或获取该任务中创建Loader作业的业务用户和密码。
  • 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
  • 确保用户已授权访问作业执行时操作的HBase表或phoenix表。
  • 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
  • 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。
  • 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。

操作步骤

设置作业基本信息

  1. 登录“Loader WebUI”界面。

    1. 登录FusionInsight Manager系统,具体请参见访问集群Manager
    2. 选择“集群 > 服务 > Loader”。
    3. 单击“LoaderServer(节点名称,主)”打开“Loader WebUI”界面。
      图1 Loader WebUI界面

  2. 单击“新建作业”,进入“基本信息”界面,创建作业基本信息。

    图2 基本信息界面
    1. “名称”中输入作业的名称。
    2. “类型”中选择“导出”
    3. “组”中设置作业所属组,默认没有已创建的组,单击“添加”创建一个新的组,输入组的名称,单击“确定”保存。
    4. “队列”中选择执行该作业的YARN队列。默认值“root.default”
    5. “优先级”中选择执行该作业的YARN队列优先级。默认值为“NORMAL”。可选值为“VERY_LOW”“LOW”“NORMAL”“HIGH”“VERY_HIGH”

  3. “连接”区域,单击“添加”新建一个的连接,在“连接器”中选择“hdfs-connector”,输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”

    设置数据源信息

  4. 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“HBASE”,设置数据源信息。

    表1 输入设置参数

    参数名

    解释说明

    示例

    HBase实例

    在HBase作业中,Loader支持从集群可添加的所有HBase服务实例中选择任意一个。如果选定的HBase服务实例在集群中未添加,则此作业无法正常运行。

    HBase

    个数

    配置数据操作的MapReduce任务中同时启动的map数量。参数值必须小于或等于3000。

    20

    设置数据转换

  5. 单击“下一步”,进入“转换”界面,设置数据传输过程中的转换操作。算子的选择和参数设置具体请参考Loader算子帮助表2

    表2 算子输入、输出参数设置

    输入类型

    输出类型

    HBase输入

    文件输出

    图3 算子操作方法示意

    设置数据保存信息并运行作业

  6. 单击“下一步”,进入“输出设置”界面,设置数据保存方式。

    表3 输出设置参数

    参数名

    解释说明

    示例

    输出路径

    导出文件在HDFS/OBS的输出目录或者文件名。

    说明:

    路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义

    /user/test

    文件格式

    文件导出类型:

    • “TEXT_FILE”:导入文本文件并保存为文本文件。
    • “SEQUENCE_FILE”:导入文本文件并保存在“sequence file”文件格式。
    • “BINARY_FILE”:以二进制流的方式导入文件,可以导入任何格式的文件。

    TEXT_FILE

    压缩格式

    在下拉菜单中选择数据导出到HDFS/OBS后保存文件的压缩格式,未配置或选择“NONE”表示不压缩数据。

    NONE

  7. 单击“保存并运行”,开始保存并运行作业。

    查看作业完成情况

  8. 进入“Loader WebUI”界面,待“状态”显示“成功”则说明作业完成。

    图4 查看作业

相关文档