更新时间:2023-03-17 GMT+08:00

从零开始使用Loader

用户可以使用Loader将数据从SFTP服务器导入到HDFS。

本章节适用于MRS 3.x之前版本。

前提条件

  • 已准备业务数据。
  • 已创建分析集群。

操作步骤

  1. 访问Loader页面。

    1. 登录集群详情页面,选择“服务管理”。
    2. 选择Hue,在“Hue概述”“Hue WebUI”,单击“Hue (主)”,打开Hue的WebUI。
    3. 选择Data Browsers > Sqoop

      默认显示Loader页面中的作业管理界面。

  2. 在Loader页面,单击“管理连接”
  3. 单击“新建连接”,参考文件服务器连接,创建sftp-connector。
  4. 单击“新建连接”,输入连接名称,选择连接器为hdfs-connector,创建hdfs-connector。
  5. 访问Loader页面,单击“管理作业”。
  6. 单击“新建作业”。
  7. “基本信息”填写参数。

    1. “名称”填写一个作业的名称。
    2. 选择3创建的“源连接”4创建的“目的连接”

  8. “自”填写源连接的作业配置。

    具体请参见ftp-connector或sftp-connector

  9. “至”填写目的连接的作业配置。

    具体请参见hdfs-connector

  10. “任务配置”填写作业的运行参数。

    表1 Loader作业运行属性

    参数

    说明

    抽取并发数

    设置map任务的个数。

    加载(写入)并发数

    设置reduce任务的个数。

    该参数只有在目的字段为Hbase和Hive时才会显示。

    单个分片的最大错误记录数

    设置一个错误阈值,如果单个map任务的错误记录超过设置阈值则任务自动结束,已经获取的数据不回退。

    说明:

    “generic-jdbc-connector”“MYSQL”“MPPDB”默认批量读写数据,每一批次数据最多只记录一次错误记录。

    脏数据目录

    设置一个脏数据目录,在出现脏数据的场景中在该目录保存脏数据。如果不设置则不保存。

  11. 单击“保存”