更新时间:2024-05-11 GMT+08:00

管理Loader作业

操作场景

Loader页面支持创建、查看、编辑和删除作业。

本章节适用于MRS 3.x之前版本。

前提条件

已访问Loader页面,参见Loader页面介绍

创建作业

  1. 访问Loader页面,单击“新建作业”
  2. “基本信息”填写参数。

    1. “名称”填写一个作业的名称。
    2. “源连接”“目的连接”选择对应的连接。

      选择某个类型的连接,表示从指定的源获取数据,并保存到目的位置。

      如果没有需要的连接,可单击“添加新连接”

  3. “自”填写源连接的作业配置。

    具体请参见Loader作业源连接配置说明

  4. “至”填写目的连接的作业配置。

    具体请参见Loader作业目的连接配置说明

  5. “目的连接”是否选择了数据库类型的连接?

    数据库类型的连接包含以下几种:

    • generic-jdbc-connector
    • hbase-connector
    • hive-connector

    “目的连接”选择数据库类型的连接时,还需要配置业务数据与数据库表字段的对应关系:

    • 是,请执行6
    • 否,请执行7

  6. “字段映射”填写字段对应关系。然后执行7

    “字段映射”的对应关系,表示用户数据中每一列与数据库的表字段的匹配关系。

    表1 “字段映射”属性

    参数

    说明

    列号

    表示业务数据的字段顺序。

    样本

    表示业务数据的第一行值样例。

    列族

    “目的连接”为hbase-connector类型时,支持定义保存数据的具体列族。

    目的字段

    配置保存数据的具体字段。

    类型

    显示用户选择字段的类型。

    行键

    “目的连接”为hbase-connector类型时,需要勾选作为行键的“目的字段”

    如果From是sftp/ftp/obs/hdfs等文件类型连接器,Field Mapping 样值取自文件第一行数据,需要保证第一行数据是完整的,Loader作业不会抽取没有Mapping上的列。

  7. “任务配置”填写作业的运行参数。

    表2 Loader作业运行属性

    参数

    说明

    抽取并发数

    设置map任务的个数。

    加载(写入)并发数

    设置reduce任务的个数。

    该参数只有在目的字段为Hbase和Hive时才会显示。

    单个分片的最大错误记录数

    设置一个错误阈值,如果单个map任务的错误记录超过设置阈值则任务自动结束,已经获取的数据不回退。

    说明:

    “generic-jdbc-connector”“MYSQL”“MPPDB”默认批量读写数据,每一批次数据最多只记录一次错误记录。

    脏数据目录

    设置一个脏数据目录,在出现脏数据的场景中在该目录保存脏数据。如果不设置则不保存。

  8. 单击“保存”

查看作业

  1. 访问Loader页面,默认显示Loader作业管理页面。

    • 如果集群启用了Kerberos认证,则默认显示所有当前用户创建的作业,不支持显示其他用户的作业。
    • 如果集群未启用Kerberos认证,则显示集群中全部的作业。

  2. “Sqoop作业”中输入指定作业的名称或连接类型,可以筛选该作业。
  3. 单击“刷新列表”,可以获取作业的最新状态。

编辑作业

  1. 访问Loader页面,默认显示Loader作业管理页面。
  2. 单击指定作业的名称,进入编辑页面。
  3. 根据业务需要,修改作业配置参数。
  4. 单击“保存”

    左侧导航栏支持作业的基本操作,包含“运行”“复制”“删除”“激活”“历史记录”“显示作业JSON定义”

删除作业

  1. 访问Loader页面。
  2. 在指定作业所在行,单击

    您还可以勾选一个或多个作业,单击作业列表右上方的“删除作业”

  3. 在弹出的对话框窗口,单击“是,将其删除”

    如果某个Loader作业正处于“运行中”的状态,则无法删除作业。