管理Loader作业
操作场景
Loader页面支持创建、查看、编辑和删除作业。
本章节适用于MRS 3.x之前版本。
前提条件
已访问Loader页面,参见Loader页面介绍。
创建作业
- 访问Loader页面,单击“新建作业”。
- 在“基本信息”填写参数。
- 在“名称”填写一个作业的名称。
- 在“源连接”和“目的连接”选择对应的连接。
选择某个类型的连接,表示从指定的源获取数据,并保存到目的位置。
如果没有需要的连接,可单击“添加新连接”。
- 在“自”填写源连接的作业配置。
具体请参见Loader作业源连接配置说明。
- 在“至”填写目的连接的作业配置。
具体请参见Loader作业目的连接配置说明。
- 在“目的连接”是否选择了数据库类型的连接。
数据库类型的连接包含以下几种:
- generic-jdbc-connector
- hbase-connector
- hive-connector
“目的连接”选择数据库类型的连接时,还需要配置业务数据与数据库表字段的对应关系:
- 在“字段映射”填写字段对应关系。然后执行7。
“字段映射”的对应关系,表示用户数据中每一列与数据库的表字段的匹配关系。
表1 “字段映射”属性 参数
说明
列号
表示业务数据的字段顺序。
样本
表示业务数据的第一行值样例。
列族
“目的连接”为hbase-connector类型时,支持定义保存数据的具体列族。
目的字段
配置保存数据的具体字段。
类型
显示用户选择字段的类型。
行键
“目的连接”为hbase-connector类型时,需要勾选作为行键的“目的字段”。
如果From是sftp/ftp/obs/hdfs等文件类型连接器,Field Mapping 样值取自文件第一行数据,需要保证第一行数据是完整的,Loader作业不会抽取没有Mapping上的列。
- 在“任务配置”填写作业的运行参数。
表2 Loader作业运行属性 参数
说明
抽取并发数
设置map任务的个数。
加载(写入)并发数
设置reduce任务的个数。
该参数只有在目的字段为Hbase和Hive时才会显示。
单个分片的最大错误记录数
设置一个错误阈值,如果单个map任务的错误记录超过设置阈值则任务自动结束,已经获取的数据不回退。
说明:“generic-jdbc-connector”的“MYSQL”和“MPPDB”默认批量读写数据,每一批次数据最多只记录一次错误记录。
脏数据目录
设置一个脏数据目录,在出现脏数据的场景中在该目录保存脏数据。如果不设置则不保存。
- 单击“保存”。
查看作业
- 访问Loader页面,默认显示Loader作业管理页面。
- 如果集群启用了Kerberos认证,则默认显示所有当前用户创建的作业,不支持显示其他用户的作业。
- 如果集群未启用Kerberos认证,则显示集群中全部的作业。
- 在“Sqoop作业”中输入指定作业的名称或连接类型,可以筛选该作业。
- 单击“刷新列表”,可以获取作业的最新状态。
编辑作业
- 访问Loader页面,默认显示Loader作业管理页面。
- 单击指定作业的名称,进入编辑页面。
- 根据业务需要,修改作业配置参数。
- 单击“保存”。
左侧导航栏支持作业的基本操作,包含“运行”、“复制”、“删除”、“激活”、“历史记录”和“显示作业JSON定义”。
删除作业
- 访问Loader页面。
- 在指定作业所在行,单击。
您还可以勾选一个或多个作业,单击作业列表右上方的“删除作业”。
- 在弹出的对话框窗口,单击“是,将其删除”。
如果某个Loader作业正处于“运行中”的状态,则无法删除作业。