更新时间:2021-12-17 GMT+08:00
分享

创建加载任务

数据加载提供了不同物理存储之间的数据迁移功能。创建数据加载任务,配置源数据源和目标源信息即可进行数据在不同存储之间的迁移。

操作步骤

  1. 在数据服务左侧导航,选择工具箱>数据开发>数据加载
  2. “任务管理”界面,单击“创建任务”
  3. 配置任务的基础信息,参数说明见如表1

    表1 基础信息的参数说明

    参数

    说明

    任务名称

    数据加载任务名称,支持自定义。

    描述

    任务描述信息。

  4. 配置数据源的来源端。

    • “数据源类型”“数据湖OBS”时,“来源”区域参数说明见表2
      表2 数据源类型为数据湖OBS的参数说明

      参数

      说明

      数据源类型

      源数据源的类型,这里选择“数据湖OBS”。

      文件路径

      单击,从OBS桶中选择目录或者文件,单击“确定”

      当文件路径为目录时,若目标“数据源类型”“HIVE”“DWS”,表示选择的是当前目录下的所有文件,不包括子目录;若目标“数据源类型”“数据湖OBS”“HDFS”,表示选择的是整个目录,包括递归子目录中的文件。

      删除源文件

      任务执行成功后是否删除源文件。建议周期任务选择“是”,可分批次处理新增的源文件。

      是否解析

      作用为按文件头,解析结构化数据,实现向数据库表中灌入数据。此时,源端和目标端的表头字段需要进行映射,请参见7

      • 当目标端的“数据源类型”“数据湖OBS”“HDFS”时,选择“否”。
      • 当目标端的“数据源类型”“DWS”“逻辑模型”“HIVE”时,选择“是”。

      文件头所在行

      “是否解析”值为“是”时,才有此参数。

      设置文件头所在行。选择“0”,表示文件无表头。

      分隔符

      “是否解析”值为“是”时,才有此参数。

      表头字段和值的分隔符,从下拉框中选择。

      转义符

      “是否解析”值为“是”时,才有此参数。

      用于转义表头字段和值中的双引号,从下拉框中选择。

      编码格式

      “是否解析”值为“是”时,才有此参数。

      选择源端文件的编码格式。请根据实际情况设置。

      调度模式

      任务执行方式。

      包含如下选项:

      • 一次调度:仅执行一次。
      • 周期调度:按照一定的时间间隔定期执行。

      调度计划

      周期调度方式时,需要配置此参数。

      输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。

      示例如下所示:

      • 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
      • 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。

      条件过滤

      “是否解析”值为“是”时,才有此参数,

      可设置数据文件过滤条件,从下拉框中选择。请根据实际情况设置。

      当目标数据“存储介质”“DWS”“HIVE”时,暂不支持过滤。

    • “数据源类型”为“租户OBS”时,“来源”区域参数说明见表3
      表3 数据源类型为租户OBS的参数说明

      参数

      说明

      数据源类型

      源数据源的类型,这里选择“租户OBS”。

      文件路径

      输入租户OBS文件路径或文件目录。

      当文件路径为目录时,若目标数据源为HIVE或DWS,表示选择的是当前目录下的所有文件,不包括子目录;若目标数据源为数据湖OBS或HDFS,表示选择的是整个目录,包括递归子目录中的文件。

      AK

      租户AK信息。

      SK

      租户SK信息。

      删除源文件

      任务执行成功后是否删除源文件。建议周期任务选择“是”,可分批次处理新增的源文件。

      是否解析

      作用为按文件头,解析结构化数据,实现向数据库表中灌入数据。此时,源端和目标端的表头字段需要进行映射,请参见7

      • 当目标端的“数据源类型”“数据湖OBS”“HDFS”时,选择“否”。
      • 当目标端的“数据源类型”“DWS”“逻辑模型”“HIVE”时,选择“是”。

      文件头所在行

      “是否解析”值为“是”时,才有此参数,

      设置文件头所在行。选择“0”,表示文件无表头。

      分隔符

      “是否解析”值为“是”时,才有此参数,

      表头字段和值的分隔符,从下拉框中选择。

      转义符

      “是否解析”值为“是”时,才有此参数,

      用于转义表头字段和值中的双引号,从下拉框中选择。

      编码格式

      “是否解析”值为“是”时,才有此参数,

      选择源端文件的编码格式。请根据实际情况设置。

      调度模式

      任务执行方式。

      包含如下选项:

      • 一次调度:仅执行一次。
      • 周期调度:按照一定的时间间隔定期执行。

      调度计划

      周期调度方式时,需要配置此参数。

      输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。

      示例如下所示:

      • 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
      • 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。

      条件过滤

      “是否解析”值为“是”时,才有此参数,

      可设置数据文件过滤条件,从下拉框中选择。请根据实际情况设置。

      当目标端数据“存储介质”“DWS”“HIVE”时,暂不支持过滤。

    • “数据源类型”值为“逻辑模型”时,“来源”区域参数说明见表4
      表4 数据源类型为逻辑模型的参数说明

      参数

      说明

      数据源类型

      源数据源的类型,这里选择“逻辑模型”。

      实体名称

      单击,在“逻辑实体”界面通过搜索选择逻辑实体,单击“确定”

      存储介质

      实体的存储介质。“实体名称”选择值后,自动显示。

      调度模式

      任务执行方式。

      包含如下选项:

      • 一次调度:仅执行一次。
      • 周期调度:按照一定的时间间隔定期执行。
      • 实时调度:任务持续执行,仅当存储介质类型为Kafka时可用。

      调度计划

      周期调度方式时,需要配置此参数。

      输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。

      示例如下所示:

      • 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
      • 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。

      条件过滤

      可设置数据文件的过滤条件,从下拉框中选择。

      当目标端数据“存储介质”“DWS”“HIVE”时,暂不支持过滤。

    • “数据源类型”值为“HIVE”时,“来源”区域参数说明见表5
      表5 数据源类型为HIVE的参数说明

      参数

      说明

      数据源类型

      源数据源的类型,这里选择“HIVE”。

      数据库表,从下拉框中选择表。

      调度模式

      任务执行方式。

      包含如下选项:

      • 一次调度:仅执行一次。
      • 周期调度:按照一定的时间间隔定期执行。

      调度计划

      周期调度方式时,需要配置此参数。

      输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。

      示例如下所示:

      • 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
      • 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。

      条件过滤

      可设置数据文件的过滤条件,从下拉框中选择。

      当目标端数据“存储介质”“DWS”“HIVE”时,暂不支持过滤。

    • “数据源类型”值为“DWS”时,“来源”区域参数说明见表6
      表6 数据源类型为DWS的参数说明

      参数

      说明

      数据源类型

      源数据源的类型,这里选择“DWS”。

      数据库表,从下拉框中选择表。

      调度模式

      任务执行方式。

      包含如下选项:

      • 一次调度:仅执行一次。
      • 周期调度:按照一定的时间间隔定期执行。

      调度计划

      周期调度方式时,需要配置此参数。

      输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。

      示例如下所示:

      • 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
      • 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。

      条件过滤

      可设置数据文件的过滤条件,从下拉框中选择。

      当目标端数据“存储介质”“DWS”“HIVE”时,暂不支持过滤。

  5. 配置数据源的目标端,请参考数据源来源端的参数说明,进行配置。
  6. 单击“测试连接”,系统做hadoop service接口访问源端或目标端的连接测试。
  7. (可选)字段映射:单击“刷新”,自动映射;单击“名称映射”“顺序映射”,按名称或顺序映射;手动在下拉框中选择进行映射。
  8. 任务信息配置完成后,单击“提交”,在“提示”对话框中单击“确定”,自动显示在任务管理列表中。
  9. 单击“保存草稿”,保存当前数据加载任务,自动显示在任务管理列表中,“任务状态”值为“草稿”
  10. (可选)在任务管理界面,支持如下操作。

    • 支持按任务状态展示加载任务。例如,单击“成功”,加载任务列表仅展示“任务状态”值为“成功”的加载任务。
    • 查看任务信息:在需要查看的任务对应的“任务名称”列下,单击任务名称,选择“任务信息”页签。
    • 编辑任务:在需要编辑的任务对应的“操作”列下,单击
    • 删除任务:勾选需要删除任务前面的复选框,单击“批量删除”

相关文档