创建加载任务
数据加载提供了不同物理存储之间的数据迁移功能。创建数据加载任务,配置源数据源和目标源信息即可进行数据在不同存储之间的迁移。
操作步骤
- 在数据服务左侧导航,选择 。
- 在“任务管理”界面,单击“创建任务”。
- 配置任务的基础信息,参数说明见如表1。
- 配置数据源的来源端。
- 当“数据源类型”为“数据湖OBS”时,“来源”区域参数说明见表2。
表2 数据源类型为数据湖OBS的参数说明 参数
说明
数据源类型
源数据源的类型,这里选择“数据湖OBS”。
文件路径
单击,从OBS桶中选择目录或者文件,单击“确定”。
当文件路径为目录时,若目标“数据源类型”为“HIVE”或“DWS”,表示选择的是当前目录下的所有文件,不包括子目录;若目标“数据源类型”为“数据湖OBS”或“HDFS”,表示选择的是整个目录,包括递归子目录中的文件。
删除源文件
任务执行成功后是否删除源文件。建议周期任务选择“是”,可分批次处理新增的源文件。
是否解析
作用为按文件头,解析结构化数据,实现向数据库表中灌入数据。此时,源端和目标端的表头字段需要进行映射,请参见7。
- 当目标端的“数据源类型”为“数据湖OBS”、“HDFS”时,选择“否”。
- 当目标端的“数据源类型”为“DWS”、“逻辑模型”、“HIVE”时,选择“是”。
文件头所在行
当“是否解析”值为“是”时,才有此参数。
设置文件头所在行。选择“0”,表示文件无表头。
分隔符
当“是否解析”值为“是”时,才有此参数。
表头字段和值的分隔符,从下拉框中选择。
转义符
当“是否解析”值为“是”时,才有此参数。
用于转义表头字段和值中的双引号,从下拉框中选择。
编码格式
当“是否解析”值为“是”时,才有此参数。
选择源端文件的编码格式。请根据实际情况设置。
调度模式
任务执行方式。
包含如下选项:
- 一次调度:仅执行一次。
- 周期调度:按照一定的时间间隔定期执行。
调度计划
周期调度方式时,需要配置此参数。
输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。
示例如下所示:
- 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
- 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。
条件过滤
当“是否解析”值为“是”时,才有此参数,
可设置数据文件过滤条件,从下拉框中选择。请根据实际情况设置。
当目标数据“存储介质”为“DWS”、“HIVE”时,暂不支持过滤。
- 当“数据源类型”为“租户OBS”时,“来源”区域参数说明见表3。
表3 数据源类型为租户OBS的参数说明 参数
说明
数据源类型
源数据源的类型,这里选择“租户OBS”。
文件路径
输入租户OBS文件路径或文件目录。
当文件路径为目录时,若目标数据源为HIVE或DWS,表示选择的是当前目录下的所有文件,不包括子目录;若目标数据源为数据湖OBS或HDFS,表示选择的是整个目录,包括递归子目录中的文件。
AK
租户AK信息。
SK
租户SK信息。
删除源文件
任务执行成功后是否删除源文件。建议周期任务选择“是”,可分批次处理新增的源文件。
是否解析
作用为按文件头,解析结构化数据,实现向数据库表中灌入数据。此时,源端和目标端的表头字段需要进行映射,请参见7。
- 当目标端的“数据源类型”为“数据湖OBS”、“HDFS”时,选择“否”。
- 当目标端的“数据源类型”为“DWS”、“逻辑模型”、“HIVE”时,选择“是”。
文件头所在行
当“是否解析”值为“是”时,才有此参数,
设置文件头所在行。选择“0”,表示文件无表头。
分隔符
当“是否解析”值为“是”时,才有此参数,
表头字段和值的分隔符,从下拉框中选择。
转义符
当“是否解析”值为“是”时,才有此参数,
用于转义表头字段和值中的双引号,从下拉框中选择。
编码格式
当“是否解析”值为“是”时,才有此参数,
选择源端文件的编码格式。请根据实际情况设置。
调度模式
任务执行方式。
包含如下选项:
- 一次调度:仅执行一次。
- 周期调度:按照一定的时间间隔定期执行。
调度计划
周期调度方式时,需要配置此参数。
输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。
示例如下所示:
- 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
- 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。
条件过滤
当“是否解析”值为“是”时,才有此参数,
可设置数据文件过滤条件,从下拉框中选择。请根据实际情况设置。
当目标端数据“存储介质”为“DWS”、“HIVE”时,暂不支持过滤。
- 当“数据源类型”值为“逻辑模型”时,“来源”区域参数说明见表4。
表4 数据源类型为逻辑模型的参数说明 参数
说明
数据源类型
源数据源的类型,这里选择“逻辑模型”。
实体名称
单击,在“逻辑实体”界面通过搜索选择逻辑实体,单击“确定”。
存储介质
实体的存储介质。“实体名称”选择值后,自动显示。
调度模式
任务执行方式。
包含如下选项:
- 一次调度:仅执行一次。
- 周期调度:按照一定的时间间隔定期执行。
- 实时调度:任务持续执行,仅当存储介质类型为Kafka时可用。
调度计划
周期调度方式时,需要配置此参数。
输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。
示例如下所示:
- 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
- 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。
条件过滤
可设置数据文件的过滤条件,从下拉框中选择。
当目标端数据“存储介质”为“DWS”、“HIVE”时,暂不支持过滤。
- 当“数据源类型”值为“HIVE”时,“来源”区域参数说明见表5。
表5 数据源类型为HIVE的参数说明 参数
说明
数据源类型
源数据源的类型,这里选择“HIVE”。
表
数据库表,从下拉框中选择表。
调度模式
任务执行方式。
包含如下选项:
- 一次调度:仅执行一次。
- 周期调度:按照一定的时间间隔定期执行。
调度计划
周期调度方式时,需要配置此参数。
输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。
示例如下所示:
- 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
- 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。
条件过滤
可设置数据文件的过滤条件,从下拉框中选择。
当目标端数据“存储介质”为“DWS”、“HIVE”时,暂不支持过滤。
- 当“数据源类型”值为“DWS”时,“来源”区域参数说明见表6。
表6 数据源类型为DWS的参数说明 参数
说明
数据源类型
源数据源的类型,这里选择“DWS”。
表
数据库表,从下拉框中选择表。
调度模式
任务执行方式。
包含如下选项:
- 一次调度:仅执行一次。
- 周期调度:按照一定的时间间隔定期执行。
调度计划
周期调度方式时,需要配置此参数。
输入Cron表达式。Cron表达式是以5或6个空格隔开的字符串。
示例如下所示:
- 样例1为“0 0/5 * * * ?”,表示每隔5分钟执行一次。
- 样例2为“0 0 14 * * ?”,表示每天下午2点执行一次。
条件过滤
可设置数据文件的过滤条件,从下拉框中选择。
当目标端数据“存储介质”为“DWS”、“HIVE”时,暂不支持过滤。
- 当“数据源类型”为“数据湖OBS”时,“来源”区域参数说明见表2。
- 配置数据源的目标端,请参考数据源来源端的参数说明,进行配置。
- 单击“测试连接”,系统做hadoop service接口访问源端或目标端的连接测试。
- (可选)字段映射:单击“刷新”,自动映射;单击“名称映射”或“顺序映射”,按名称或顺序映射;手动在下拉框中选择进行映射。
- 任务信息配置完成后,单击“提交”,在“提示”对话框中单击“确定”,自动显示在任务管理列表中。
- 单击“保存草稿”,保存当前数据加载任务,自动显示在任务管理列表中,“任务状态”值为“草稿”。
- (可选)在任务管理界面,支持如下操作。
- 支持按任务状态展示加载任务。例如,单击“成功”,加载任务列表仅展示“任务状态”值为“成功”的加载任务。
- 查看任务信息:在需要查看的任务对应的“任务名称”列下,单击任务名称,选择“任务信息”页签。
- 编辑任务:在需要编辑的任务对应的“操作”列下,单击。
- 删除任务:勾选需要删除任务前面的复选框,单击“批量删除”。