配置常见关系数据库源端参数
常见关系数据库作为源端包括数据仓库服务(DWS)、云数据库 MySQL、云数据库 PostgreSQL、云数据库 SQLServer、达梦数据库 DM、FusionInsight LibrA、PostgreSQL、Microsoft SQL Server、SAP HANA、MYCAT。
从以上数据库导出数据时,源端作业参数如表1所示。
参数类型 |
参数名 |
说明 |
取值样例 |
---|---|---|---|
基本参数 |
使用SQL语句 |
导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 |
否 |
SQL语句 |
“使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。
说明:
|
select id,name from sqoop.user; |
|
模式或表空间 |
“使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的帐号是否有元数据查询的权限。
说明:
该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如:
|
SCHEMA_E |
|
表名 |
“使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的帐号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据。
说明:
表名支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有表(要求表中的字段个数和类型都一样)。例如:
|
table |
|
高级属性 |
抽取分区字段 |
“使用SQL语句”选择“否”时,显示该参数,表示抽取数据时使用该字段进行数据切分,CDM依据此字段将作业分割为多个任务并发执行。一般使用数据均匀分布的字段,例如以自然增长的序号字段作为分区字段。 单击输入框后面的按钮可进入字段选择界面,用户也可以直接输入抽取分区字段名。
说明:
|
id |
Where子句 |
“使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据。 |
DS='${dateformat(yyyy-MM-dd,-1,DAY)}' |
|
分区字段是否允许空值 |
是否允许分区字段包含空值。 |
是 |
|
作业拆分字段 |
使用该字段将作业拆分为多个子作业并发执行。 |
- |
|
拆分字段最小值 |
表示抽取数据时“作业拆分字段”的最小值。 |
- |
|
拆分字段最大值 |
表示抽取数据时“作业拆分字段”的最大值。 |
- |
|
子作业个数 |
根据“作业拆分字段”的最小值和最大值限定的数据范围,将作业拆分为多少个子作业执行。 |
- |
|
按表分区抽取 |
从MySQL导出数据时,支持从分区表的各个分区并行抽取数据。启用该功能时,可以通过下面的“表分区”参数指定具体的MySQL表分区。
|
否 |