配置REDSHIFT源端参数
作业中源连接为从REDSHIFT导出的数据时,源端作业参数如表1所示。
目前,该数据源仅支持目标端为DWS数据源,其他数据源暂不支持。
参数类型 | 参数名 | 说明 | 取值样例 |
|---|---|---|---|
基本参数 | 使用SQL语句 | 导出关系型数据库的数据时,您可以选择使用自定义SQL语句导出。 | 否 |
SQL语句 | “使用SQL语句”选择“是”时,您可以在这里输入自定义的SQL语句,CDM将根据该语句导出数据。 说明:
| select id,name from sqoop.user; | |
模式或表空间 | “使用SQL语句”选择“否”时,显示该参数,表示待抽取数据的模式或表空间名称。单击输入框后面的按钮可进入模式选择界面,用户也可以直接输入模式或表空间名称。 如果选择界面没有待选择的模式或表空间,请确认对应连接里的账号是否有元数据查询的权限。 说明: 该参数支持配置通配符(*),实现导出以某一前缀开头或者以某一后缀结尾的所有数据库。例如:
| SCHEMA_EXAMPLE | |
表名 | “使用SQL语句”选择“否”时,显示该参数,表示要抽取的表名。单击输入框后面的按钮可进入表的选择界面,用户也可以直接输入表名称。 如果选择界面没有待选择的表,请确认表是否已经创建,或者对应连接里的账号是否有元数据查询的权限。 该参数支持配置为时间宏变量,且一个路径名中可以有多个宏定义变量。使用时间宏变量和定时任务配合,可以实现定期同步新增数据,详细说明请参见使用时间宏变量完成增量同步。 该参数支持配置正则表达式,实现导出满足规则的所有数据库。例如:表名配置为user_[0-9]{1,2},会匹配 user_0 到 user_9,user_00 到 user_99 的表。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 | TABLE_EXAMPLE | |
高级属性 | Where子句 | “使用SQL语句”选择“否”时,显示该参数,表示配置抽取范围的Where子句,不配置时抽取整表。 该参数支持配置为时间宏变量,实现抽取指定日期的数据,详细说明请参见关系数据库增量迁移。 说明: 如果配置了时间宏变量,通过DataArts Studio数据开发调度CDM迁移作业时,系统会将时间宏变量替换为“数据开发作业计划启动时间-偏移量”,而不是“CDM作业实际启动时间-偏移量”。 | DS='${dateformat(yyyy-MM-dd,-1,DAY)}' |
date类型值是否保留一位精度 | date类型值是否保留一位精度。 | false | |
拆分作业 | 根据字段值,是否将作业拆分为子作业。 | 是 | |
作业拆分字段 | “拆分作业”参数为是时显示该参数。 配置作业拆分字段支持整型与FLOAT类型。 | - | |
拆分字段最小值 | “拆分作业”参数为是时显示该参数。 配置拆分字段最小值。小于或等于源端作业拆分字段的min值,否则搬迁会遗漏数据。 | - | |
拆分字段最大值 | “拆分作业”参数为是时显示该参数。 配置拆分字段最大值。大于或等于源端作业拆分字段的max值,否则搬迁会遗漏数据。 | - | |
子作业个数 | “拆分作业”参数为是时显示该参数。 根据字段,拆分为多少个子作业。 | - |

