更新时间:2023-06-21 GMT+08:00

转储至DWS

源数据类型JSON/CSV

表1 转储相关配置参数

参数

说明

取值

任务名称

用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。

-

DWS集群

存储该通道数据的DWS集群名称。

单击“选择”,在“选择DWS集群”窗口选择一个集群。

此配置项仅支持选择,不可手动输入。

-

DWS数据库

存储该通道数据的DWS数据库名称。

手动输入,不可配置为空。

-

数据库模式

一个数据库包含一个或多个命名的模式,模式又包含表。模式还包含其他命名的对象,包括数据类型、函数,以及操作符。同一个对象名可以在不同的模式里使用而不会导致冲突。

-

DWS数据表

存储该通道数据的DWS数据库模式下的数据表。

-

数据分隔符

用户数据的字段分隔符,根据此分隔符分隔用户数据插入DWS数据表的相应列。

取值范围:不可为空

-

偏移量

  • 最新:最大偏移量,即获取最新的有效数据。
  • 最早:最小偏移量,即读取最早的有效数据。

最新

数据转储周期

根据用户配置的时间,周期性的将数据导入目的地(OBS,MRS,DLI,DWS),若某个时间段内无数据,则此时间段不会生成打包文件。

取值范围:30~900。

单位:秒。

默认配置为300秒。

-

用户名

DWS集群的用户名。

-

密码

DWS集群的密码。

-

KMS密钥

集群的数据库加密密钥。

-

数据临时桶

用户数据先临时存储在OBS桶中,再转储到指定的转储服务,转储完成后临时桶中的数据会被清除。

-

数据临时目录

需要转储的数据临时存储在OBS桶下此配置项配置的目录中,转储完成后临时目录中的数据会被清除。

配置为空时,数据直接存储在OBS桶内。

-

容错选项

通过单击或来关闭或开启容错选项开关。
  • fill_missing_fields

    当数据导入时,若数据源文件中一行的最后一个字段缺失的处理方式。

    取值范围:true/on,false/off。缺省值为false/off。

    • 参数为true/on,当数据导入时,若数据源文件中一行数据的最后一个字段缺失,则把最后一个字段的值设置为NULL,不报错。
    • 参数为false/off,如果最后一个字段缺失会显示如下错误信息。
  • ignore_extra_data

    数据源文件中的字段比外表定义列数多时,是否忽略多出的列。该参数只在数据导入过程中使用。

    取值范围:true/on,false/off。缺省值为false/off。

    • 参数为true/on,若数据源文件比外表定义列数多,则忽略行尾多出来的列。
    • 参数为false/off,若数据源文件比外表定义列数多,会显示如下错误信息。
      
                  
      说明:

      如果行尾换行符丢失,使两行变成一行时,设置此参数为true将导致后一行数据被忽略掉。

  • compatible_illegal_chars

    导入非法字符容错参数。此语法仅对READ ONLY的外表有效。

    取值范围:true/on,false/off。缺省值为false/off。

    • 参数为true/on,则导入时遇到非法字符进行容错处理,非法字符转换后入库,不报错,不中断导入。
    • 参数为false/off,导入时遇到非法字符进行报错,中断导入。
      须知:

      Windows平台下OBS若按照文本格式读取数据文件,遇到0x1A会作为EOF符号结束数据读入造成解析错误,这是Windows平台的实现约束。由于OBS不支持BINARY形式读取,可将相应数据文件交由Linux平台下的OBS读取。

    说明:
    • 导入非法字符容错规则如下:

      (1)对于'\0',容错后转换为空格;

      (2)对于其他非法字符,容错后转换为问号;

      (3)若compatible_illegal_chars为true/on标识导入时对于非法字符进行容错处理,则若NULL、DELIMITER、QUOTE、ESCAPE设置为空格或问号则会通过如"illegal chars conversion may confuse COPY escape 0x20"等报错信息提示用户修改可能引起混淆的参数以避免导入错误。

  • PER NODE REJECT LIMIT 'value'

    指定本次数据导入过程中每个DN实例上允许出现的数据格式错误的数量,如果有一个DN实例上的错误数量大于设定值,本次导入失败,报错退出。

    取值范围:整型值,unlimited(无限),缺省值为0,有错误信息立即返回。
    说明:

    此语法指定的是单个节点的错误容忍度。

    数据格式错误是指缺少或者多出字段值,数据类型错误或者编码错误。对于非数据格式错误,一旦发生就将导致整个数据扫描失败。

-