更新时间:2023-03-29 GMT+08:00

转储至OBS

源数据类型JSON/BLOB/CSV==>转储文件格式Text

表1 转储Text格式文件的配置参数

参数

说明

取值

任务名称

用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。

-

数据转储地址

存储该通道数据的OBS桶名称。桶名称在“对象存储服务”中“创建桶”时创建。

-

转储文件目录

在OBS中存储通道文件的自定义目录,多级目录可用“/”进行分隔,不能以“/”开头。

取值范围:0~50个字符。

默认配置为空。

-

时间目录格式

数据将存储在OBS桶中转储文件目录下,按时间格式作为层级的目录中。

当选择的时间目录格式精确到日时,存储目录为“桶名称/转储文件目录/年/月/日”。

取值范围:
  • N/A:置空,不使用日期时间目录。
  • yyyy:年
  • yyyy/MM:年/月
  • yyyy/MM/dd:年/月/日
  • yyyy/MM/dd/HH:年/月/日/时
  • yyyy/MM/dd/HH/mm:年/月/日/时/分

此配置项仅支持选择,不可手动输入。

-

记录分隔符

进行OBS转储时,分隔不同转储记录的分隔符。

取值范围:
  • 逗号 ","
  • 分号 ";"
  • 竖线 "|"
  • 换行符 "\n"
  • NULL

此配置项仅支持选择,不可手动输入。

-

偏移量

  • 最新:最大偏移量,即获取最新的有效数据。
  • 最早:最小偏移量,即读取最早的有效数据。

最新

数据转储周期

根据用户配置的时间,周期性的将数据导入目的地(OBS,MRS,DLI,DWS),若某个时间段内无数据,则此时间段不会生成打包文件。

取值范围:30~900。

单位:秒。

默认配置为300秒。

-

源数据类型JSON==>转储文件格式CSV

表2 转储CSV格式文件的配置参数

参数

说明

取值

任务名称

用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。

-

数据转储地址

存储该通道数据的OBS桶名称。桶名称在“对象存储服务”中“创建桶”时创建。

-

转储文件目录

在OBS中存储通道文件的自定义目录,多级目录可用“/”进行分隔,不能以“/”开头。

取值范围:0~50个字符。

默认配置为空。

-

时间目录格式

数据将存储在OBS桶中转储文件目录下,按时间格式作为层级的目录中。

当选择的时间目录格式精确到日时,存储目录为“桶名称/转储文件目录/年/月/日”。

取值范围:
  • N/A:置空,不使用日期时间目录。
  • yyyy:年
  • yyyy/MM:年/月
  • yyyy/MM/dd:年/月/日
  • yyyy/MM/dd/HH:年/月/日/时
  • yyyy/MM/dd/HH/mm:年/月/日/时/分

此配置项仅支持选择,不可手动输入。

-

偏移量

  • 最新:最大偏移量,即获取最新的有效数据。
  • 最早:最小偏移量,即读取最早的有效数据。

最新

数据转储周期

根据用户配置的时间,周期性的将数据导入目的地,若某个时间段内无数据,则此时间段不会生成打包文件。

取值范围:30~900。

单位:秒。

默认配置为300秒。

-

源数据类型JSON/CSV==>转储文件格式Parquet

表3罗列了源数据类型为JSON,CSV,转储至OBS(对应转储文件格式Parquet)时需要配置的差异化参数,共性参数的配置请参见表1

表3 转储Parquet格式文件的配置参数

参数

说明

取值

源数据Schema

用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet格式。

-

转储文件目录

在OBS中存储通道文件的自定义目录,多级目录可用“/”进行分隔,不能以“/”开头。

取值范围:0~100个字符。

默认配置为空。

说明:

源数据类型为JSON时,支持EL表达式和内置函数。

  • EL表达式示例:

源数据:

{"name":"Andy","city":"","time":1556323141582}

转储文件目录配置如下:

dis/basePath/app_key_p=${name}

则数据的最终存储目录结构为:

{$桶名称}/dis/basePath/app_key_p=Andy

  • 内置函数示例:

源数据:

{"name":"Andy","city":"","time":1556323141582}

转储文件目录配置如下:

dis/basePath/date_p=toDate(${time}, "yyMMdd")

则数据的最终存储目录结构为:

{$桶名称}/dis-basePath/date_p=20190427

支持的内置函数列表:

toDate(timestamp,format):将时间戳转化为指定的时间格式,例如:toDate(1556323141582,'yymmdd')

自定义时间目录

通过单击或来关闭或开启自定义时间戳开关。

  • 关闭自定义时间戳开关,则写到OBS的Object文件所在的目录层次结构,将使用转储文件的生成时间。

    例如系统在2018年10月16日生成转储文件,选择“时间目录格式”精确到日,则数据转储成功后,在OBS的存储目录为“桶名称/转储文件目录/2018/10/16”。

  • 开启自定义时间戳开关,则写到OBS的Object文件所在的目录层次结构,将使用源数据中定义的时间。

    例如您在2018年10月16日创建某转储任务,选择“时间目录格式”精确到日,待上传的源数据中已定义时间字段"2017/09/08 11:01:01",则数据转储成功后,在OBS的存储目录为“桶名称/转储文件目录/2017/09/08”。存储目录按照源数据中定义的时间字段进行定义,而不是转储文件的生成时间。

  • 示例1:转储简单的Json数据。

源数据:

{ "id":"1", "date":"2018/10/16 11:00:05"}

配置如下:

根据待转储的源数据类型,分别设置“时间戳属性名”“date”,数据类型为“String”,时间戳格式为“yyyy/MM/dd HH:mm:ss”

因数据转储成功后,存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中,时间目录格式精确到日,所以数据最终存储目录结构为“桶名称/转储文件目录/2018/10/16”。

  • 示例2:转储多层嵌套的Json数据。

    源数据:

    { "id":"1", "detail":{ "detID":"05790110000000000103#567fd3cb13a4493eaa43076953253eed", "endTime":"2018/10/07 13:26:35" }}

配置如下:

根据待转储的源数据类型,分别设置“时间戳属性名”“detail.endTime”,数据类型为“String”,时间戳格式为“yyyy/MM/dd HH:mm:ss”

因数据转储成功后,存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中,时间目录格式精确到日,所以数据最终存储目录结构为“桶名称/转储文件目录/2018/10/07”。

  • 示例3:转储CSV格式的数据。

源数据:

a,2010-10-12 11:00:00,b,2011-10-12 11:00:10

配置如下:

根据待转储的源数据,选定时间戳“2010-10-12 11:00:00”,经DIS转换为Parquet格式后,对应的属性字段名称为field_1。则创建转储任务时分别设置“时间戳属性名”“field_1”,数据类型为“String”,时间戳格式为“yyyy/MM/dd HH:mm:ss”

因数据转储成功后,存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中,时间目录格式精确到日,所以数据最终存储目录结构为“桶名称/转储文件目录/2010/10/12”。

源数据时间戳

  • 时间戳的属性名。
    说明:

    请输入您待上传的源数据中定义的时间戳对应的字段名称。

  • 时间戳的格式,从下拉框中选择。

    yyyy/MM/dd HH:mm:ss

    MM/dd/yyyy HH:mm:ss

    dd/MM/yyyy HH:mm:ss

    yyyy-MM-dd HH:mm:ss

    MM-dd-yyyy HH:mm:ss

    dd-MM-yyyy HH:mm:ss

  • 数据类型,从下拉框中选择。
    • String
    • Timestamp
      说明:

      当您待上传的源数据类型为Timestamp,请精确到毫秒级。

源数据类型JSON/CSV==>转储文件格式CarbonData

表4罗列了源数据类型为JSON,CSV,转储至OBS(对应转储文件格式CarbonData)时需要配置的差异化参数,共性参数的配置请参见表1

表4 转储CarbonData格式文件的配置参数

参数

说明

取值

源数据Schema

用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为CarbonData格式。

-

CarbonData检索属性

carbon表属性,用于创建carbon writer。

支持的Key如下:

  • table_blocksize:表的block大小,取值范围是1~2048MB,默认值是1024MB。
  • table_blocklet_size:文件内的Blocklet大小,默认值是64MB。
  • local_dictionary_enable:配置为true或者false,默认值是false。
  • sort_columns:指定索引列,多级索引列用“,”分隔。
  • sort_scope:加载时,数据排序的范围。目前支持如下几种:
    • local_sort:默认值,表示在一个node下做数据排序;
    • no_sort:即不排序,在需要快速入库时使用,可以在入库后系统闲时通过Compaction命令再建立索引;
    • batch_sort:表示在一个node下,内存排序后直接生成CarbonData文件,不再进行node下的全排序;使用该配置,可以提升加载速度,但查询性能不如LOCAL_SORT;

-