更新时间:2023-03-29 GMT+08:00

转储至MRS

操作前提

转储至MRS时,不支持MRS集群3.x及以上版本,且MRS集群不能开启Kerberos认证。

源数据类型JSON/BLOB/CSV==>转储文件格式Text

表1 转储Text格式文件的配置参数

参数

说明

取值

任务名称

用户创建转储任务时,需要指定转储任务名称,同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1~64个字符。

-

MRS集群

单击“选择”,在“选择集群”窗口选择一个MRS集群。仅支持转储至非Kerberos认证的MRS集群。

此配置项仅支持选择,不可手动输入。

-

HDFS路径

单击“选择”,在“选择HDFS文件路径”窗口按层级选择所需HDFS文件所在路径。

此处路径仅支持选择,不可手动输入。

配置此项必须已配置“MRS集群”。

转储文件目录

在MRS中存储通道文件的自定义目录,多级目录可用“/”进行分隔,不能以“/”开头。

取值范围:0~50个字符。

默认配置为空。

-

偏移量

  • 最新:最大偏移量,即获取最新的有效数据。
  • 最早:最小偏移量,即读取最早的有效数据。

最新

数据转储周期

根据用户配置的时间,周期性的将数据导入目的地(OBS,MRS,DLI,DWS),若某个时间段内无数据,则此时间段不会生成打包文件。

取值范围:30~900。

单位:秒。

默认配置为300秒。

-

数据临时桶

用户数据先临时存储在OBS桶中,再转储到指定的转储服务,转储完成后临时桶中的数据会被清除。

-

数据临时目录

需要转储的数据临时存储在OBS桶下此配置项配置的目录中,转储完成后临时目录中的数据会被清除。

配置为空时,数据直接存储在OBS桶内。

-

源数据类型JSON/CSV==>转储文件格式Parquet

表2罗列了源数据类型为JSON,CSV,转储至MRS(对应转储文件格式Parquet)时需要配置的差异化参数,共性参数的配置请参见表1

表2 转储Parquet格式文件的配置参数

参数

说明

取值

源数据Schema

用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet格式。

-

源数据类型JSON/CSV==>转储文件格式CarbonData

表3罗列了源数据类型为JSON,CSV,转储至OBS(对应转储文件格式CarbonData)时需要配置的差异化参数,共性参数的配置请参见表1

表3 转储CarbonData格式文件的配置参数

参数

说明

取值

源数据Schema

用户的JSON或CSV数据样例,用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为CarbonData格式。

-

CarbonData检索属性

carbon表属性,用于创建carbon writer。

支持的Key如下:

  • table_blocksize:表的block大小,取值范围是1~2048MB,默认值是1024MB。
  • table_blocklet_size:文件内的Blocklet大小,默认值是64MB。
  • local_dictionary_enable:配置为true或者false,默认值是false。
  • sort_columns:指定索引列,多级索引列用“,”分隔。
  • sort_scope:加载时,数据排序的范围。目前支持如下几种:
    • local_sort:默认值,表示在一个node下做数据排序;
    • no_sort:即不排序,在需要快速入库时使用,可以在入库后系统闲时通过Compaction命令再建立索引;
    • batch_sort:表示在一个node下,内存排序后直接生成CarbonData文件,不再进行node下的全排序;使用该配置,可以提升加载速度,但查询性能不如LOCAL_SORT;

-