文档首页/ 数据接入服务 DIS/ 用户指南/ 管理转储任务/ 转储至OBS

更新时间：2025-05-12 GMT+08:00

转储至OBS

源数据类型JSON/BLOB/CSV==>转储文件格式Text

表1 转储Text格式文件的配置参数
参数	说明	取值
任务名称	用户创建转储任务时，需要指定转储任务名称，同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1～64个字符。	-
数据转储地址	存储该通道数据的OBS桶名称。桶名称在“对象存储服务”中“创建桶”时创建。	-
转储文件目录	在OBS中存储通道文件的自定义目录，多级目录可用“/”进行分隔，不能以“/”开头。取值范围：0~50个字符。默认配置为空。	-
时间目录格式	数据将存储在OBS桶中转储文件目录下，按时间格式作为层级的目录中。当选择的时间目录格式精确到日时，存储目录为“桶名称/转储文件目录/年/月/日”。取值范围： N/A：置空，不使用日期时间目录。 yyyy：年 yyyy/MM：年/月 yyyy/MM/dd：年/月/日 yyyy/MM/dd/HH：年/月/日/时 yyyy/MM/dd/HH/mm：年/月/日/时/分此配置项仅支持选择，不可手动输入。	-
记录分隔符	进行OBS转储时，分隔不同转储记录的分隔符。取值范围：逗号 "," 分号 ";" 竖线 "\|" 换行符 "\n" NULL 此配置项仅支持选择，不可手动输入。	-
偏移量	最新：最大偏移量，即获取最新的有效数据。最早：最小偏移量，即读取最早的有效数据。	最新
数据转储周期	根据用户配置的时间，周期性的将数据导入目的地（OBS），若某个时间段内无数据，则此时间段不会生成打包文件。取值范围：30～900。单位：秒。默认配置为300秒。	-

源数据类型JSON==>转储文件格式CSV

表2 转储CSV格式文件的配置参数
参数	说明	取值
任务名称	用户创建转储任务时，需要指定转储任务名称，同一通道的转储任务名称不可重复。任务名称由英文字母、数字、中划线和下划线组成。长度为1～64个字符。	-
数据转储地址	存储该通道数据的OBS桶名称。桶名称在“对象存储服务”中“创建桶”时创建。	-
转储文件目录	在OBS中存储通道文件的自定义目录，多级目录可用“/”进行分隔，不能以“/”开头。取值范围：0~50个字符。默认配置为空。	-
时间目录格式	数据将存储在OBS桶中转储文件目录下，按时间格式作为层级的目录中。当选择的时间目录格式精确到日时，存储目录为“桶名称/转储文件目录/年/月/日”。取值范围： N/A：置空，不使用日期时间目录。 yyyy：年 yyyy/MM：年/月 yyyy/MM/dd：年/月/日 yyyy/MM/dd/HH：年/月/日/时 yyyy/MM/dd/HH/mm：年/月/日/时/分此配置项仅支持选择，不可手动输入。	-
偏移量	最新：最大偏移量，即获取最新的有效数据。最早：最小偏移量，即读取最早的有效数据。	最新
数据转储周期	根据用户配置的时间，周期性的将数据导入目的地，若某个时间段内无数据，则此时间段不会生成打包文件。取值范围：30～900。单位：秒。默认配置为300秒。	-

源数据类型JSON/CSV==>转储文件格式Parquet

表3罗列了源数据类型为JSON，CSV，转储至OBS（对应转储文件格式Parquet）时需要配置的差异化参数，共性参数的配置请参见表1。

表3 转储Parquet格式文件的配置参数
参数	说明	取值
源数据Schema	用户的JSON或CSV数据样例，用于描述JSON或CSV数据格式。DIS可以根据此JSON或CSV数据样例生成Avro schema, 将通道内上传的JSON或CSV数据转换为Parquet格式。	-
转储文件目录	在OBS中存储通道文件的自定义目录，多级目录可用“/”进行分隔，不能以“/”开头。取值范围：0~100个字符。默认配置为空。说明：源数据类型为JSON时，支持EL表达式和内置函数。	EL表达式示例：源数据： {"name":"Andy","city":"","time":1556323141582} 转储文件目录配置如下： dis/basePath/app_key_p=${name} 则数据的最终存储目录结构为： {$桶名称}/dis/basePath/app_key_p=Andy 内置函数示例：源数据： {"name":"Andy","city":"","time":1556323141582} 转储文件目录配置如下： dis/basePath/date_p=toDate(${time}, "yyMMdd") 则数据的最终存储目录结构为： {$桶名称}/dis-basePath/date_p=20190427 支持的内置函数列表： toDate(timestamp,format)：将时间戳转化为指定的时间格式，例如：toDate(1556323141582,'yymmdd')
自定义时间目录	通过单击或来关闭或开启自定义时间戳开关。关闭自定义时间戳开关，则写到OBS的Object文件所在的目录层次结构，将使用转储文件的生成时间。例如系统在2018年10月16日生成转储文件，选择“时间目录格式”精确到日，则数据转储成功后，在OBS的存储目录为“桶名称/转储文件目录/2018/10/16”。开启自定义时间戳开关，则写到OBS的Object文件所在的目录层次结构，将使用源数据中定义的时间。例如您在2018年10月16日创建某转储任务，选择“时间目录格式”精确到日，待上传的源数据中已定义时间字段"2017/09/08 11:01:01"，则数据转储成功后，在OBS的存储目录为“桶名称/转储文件目录/2017/09/08”。存储目录按照源数据中定义的时间字段进行定义，而不是转储文件的生成时间。	示例1：转储简单的Json数据。源数据： { "id":"1", "date":"2018/10/16 11:00:05"} 配置如下：根据待转储的源数据类型，分别设置“时间戳属性名”为“date”，数据类型为“String”，时间戳格式为“yyyy/MM/dd HH:mm:ss”。因数据转储成功后，存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中，时间目录格式精确到日，所以数据最终存储目录结构为“桶名称/转储文件目录/2018/10/16”。示例2：转储多层嵌套的Json数据。源数据： { "id":"1", "detail":{ "detID":"05790110000000000103#567fd3cb13a4493eaa43076953253eed", "endTime":"2018/10/07 13:26:35" }} 配置如下：根据待转储的源数据类型，分别设置“时间戳属性名”为“detail.endTime”，数据类型为“String”，时间戳格式为“yyyy/MM/dd HH:mm:ss”。因数据转储成功后，存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中，时间目录格式精确到日，所以数据最终存储目录结构为“桶名称/转储文件目录/2018/10/07”。示例3：转储CSV格式的数据。源数据： a,2010-10-12 11:00:00,b,2011-10-12 11:00:10 配置如下：根据待转储的源数据，选定时间戳“2010-10-12 11:00:00”，经DIS转换为Parquet格式后，对应的属性字段名称为field_1。则创建转储任务时分别设置“时间戳属性名”为“field_1”，数据类型为“String”，时间戳格式为“yyyy/MM/dd HH:mm:ss”。因数据转储成功后，存储的目录结构取决于源数据的时间戳和时间目录格式定义的年月日层级。本示例中，时间目录格式精确到日，所以数据最终存储目录结构为“桶名称/转储文件目录/2010/10/12”。
源数据时间戳	时间戳的属性名。说明：请输入您待上传的源数据中定义的时间戳对应的字段名称。时间戳的格式，从下拉框中选择。 yyyy/MM/dd HH:mm:ss MM/dd/yyyy HH:mm:ss dd/MM/yyyy HH:mm:ss yyyy-MM-dd HH:mm:ss MM-dd-yyyy HH:mm:ss dd-MM-yyyy HH:mm:ss 数据类型，从下拉框中选择。 String Timestamp 说明：当您待上传的源数据类型为Timestamp，请精确到毫秒级。

父主题： 管理转储任务

上一篇：新增转储任务

下一篇：管理企业项目

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问