更新时间:2024-10-24 GMT+08:00

配置HTTP源端参数

作业中源连接为HTTP连接时,源端作业参数如表1所示。当前只支持从HTTP URL导出数据,不支持导入。

表1 HTTP/HTTPS作为源端时的作业参数

参数名

说明

取值样例

文件URL

通过使用GET方法,从HTTP/HTTPS协议的URL中获取数据。

用于读取一个公网HTTP/HTTPS URL的文件,包括第三方对象存储的公共读取场景和网盘场景。

https://bucket.obs.myhuaweicloud.com/object-key

列表文件

选择“是”,将待上传的文本文件中所有URL对应的文件拉取到OBS,文本文件记录的是HDFS上的文件路径。

列表文件源连接

文本文件存储在OBS桶中,这里需要选择已建立的OBS连接。

obs_link

列表文件OBS桶

存储文本文件的OBS桶名称。

obs-cdm

列表文件或目录

在OBS中存储文本文件的文件自定义目录,多级目录可用“/”进行分隔。

test1

文件格式

当前CDM只支持选择“二进制格式”,不解析文件内容直接传输,不要求原文件格式必须为二进制。

二进制格式

压缩格式

选择对应压缩格式的源文件进行迁移:
  • 无:表示传输所有格式的文件。
  • GZIP:表示只传输GZIP格式的文件。
  • ZIP:表示只传输ZIP格式的文件。
  • TAR.GZ:表示只传输TAR.GZ格式的文件。

压缩文件后缀

压缩格式非无时,显示该参数。

该参数需要解压缩的文件后缀名。当一批文件中以该值为后缀时,才会执行解压缩操作,否则保持原样传输。当输入*或为空时,所有文件都会被解压。

*

文件分隔符

传输多个文件时,CDM使用这里配置的文件分隔符来区分各个文件,默认为|。列表文件选择“是”时,不显示该参数。

|

QUERY参数

  • 该参数设置为“是”时,上传到OBS的对象使用的对象名,为去掉query参数后的字符。
  • 该参数设置为“否”时,上传到OBS的对象使用的对象名,包含query参数。

忽略不存在原路径/文件

如果将其设为是,那么作业在源路径不存在的情况下也能成功执行。

MD5文件名后缀

校验CDM抽取的文件,是否与源文件一致,详细请参见MD5校验文件一致性

.md5