OBS数据源
支持版本
华为云OBS(对象存储服务)是一种海量、安全、高可靠、低成本的云存储服务,支持多种数据存储和访问方式,适用于多种场景如数据备份、图片视频存储等。
本数据集成服务支持华为云OBS产品,提供读取和写OBS的数据迁移能力。
使用前准备及限制
- 网络要求
OBS数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通。
- 权限要求
- 读权限:如果数据集成服务仅需要从OBS读取数据,可授予OBS ReadOnlyAccess系统策略。该策略允许用户执行列举桶、获取桶基本信息、获取桶元数据、列举对象等操作。
- 写权限:如果数据集成服务需要向OBS写入数据,可授予OBS OperateAccess或OBS Administrator系统策略。拥有该权限的用户可以执行OBS ReadOnlyAccess的所有操作,在此基础上还可以执行上传对象、下载对象、删除对象、获取对象ACL等对象基本操作。
支持的数据类型
本数据集成服务支持OBS文件多格式解析,对于ORC、PARQUET格式,支持解析以下类型。
- Parquet文件支持类型
PrimitiveType
Logical Type
读取是否支持
写入是否支持
INT64
INT_64
√
√
UINT_64
√
√
DECIMAL
√
√
TIME_MICROS
√
√
TIMESTAMP_MILLIS
√
√
TIMESTAMP_MICROS
√
√
不涉及
√
√
INT32
UINT_8
√
√
UINT_16
√
√
UINT_32
√
√
INT_8
√
√
INT_16
√
√
INT_32
√
√
DECIMAL
√
√
DATE
√
√
TIME_MILLIS
√
√
不涉及
√
√
BOOLEAN
不涉及
√
√
BINARY
DECIMAL
√
√
UTF8
√
√
ENUM
√
√
JSON
√
√
BSON
√
√
不涉及
√
√
FLOAT
不涉及
√
√
DOUBLE
不涉及
√
√
INT96
不涉及
√
√
FIXED_LEN_BYTE_ARRAY
DECIMAL
√
√
INTERVAL
√
√
GroupType
LIST
x
x
MAP
x
x
STRUCT
x
x
- ORC文件支持类型
类别
字段类型
读取是否支持
写入是否支持
数值
TINYINT
√
√
SMALLINT
√
√
INT
√
√
BIGINT
√
√
FLOAT
√
√
DOUBLE
√
√
DECIMAL
√
√
时间
TIMESTAMP
√
√
DATE
√
√
字符
VARCHAR
√
√
STRING
√
√
CHAR
√
√
布尔
BOOLEAN
√
√
BINARY
BINARY
√
√
复杂类型
LIST
x
x
MAP
x
x
STRUCT
x
x
支持的迁移场景
数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:
- 单表同步
适用于数据入湖和数据上云场景下,表或文件级别的数据同步。支持的数据源类型请参考表/文件同步支持的数据源类型。
- 分库分表同步
适用于数据入湖和数据上云场景下,多库多表同步场景。支持的数据源类型请参考分库分表同步支持的数据源类型。
- 整库迁移
适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景。支持的数据源类型请参考整库同步支持的数据源类型。
需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对OBS的支持迁移场景概览:
|
支持迁移场景 |
单表读取 |
单表写入 |
分库分表读取 |
分库分表写入 |
整库读取 |
整库写入 |
|---|---|---|---|---|---|---|
|
是否支持 |
√ |
√ |
x |
√ |
x |
x |
核心能力速览
- 连接配置
配置项
支持情况
说明
认证方式
aksk、委托
支持 AK/SK 访问密钥认证,也支持 IAM 委托认证(通过委托授权服务角色访问 OBS)。
- 读取能力
配置项
支持情况
说明
增量读取
√
支持配置【变量路径】 + 【调度】方式,实现按时间或文件变化触发增量同步。
支持文件格式
二进制
CSV
JSON
PARQUET
ORC
支持原始二进制文件读取,适用于源目的端均为文件系统的搬迁。
支持标准 CSV 格式,支持识别分隔符、编码方式。
支持JSON结构解析,抽取JSON多字段能力。
支持列式存储格式 Parquet,支持原生的Parquet文件读取能力。
支持 列式存储格式ORC,支持原生的ORC文件读取能力。
分片并发
√
支持按文件进行多并发读取,多线程并行抽取,显著提升吞吐效率。
脏数据处理
√
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。
自定义字段
√
可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需求。
- 写入能力
配置项
支持情况
说明
支持文件格式
二进制
CSV
JSON
PARQUET
ORC
支持原始二进制文件写入,适用于源目的端均为文件系统的搬迁。
支持标准 CSV 格式,支持识别分隔符、编码方式。
支持JSON结构解析,抽取JSON多字段能力。
支持列式存储格式 Parquet,支持原生的Parquet文件写入能力。
支持 列式存储格式ORC,支持原生的ORC文件写入能力。
文件压缩
√
支持ORC/Parquet文件写入压缩能力。
脏数据处理
x
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败,暂不支持。
创建数据源
在DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接。
创建数据集成离线作业
在DataArts Studio数据开发中新建OBS集成作业,详情请参见新建离线处理集成作业。