DLI数据源
支持的版本
本数据集成服务全面支持华为云数据湖探索(DLI)产品,支持DLI主流版本,可满足不同用户在多种部署环境下的数据同步需求。
使用前准备及限制
- 网络要求
DLI数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通。
- 权限要求
- OBS 权限:当DLI作为写入目的端时,需要赋予DLI连接中使用的 AK/SK 所在用户对dli-trans*内部临时桶的读、写、创建目录对象等权限,否则会导致迁移失败。dli-trans*内部临时桶的权限策略添加请参考新增dli-trans*内部临时桶授权策略。
- DLI 读写权限:
- 读权限:如果需要从DLI读取数据,需要为数据集成服务的IAM用户或用户组授予DLI的只读权限,如DLI ReadOnlyAccess系统策略,或者根据具体需求创建自定义策略,授予如SELECT等读取相关操作的权限。
- 写权限:如果需要向DLI写入数据,除了上述OBS权限外,还需要为数据集成服务的IAM用户或用户组授予DLI的写入权限,如DLI FullAccess或DLI Service Administrator系统策略,或者创建自定义策略,授予如INSERT_INTO_TABLE、CREATE_TABLE等写入相关操作的权限。
- 作业运行限制:作业运行中禁止修改密码或者更换用户。在作业运行过程中修改密码或者更换用户,密码不会立即生效且作业会运行失败
支持的数据类型
DLI 读写端兼容的字段类型如下所示:
类别 |
字段类型 |
读取能力支持 |
---|---|---|
字符型 |
CHAR |
√ |
VARCHAR |
√ |
|
STRING |
√ |
|
数值型 |
BIGINT |
√ |
TINYINT |
√ |
|
SMALLINT |
√ |
|
INT |
√ |
|
浮点型 |
DECIMAL |
√ |
FLOAT |
√ |
|
DOUBLE |
√ |
|
日期时间 |
DATE |
√ |
TIMESTAMP |
√ |
|
布尔型 |
BOOLEAN |
√ |
支持的迁移场景
数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:
- 单表同步
适用于数据入湖和数据上云场景下,表或文件级别的数据同步。支持的数据源类型请参考表/文件同步支持的数据源类型。
- 分库分表同步
适用于数据入湖和数据上云场景下,多库多表同步场景。支持的数据源类型请参考分库分表同步支持的数据源类型。
- 整库迁移
适用于数据入湖和数据上云场景下,离线或自建数据库整体同步场景。支持的数据源类型请参考整库同步支持的数据源类型。
需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对DLI的支持迁移场景概览:
支持迁移场景 |
DLI 单表读取 |
DLI 单表写入 |
DLI 分库分表读取 |
DLI 分库分表写入 |
DLI 整库读取 |
DLI 整库写入 |
---|---|---|---|---|---|---|
是否支持 |
√ |
√ |
x |
√ |
x |
√(仅部分region支持) |
核心能力速览
- 连接配置
配置项
支持情况
说明
用户/AK
√
支持用户AKSK认证,确保连接安全。
委托能力
x
通过委托授权方式进行任务执行,暂不支持。
存算分离
√
支持存算分离架构,允许用户将存储和计算资源分开配置和管理,提高资源利用效率和灵活性。
- 读取能力
配置项
支持情况
说明
分片并发
√
支持水平分片,多线程并行抽取,显著提升吞吐效率。
自定义字段
√
可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需求。
脏数据处理
x
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败,暂不支持。
增量读取
√
支持分区过滤的增量读取。
- 写入能力
配置项
支持情况
说明
脏数据处理
√
支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。
冲突解决
√
支持Insert into/Insert ovwrite into的冲突解决机制,保证分区数据的一致性。
导入前后处理
√
支持Truncate方式对选用分区进行清空。
并发写入
√
当前仅DLI-Hive表支持并发写入,提升写入效率,DLI-Hudi表不支持并发写入能力。
创建数据源
在DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接。
创建数据集成离线作业
在DataArts Studio数据开发中新建DLI集成作业,详情请参见新建离线处理集成作业。