更新时间:2025-10-17 GMT+08:00
分享

DWS数据源

支持的版本

本数据集成服务全面支持华为云DWS企业级云上数据仓库服务,支持DWS主流版本,可满足不同用户在多种部署环境下的数据同步需求。

使用前准备及限制

  • 网络要求

    DWS数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通

  • 权限要求
    DWS读写权限:
    • 读权限
      • 从DWS读取数据,可以为数据集成服务的IAM用户或用户组授予DWS ReadOnlyAccess系统策略,该策略允许用户查看数据仓库服务资源。
      • 对于更精细的权限控制,可以创建自定义策略,根据具体需求授予如查询数据库、查询表等读取相关操作的权限。
    • 写权限
      • 向DWS写入数据,需要为数据集成服务的IAM用户或用户组授予DWS FullAccessDWS Administrator系统策略,该策略拥有数据仓库服务的所有权限。
      • 可以根据实际需求创建自定义策略,授予如插入数据、创建表、更新数据等写入相关操作的权限。

支持的数据类型

DWS读写端兼容的字段类型如下所示。由于各版本DWS支持的字段类型能力可能不同,本数据集成服务以 8.1.X 版本为基准,覆盖并适配主流类型及其变体:

类别

字段类型

读取支持

整数类型

TINYINT(别名:INT1)

SMALLINT (别名:INT2)

INTEGER (别名:INT4)

BINARY_INTEGER

BIGINT (别名:INT8)

INT

浮点型

NUMERIC

DECIMAL

NUMBER

REAL

FLOAT

FLOAT4

DOUBLE PRECISION

FLOAT8

BINARY_DOUBLE

DEC

序列整型

SMALLSERIAL

SERIAL

BIGSERIAL

货币类型

MONEY

布尔类型

BOOL

BOOLEAN

字符类型

CHAR

BPCHAR

CHARACTER

NCHAR

VARCHAR (别名:VARCHAR2)

CHARACTER VARYING

VARCHAR2

NVARCHAR2

CLOB

TEXT

日期时间

DATE

TIME

TIME WITHOUT TIME ZONE

TIME WITH TIME ZONE

TIMESTAMP

TIMESTAMP WITHOUT TIME ZONE

TIMESTAMP WITH TIME ZONE

SMALLDATETIME

INTERVAL

比特

BIT

VARBIT

二进制类型

BLOB

?

RAW

?

BYTEA

?

JSON类型

JSON

支持的迁移场景

数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:

需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对DWS的支持迁移场景概览:

支持迁移场景

DWS 单表读取

DWS 单表写入

DWS 分库分表读取

DWS 分库分表写入

DWS 整库读取

DWS 整库写入

是否支持

x

√(仅部分region支持)

x

核心能力速览

  • 连接配置

    配置项

    支持情况

    说明

    用户/AK

    支持用户AKSK认证,确保连接安全。

    SSL加密

    支持 SSL 加密,保障数据传输安全,当前仅支持云上 RDS 开启 SSL 认证。

    SSL 认证支持

    单向认证

    当前仅支持云上 RDS 开启 SSL 认证,通过标准华为云 CA 证书进行认证

    连接配置调优

    支持 connectTimeout 等连接配置调优,可根据实际需求优化连接性能。

    自定义驱动

    x

    支持自定义驱动,提供更高的灵活性,暂不支持。

  • 读取能力

    配置项

    支持情况

    说明

    分片并发

    支持按主键或常见字段做水平分片,多线程并行抽取,显著提升吞吐效率。

    脏数据处理

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。

    自定义字段

    可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需求。

    增量读取

    支持 where 条件和 SQL 模式,可实现增量读取。

    流批读取方式

    批读

    支持批量读取,适用于中小数据量场景,可一次性处理数据,提高处理效率。

    读取行数调优

    可根据需求在连接中配置【单次请求行数】,合理控制数据传输量,优化性能,避免因数据量过大导致的传输延迟或系统压力。

  • 写入能力

    配置项

    支持情况

    说明

    冲突解决

    支持 copy/upsert等多种写入方式,可灵活处理数据冲突。

    导入前后处理

    支持 preSql/delete 等操作,可在数据导入前后进行数据清洗和处理。

    并发写入

    支持并发写入,提升写入效率。

    写入行数调优

    可根据需求配置单次写入的行数,合理控制数据传输量,优化性能,避免因数据量过大导致的传输延迟或系统压力。

    脏数据处理

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。

创建数据源

DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接

创建数据集成离线作业

DataArts Studio数据开发中新建DWS集成作业,详情请参见新建离线处理集成作业

相关文档