更新时间:2025-11-20 GMT+08:00
分享

OpenSource ClickHouse数据源

OpenSource ClickHouse是一个开源、高性能、分布式的列式数据库管理系统,专为实时大规模数据分析而设计。

本数据集成服务支持开源OpenSource Clickhouse产品,提供高效、便捷的读写ClickHouse数据迁移能力。

使用前准备及限制

  • 网络要求

    OpenSource ClickHouse数据源必须与CDM网络进行通讯,以确保数据传输的顺畅性。详情请参见网络打通

  • 权限要求
    • 读权限:需要从OpenSource ClickHouse读取数据,需要为数据集成服务的数据库用户授予ClickHouse的只读权限,至少需要具备SELECT权限。
    • 写权限:需要向OpenSource ClickHouse写入数据,需要为数据集成服务的数据库用户授予ClickHouse的写入权限,至少需要具备INSERTCREATE TABLEDELETE等常用操作权限。
  • 端口放通

    Clickhouse JDBC端口(8123):开放8123端口以支持数据集成服务通过JDBC方式连通ClickHouse。

支持的数据类型

不同Clickhouse版本支持的字段类型有所不同,字段类型支持以开源Clickhouse 21.3.4.25版本为基准,本数据集成服务兼容以下字段类型及其常见变体,确保在读写操作中能够准确处理各类数据:

类别

ClickHouse字段类型

读取是否支持

写入是否支持

数值

Int8

Int16

Int32

Int64

Int128

UInt8

UInt16

UInt32

UInt64

UINT128

Float32

Float64

Decimal

字符

String

FixedString

时间

Date

DateTime

DateTime64

布尔

Boolean

数组

Array

元组

Tuple

x

x

IP

IPv4

IPv6

枚举

Enum8

Enum16

Nested

Nested

x

x

支持的迁移场景

数据集成离线同步支持以下三种同步方式,以满足不同数据迁移场景的需求:

需要注意的是,分库分表与整库迁移能力会根据不同region的上线支持情况有所不同,具体支持情况以页面为准。以下是针对OpenSource ClickHouse的支持迁移场景概览:

支持迁移场景

单表读取

单表写入

分库分表读取

分库分表写入

整库读取

整库写入

是否支持

x

x

x

核心能力速览

  • 连接配置

    配置项

    支持情况

    说明

    SSL加密

    支持SSL加密,保障数据传输安全。

    连接配置调优

    支持connectTimeout等连接配置调优,可根据实际需求优化连接性能。

  • 读取能力

    配置项

    支持情况

    说明

    分片并发

    支持按主键或常见字段做水平分片,多线程并行抽取,显著提升吞吐效率。

    脏数据处理

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败。

    自定义字段

    可在任务级追加计算列、常量列或脱敏函数,满足个性化业务需求。

    增量读取

    支持where条件下发查询,可实现增量读取。

    流批读取方式

    批读

    支持批量读取数据,适用于处理大规模静态数据集,可一次性读取大量数据并进行集中处理。

  • 写入能力

    配置项

    支持情况

    说明

    导入前后处理

    支持preSql等操作,可在数据导入前后进行数据清洗和处理。

    并发写入

    支持并发写入,提升写入效率。

    写入行数调优

    可根据需求配置单次写入的行数,合理控制数据传输量,优化性能,避免因数据量过大导致的传输延迟或系统压力。

    脏数据处理

    x

    支持异常数据写入脏数据桶,避免因少量异常数据导致作业失败,暂不支持。

创建数据源

DataArts Studio管理中心新建相应的数据源,详情请参见创建DataArts Studio数据连接

创建数据集成离线作业

DataArts Studio数据开发中新建OpenSource ClickHouse集成作业,详情请参见新建离线处理集成作业

相关文档