最新动态
功能总览
服务公告
- 产品公告
- 版本支持公告
产品介绍
- 图解数据仓库服务
- 什么是数据仓库服务
- 数据仓库类型
- 数据仓库规格
- 产品优势
- 应用场景
- 产品功能
- 基本概念
- 与其他云服务的关系
- 安全
- GaussDB(DWS)权限管理
- 如何访问GaussDB(DWS)
- 使用限制
- 技术支持
- 配额说明
- GaussDB(DWS)技术指标
计费说明
- GaussDB(DWS)计费概述
- 计费模式
- 计费项
- 计费样例
- 变更计费模式
- 续费
  - 续费概述
  - 手动续费
- 费用账单
- 欠费说明
- 停止计费
- 成本管理
- 计费FAQ
快速入门
- 免费体验GaussDB(DWS)
- 快速创建GaussDB(DWS)集群并导入数据进行查询
- GaussDB(DWS)数据开发SQL入门操作
- GaussDB(DWS)入门实践
用户指南
- GaussDB(DWS)使用流程
- 准备工作
- 创建GaussDB(DWS)集群
- 连接GaussDB(DWS)集群
- 创建GaussDB(DWS)数据库和用户
- 迁移业务数据至GaussDB(DWS)集群
  - 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群
  - 管理数据源
- GaussDB(DWS)集群数据安全与加密
- GaussDB(DWS)集群管理
- GaussDB(DWS)集群运维
最佳实践
- 导入导出
- 数据迁移
- 数据分析
- 存算分离
  - GaussDB(DWS) 3.0 存算分离使用建议及性能优化
- 数据开发
- 数据库管理
- 性能调优
  - 基于表结构设计和调优提升GaussDB(DWS)查询性能
  - 分析正在执行的SQL以处理GaussDB(DWS)业务阻塞
- 集群管理
  - 为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力
  - GaussDB(DWS)存算一体架构弹性伸缩系统性介绍
数据迁移与同步
- 迁移数据到GaussDB(DWS)
- 导入数据
- 整库迁移
  - 使用CDM迁移数据到GaussDB(DWS)
  - 使用DSC工具迁移SQL脚本
- 实时入库
  - Kafka实时入库到GaussDB(DWS)
- 元数据迁移
  - 使用gs_dump和gs_dumpall命令导出元数据
  - 使用gs_restore导入数据
- 导出数据
- 其他操作
开发指南
- 标准数仓开发指南(9.1.0.x)
- 标准数仓开发指南(8.1.3.x)
- 实时数仓开发指南(9.1.0.x)
- 实时数仓开发指南(8.1.3.x)
- 历史版本
SQL语法参考
- SQL语法参考(9.1.0.x)
- SQL语法参考(8.1.3.x)
- 历史版本
工具指南
- 工具简介
- 工具下载
- gsql
- Data Studio
- GDS
- DSC
- DataCheck
- DWS-Connector
- 服务端工具
API参考
- 使用前必读
- API概述
- 如何调用API
- 快速入门
- API说明
- 应用示例
  - 使用Postman调用创建集群接口
  - 使用Postman调用创建快照接口
- 权限及授权项说明
- 附录
SDK参考
- SDK概述
场景代码示例
错误码参考
- 控制台错误码
  - 管理控制台错误码
- 错误码(8.2.0及以下版本)
  - 管理控制台错误码
  - 数据仓库错误码
- 8.2.1及以上版本
  - 错误码命名规范
  - 行列存
    - 行存
    - 列存
    - GIN索引
    - Btree索引
    - 行存vacuum
    - SP-GiST索引
    - Hash索引
  - 事务
    - 锁
    - GTM
    - xlog
    - checkpoint
  - HA
  - SQL on Anywhere
    - SQL on hudi
    - OBS / HDFS / DLI
  - GDS/Copy
    - 公共机制（选项参数、任务分配、压缩）
    - 导入
  - 解析器
    - 词法分析
    - 语法分析
    - DDL
    - DML
    - 表达式
    - 元数据
  - 优化器
  - 执行器
  - 安全
    - 授权
    - 脱敏
  - 通信
  - WLM
  - 逻辑集群
  - 其他
常见问题
- Top问题汇总
- 产品咨询
- 数据库连接
- 数据迁移
- 数据库使用
- 集群管理
- 账户与权限
- 数据库性能
- 备份恢复
  1. 为什么DWS自动快照创建很慢，很长时间都没有创建好？
  2. DWS快照是否与EVS快照功能相同？
故障排除
- 数据库连接管理
- JDBC/ODBC类
- 数据导入/导出
- 数据库参数修改
- 账号/权限/密码
- 集群性能
- 集群异常
  - 磁盘监控告警阈值太低，告警频繁
- 数据库使用
视频帮助
性能白皮书
- 性能白皮书(9.1.0.x)
- 性能白皮书(8.1.3.x)
文档下载
通用参考
- 产品术语
- 云服务等级协议（SLA）
- 白皮书资源
- 支持区域
- 系统权限

本文导读

展开导读

文档首页/ 数据仓库服务 GaussDB(DWS)/ 用户指南/ 迁移业务数据至GaussDB(DWS)集群/ 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群/ 实例管理

实例管理

更新时间：2025-02-24 GMT+08:00

编辑

实例管理概述

数据迁移功能采用独立集群的方式为用户提供安全可靠的数据迁移服务，各集群之间相互隔离，不可互相访问。其中实例管理通过购买GDS-Kafka实例帮助用户创建、管理集群。GDS-Kafka的工作方式是从Kafka中消耗数据并缓存，当达到设置好的时间或数据量之后，通过COPY写入GaussDB(DWS)临时表，再从临时表进行插入或更新操作。

Kafka的消息生产端必须按照一定的格式要求进行数据生产，其中消息格式由“kafka.source.event.type”配置参数指定。当前支持的消息格式详见GDS-Kafka支持的消息格式。
GDS-Kafka支持直接insert（仅限无主键表）和merge覆盖更新两种入库模式，您可以根据DWS目标表的类型进行灵活配置，直接insert模式由于不涉及更新在性能上要更优一些。其中入库模式由“app.insert.directly”配置参数和有无主键共同决定，详见GDS-Kafka入库模式。

说明：

GDS-kafka只支持目标表表名和字段全小写。
GDS-Kafka的删除是根据扩展字段中的pos进行历史删除，如果入库数据中有delete操作，则必须使用扩展字段。

点击放大

购买GDS-Kafka实例

使用数据迁移功能，首先需要购买一个GDS-kafka实例（集群）。集群实例可以为用户提供安全可靠的数据迁移服务，各集群之间相互隔离。

约束与限制

目前仅支持单机集群。
目前仅支持按需计费模式。

操作步骤

登录GaussDB(DWS)控制台。
在左侧导航栏选择“数据 > 数据集成 > 实例管理”，进入实例管理页面。

单击页面右上角“购买GDS-Kafka实例”，进入购买页面配置集群参数。

表1 参数说明
参数名	参数解释	样例值
CPU架构	CPU架构有： X86 鲲鹏说明： X86和鲲鹏只是底层架构不一致，应用层不感知，sql语法一致，如果创建集群时提示X86资源不足，可以选择鲲鹏架构。	x86
规格	请根据业务需求合理选择节点规格。	-
存储	单个节点可用存储容量。	-
当前规格	显示集群当前规格。	-
名称	设置数据仓库集群的名称。集群名称长度为4到64个字符，必须以字母开头，可以包含字母、数字、中划线或者下划线，不能包含其他的特殊字符。字母不区分大小写。	-
版本	显示集群中安装的数据库实例版本。	-
虚拟私有云	指定集群节点使用的虚拟专用网络，实现不同业务的网络隔离。首次创建数据仓库集群时，如果未配置过虚拟私有云，可以单击“查看虚拟私有云”进入虚拟私有云管理控制台，新创建一个满足需求的虚拟私有云。	-
子网	指定虚拟私有云的一个子网。集群使用子网实现与其他网络的隔离，并独享所有网络资源，以提高网络安全。	-
安全组	指定虚拟私有云的安全组。安全组限制安全访问规则，加强集群与其它服务间的安全访问。	-
公网访问	指定用户是否可以在互联网上使用客户端连接集群数据库。支持如下方式： “暂不使用”：暂不使用弹性IP。如DWS使用于生产环境，则需绑定ELB，则不选择使用弹性IP，通过绑定ELB后，再从ELB页面进行弹性IP绑定。 “现在购买”：用户指定弹性IP的带宽，系统将自动为集群分配独享带宽的弹性IP，通过弹性IP可以从互联网对集群进行访问。自动分配的弹性IP的带宽名称都是以集群名称开头的。 “使用已有”：为集群绑定指定的弹性IP。如果下拉框中没有可用的弹性IP，可以单击“创建弹性IP”进入弹性公网IP页面创建一个满足需要的弹性IP。带宽可根据用户需要设置。	-
企业项目	配置集群所属的企业项目。已开通企业项目管理服务的用户才可以配置该参数。默认值为default。	default

确认无误后，单击“立即购买”进行创建。

查看实例详情

在实例详情页面用户可以查看集群的详细信息，用户可以在此查看集群的基本信息、网络信息等。

操作步骤

登录GaussDB(DWS)控制台。
在左侧导航栏选择“数据 > 数据集成 > 实例管理”，进入实例管理页面。
单击指定实例名称，进入实例详情页面。

图1 查看实例详情

GDS-Kafka支持的消息格式

表2 GDS-Kafka支持的消息格式

kafka.source.event.type

格式示例

格式说明

cdc.drs.avro

华为云DRS的内部格式，DRS生产至Kafka的avro格式，GDS-Kafka可直接对接进行解析入库。

无

drs.cdc

使用drs.cdc的avro格式需要在Kafka上游的业务程序中引入GDS-Kafka-common和GDS-Kafka-source的maven依赖，然后在代码中创建并填充Record对象，一个Record对象表示一条表记录，最后将Record对象序列化为byte[]数组生产至Kafka供下游的GDS-Kafka使用。

如下示例所示，目标表为public模式下的person表；person表由id，name，age 3个字段组成；op_type为U表示是一条更新操作；将id为0的记录的name字段由a改为b；将age字段由18改为20：

         
          
            
            Record record = new Record();
// 设置目标表schema和table名称
record.setTableName("public.person");
// 设置字段列表
List<Field> fields = new ArrayList<>();
fields.add(new Field("id", 0));
fields.add(new Field("name", 1));
fields.add(new Field("age", 2));
record.setFields(fields);
// 设置表记录更新前的字段值列表
List<Object> before = new ArrayList<>();
before.add(new Integer(0, "0"));
before.add(new Character("utf-8", ByteBuffer.wrap("a".getBytes(StandardCharsets.UTF_8))));
before.add(new Integer(0, "18"));
record.setBeforeImages(before);
// 设置表记录更新后的字段值列表
List<Object> after = new ArrayList<>();
after.add(new Integer(0, "0"));
after.add(new Character("utf-8", ByteBuffer.wrap("b".getBytes(StandardCharsets.UTF_8))));
after.add(new Integer(0, "20"));
record.setAfterImages(after);
// 设置操作类型
record.setOperation("U");
// 设置操作时间
record.setUpdateTimestamp(325943905);
// 将Record对象序列化为byte[]数组
byte[] msg = Record.getEncoder().encode(record).array();

           

         
        

标准avro格式：

tableName字段用于描述当前记录所属的目标表名和schema名称。【必需】
operation字段用于描述当前记录是何种类型的操作：I表示insert操作，U表示update操作，D表示delete操作。【必需】
updateTimestamp表示源端操作发生的时间。【非必需】
beforeImages列表只有在operation为U或D时需要，用于描述当前记录在更新或删除之前的信息，before body体中的字段对应目标表中的字段；【U/D必需】
afterImages列表只有在op_type为U或I时需要，用于描述当前记录更新后的信息或新插入的信息；【U/D必需】
fields列表用于描述当前表记录的字段列表，字段的index值必须与beforeImage和afterImage中的顺序一致；【必需】

cdc.json

如下示例所示，目标表为public模式下的person表；person表由id，name，age 3个字段组成；op_type为U表示是一条更新操作；将id为1的记录的name字段由a改为b；将age字段由18改为20：

         
          
            
            {
"table": "public.person",
"op_type": "U",
"op_ts": "1668426344",
"current_ts": "1668426344",
"before": {
"id":"1",
"name":"a",
"age": 18
},
"after": {
"id":"1",
"name":"b",
"age": 20
}
}

           

         
        

标准json格式：

table字段用于描述当前记录所属的目标表名和schema名称；【必需】
op_type字段用于描述当前记录是何种类型的操作：I表示insert操作，U表示update操作，D表示delete操作；【必需】
op_ts表示源端操作发生的时间；【非必需】
current_ts表示该消息入Kafka的时间；【非必需】
before对象只有在op_type为U或D时需要，用于描述当前记录在更新或删除之前的信息，before body体中的字段对应目标表中的字段；【U/D必需】
after对象只有在op_type为U或I时需要，用于描述当前记录更新后的信息或新插入的信息；【U/D必需】

industrial.iot.json

         
          
            
            {
"header": {
"thing_id":"a0001",
"instance_id":"1",
"thing_model_name":"computer",
"timestamp":"1668426344"
},
"body": {
"status":"Normal",
"temperature":"10",
"working_time":"10000"
},
}

           

         
        

IOT数据格式：

header中的thing_model_name表示表名【必需】
header中的thing_id, instance_id, timestamp和body中的内容一起构成当前记录的字段内容【必需】
IOT数据为时序数据，不会存在修改和删除场景，只有insert。

industrial.iot.recursion.json

         
          
            
            {
"header": {
"thing_id":"a0001",
"instance_id":"1",
"thing_model_name":"computer",
"timestamp":"1668426344"
},
"body": {
"status":"Normal",
"temperature":"10",
"property":{
  "key1":"1",
  "key2":2
},
"working_time":"10000"
},
}

           

         
        

IOT数据格式：

header中的thing_model_name表示表名【必需】
header中的thing_id, instance_id, timestamp和body中的内容一起构成当前记录的字段内容【必需】
IOT数据为时序数据，不会存在修改和删除场景，只有insert
该数据格式会对body属性拆分，将其key、value分别添加到新样式的property、value中，生成多条新数据，完成行转列。

industrial.iot.event.json.independent.table

         
            {
"event_id":"1",
"event_name":"test",
"start_time":"1970-1-1T00:00:00.000Z",
"end_time":"1970-1-1T00:00:00.000Z",
"fields":{
    "field1":"value1",
    "field2":2
    }
}

IOT事件流数据格式：

event_name表示表名【必需】
event_id, start_time, end_time和fields中的内容一起构成当前记录的字段内容【必需】
IOT事件流数据为时序数据，不会存在修改和删除场景，只有insert。

industrial.iot.json.multi.events

         
          
            
            {
"event_id":"1",
"event_name":"test",
"start_time":"1970-1-1T00:00:00.000Z",
"end_time":"1970-1-1T00:00:00.000Z",
"fields":{
    "field1":"value1",
    "field2":2,
    "field3":{
       "key1":"1",
       "key2":2
       }
    }
}

           

         
        

IOT事件流数据格式：

event_name表示表名【必需】
event_id, start_time, end_time和fields中的内容一起构成当前记录的字段内容【必需】
IOT事件流数据为时序数据，不会存在修改和删除场景，只有insert

该数据格式会对fields属性拆分，将其key、value分别添加到新样式的field_name、field_value中，生成多条新数据，完成行转列。

GDS-Kafka入库模式

GDS-Kafka的数据入库都是先将数据copy至临时表，然后再根据客户的使用场景以及目标表有无主键进行merge或者insert，详见下表：

表3 GDS-Kafka入库模式
入库操作	app.insert.directly	是否主键表	入库模式
insert	true（仅支持无主键表）	否	使用insert select从临时表写入到目标表。
	false	是	根据主键从临时表merge到目标表。
	false	否	使用insert select从临时表写入到目标表。
delete	true（仅支持无主键表）	否	使用insert select从临时表写入到目标表。
	false 说明： delete操作支持标记删除，通过配置app.del.flag参数可以指定删除标记字段，如果配置了标记删除字段，则会通过将删除字段设置为1来标记删除的记录。	是	如果设置了delflag字段，则会根据主键进行匹配merge，如果匹配到主键并且目标表中记录的pos小于临时表记录的pos，则会将delflag字段置为1，否则将插入一条新的记录。如果没有设置delflag字段，则会根据主键进行匹配，如果匹配到记录并且目标表中记录的pos小于临时表记录的pos，则会将目标表中匹配到的记录删除。
		否	如果设置了delflag字段，则会使用临时表中记录的所有字段与目标表进行匹配merge，如果匹配到记录并且目标表中记录的pos小于临时表记录的pos，则会将delflag字段值置为1，否则将插入一条新的记录。如果没有设置delflag字段，则会使用临时表中记录的所有字段与目标表进行匹配，如果匹配到记录并且目标表中记录的pos小于临时表记录的pos，则会将目标表中匹配到的记录删除。
update	true（仅支持无主键表）	否	使用insert+select从临时表写入到目标表。
	false 说明： update操作会被拆分，将before或者beforeImage中的消息拆分为delete操作，将after或者afterImage中的消息拆分为insert操作，然后再按照insert和delete的行为进行入库处理。	是	相当于有主键表的insert+delete操作。
		否	相当于无主键表的insert+delete操作。

父主题： 使用GDS-Kafka工具迁移数据至GaussDB(DWS)集群

上一篇：概述

下一篇：连接管理

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

实例管理

实例管理概述

购买GDS-Kafka实例

查看实例详情

GDS-Kafka支持的消息格式

GDS-Kafka入库模式

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线

文档反馈