将GaussDB分布式版同步到Kafka_出云_实时同步

支持的源和目标数据库

表1 支持的数据库
源数据库	目标数据库
GaussDB分布式（版本数据库内核版本为505.2及以下版本，内核版本与数据库引擎版本的关系请参考云数据库GaussDB的数据库引擎版本说明。）	Kafka 0.11及以上版本

支持的同步对象范围

在使用DRS进行同步时，不同类型的同步任务，支持的同步对象范围不同，详细情况可参考表2。DRS会根据用户选择，在“预检查”阶段对同步对象进行自动检查。

表2 支持的同步对象
类型名称	同步范围
同步范围须知	不支持实例级同步：不支持实例级别同步，每次至多同步一个库（database），同步多个库需要使用多个DRS任务。支持场景：支持增量同步。支持的字段：BIGINT，TINYINT UNSIGNED，SMALLINT UNSIGNED，INTEGER UNSIGNED，BIGINT UNSIGNED，BIT，BIT VARYING，BLOB，BOOLEAN，BYTEA，CHARACTER，CHARACTER VARYING，CLOB，DATE，DOUBLE PRECISION，INTEGER，MONEY，NUMBER，NUMERIC，NVARCHAR2，RAW，REAL，SMALLDATETIME，SMALLINT，TEXT，TIME WITH TIME ZONE，TIME WITHOUT TIME ZONE，TIMESTAMP WITH TIME ZONE，TIMESTAMP WITHOUT TIME ZONE，TINYINT。支持表级同步、schema级同步、库级同步：仅支持同步选中表的DML。不支持同步没有schema的database。不支持同步没有表的schema。不支持同步列存表、压缩表、延迟表、临时表、含生成列的表，多任务模式全量不支持使用TO GROUP或TO NODE方式创建的表，不建议同步非日志表。不支持同步系统schema（pg_toast、cstore、snapshot、sys、dbms_job、dbms_perf、pg_catalog、information_schema、utl_file、dbms_output、dbms_random、utl_raw、dbms_sql、dbms_lob、dbe_perf、pkg_service、pkg_util、dbe_file、dbe_random、dbe_output、dbe_raw、dbe_sql、dbe_lob、dbe_task、blockchain、db4ai、dbe_pldebugger、sqladvisor、dbe_application_info、dbe_match、dbe_pldeveloper、dbe_scheduler、dbe_session、dbe_utility、dbe_sql_util、dbe_xml、dbe_xmldom、dbe_xmlparser、dbe_compression、dbe_heat_map、dbe_ilm、dbe_ilm_admin、prvt_ilm、dbe_profiler、dbe_stats、rdsBackup、rdsMetric、rdsRepl）。不支持同步系统表（public schema下的redis_progress_detail、redis_status、pgxc_redsitb、redis_progress）。暂不支持同步序列值，如果同步的表中存在关联的序列，可以在任务结束后按照GaussDB分布式版为源任务序列值同步中内容，手动同步序列值。库名、schema名和表名不可以包含/<.>\\'`\|\?和!。列名不可以包含"'和.。

数据库用户权限要求

在使用DRS进行同步时，连接源库和目标库的数据库用户需要满足以下权限要求，才能启动实时同步任务。不同类型的同步任务，需要的用户权限也不同，详细可参考表3进行赋权。DRS会在“预检查”阶段对数据库用户权限进行自动检查，并给出处理建议。

建议创建单独用于DRS任务连接的数据库用户，避免因为数据库用户密码修改，导致的任务连接失败。
连接源或目标数据库的用户密码修改后，请尽快修改DRS任务中的连接信息，避免任务连接失败后自动重试，导致数据库用户被锁定影响使用。
由于分布式数据库为源链路需要检查每个DN的连通性，建议使用非root数据库用户进行同步，避免因为密码填写错误在连接DN过程中导致用户被锁定。

表3 数据库用户权限
类型名称	增量同步
源数据库连接用户	用户具备sysadmin角色或以下最小权限：需要REPLICATION权限或继承了内置角色gs_role_replication的权限、DATABASE的CONNECT权限、SCHEMA的USAGE权限、表的SELECT权限。需要具备远程连接权限，添加方法可参考GaussDB远程连接配置方法。需要保证安全组和防火墙策略放开对应连接端口，详细说明可参考GaussDB为源链路增量同步连接及端口说明。

使用建议

数据库同步与环境多样性和人为操作均有密切关系，为了确保同步的平顺，建议您在进行正式的数据库同步之前进行一次演练，可以帮助您提前发现问题并解决问题。
建议您在启动任务时选择“稍后启动”功能，将启动时间设置在业务低峰期，避免同步对业务造成性能影响。
更多DRS对数据库的影响，可参考DRS对源数据库和目标数据库有什么影响。

使用须知

DRS增量同步任务一般包含三个阶段：任务启动阶段、增量阶段、结束任务阶段。为了确保同步各个阶段的平顺，在创建同步任务前，请务必阅读以下使用须知。

表4 使用须知
类型名称	使用和操作约定
任务启动前须知	源数据库参数要求：选择增量同步时：源库的wal_level参数设置为logical。源库的enable_slot_log参数设置为on。源库的max_replication_slots参数值必须大于当前已使用的复制槽数量。将无主键表的REPLICA IDENTITY属性设置为FULL，或给无主键表追加主键。建议将主键表的REPLICA IDENTITY属性设置为FULL。源数据库对象要求：源库必须是GaussDB分布式版实例。源库要同步的库名、schema名和表名不可以包含/<.>\\'`\|\?和!。目标数据库要求：目标库为社区Kafka。 Kafka的auto.create.topics.enable参数建议为false。其他使用须知：在启动任务后，进入增量同步阶段前，请确保在源库中长事务未启动，启动长事务会阻塞逻辑复制槽的创建，进而引发任务失败。实时同步过程中，不支持对源库添加协调节点或数据节点，否则会导致任务失败或数据不一致。由于长事务导致的创建逻辑复制槽失败或逻辑复制槽不存在的问题，需要通过重置任务来重新启动。受GaussDB逻辑复制能力约束，同一实例上，最多支持同时开启20个逻辑复制槽进行解码。源数据库版本小于94563并且为B或者MySQL兼容模式时，如果开启了b_format参数（例如：set b_format_version='s1'、set b_format_dev_version='s1'或者set b_format_dev_version='s2'），则不支持timestamp with time zone类型的同步。源数据库版本查询可参考如下SQL： select working_version_num();
增量同步过程须知	请勿修改源库和目标库的端口号，请勿修改、删除源库和目标连接用户的密码、权限，否则可能导致任务失败。请勿修改源库中表的REPLICA IDENTITY值，否则可能导致增量数据不一致或任务失败。请勿在Kafka上删除接收DRS数据的topic，否则可能导致任务失败。选择表级对象迁移时，同步过程中不建议对表进行重命名操作。不支持interval partition表复制。不支持修改主键列名称。在事务中执行DDL语句后，该DDL语句与之后的语句不会被同步。逻辑日志解码受限于GaussDB内核的解码能力，存在一些使用约束，具体约束请参考对应版本GaussDB逻辑解码章节的注意事项说明。增量同步过程中暂停、任务异常续传，目标Kafka中可能会出现重复数据，请使用Kafka数据中的id字段进行去重。由于无主键表缺乏行的唯一性标志，网络不稳定时涉及少量重试，表数据存在少量不一致的可能性。
结束任务须知	任务正常结束结束时将自动删除任务在源库创建的流复制槽。任务强制结束强制结束同步任务，需要手动删除源库可能残留的复制槽，可参考GaussDB分布式版为源强制结束任务章节的指导进行操作。强制结束同步任务，目标数据库中可能存在以drs_为前缀命名的无主键临时表，需要用户手动删除。复制槽命名规则取决于数据库内核版本（可通过select working_version_num();命令查看），版本号低于92556默认使用串行解码，复制槽名命名规则为“replication_slot_唯一性标识”；版本号大于等于92556默认使用并行解码，复制槽名命名规则为“drs_唯一性标识”。其中唯一性标识需要将任务node id中的“-”替换为“_”获取，node id可在DRS任务同步日志页面查看“task node id is ***”日志找到。

前提条件

已登录数据复制服务控制台。
账户余额大于等于0美元。
满足实时同步支持的数据库类型和版本，详情请参见支持的数据库。
当用户创建DRS任务使用的是子账号时，请先确认已添加过委托。创建委托方法，可参考委托管理。

已阅读以上使用建议和使用须知。

操作步骤

在“实时同步管理”页面，单击“创建同步任务”。

在“同步实例”页面，填选区域、项目、任务名称、描述、同步实例信息，单击“开始创建”。

任务信息

图1 同步任务信息

表5 任务和描述
参数	描述
区域	当前所在区域，可进行切换。
项目	当前区域对应的项目，可进行切换。
任务名称	任务名称在4到50位之间，必须以字母开头，可以包含字母、数字、中划线或下划线，不能包含其他的特殊字符。
描述	描述不能超过256位，且不能包含! = < > & ' " \ 特殊字符。

同步实例信息

图2 同步实例信息

表6 同步实例信息
参数	描述
数据流动方向	选择“出云”。
源数据库引擎	选择“GaussDB分布式版”。
目标数据库引擎	选择“Kafka”。
网络类型	此处以“公网网络”为示例。目前支持可选“公网网络”和“VPN、专线网络”。公网网络：适合通过公网网络把其他云下或其他平台的数据库同步到目标数据库，该类型要求数据库绑定弹性公网IP（EIP）。 VPN、专线网络：适合VPN、专线、CC、VPCEP、或者用户已打通VPC对等连接的网络场景，实现其他云下自建数据库与云上数据库同步、或云上跨Region的数据库之间的同步。
DRS任务类型	选择DRS任务类型，可选“单AZ”和“双AZ”。双AZ：一主一备的经典高可用架构，提高了DRS任务的可靠性。双AZ任务创建后，DRS会同时创建一主一备两个子任务，当主AZ任务发生异常，DRS会自动启动备AZ任务继续进行同步，提高同步任务的可靠性。适用于业务数据量较大，需要长期同步，并对中断时间有严格要求的场景。单AZ：采用单个节点部署架构，每个任务只创建一个节点，性价比较高。适用于业务数据量较小，短期同步，并对中断时间无严格要求的场景。目前仅部分链路支持DRS任务类型的选择，详细说明可参考双AZ任务倒换。
源数据库实例	用户所创建的GaussDB分布式版实例。
同步实例所在子网	请选择同步实例所在的子网。也可以单击“查看子网”，跳转至“网络控制台”查看实例所在子网帮助选择。默认值为当前所选数据库实例所在子网，请选择有可用IP地址的子网。为确保同步实例创建成功，仅显示已经开启DHCP的子网。网络类型选择“VPN、专线网络”时，支持输入指定IP。需要注意，同时创建多个任务时，不能指定同一组未使用IP，否则会导致任务创建失败。
同步模式	增量增量同步通过解析日志等技术，将源端产生的增量数据同步至目标端。无需中断业务，实现同步过程中源业务和数据库继续对外提供访问。
源端DN数量	需要和分布式源库DN（Data Node）节点数量保持一致。
指定公网IP	网络类型选择“公网网络”时可见，选择为DRS实例绑定的弹性公网IP。任务创建时，DRS将会自动绑定该弹性公网IP，等待任务结束后将自动解绑该弹性公网IP。指定公网IP数量需要与实例数量匹配。公网网络迁移产生的数据传输费用收取标准请参见：弹性公网IP价格计算器。

任务类型

图3 任务类型

表7 任务类型信息
参数	描述
规格类型	选择DRS实例的规格类型，不同规格类型对应不同性能的性能上限，详细可参考实时同步链路规格说明。说明：目前，DRS同步仅支持任务类型为单AZ的同步任务升级实例规格，不支持降低规格，具体操作及约束限制可参考同步规格变更。
可用区	DRS任务创建的可用区，选择跟源或目标库相同的可用区性能更优。

企业项目和标签

图4 企业项目和标签
点击放大

表8 企业项目和标签
参数	描述
企业项目	企业项目是一种云资源管理方式，企业项目管理服务提供统一的云资源按项目管理，以及项目内的资源管理、成员管理。请在下拉框中选择所在的企业项目，其中，default为默认项目。更多关于企业项目的信息，请参见《企业管理用户指南》。如果需要自定义企业项目，请在控制台右上角单击“企业”，进入“企业项目管理”页面创建，具体请参见《企业管理用户指南》中“创建企业项目”的内容。
标签	可选配置，对同步任务的标识。使用标签可方便管理您的任务。每个任务最多支持20个标签配额。如果您的组织已经设定DRS的相关标签策略，则需按照标签策略规则为任务添加标签。标签如果不符合标签策略的规则，则可能会导致任务创建失败，请联系组织管理员了解标签策略详情。任务创建成功后，您可以单击任务名称，在“标签”页签下查看对应标签。关于标签的详细操作，请参见标签管理。

对于创建失败的任务，DRS默认保留3天，超过3天将会自动结束任务。

在“源库及目标库”页面，待同步实例创建成功后，填选源库信息和目标库信息，单击“源库和目标库”处的“测试连接”，分别测试并确定与源库和目标库连通后，单击“下一步”。

测试连接时需要确保DRS任务与源库、目标库的连通性。

网络连通性：确保源库和目标库允许DRS访问，通常至少需要放通DRS的IP。公网网络的DRS任务放通DRS的公网IP，VPC网络、VPN、专线网络的DRS任务放通DRS的内网IP，可参考网络准备章节进行网络打通。
账号连通性：确保源库和目标库允许DRS通过用户名和密码访问。

图5 源库信息

表9 源库信息
参数	描述
数据库实例名称	默认为创建同步任务时选择的GaussDB分布式版实例，不可进行修改。
数据库用户名	源数据库的用户名。
数据库密码	源数据库的用户名所对应的密码。

源数据库的数据库用户名和密码，会被系统加密暂存，直至删除该迁移任务后自动清除。

图6 目标库信息

**表10** 目标库信息
参数	描述
IP地址或域名	目标数据库的IP地址或域名，格式为IP地址/域名:端口。其中目标数据库服务端口，可输入范围为1~65535间的整数。该输入框最多支持填写10组目标数据库的IP地址或者域名信息，多个值需要使用英文逗号隔开。例如：192.168.0.1:8080,192.168.0.2:8080。
连接方式	支持四种认证方式的选择，PLAINTEXT、SSL、SASL_PLAINTEXT和SASL_SSL，详细说明可参考Kafka认证方式。

在“设置同步”页面，选择同步策略、数据格式和同步对象，单击“下一步”。

图7 设置同步

**表11** 同步对象
参数	描述
备机读	打开此开关，表示数据将从备机读取，关闭此开关，表示数据将从主机读取
级联链路	DRS可支持级联同步。打开开关，表示同步源库写入的所有数据（DRS链路写入源库的数据、用户业务写入源库的数据）。关闭开关，表示不同步DRS链路写入源库的数据。
DML同步	选择需要同步的DML操作，默认都勾选。不勾选Delete则不会同步源库增量数据中的Delete语句，可能会导致数据不一致，因此存在数据冲突或任务失败的风险。
指定源库复制槽名称	可选择是否指定源库复制槽，打开后需手动输入复制槽的名称（只能包含小写字母、数字、下划线，长度63，且不能以数字开头）。
同步Topic策略	同步Topic策略，可选择集中投递到一个Topic或者按照格式自动生成Topic名字。
Topic	选择目标端需要同步到的Topic，同步Topic策略选择集中投递到一个Topic时可见。
Topic名字格式	同步Topic策略选择自动生成Topic名字时可见。由于Kafka的机制限制，Topic名字只能包含ASCII字符、"."、"_"及"-"，若超过该范围会导致创建Topic失败，任务异常。若Topic名字格式中包含数据库对象名，请确保对象名的字符在Kafka topic命名机制内。
Partition个数	同步Topic策略选择自动生成Topic名字时可见。用来设置topic的分区个数。每个topic都可以创建多个partition，越多的partition可以提供更高的吞吐量，越多的partition会消耗更多的资源，建议根据broker节点的实际情况来设置partition的数量。
副本个数	同步Topic策略选择自动生成Topic名字时可见。用来设置topic的副本数。每个topic可以有多个副本，副本位于集群中不同的broker上，副本的数量不能超过broker的数量，否则创建topic时会失败。
同步到kafka partition策略	同步到kafka partition策略。按库名.schema.表名的hash值投递到不同Partition：适用于单表的查询场景，表内保序，表与表之间不保序，可以提高单表读写性能，推荐使用此选项。按主键的hash值投递到不同Partition：适用于一个表一个Topic的场景，避免该表都写到同一个分区，消费者可以并行从各分区获取数据。对于无主键表，如果选择“按主键的hash值投递都不同的partition”策略时，同步任务则会使用默认“按库名.schema.表名的hash值投递到不同的partition”的策略进行同步。按库名.schema的hash值投递到不同Partition：适用于一个database一个topic的场景，避免多个schema下的数据写到一个分区，消费者可以并行从各分区获取数据。全部投递到Partition 0：适用于有事务要求的场景，事务保序，可以保证完全按照事务顺序消费，写入性能比较差，如果没有强事务要求，不推荐使用此选项。选择“按非主键列的hash值投递到不同Partition”策略时：如果是选择Partition投递列的值为空，则会自动填充"empty value"默认值进行投递；如果没有选择Partition投递列，则会按照主键值的hash值进行投递，无主键表会按照表名的hash值投递。
投送到kafka的数据格式	选择投送到kafka的数据格式。 Avro：可以显示Avro二进制编码，高效获取数据。 JSON：为Json消息格式，方便解释格式，但需要占用更多的空间。详细格式可参考Kafka消息格式。
同步对象	左侧框是源数据库对象，右侧框是已经选择的对象，同步对象支持表级同步、schema级同步和库级同步，您可以根据业务场景选择对应的数据进行同步。选择对象支持对象名映射。选择导入对象文件，支持表名映射和Topic映射。具体步骤和说明可参考5.7.5.2-导入同步对象说明：选择对象的时候支持对展开的库进行搜索，以便您快速选择需要的数据库对象。如果有切换源数据库的操作或源库同步对象变化的情况，请在选择同步对象前单击右上角的，以确保待选择的对象为最新源数据库对象。当对象名称包含空格时，名称前后的空格不显示，中间如有多个空格只显示一个空格。选择的同步对象名称中不能包含空格。

在“数据加工”页面，选择需要加工的数据，进行列加工。
- 如果不需要数据加工，单击“下一步”。
- 如果需要进行列加工，参考数据加工中的说明，设置相关规则。
在“预检查”页面，进行同步任务预校验，校验是否可进行实时同步。
- 查看检查结果，如有不通过的检查项，需要修复不通过项后，单击“重新校验”按钮重新进行任务预校验。
  预检查不通过项处理建议请参见《数据复制服务用户指南》中的“预检查不通过项修复方法”。
- 预检查完成后，且所有检查项结果均通过时，单击“下一步”。
  
  所有检查项结果均通过时，若存在请确认项，需要阅读并确认详情后才可以继续执行下一步操作。

在“任务确认”页面，设置同步任务的启动时间、任务异常通知设置、SMN主题、时延阈值、任务异常自动结束时间，并确认同步任务信息无误后，勾选协议，单击“启动任务”，提交同步任务。

图8 任务启动设置

**表12** 任务启动设置
参数	描述
启动时间	同步任务的启动时间可以根据业务需求，设置为“立即启动”或“稍后启动”。说明：预计同步任务启动后，会对源数据库和目标数据库的性能产生影响，建议选择业务低峰期，合理设置同步任务的启动时间。
任务异常通知设置	该项为可选参数，开启之后，选择对应的SMN主题。当同步任务状态、时延指标或数据异常时，系统将发送通知。
SMN主题	“任务异常通知设置”项开启后可见，需提前在SMN上申请主题并添加订阅。 SMN主题申请和订阅可参考《消息通知服务用户指南》。
时延阈值	在增量同步阶段，源数据库和目标数据库之间的同步有时会存在一个时间差，称为时延，单位为秒。时延阈值设置是指时延超过一定的值后（时延阈值范围为0到3600s），DRS可以发送告警通知。告警通知将在时延稳定超过设定的阈值6min后发送，避免出现由于时延波动反复发送告警通知的情况。说明：当时延阈值设置为0时，不会发送通知给收件人。首次进入增量同步阶段，会有较多数据等待同步，存在较大的时延，属于正常情况，不在此功能的监控范围之内。设置时延阈值之前，需要设置任务异常通知。
任务异常自动结束时间（天）	设置任务异常自动结束天数，输入值必须在14到100之间，默认值14。说明：仅按需计费任务支持设置任务异常自动结束时间，包年/包月任务不支持。异常状态下的任务仍然会计费，而长时间异常的任务无法续传和恢复。设置任务异常自动结束天数后，异常且超时的任务将会自动结束，以免产生不必要的费用。

在“高级设置”页面，可选择是否指定源库逻辑复制槽的推进间隔，设置完成后，单击“下一步”。
- 选择指定时，假设指定为n小时，将每隔n小时使用n小时前获取到的源库WAL日志的位点推进复制槽（即保证源库至少保留当前n小时内的WAL日志）。请注意，选择指定时，当DRS主备任务在增量时延大于所指定的推槽间隔时发生主备切换，可能会由于所需的源库WAL日志已经删除而丢失数据，任务失败。
- 选择不指定时，将使用最新回放成功的WAL日志位点推进复制槽。请注意，选择不指定时，当DRS增量时延过大时可能导致源库WAL日志堆积。
- 该设置项可通过任务再编辑修改。
图9 源库逻辑复制槽设置
同步任务提交后，您可在“实时同步管理”页面，查看并管理自己的任务。
- 您可查看任务提交后的状态，状态请参见任务状态说明。
- 在任务列表的右上角，单击刷新列表，可查看到最新的任务状态。
- 对于未启动、状态为配置中的任务，DRS默认保留3天，超过3天DRS会自动删除后台资源，当前任务状态不变。当用户再次配置时，DRS会重新申请资源，此时DRS任务IP会发生改变。
- 对于公网网络类型的任务，由于DRS需要在任务结束后删除后台资源，所以该任务绑定的弹性公网IP需要等待一段时间，才能恢复为解绑状态。

将GaussDB分布式版同步到Kafka