将MySQL同步到Kafka

支持的源和目标数据库

表1 支持的数据库
源数据库	目标数据库
本地自建MySQL数据库 ECS自建MySQL数据库 FlexusRDS for MySQL（5.7、8.0版本）	Kafka（0.11.x-3.x版本）

使用建议

DRS任务启动和全量数据同步阶段，请不要在源数据库执行DDL操作，否则可能导致任务异常。
为保证同步前后数据一致性，确保同步期间目标数据库无业务写入。

数据库同步与环境多样性和人为操作均有密切关系，为了确保同步的平顺，建议您在进行正式的数据库同步之前进行一次演练，可以帮助您提前发现问题并解决问题。
建议您在启动任务时选择“稍后启动”功能，将启动时间设置在业务低峰期，避免同步对业务造成性能影响。如果同步不可避免业务高峰期，推荐使用同步限速功能，即“流速模式”选择“限速”。
- 在网络无瓶颈的情况下，全量同步会对源数据库增加约50MB/s的查询压力，以及占用2~4个CPU。
- 同步无主键表时，会存在3s以内的单表级锁定。
- DRS并发读取数据库，会占用大约6-10个session连接数，需要考虑该连接数对业务的影响。
- 全量阶段读取表数据时，特别是大表的读取，可能会阻塞业务上对大表的独占锁操作。
更多DRS对数据库的影响，可参考DRS对源数据库和目标数据库有什么影响。

使用须知

在创建同步任务前，请务必阅读以下使用须知。

建议创建单独用于DRS任务连接的数据库账号，避免因为数据库账号密码修改，导致的任务连接失败。
连接源和目标数据库的账号密码修改后，请参考修改连接信息章节修改DRS任务的连接信息，避免任务连接失败后自动重试，导致数据库账号被锁定影响使用。

表2 使用须知
类型名称	使用和操作限制
数据库权限设置	源数据库账号需要具备如下权限：SELECT、LOCK TABLES、SHOW VIEW、EVENT、REPLICATION SLAVE、REPLICATION CLIENT。全量+增量任务，当源数据库为8.0.2及以上版本时，还需要授予XA_RECOVER_ADMIN权限，以防启动或编辑时未提交的XA事务导致数据有损。
同步对象约束	全量支持表、主键索引、唯一索引、普通索引、存储过程、视图、函数的同步，不支持事件、触发器的同步，增量仅支持表数据和DDL同步。仅支持MyISAM和InnoDB表的同步。不支持分区被禁用的分区表进行同步。比如在某个表上执行了DISCARD PARTITION ALL TABLESPACE禁用分区，那么该表就无法进行同步。全量和增量同步不支持隐藏列（INVISIBLE），隐藏列是MySQL 8.0.23开始支持的特性，例如： CREATE TABLE `test11` ( `id` int NOT NULL, `c1` int DEFAULT NULL /!80023 INVISIBLE /, PRIMARY KEY (`id`));
源数据库要求	数据同步过程中，不允许源数据库MySQL跨大版本升级，否则可能导致数据不一致或者同步任务失败（跨版本升级后数据、表结构、关键字等信息均可能会产生兼容性改变），建议在该场景下重建同步任务。增量同步时，MySQL源数据库的binlog日志必须打开，且binlog日志格式必须为Row格式。在磁盘空间允许的情况下，建议源数据库binlog保存时间越长越好，建议为3天。设置为0，可能会导致同步失败。源数据库为自建MySQL时，通过设置expire_logs_days参数设置binlog保留时间。建议将expire_logs_day参数设置在合理的范围，确保恢复时断点处的binlog尚未过期，以保证任务中断后的顺利恢复。源数据库为RDS for MySQL时，设置binlog保留时间可参考《RDS用户指南》。源数据库GTID状态必须为开启状态，源数据库实例没有开启GTID的情况下不支持主备倒换，DRS任务会因为位点不续接而中断导致无法恢复。增量同步时，必须设置MySQL源数据库的server_id。如果源数据库版本小于或等于MySQL5.6，server_id的取值范围在2－4294967296之间；如果源数据库版本等于MySQL5.7，server_id的取值范围在1－4294967296之间。增量同步时，如果设置session变量character_set_client为binary，可能导致乱码。源数据库中的库、表名不能包含：.'<`>/\"以及非ASCII字符。源数据库表名不支持对象名中带有不闭环的左大括号{，对象名包含表名、索引名、分区名、列名等。同步对象中如果存在包含longtext、longblob类型字段的表，建议创建大规格及以上规格的DRS任务进行同步，否则可能会导致capture OOM。
目标数据库要求	目标库为社区Kafka（0.11.x-3.x版本）。 Kafka的auto.create.topics.enable参数建议为false。
操作须知	若专属计算集群不支持4vCPU/8G或以上规格实例，则无法创建同步任务。相互关联的数据对象要确保同时同步，避免因关联对象缺失，导致同步失败。常见的关联关系：视图引用表、视图引用视图、存储过程/函数/触发器引用视图/表、主外键关联表等。全量同步过程中暂停、任务异常续传，目标Kafka中可能会出现重复数据，请使用Kafka数据中的identifier字段进行去重（同一个shardId）。增量同步过程中，请勿在Kafka上删除接收DRS数据的topic，否则可能导致任务失败。不支持外键级联操作。当外键是普通索引的时候，可能会导致表结构创建失败，建议改成唯一索引。不支持强制清理binlog，否则会导致同步任务失败。源数据库不支持reset master或reset master to命令，可能会导致DRS任务失败或者数据不一致。如果源库MySQL不支持TLS1.2协议，或者为版本较低的自建库（低于5.6.46或在5.7.0-5.7.28之间），需提交运维申请才能使用SSL测试连接。在创建DRS任务之前，如果源数据库实例开启并设置了SQL限流规则，可能会导致DRS任务失败。同步过程中，不允许删除和修改源库的用户名、密码、权限，或修改目标数据库的端口号。当在同步过程中，对MyISAM表执行修改操作时，可能造成数据不一致。选择表级对象同步时，同步过程中不建议对表进行重命名操作。任务做库名映射时，同步的对象中如果存在存储过程、视图、函数对象，全量阶段这些对象不会同步。 MySQL5.6及之前版本字符类型中允许存入乱码数据，乱码数据无法被正常查询，无法保证乱码数据同步后的数据一致性。

操作步骤

在“实时同步管理”页面，单击“创建同步任务”。

在“同步实例”页面，填选区域、项目、任务名称、描述、同步实例信息，单击“开始创建”。此处支持单击“使用上次创建信息”，使用上次创建任务实例缓存的信息。

任务信息

图1 同步任务信息

表3 任务和描述
参数	描述
计费模式	有如下两种模式可选择：包年/包月按需计费
区域	当前所在区域，可进行切换。
项目	当前区域对应的项目，可进行切换。
任务名称	任务名称在4到50位之间，必须以字母开头，可以包含字母、数字、中划线或下划线，不能包含其他的特殊字符。
描述	描述不能超过256位，且不能包含! = < > & ' " \ 特殊字符。

同步实例信息

图2 同步实例信息

表4 同步实例信息
参数	描述
数据流动方向	选择“自建-自建”。
源数据库引擎	选择“MySQL”。
目标数据库引擎	选择“Kafka”。
网络类型	此处以“公网网络”为示例。目前支持可选公网网络、VPC网络和VPN、专线网络。公网网络：适合通过公网网络将其他云下或其他平台的数据库同步到目标数据库的场景，此类型要求数据库绑定弹性公网IP（EIP）。当一端为本云的数据库实例时，DRS任务与该端的通信方式为VPC内网。 VPN、专线网络：适合VPN、专线、CC、VPCEP、或者用户已打通VPC对等连接的网络场景，实现其他云下自建数据库与云上数据库同步、云上同Region跨账号、或云上跨Region的数据库之间的同步。
DRS任务类型	选择DRS任务类型，可选“单AZ”和“双AZ”。双AZ：一主一备的经典高可用架构，提高了DRS任务的可靠性。双AZ任务创建后，DRS会同时创建一主一备两个子任务，当主AZ任务发生异常，DRS会自动启动备AZ任务继续进行同步，提高同步任务的可靠性。适用于业务数据量较大，需要长期同步，并对中断时间有严格要求的场景。单AZ：采用单个节点部署架构，每个任务只创建一个节点，性价比较高。适用于业务数据量较小，短期同步，并对中断时间无严格要求的场景。目前仅部分链路支持DRS任务类型的选择，详细说明可参考双AZ任务倒换。
VPC	选择可用的虚拟私有云。
同步实例所在子网	请选择同步实例所在的子网。也可以单击“查看子网”，跳转至“网络控制台”查看实例所在子网帮助选择。默认值为当前所选数据库实例所在子网，请选择有可用IP地址的子网。为确保同步实例创建成功，仅显示已经开启DHCP的子网。
内网安全组	请选择内网安全组。内网安全组限制实例的安全访问规则，加强安全访问。
同步模式	DRS任务支持的同步模式，此处以“全量+增量”为示例。DRS全量、增量底层实现原理可参考产品架构和功能原理。 “全量+增量”：该模式为数据持续性实时同步，通过全量过程完成目标端数据库的初始化后，增量同步阶段通过解析日志等技术，将源端和目标端数据保持数据持续一致。 “增量”：增量同步通过解析日志等技术，将源端产生的增量数据同步至目标端。
指定公网IP	网络类型选择“公网网络”时可见，选择为DRS实例绑定的弹性公网IP。任务创建时，DRS将会自动绑定该弹性公网IP，等待任务结束后将自动解绑该弹性公网IP。指定公网IP数量需要与实例数量匹配。 DRS任务类型选择“双AZ”时，需要分别指定主IP和备IP。公网网络迁移产生的数据传输费用收取标准请参见：弹性公网IP价格计算器。

任务类型

图3 任务类型

表5 任务类型信息
参数	描述
规格类型	选择DRS实例的规格类型，不同规格类型对应不同性能的性能上限，详细可参考实时同步链路规格说明。说明：目前，DRS同步仅支持任务类型为单AZ的同步任务升级实例规格，不支持降低规格，具体操作及约束限制可参考同步规格变更。
可用区	DRS任务创建的可用区，选择跟源或目标库相同的可用区性能更优。 DRS任务类型选择“双AZ”时，可用区分为“主可用区”和“备可用区”。图4 可用区

企业项目和标签

图5 企业项目和标签
点击放大

表6 企业项目和标签
参数	描述
企业项目	企业项目是一种云资源管理方式，企业项目管理服务提供统一的云资源按项目管理，以及项目内的资源管理、成员管理。请在下拉框中选择所在的企业项目，其中，default为默认项目。更多关于企业项目的信息，请参见《企业管理用户指南》。如果需要自定义企业项目，请在控制台右上角单击“企业”，进入“企业项目管理”页面创建，具体请参见《企业管理用户指南》中“创建企业项目”的内容。
标签	可选配置，对同步任务的标识。使用标签可方便管理您的任务。每个任务最多支持20个标签配额。如果您的组织已经设定DRS的相关标签策略，则需按照标签策略规则为任务添加标签。标签如果不符合标签策略的规则，则可能会导致任务创建失败，请联系组织管理员了解标签策略详情。任务创建成功后，您可以单击任务名称，在“标签”页签下查看对应标签。关于标签的详细操作，请参见标签管理。

在“源库及目标库”页面，同步实例创建成功后，填选源库信息和目标库信息，单击“源库和目标库”处的“测试连接”，分别测试并确定与源库和目标库连通后，勾选协议，单击“下一步”。

图6 源库信息

表7 源库信息
参数	描述
IP地址或域名	源数据库的IP地址或域名。
端口	源数据库服务端口，可输入范围为1~65535间的整数。
数据库用户名	源数据库的用户名。
数据库密码	源数据库的用户名所对应的密码。
SSL安全连接	通过该功能，用户可以选择是否开启对迁移链路的加密。如果开启该功能，需要用户上传SSL CA根证书。说明：最大支持上传500KB的证书文件。如果不启用SSL安全连接，请自行承担数据安全风险。

源数据库的数据库用户名和密码，会被系统加密暂存，直至删除该同步任务后自动清除。

图7 目标库信息

表8 目标库信息
参数	描述
IP地址或域名	目标数据库的IP地址或域名。
安全协议	支持四种认证方式的选择，PLAINTEXT、SSL、SASL_PLAINTEXT和SASL_SSL，详细说明可参考Kafka认证方式。

在“设置同步”页面，选择同步策略、数据格式和同步对象，单击“下一步”。

步骤2中同步模式选择不同时，“设置同步”页面参数也不同，图8选择“全量+增量”为示例。

图8 设置同步

表9 同步对象
参数	描述
流速模式	流速模式支持限速和不限速，默认为不限速。限速模式只对全量阶段生效，增量阶段不生效。限速自定义的最大同步速度，具体速度受网络等多种因素的影响，同步过程中每个任务（多任务时为每个子任务）的同步速度将不会超过该速度。当流速模式选择了“限速”时，您需要通过流速设置来定时控制同步速度。流速设置通常包括限速时间段和流速大小的设置。默认的限速时间段为“全天限流”，您也可以根据业务需求选择“时段限流”。自定义的时段限流支持最多设置10个定时任务，每个定时任务之间不能存在交叉的时间段，未设定在限速时间段的时间默认为不限速。流速的大小需要根据业务场景来设置，不能超过9999MB/s。图9 设置流速模式不限速对同步速度不进行限制，通常会最大化使用源数据库的出口带宽。该流速模式同时会对源数据库造成读消耗，消耗取决于源数据库的出口带宽。比如源数据库的出口带宽为100MB/s，假设高速模式使用了80%带宽，则同步对源数据库将造成80MB/s的读操作IO消耗。说明：限速模式只对全量阶段生效，增量阶段不生效。您也可以在创建任务后修改流速模式。具体方法请参见修改流速模式。
大字段过滤	选择是否使用大字段过滤功能，对同步对象表中的特殊字段（blob、mediumblob、longblob、varbinary、mediumtext、longtext）做处理。过滤：需要设置字段过滤阈值和替换字符，当字段的内容大小超过设定的阈值时，将按照指定的字符进行内容替换。需要注意的是，大字段过滤功能是将字段的内容进行替换，并不是替换整个DML记录。如果一条DML记录中有很多大字段，这些字段只有部分字段的内容大小超过设置的过滤阈值，其他未超过过滤阈值的字段内容的累加值大于request.max.size的值，写入到Kafka的过程中仍然可能会超过目标Kafka的消息体上限，从而导致DRS报错。图10 设置过滤字段不过滤：不对大字段进行过滤。
全量同步对象类型	全量同步对象类型，可选同步表结构、同步数据，根据实际需求进行选择要同步内容。
DML同步	选择需要同步的DML操作，默认都勾选。不勾选Delete则不会同步源库增量数据中的Delete语句，可能会导致数据不一致，因此存在数据冲突或任务失败的风险。
启动位点	步骤2的同步模式选择“增量”时可见，增量同步的启动位点，任务的源库日志从位点后开始获取（不含当前启动位点）。通过show master status命令获取源库位点，根据提示分别填写File、Position、Executed_Gtid_Set。具体请参考 DRS增量同步怎样填启动位点
同步Topic策略	同步Topic策略，可选择“集中投递到一个Topic”或者“自动生成Topic名字”。
Topic	选择目标端需要同步到的Topic，同步Topic策略选择“集中投递到一个Topic”时可见。
Topic名字格式	Topic名字格式，同步Topic策略选择“自动生成Topic名字”时可见。由于Kafka的机制限制，Topic名字只能包含ASCII字符、"."、"_"及"-"，若超过该范围会导致创建Topic失败，任务异常。若Topic名字格式中包含数据库对象名，请确保对象名的字符在Kafka topic命名机制内。 Topic名字格式支持database和tablename两个变量，其他字符都当做常量。分别用$database$代替数据库名，$tablename$代替表名。例如：配置成$database$-$tablename$时，如果数据库名称为db1，表名为tab1，则Topic名字为db1-tab1。如果是DDL语句，$tablename$为空，则Topic名字为db1。
Partition个数	同步Topic策略选择自动生成Topic名字时可见。用来设置topic的分区个数。每个topic都可以创建多个partition，越多的partition可以提供更高的吞吐量，越多的partition会消耗更多的资源，建议根据broker节点的实际情况来设置partition的数量。
副本个数	同步Topic策略选择自动生成Topic名字时可见。用来设置topic的副本数。每个topic可以有多个副本，副本位于集群中不同的broker上，副本的数量不能超过broker的数量，否则创建topic时会失败。
同步到kafka partition策略	同步到kafka partition策略。按库名+表名的hash值投递到不同Partition：适用于单表的查询场景，表内保序，表与表之间不保序，可以提高单表读写性能，推荐使用此选项。全部投递到Partition 0：适用于有事务要求的场景，事务保序，可以保证完全按照事务顺序消费，写入性能比较差，如果没有强事务要求，不推荐使用此选项。按主键的hash值投递到不同的Partition：适用于单表数据量较大场景，避免该表都写到同一个分区，消费者可以并行从各分区获取数据，只在主键值不可变情况下能够做到数据最终保序。对于无主键表，如果选择“按主键的hash值投递到不同的partition”策略时，同步任务则会使用默认“按库名+表名的hash值投递到不同Partition”的策略进行同步。
投送到kafka的数据格式	选择MySQL投送到kafka的数据格式。 Avro：可以显示Avro二进制编码，高效获取数据。步骤2的同步模式选择“增量”时可见，Avro格式目前为受限使用阶段，需要提交工单申请才能使用。 JSON：为Json消息格式，方便解释格式，但需要占用更多的空间。 JSON-C：一种能够兼容多个批量，流式计算框架的数据格式。详细格式可参考Kafka消息格式。
Kafka压缩格式	此处展示选择的Kafka压缩格式，任务启动后生效。 None：不压缩。 LZ4：压缩率较低，压缩速率较高。 GZIP：压缩率较高，压缩速率较低，对同步任务及kafka server的CPU资源消耗较高。 Snappy：压缩率中等，压缩速率中等。
同步对象	左侧框是源数据库对象，右侧框是已经选择的对象，同步对象支持表级同步、库级同步、导入对象文件，您可以根据业务场景选择对应的数据进行同步。在同步对象右侧已选对象框中，可以使用对象名映射功能进行源数据库和目标数据库中的同步对象映射，具体操作可参考对象名修改（对象名映射）。选择导入对象文件，具体步骤和说明可参考导入同步对象。选择导入对象文件时，支持选择Topic映射或对象名映射，只可选择一种。选择导入对象文件进行Topic映射时，支持不同表同步到目标端不同的Topic。当不填写时，不填写的对象使用外部Topic策略，再编辑时支持修改映射关系。说明：如果有切换源数据库的操作或源库同步对象变化的情况，请在选择同步对象前单击右上角的，以确保待选择的对象为最新源数据库对象。选择对象的时候支持对展开的库进行搜索，以便您快速选择需要的数据库对象。当对象名称包含空格时，名称前后的空格不显示，中间如有多个空格只显示一个空格。选择的同步对象名称中不能包含空格。

在“数据加工”页面，选择需要加工的列，进行列加工。
- 如果不需要数据加工，单击“下一步”。
- 如果需要加工列，参考数据加工章节，设置相关规则。
图11 数据加工
在“预检查”页面，进行同步任务预校验，校验是否可进行实时同步。
- 查看检查结果，如有不通过的检查项，需要修复不通过项后，单击“重新校验”按钮重新进行任务预校验。
  预检查不通过项处理建议请参见《数据复制服务用户指南》中的“预检查不通过项修复方法”。
- 预检查完成后，且所有检查项结果均通过时，单击“下一步”。
  
  所有检查项结果均通过时，若存在请确认项，需要阅读并确认详情后才可以继续执行下一步操作。

在“任务确认”页面，设置同步任务的启动时间、任务异常通知设置、SMN主题、时延阈值、任务异常自动结束时间，并确认同步任务信息无误后，勾选协议，单击“启动任务”，提交同步任务。

图12 任务启动设置
点击放大

**表10** 任务启动设置
参数	描述
启动时间	同步任务的启动时间可以根据业务需求，设置为“立即启动”或“稍后启动”。说明：预计同步任务启动后，会对源数据库和目标数据库的性能产生影响，建议选择业务低峰期，合理设置同步任务的启动时间。
任务异常通知设置	该项为可选参数，开启之后，选择对应的SMN主题。当同步任务状态、时延指标或数据异常时，系统将发送通知。
SMN主题	“任务异常通知设置”项开启后可见，需提前在SMN上申请主题并添加订阅。 SMN主题申请和订阅可参考《消息通知服务用户指南》。
时延阈值	在增量同步阶段，源数据库和目标数据库之间的同步有时会存在一个时间差，称为时延，单位为秒。时延阈值设置是指时延超过一定的值后（时延阈值范围为0到3600s），DRS可以发送告警通知。告警通知将在时延稳定超过设定的阈值6min后发送，避免出现由于时延波动反复发送告警通知的情况。说明：当时延阈值设置为0时，不会发送通知给收件人。首次进入增量同步阶段，会有较多数据等待同步，存在较大的时延，属于正常情况，不在此功能的监控范围之内。设置时延阈值之前，需要设置任务异常通知。
任务异常自动结束时间（天）	设置任务异常自动结束天数，输入值必须在14到100之间，默认值14。说明：仅按需计费任务支持设置任务异常自动结束时间，包年/包月任务不支持。异常状态下的任务仍然会计费，而长时间异常的任务无法续传和恢复。设置任务异常自动结束天数后，异常且超时的任务将会自动结束，以免产生不必要的费用。

同步任务提交后，您可在“实时同步管理”页面，查看并管理自己的任务。
- 您可查看任务提交后的状态，状态请参见任务状态说明。
- 在任务列表的右上角，单击刷新列表，可查看到最新的任务状态。
- 对于未启动、状态为配置中的任务，DRS默认保留3天，超过3天DRS会自动删除后台资源，当前任务状态不变。当用户再次配置时，DRS会重新申请资源，此时DRS任务IP会发生改变。
- 对于创建失败的任务，DRS默认保留3天，超过3天将会自动结束任务。
- 对于公网网络类型的任务，由于DRS需要在任务结束后删除后台资源，所以该任务绑定的弹性公网IP需要等待一段时间，才能恢复为解绑状态。