本地PostgreSQL同步到RDS for PostgreSQL
数据复制服务(Data Replication Service,简称DRS)支持将本地PostgreSQL数据库的数据同步至云数据库RDS for PostgreSQL实例。通过DRS提供的实时同步任务,实现在数据库同步过程中业务和数据库不停机,业务中断时间最小化。
本章节主要介绍了通过DRS将本地PostgreSQL数据库同步至云数据库RDS for PostgreSQL的任务配置流程。支持以下网络类型:
- VPN(Virtual Private Network,虚拟专用网络)网络
- 公网网络
网络示意图
同步流程
同步建议(重要)
- 数据库同步与环境多样性和人为操作均有密切关系,为了确保同步的平顺,建议您在进行正式的数据库同步之前进行一次演练,可以帮助您提前发现问题并解决问题,如何最小化对数据库的影响请参考如下建议。
- 强烈建议您在启动任务时选择“稍后启动”功能,将启动时间设置在业务低峰期,相对静止的数据可以有效提升一次性同步成功率,避免同步对业务造成性能影响。
同步准备
- 权限准备:
当使用 DRS 将本地PostgreSQL数据库的数据同步到本云云数据库PostgreSQL实例时,在不同同步类型情况下,对源数据库和目标数据库的账号权限要求如表1所示:
表1 同步账号权限 同步类型
全量同步
全量+增量同步
源数据库
数据库的CONNECT权限,模式的USAGE权限,表的SELECT权限,序列的SELECT权限,系统表pg_catalog.pg_authid的select权限(用于同步用户的密码)。
数据库的CONNECT权限,模式的USAGE权限,表的SELECT权限,序列的SELECT权限,系统表pg_catalog.pg_authid的SELECT权限(用于同步用户的密码),无主键表的UPDATE、DELETE和TRUNCATE权限,REPLICATION连接权限。
说明:- 无主键表的UPDATE、DELETE和TRUNCATE权限,仅用于对无主键表短暂加锁,以确保迁移后,目标库中无主键表数据与源库保持一致。
- REPLICATION连接权限的添加方法:
- 在源数据库的“pg_hba.conf”配置文件的所有配置前增加一行配置“host replication <src_user_name> <drs_instance_ip>/32 md5”;
- 在源库使用SUPERUSER用户执行语句“select pg_reload_conf();”生效,或重启数据库实例生效。
目标数据库
- 库级同步:需要具有CREATEDB权限。
- 表级同步:
- 如果需要同步库,需要具有CREATEDB权限。
- 如果需要同步模式,需要具有模式所在库的CONNECT权限、模式所在库上的CREATE权限。
- 如果需要同步模式下的对象,需要具有模式所在库的CONNECT权限、对象所在模式的USAGE权限、对象所在模式上的CREATE权限。
- 同步用户:需要具有CREATEROLE权限。
- 同步用户权限:同步用户的default privilege需要为系统默认值,否则可能导致目标库与源库的对象权限不一致。
说明:同步事件触发器、文本搜索解析器、文本搜索模板时,不仅要求目标库版本为RDS for PostgreSQL 11.11及以上,还要求目标库连接用户为root用户或root用户的成员。
- 源数据库的权限设置:
需要确保源数据库PostgreSQL的账号具备表1的权限,若权限不足,需要在源数据库端开通高权限的账号。
- 目标数据库的权限设置:
云数据库RDS for PostgreSQL使用初始账号即可。
- 网络准备:
- 源数据库的网络设置:
本地PostgreSQL数据库实时同步至本云云数据库PostgreSQL的场景,一般可以使用VPN、专线网络和公网网络两种方式进行同步,您可以根据实际情况为本地PostgreSQL数据库开放公网访问或建立VPN访问。一般推荐使用公网网络进行同步,该方式下的数据同步过程较为方便和经济。
- 目标数据库的网络设置:
- 若通过VPN访问,请先开通华为VPN服务,确保源数据库PostgreSQL和目标端本云云数据库PostgreSQL的网络互通。
- 若通过公网网络访问,目标端不需要进行任何设置。
- 源数据库的网络设置:
- 安全规则准备:
- 源数据库的安全规则设置:
- 若通过公网网络进行同步,源数据库PostgreSQL需要将DRS同步实例的弹性公网IP添加到其网络白名单内,使源数据库与本云的网络互通。在设置网络白名单之前,需要获取DRS同行实例的弹性公网IP,具体方法如下:
- 若通过VPN网络进行同步,源库需要将DRS的私有IP添加到其网络白名单内,使源端与目标端的网络互通。
以上白名单是为了进行同步针对性设置的,同步结束后可以删除。
- 目标数据库安全规则设置:
目标数据库默认与DRS同步实例处在同一个VPC,网络是互通的,DRS可以直接写入数据到目标数据库,不需要进行任何设置。
- 源数据库的安全规则设置:
- 其他事项准备:
DRS仅支持同步PostgreSQL部分类型的DDL语句,具体支持范围请参考相关指导。请合理规划源数据库业务,不要在同步期间产生支持范围外的DDL操作。
同步步骤
- 创建同步任务。
- 登录管理控制台,在服务列表中选择 ,进入数据复制服务信息页面。
- 在“实时同步管理”页面,单击右上角“创建同步任务”,进入同步任务信息页面。
- 在“同步实例”页面,填选任务名称、描述和同步实例信息。
图5 同步实例信息
表2 任务和描述 参数
描述
区域
当前所在区域,可进行切换。为了降低访问时延、提高访问速度,请就近选择靠近您业务的区域。
项目
当前区域对应的项目,可进行切换。
任务名称
任务名称在4-50位之间,必须以字母开头,不区分大小写,可以包含字母、数字、中划线或下划线,不能包含其他的特殊字符。
描述
描述不能超过256位,且不能包含! = < > & ' " \ 特殊字符。
- 在“源库及目标库”信息页面,同步实例创建成功后,填选源库信息和目标库信息,建议您单击“源库和目标库”处的“测试连接”,分别测试并确定与源库和目标库连通后,勾选协议,单击“下一步”。
图6 源库及目标库信息
表4 源库信息 参数
描述
IP地址或域名
配置源数据库PostgreSQL实例的访问地址或域名。
端口
配置源数据库PostgreSQL实例的服务端口,可输入范围为1~65535间的整数。
数据库用户名
访问源数据库PostgreSQL的用户名。
数据库密码
访问源数据库PostgreSQL的用户名所对应的密码。
SSL安全连接
在选择公网网络进行同步任务时,为了提升数据在网络传输过程中的安全性,建议您开启SSL安全连接,对同步链路进行加密,如果开启,需要您上传CA证书。
表5 目标库信息 参数
描述
数据库实例名称
默认为创建同步任务时选择的已创建的RDS for PostgreSQL实例,不可进行修改。
数据库用户名
访问目标端RDS for PostgreSQL实例的用户名。
数据库密码
访问目标端RDS for PostgreSQL实例的用户名所对应的密码。
- 在“同步设置”页面,选择同步对象和同步用户。
图7 同步模式
表6 同步对象 参数
描述
流速模式
流速模式支持限速和不限速,默认为不限速。
增量阶段冲突策略
数据复制服务提供的实时同步功能使用了主键或唯一键冲突策略,这些策略可以由您自主选择,尽可能保证源数据库中有主键约束或唯一键约束的表同步到目标数据库是符合预期的。
冲突策略目前支持如下三种形式:
- 忽略
- 报错
- 覆盖
当数据发生冲突时,针对如下情况,建议选择“忽略”或者“覆盖”,否则建议选择“报错”:
- 目标数据库存在数据
- 多对一同步场景
- 目标数据库手动更新数据
对象同步范围
对象同步范围支持选择普通索引、增量DDL同步和全量阶段填充物化视图,您可以根据业务需求选择是否进行同步。
全量阶段填充物化视图:仅对源库已经填充的物化视图生效,该填充操作会影响全量同步性能,建议在全量同步完成后,手动在目标库填充。
同步对象
同步对象选择的粒度可以为库级或表级,您可以根据业务需求,选择同步整个数据库或者只同步部分表,单个任务只能选择实例中的一个数据库中的对象进行同步,支持库名映射。
- 库级同步:将源数据库中的所有对象全部同步至目标数据库。
- 表级同步:将自定义选择的表对象同步至目标数据库。
说明:
若选择表级同步时,由于选择的表可能与数据库的其他对象存在依赖关系,若所依赖的对象没有被同时选择且未存在于目标库中,则会导致任务失败。建议您在同步之前进行确认,或选择库级同步。
同步用户
数据库的同步过程中,同步用户需要进行单独处理。
同步用户一般分为两类:可同步的用户和不支持同步的用户。对于不支持同步的用户,在备注列的查看详情中会提示具体的原因,您可以根据业务需求选择是否同步用户和权限。
- 在“预检查”页面,进行同步任务预校验,校验是否可进行实时同步。
- 查看检查结果,如有不通过的检查项,需要修复不通过项后,单击“重新校验”按钮重新进行任务预校验。
预检查不通过项处理建议请参见《数据复制服务用户指南》中的“预检查不通过项修复方法”。
- 预检查完成后,且所有检查项结果均通过时,单击“下一步”。
图8 预检查
所有检查项结果均通过时,若存在请确认项,需要阅读并确认详情后才可以继续执行下一步操作。
- 查看检查结果,如有不通过的检查项,需要修复不通过项后,单击“重新校验”按钮重新进行任务预校验。
- 在“任务确认”页面,选择同步任务的启动时间,勾选协议,单击“启动任务”,提交同步任务。
- 同步任务的启动时间可以根据业务需求,设置为“立即启动”或“稍后启动”。
- 预计同步任务启动后,会对源数据库和目标数据库的性能产生影响,建议选择业务低峰期,合理设置同步任务的启动时间。
- 同步任务提交后,开始启动同步任务,您可以返回“实时同步管理”页面,查看同步任务状态。
- 任务管理。
同步任务启动后,会经历全量同步和增量同步两个阶段,对于不同阶段的同步任务,您可以进行任务管理。
- 全量同步
查看同步进度:全量同步中的任务,您可单击任务名称,在“同步进度”页签下,查看全量同步进度,您可以查看结构、数据、索引同步的进度,也查看具体同步对象的同步进度。当全量同步进度显示为100%,表示全量同步已经完成。
- 增量同步
- 查看时延监控:全量同步完成后,开始进行增量同步。对于增量同步中的任务,您可单击任务名称,在“同步进度”页签下,查看增量同步同步时延,当时延为0s时,说明源数据库和目标数据库的数据是实时同步的。您也可以使用“同步对比”页签进行一致性对比。
图9 查看时延监控
- 查看同步对比:为了尽可能减少业务的影响和业务中断时间,增量同步中的任务,您可单击任务名称,在“同步对比”页签下创建对比任务。
具体的同步对比操作及注意事项请参考《数据复制服务用户指南》中“对比同步项”章节。
- 查看时延监控:全量同步完成后,开始进行增量同步。对于增量同步中的任务,您可单击任务名称,在“同步进度”页签下,查看增量同步同步时延,当时延为0s时,说明源数据库和目标数据库的数据是实时同步的。您也可以使用“同步对比”页签进行一致性对比。
- 全量同步
- 割接建议。
建议您选择一个业务低峰期,开始正式系统割接流程。割接前,请您确认至少在业务低峰期有过一次完整的数据对比。可以结合数据对比的“稍后启动”功能,选择业务低峰期进行数据对比,以便得到更为具有参考性的对比结果。由于同步具有轻微的时差,在数据持续操作过程中进行对比任务,可能会出现少量数据不一致对比结果,从而失去参考意义。
- 先中断业务(如果业务负载非常轻,也可以尝试不中断业务)。
- 在源数据库端执行如下语句,并观察在1-5分钟内若无任何新会话执行SQL ,则可认为业务已经完全停止。
select * from pg_stat_activity;
上述语句查询到的进程列表中,包括DRS同步实例的连接,您需要确认除DRS同步实例的连接外无任何新会话执行SQL,即可认为业务已经完全停止。
- 通过DRS同步任务监控页面进行观察同步时延,保持实时同步时延为0,并稳定保持一段时间;同时,您可以使用数据级对比功能,进行割接前的最后一次数据级对比,耗时可参考之前的对比记录。
- 如果时间允许,则选择全部对比。
- 如果时间不允许,则推荐对比活跃表,关键业务表,第二步对比多次存在差异的表等。
- 确定系统割接时机,业务系统指向本云数据库,业务对外恢复使用,同步完成。
- 同步结束。
- 结束同步任务:业务系统和数据库切换至本云后,为了防止源数据库的操作继续同步到目标数据库,造成数据覆盖问题,此时您可选择结束同步任务,该操作仅删除了同步实例,同步任务仍显示在任务列表中,您可以进行查看或删除。结束同步任务后,DRS将不再计费。
- 删除同步任务:对于已结束的同步任务,您可选择删除任务。该操作将一并删除同步任务,删除同步任务后,该任务将不会出现在任务列表中。