将MongoDB迁移到DDS_入云_实时迁移_用户指南（巴黎区域）

支持的源和目标数据库

表1 支持的数据库
源数据库	目标数据库
本地自建Mongo数据库（3.2、3.4、4.0版本） ECS自建Mongo数据库（3.2、3.4、4.0版本）其他云上Mongo数据库（3.2、3.4、4.0版本，不支持腾讯云3.2版本） DDS实例（3.4、4.0版本）	DDS实例（3.4、4.0、4.2版本）说明：仅支持目标库版本等于或高于源库版本。

支持的迁移对象范围

在使用DRS进行迁移时，不同类型的迁移任务，支持的迁移对象范围不同，详细情况可参考表2。DRS会根据用户选择，在“预检查”阶段对迁移对象进行自动检查。

表2 支持的迁移对象
类型名称	使用须知
迁移对象范围	迁移对象选择维度：支持选择表级、库级或实例级（全部迁移）。支持的迁移对象：相互关联的数据对象要确保同时迁移，避免迁移因关联对象缺失，导致迁移失败。常见的关联关系：视图引用集合、视图引用视图等。副本集：目前只支持集合(包括验证器，是否是固定集合)，索引和视图的迁移。集群：目前只支持集合（包括验证器，是否是固定集合），分片键，索引和视图的迁移。单节点：目前只支持集合（包括验证器，是否是固定集合），索引和视图的迁移。只支持迁移用户数据和源数据库的账号信息，不支持迁移系统库（如local、admin、config等）和系统集合，如果业务数据在系统库下，则需要先将业务数据移动到用户数据库下，可以使用renameCollection命令进行移出。不支持视图的创建语句中有正则表达式。不支持_id字段没有索引的集合。不支持BinData()的第一个参数为2。不支持范围分片的情况下maxKey当主键。说明：支持迁移的对象有如下限制：源数据库的库名不能包含/\."$和空格，集合名和视图名中不能包含$字符或以system.开头。

数据库账号权限要求

在使用DRS进行迁移时，连接源库和目标库的数据库账号需要满足以下权限要求，才能启动实时迁移任务。不同类型的迁移任务，需要的账号权限也不同，详细可参考表3进行赋权。DRS会在“预检查”阶段对数据库账号权限进行自动检查，并给出处理建议。

建议创建单独用于DRS任务连接的数据库帐号，避免因为数据库帐号密码修改，导致的任务连接失败。
连接源和目标数据库的帐号密码修改后，请尽快修改DRS任务中的连接信息，避免任务连接失败后自动重试，导致数据库帐号被锁定影响使用。

表3 数据库账号权限
类型名称	全量迁移	全量+增量迁移
源数据库连接账号	副本集：连接源数据库的用户需要有admin库的readAnyDatabase权限。单节点：连接源数据库的用户需要有admin库的readAnyDatabase权限。集群：连接源数据库的用户需要有admin库的readAnyDatabase权限，有config库的read权限。如果需要迁移源数据库用户和角色信息，连接源数据库和目标库数据库的用户需要有admin数据库的系统表system.users、system.roles的read权限。	副本集：连接源数据库的用户需要有admin库的readAnyDatabase权限，有local库的read权限。单节点：连接源数据库的用户需要有admin库的readAnyDatabase权限，有local库的read权限。集群：连接源数据库mongos节点的用户需要有admin库的readAnyDatabase权限，有config库的read权限，连接源数据库分片节点的用户需要有admin库的readAnyDatabase权限，有local库的read权限。如果需要迁移源数据库用户和角色信息，连接源数据库和目标库数据库的用户需要有admin数据库的系统表system.users、system.roles的read权限。
目标数据库连接账号	连接目标数据库的用户需要有admin库的dbAdminAnyDatabase权限，有目标数据库的readWrite权限。对于目标数据库是集群的实例，迁移账号还要有admin库的clusterManager权限。

用户赋权参考语句：如连接源数据库的用户需要有admin库的readAnyDatabase权限和config库的read权限。

db.grantRolesToUser("用户名",[{role:"readAnyDatabase",db:"admin"}, {role:"read",db:"config"}])

使用建议

数据库迁移与环境多样性和人为操作均有密切关系，为了确保迁移的平顺，建议您在进行正式的数据库迁移之前进行一次演练，可以帮助您提前发现问题并解决问题。
迁移阶段，确保目标数据库无业务写入，保证迁移前后数据一致。
基于以下原因，建议您在启动任务时选择“稍后启动”功能，将启动时间设置在业务低峰期，相对静止的数据可以有效提升一次性迁移成功率，避免迁移对业务造成性能影响。
- 在网络无瓶颈的情况下，全量迁移会对源数据库增加约20MB/s的查询压力，以及占用2~4个CPU。
- DRS并发读取数据库，会占用大约6-10个session连接数，需要考虑该连接数对业务的影响。
数据对比
 建议您结合数据对比的“稍后启动”功能，选择业务低峰期进行数据对比，以便得到更为具有参考性的对比结果。由于同步具有轻微的时差，在数据持续操作过程中进行对比任务，可能会出现少量数据不一致对比结果，从而失去参考意义。

使用须知

DRS全量+增量迁移过程一般包含四个阶段：任务启动阶段、全量阶段、增量阶段、结束任务阶段（单全量任务则包含三个阶段）。为了确保迁移各个阶段的平顺，在创建迁移任务前，请务必阅读以下使用须知。

表4 使用须知
类型名称	使用和操作限制
任务启动前须知	源数据库参数要求：增量迁移时，源数据库的Oplog日志必须打开。在磁盘空间允许的情况下，建议源数据库Oplog保存时间越长越好，建议为3天。如果迁移任务是源数据集群的增量，则源数据必须关闭Balancer。源数据库对象要求：源数据库不能是GaussDB(for Mongo)实例。源数据库的库名不能包含/\."$和空格，集合名和视图名中不能包含$字符或以system.开头。多个源数据库迁移到同一个目标数据库时，所选的待迁移数据库的库名不能重复。目标数据库参数要求：目标数据库实例的运行状态必须正常。目标数据库实例必须有足够的磁盘空间。目标数据库实例版本要高于或等于源数据库版本。集群到集群的全量迁移，如果源数据库的集群没有开启分片，则需要保证目标数据库主shard节点的磁盘空间大于源数据库数据大小。其他使用须知：相互关联的数据对象要确保同时迁移，避免迁移因关联对象缺失，导致迁移失败。常见的关联关系：视图引用集合、视图引用视图等。副本集：MongoDB数据库的副本集实例状态必须正常，要存在主节点。单节点：目前不支持源数据库为非本云单节点实例的迁移。单节点类型实例的增量迁移目前仅支持源库为文档数据库单节点实例。源数据库为非集群实例时，增量迁移阶段支持如下操作：支持数据库（database）新建、删除。支持文档（document）新增、删除、更新。支持集合（collection）新建、删除。支持索引（index）新建、删除。支持视图（view）新建，删除。支持convertToCapped、collMod、renameCollection命令。源库是集群实例时，集群到集群的全量+增量迁移，全量阶段和增量阶段，不允许对迁移对象做删除操作，否则会导致任务失败。源库实例类型选择集群的Change Streams（MongoDB 4.0+）模式时，DRS内部迁移使用MongoDB特性Change Streams。使用该模式应注意以下几个方面： Change Streams订阅数据过程会消耗源数据库一定量的CPU，内存资源，请提前做好源数据库资源评估。受MongoDB Change Streams自身性能影响，如果源库的负载比较大，Change Streams会出现处理速度无法跟上Oplog产生速度，进而导致DRS同步出现时延。 Change Streams目前仅支持drop database，drop collection，rename的DDL，其他DDL均不支持。不支持DBPointer和DBRef数据类型。增量阶段单表最多支持10000条/秒左右的迁移速度。 Change Streams模式目前仅支持白名单用户使用。源库实例类型选择集群的Oplog模式时，DRS会根据“源端分片个数”创建多个子任务。如果选择任务限速，设置的限流值会同步给每个子任务。对于在源数据库已经存在TTL索引的集合，或者在增量迁移期间在源库数据创建了TTL索引的集合，由于源数据库和目标库数据库时区，时钟的不一致，不能保证迁移完成之后数据的一致性。压缩参数block_compressor的取值，根据源库对应集合的stats().wiredTiger.creationString.block_compressor来决定，如果目标库已经存在对应的空集合，则不迁移压缩参数；特殊的，对于不支持的压缩参数，按照目标库实例的net.compression.compressors参数决定。当目标库为DDS 4.2版本时，由于目标库不支持压缩参数的设置，DRS不迁移压缩参数。对于用户和角色的迁移，DRS冲突策略为忽略，即迁移的用户和角色与目标数据库冲突时，将跳过冲突数据，继续进行后续迁移。如果源数据库的MongoDB服务不是单独部署的，而是和其他的服务部署在同一台机器，则必须要给源数据库的wiredTiger引擎加上cacheSizeGB的参数配置，建议值设为最小空闲内存的一半。如果源数据库是副本集，则建议填写所有的主节点和备节点信息，以防主备切换影响迁移任务。如果填写的是主备多个节点的信息，注意所有的节点信息必须属于同一个副本集实例。如果源数据库是集群，则建议填写多个mongos信息，以防单个mongos节点故障影响迁移任务。如果填写的是多个mongos信息，注意所有的mongos信息必须属于同一个集群。如果是集群的增量迁移任务，建议shard信息填写所有的主节点和备节点，以防主备切换影响迁移任务，并且注意所填写的主备信息必须属于同一个shard。确保填写的所有shard节点信息必须隶属于同一个集群。创建迁移任务时目标数据库可以设置“只读”或“读写”（根据DDS的内核版本决定的，如果DDS的内核版本不支持设置，DRS不支持该选项），任务创建成功后不能修改。只读：目标数据库实例将转化为只读、不可写入的状态，迁移任务结束后恢复可读写状态，此选项可有效的确保数据迁移的完整性和成功率，推荐此选项。读写：目标数据库可以读写，但需要避免操作或接入应用后会更改迁移中的数据（注意：无业务的程序常常也有微量的数据操作），进而形成数据冲突、任务故障、且无法修复续传，充分了解要点后可选择此选项。非全部迁移场景下，为防止drop database操作删除目标库已有的集合，drop database不会同步到目标库。源库是MongoDB 3.6以下版本（不含3.6）时，执行drop database会导致源库删除集合但目标库没有删除。源库是MongoDB 3.6及以上版本（含3.6）时，drop database 操作在oplog中会体现为drop database 和drop collection操作，所以目标库也会删除相应集合，不会出现问题。为了提高迁移的速度，在开始迁移之前，建议在源数据库删掉不需要的索引，只保留必须的索引。在迁移过程中不建议对源库创建索引，如果必须要创建索引，请使用后台的方式创建索引。为了防止回环，不支持在相同的源和目标库同时启动入云和出云任务。
全量迁移阶段须知	任务启动和全量数据迁移阶段，请不要在源数据库执行DDL操作，否则可能导致任务异常。迁移过程中，不允许修改、删除连接源和目标数据库的用户的用户名、密码、权限，或修改源和目标数据库的端口号。迁移过程中，不允许对正在迁移中的目标数据库进行修改操作（包括但不限于DDL、DML操作）。迁移过程中，不支持源数据库主备切换导致数据回滚的情况。迁移过程中，不支持insert、update源库大于16MB的文档。
增量迁移阶段须知	迁移过程中，不允许修改、删除连接源和目标数据库的用户的用户名、密码、权限，或修改源和目标数据库的端口号。迁移过程中，不允许对正在迁移中的目标数据库进行修改操作（包括但不限于DDL、DML操作）。迁移过程中，不支持源数据库主备切换导致数据回滚的情况。迁移过程中，不支持insert、update源库大于16MB的文档。选择集合迁移时，增量迁移过程中不建议对集合进行重命名操作。为保证迁移的性能，任务增量阶段，会集合级的进行并发回放。特殊地，以下情况只支持单线程写入，不支持并发回放：集合的索引中有unique key时；集合属性的capped为true时；这种情况可能会导致任务时延增高。
对比使用须知	建议在源库的业务低峰期进行数据比对，防止误报不一致数据，以及减少对源库和DRS任务的冲击。在增量同步过程中做对比时，源库若存在写入，则对比结果可能不一致。行对比时，集群实例如果存在孤儿文档或者正在进行chunk迁移，会导致返回的行数不准确，对比结果不一致。详细情况可参考MongoDB官方文档。

前提条件

已登录数据复制服务控制台。
满足实时迁移支持的数据库类型和版本，详情请参见实时迁移。

已阅读以上使用建议和使用须知。

操作步骤

本章节将以MongoDB分片集群为示例，介绍在公网网络场景下，通过数据复制服务配置分片集群MongoDB数据库迁移至DDS集群任务的流程。

在“实时迁移管理”页面，单击“创建迁移任务”，进入创建迁移任务页面。

在“迁移实例”页面，填选任务名称、描述、迁移实例信息，单击“开始创建”。

任务信息

表5 任务和描述
参数	描述
任务名称	任务名称在4到50位之间，必须以字母开头，可以包含字母、数字、中划线或下划线，不能包含其他的特殊字符。
描述	描述不能超过256位，且不能包含! = < > & ' " \ 特殊字符。

迁移实例信息

表6 迁移实例信息
参数	描述
数据流动方向	选择“入云”。入云指目标端数据库为本云数据库。
源数据库引擎	选择“MongoDB”。
目标数据库引擎	选择“DDS”。
网络类型	默认为公网网络类型，可按照需求选择“VPC网络”、“公网网络”和“VPN、专线网络”。 VPC网络：适合云上同帐号同Region数据库之间的迁移。公网网络：适合通过公网网络把其他云下或其他平台的数据库迁移到目标数据库，该类型要求目标数据库绑定弹性公网IP（EIP）。 VPN、专线网络：适合通过专线网络，实现其他云下自建数据库与云上数据库迁移、或云上跨Region的数据库之间的迁移。
目标数据库实例	用户所创建的目标数据库实例。
迁移实例所在子网	选择迁移实例所在的子网。也可以单击“查看子网”，跳转至“网络控制台”查看实例所在子网帮助选择。默认值为当前所选数据库实例所在子网，请选择有可用IP地址的子网。为确保迁移实例创建成功，仅显示已经开启DHCP的子网。
迁移模式	全量：该模式为数据库一次性迁移，适用于可中断业务的数据库迁移场景，全量迁移将非系统数据库的全部数据库对象和数据一次性迁移至目标端数据库，包括：集合、视图、索引等。说明：如果用户只进行全量迁移时，建议停止对源数据库的操作，否则迁移过程中源数据库产生的新数据不会同步到目标数据库。全量+增量：该模式为数据库持续性迁移，适用于对业务中断敏感的场景，通过全量迁移过程完成目标端数据库的初始化后，增量迁移阶段通过解析日志等技术，将源端和目标端数据库保持数据持续一致。说明：选择“全量+增量”迁移模式，增量迁移可以在全量迁移完成的基础上实现数据的持续同步，无需中断业务，实现迁移过程中源业务和数据库继续对外提供访问。
源数据库实例类型	迁移模式为“全量+增量”时，需要根据源数据库的具体来源进行设置。当源库类型属于集群时，该项需要设置为集群。当源库类型属于副本集或者单节点时，该项需要设置为非集群。
增量数据获取方式	当源端实例类型设置为“集群”时，增量同步时需要选择数据获取方式。 oplog：支持MongoDB 3.2及以上版本，DRS直接连接源数据库实例的每一个Shard进行数据抽取。选择此方式时，必须关闭源库实例集合均衡器Balancer，可参考如何关闭集合均衡器Balancer，测试连接时需要填写源数据库每一个Shard的连接信息。 changeStream：支持MongoDB 4.0及以上版本，DRS连接源数据库实例的mongos进行数据抽取，选择此方式时，源数据库实例必须开启WiredTiger存储引擎，推荐此选项。说明： “changeStream”方式目前仅支持白名单用户，需要提交工单申请才能使用。您可以在管理控制台右上角，选择“工单 > 新建工单”，完成工单提交。
目标库实例读写设置	迁移过程中，目标库DDS实例读写设置，根据DDS的内核版本决定，如果DDS的内核版本不支持设置，DRS不支持该选项，任务创建后不能修改。只读迁移中，目标数据库整个实例将转化为只读、不可写入的状态，迁移任务结束后恢复可读写状态，此选项可有效的确保数据迁移的完整性和成功率，推荐此选项。读写迁移中，目标数据库可以读写，但需要避免操作或接入应用后会更改迁移中的数据（注意：无业务的程序常常也有微量的数据操作），进而形成数据冲突、任务故障、且无法修复续传，充分了解要点后可选择此选项。如果目标库有其他数据库需要在迁移时被业务使用，可设置该选项为读写。任务创建后不能修改。
源端分片个数	当源端实例类型设置为“集群”且增量数据获取方式为“oplog”时，需要填写源端数据库分片个数。源端数据库分片个数默认最小值为2，最大值为32，你需要根据源库实际的集群分片个数设置该值大小。

企业项目和标签

表7 企业项目和标签
参数	描述
企业项目	企业项目是一种云资源管理方式，企业项目管理服务提供统一的云资源按项目管理，以及项目内的资源管理、成员管理。请在下拉框中选择所在的企业项目，其中，default为默认项目。更多企业项目相关的信息，请参见《企业管理用户指南》
标签	可选配置，对同步任务的标识。使用标签可方便管理您的任务。每个任务最多支持10个标签配额。任务创建成功后，您可以单击任务名称，在“标签”页签下查看对应标签。关于标签的详细操作，请参见标签管理。

对于创建失败的任务，DRS默认保留3天，超过3天将会自动结束任务。

在“源库及目标库”页面，迁移实例创建成功后，填选源库信息和目标库信息，单击“源库和目标库”处的“测试连接”，分别测试并确定与源库和目标库连通后，勾选协议，单击“下一步”。

源库信息

表8 源库信息
参数	描述
mongosIP地址或域名	源数据库的IP地址或域名，格式为IP地址/域名:端口。其中源数据库服务端口，可输入范围为1~65535间的整数。该输入框最多支持填写3组源数据库的IP地址或者域名信息，多个值需要使用英文逗号隔开。例如：192.168.0.1:8080,192.168.0.2:8080。同时需要确保所填写的多个IP地址或域名属于同一个分片集群。说明：此处若填写的是多组IP地址或者域名信息，在进行测试连接的过程中，只要存在一组IP地址或者域名可以连通，那么测试连接就提示成功。所以需要您保证填写的IP地址或域名的正确性。
账号认证数据库	填写的数据库账号所属的数据库名称。例如：DDS实例默认的账号认证数据库为admin。
mongos用户名	源数据库的用户名。
mongos密码	源数据库的用户名所对应的密码。
SSL安全连接	通过该功能，用户可以选择是否开启对迁移链路的加密。如果开启该功能，需要用户上传SSL CA根证书。说明：最大支持上传500KB的证书文件。如果不启用SSL安全连接，请自行承担数据安全风险。
分片数据库	根据源库实际的集群分片个数，填写对应的分片数据库信息。

源数据库的IP地址或域名、数据库用户名和密码，会被系统加密暂存，直至删除该迁移任务后自动清除。

目标库信息配置

表9 目标库信息
参数	描述
数据库实例名称	默认为创建迁移任务时选择的数据库实例，不可进行修改。
数据库用户名	目标数据库对应的数据库用户名。
数据库密码	目标数据库的登录密码。

目标数据库的用户名和密码将在迁移过程中被加密暂存到数据库和迁移实例主机上，待该任务删除后会永久清除。

在“迁移设置”页面，设置迁移对象，单击“下一步”。

**表10** 迁移对象
参数	描述
流速模式	流速模式支持限速和不限速，默认为不限速。限速自定义的最大迁移速度，迁移过程中的迁移速度将不会超过该速度。当流速模式选择了“限速”时，你需要通过流速设置来定时控制迁移速度。流速设置通常包括限速时间段和流速大小的设置。默认的限速时间段为“全天限流”，您也可以根据业务需求选择“时段限流”。自定义的时段限流支持最多设置3个定时任务，每个定时任务之间不能存在交叉的时间段，未设定在限速时间段的时间默认为不限速。流速的大小需要根据业务场景来设置，不能超过9999MB/s。不限速对迁移速度不进行限制，通常会最大化使用源数据库的出口带宽。该流速模式同时会对源数据库造成读消耗，消耗取决于源数据库的出口带宽。比如源数据库的出口带宽为100MB/s，假设高速模式使用了80%带宽，则迁移对源数据库将造成80MB/s的读操作IO消耗。说明：限速模式只对全量迁移阶段生效，增量迁移阶段不生效。如果步骤2中源库实例类型选择集群的Oplog模式，设置的限流值会同步给每个子任务。您也可以在创建任务后修改流速模式。具体方法请参见修改流速模式。
迁移用户	常见的迁移用户一般分为两类：支持迁移的用户和不支持迁移的用户。您可以根据业务需求选择迁移或者不迁移，其中，不支持迁移的账号或者未选择迁移的账号将在目标数据库中缺失，需要先确保业务不受影响。是当您选择迁移用户时，请参见迁移用户章节进行数据库用户及角色的处理。否迁移过程中，将不进行数据库用户及角色的迁移。
迁移对象	左侧框是源数据库对象，右侧框是已经选择的对象，您可以根据业务需求，选择全部对象迁移、表级迁移或者库级迁移。全部迁移：将源数据库中的所有对象全部迁移至目标数据库，对象迁移到目标数据库实例后，对象名将会保持与源数据库实例对象名一致且无法修改。表级迁移：将选择的表级对象迁移至目标数据库。库级迁移：将选择的库级对象迁移至目标数据库。如果有切换源数据库的操作或源库迁移对象变化的情况，请务必在选择迁移对象前单击右上角的，以确保待选择的对象为最新源数据库对象。说明：若选择部分数据库进行迁移时，由于存储过程、视图等对象可能与其他数据库的表存在依赖关系，若所依赖的表未迁移，则会导致迁移失败。建议您在迁移之前进行确认，或选择全部数据库进行迁移。当对象名称包含空格时，名称前后的空格不显示，中间如有多个空格只显示一个空格。选择的迁移对象名称中不能包含空格。选择对象的时候支持对展开的库进行搜索，以便您快速选择需要的数据库对象。

在“预检查”页面，进行迁移任务预校验，校验是否可进行迁移。
- 查看检查结果，如有不通过的检查项，需要修复不通过项后，单击“重新校验”按钮重新进行迁移任务预校验。
- 预检查完成后，且预检查通过率为100%时，单击“下一步”。
  
  所有检查项结果均通过时，若存在请确认项，需要阅读并确认详情后才可以继续执行下一步操作。

在“任务确认”页面，设置迁移任务的启动时间，并确认迁移任务信息无误后，单击“启动任务”，提交迁移任务。

**表11** 任务启动设置
参数	描述
启动时间	迁移任务的启动时间可以根据业务需求，设置为“立即启动”或“稍后启动”，优选“稍后启动”。说明：预计迁移任务启动后，会对源数据库和目标数据库的性能产生影响，建议您将任务启动时间设定在业务低峰期，同时预留2-3天校对数据。

迁移任务提交后，您可在“实时迁移管理”页面，查看并管理自己的任务。
- 您可查看任务提交后的状态，状态请参见任务状态说明。
- 在任务列表的右上角，单击刷新列表，可查看到最新的任务状态。
- 对于未启动、状态为配置中的任务，DRS默认保留3天，超过3天DRS会自动删除后台资源，当前任务状态不变。当用户再次配置时，DRS会重新申请资源。

将MongoDB迁移到DDS