文档首页/ 数据治理中心 DataArts Studio/ 用户指南/ 数据集成（实时作业）/ 实时集成作业使用教程/ SQLServer同步到MRS Hudi作业配置

更新时间：2026-02-13 GMT+08:00

SQLServer同步到MRS Hudi作业配置

支持的源端和目的端数据库版本

表1 支持的数据库版本
源端数据库	目的端数据库
SQLServer数据库（企业版2016、2017、2019、2022版本，标准版2016 SP2及以上版本、2017、2019、2022版本）	MRS集群（3.2.0-LTS.x、3.3.x-LTS） Hudi版本（0.11.0）

数据库账号权限要求

在使用Migration进行同步时，源端和目的端所使用的数据库账号需要满足以下权限要求，才能启动实时同步任务。不同类型的同步任务，需要的账号权限也不同，详细可参考下表进行赋权。

表2 数据库账号权限
类型名称	权限要求
源数据库连接账号	需要具备sysadmin权限，或者view server state权限以及待同步数据库的db_datareader或db_owner权限。启动数据库及表的CDC能力。启用数据库CDC。 USE YourDatabaseName; EXEC sys.sp_cdc_enable_db; -- 查看数据库是否启动CDC SELECT is_cdc_enabled, name FROM sys.databases WHERE name = 'YourDatabaseName' 启用表CDC。 EXEC sys.sp_cdc_enable_table @source_schema = N'dbo', -- Schema @source_name = N'YourTable',-- 表名 @role_name = NULL,-- 可选，CDC访问角色名称 @supports_net_changes = 0; -- 查看表是否启动CDC SELECT name,is_tracked_by_cdc FROM sys.tables WHERE name = 'YourTable'; 源端SQLServer需要给管理中心数据连接中配置的用户赋予以下全部权限。给用户添加数据库CONNECT, VIEW DATABASE STATE 权限。 USE YourDatabaseName; GRANT CONNECT, VIEW DATABASE STATE TO [YourUserName]; 给用户添加CDC schema的SELECT 权限。 USE YourDatabaseName; GRANT SELECT ON SCHEMA::[cdc] TO [YourUserName]; 给用户添加表的SELECT权限。 USE YourDatabaseName; GRANT SELECT ON OBJECT::[YourSchema].[YourTable] TO [YourUserName];
目标数据库连接账号	MRS用户需要拥有Hadoop和Hive组件的读写权限，建议参照图1所示角色及用户组配置MRS用户。图1 MRS Hudi最小化权限具体MRS集群角色权限管理请参考《MRS集群用户权限模型》。

建议创建单独用于Migration任务连接的数据库账号，避免因为数据库账号密码修改，导致的任务连接失败。
连接源和目标数据库的账号密码修改后，请同步修改管理中心对应的连接信息，避免任务连接失败后自动重试，导致数据库账号被锁定影响使用。

支持的同步对象范围

在使用Migration进行同步时，不同类型的链路，支持的同步对象范围不同，详细情况可参考下表。

表3 同步对象范围
类型名称	使用须知
同步对象范围	支持同步DML：包括INSERT、UPDATE、DELETE。不支持同步DDL。仅支持同步主键表。不支持同步源数据库中开启TDE（Transparent Data Encryption）加密的数据库。不支持列加密。不支持同步自增属性列。自动建表支持同步表结构、普通索引、约束（主键、空、非空）、注释。

注意事项

除了数据源版本、连接账号权限及同步对象范围外，您还需要注意的事项请参见下表。

表4 注意事项
类型名称	使用和操作限制
数据库限制	目标数据库中的库名、表名、字段名仅支持数字、字母和下划线，且字段名必须以字母或下划线开头，建议尽量使用常规字符避免任务失败。源数据库如果开启客户端配置中的“强制协议加密（Force Protocol Encryption）”，必须同时开启“信任服务器证书（trust server certificate）”，如下图所示：图2 查看客户端属性
使用限制	通用：实时同步过程中，不支持IP、端口、账号、密码修改。 Hudi表使用Bucket索引的场景下不允许更新分区键，否则可能产生重复数据。 Hudi表使用Bucket索引的场景下主键仅保证单分区内唯一。本链路所使用的Hudi表需带有3个审计字段：cdc_last_update_date、logical_is_deleted、_hoodie_event_time，并会以_hoodie_event_time作为Hudi表的预聚合键。因此，若使用已存在的表，也需要携带这3个审计字段，否则可能导致任务异常。 cdc_last_update_date：Migration任务处理CDC数据的时间。 logical_is_deleted：逻辑删除标志。 _hoodie_event_time：数据在SQLServer CDC中的时间戳。全量同步阶段：任务启动和全量数据同步阶段，请不要在源数据库执行DDL操作，否则可能导致任务异常。增量同步阶段：支持DML：包括INSERT、UPDATE、DELETE。不支持DDL操作，源数据库进行的DDL操作不会同步到目标数据库。不支持大数据类型IMAGE、TEXT、NTEXT的删除操作。同步过程不支持修改作业中的表。常见故障排查：在任务创建、启动、全量同步、增量同步、结束等过程中，如有遇到问题，可先参考常见问题章节进行排查。
其他限制	支持目标数据库中的表比源数据库少列场景；也支持目标数据库中的表比源数据库多列场景，但是需要避免以下场景可能导致的任务失败。目标数据库多的列要求非空且没有默认值，源数据库insert数据，同步到目标数据库后多的列为null，不符合目标数据库要求。目标数据库多的列设置固定默认值，且有唯一约束。源数据库insert多条数据后，同步到目标数据库后多的列为固定默认值，不符合目标数据库要求。不支持源数据库主备切换，源数据库主备切换会导致同步任务失败。不支持源数据库Microsoft SQL Server为TLS 1.0、TLS 1.1协议的同步，如果需要同步，建议源库升级到TLS 1.2及以上版本。

操作步骤

本小节以Microsoft SQL Server到MRS Hudi的实时同步为示例，介绍如何配置Migration实时集成作业。配置作业前请务必阅读使用前自检概览，确认已做好所有准备工作。

参见新建实时集成作业创建一个实时集成作业并进入作业配置界面。
选择数据连接类型：源端选SQLServer，目的端选Hudi。

图3 选择数据连接类型
选择集成作业类型：同步类型默认为实时，同步场景包含整库场景。

图4 选择集成作业类型

同步场景相关介绍请参见同步场景。
配置网络资源：选择已创建的SQLServer、MRS Hudi数据连接和已配置好网络连接的migration资源组。

图5 选择数据连接及migration资源组

无可选数据连接时，可单击“新建”跳转至管理中心数据连接界面，单击“创建数据连接”创建数据连接，详情请参见配置DataArts Studio数据连接参数进行配置。

无可选migration资源组时，可单击“新建”跳转至购买migration资源组页面创建migration资源组配置，详情请参见购买创建数据集成资源组增量包进行配置。
检测网络连通性：数据连接和migration资源组配置完成后需要测试整个迁移任务的网络连通性，可通过以下方式进行数据源和migration资源组之间的连通性测试。
- 单击展开“源端配置”触发连通性测试，会对整个迁移任务的连通性做校验。
- 单击源端和目的端数据源和migration资源组中的“测试”按钮进行检测。
  
  网络连通性检测异常可先参考数据源和资源组网络不通如何排查？章节进行排查。
配置源端参数。
- 选择需要迁移的SQLServer库表。
  图6 选择库表
  
  库与表均支持自定义选择，即可选择一库一表，也可选择多库多表。

配置目的端参数。

源库表和目标匹配策略。

各同步场景下源端库表和目标端库表的匹配策略请参考下表。

表5 源库表和目标匹配策略
同步场景	配置方式
整库	库匹配策略。与来源库同名：数据将同步至与来源SQLServer Schema名相同的Hudi库中。自定义：数据将同步至自行指定的Hudi库中。表匹配策略。与来源表同名：数据将同步至与来源SQLServer Schema名相同的Hudi表中。自定义：数据将同步至自行指定的Hudi表中。图7 整库场景下源库表和目标匹配策略说明：自定义匹配策略时，支持用内置变量#{source_db_name}和#{source_table_name}标志来的源库名和表名，其中表匹配策略必须包含#{source_table_name}。

Hudi参数配置。

其余Hudi目的端参数说明请参考下表。

图8 Hudi目的端配置项
点击放大

表6 Hudi目的端配置项
配置项	默认值	单位	配置说明
数据存储路径	-	-	Hudi自动建表时的warehouse路径，每张表会在warehouse路径下创建子目录。支持填写HDFS和OBS路径，路径格式参考： OBS路径：obs://bucket/warehouse。 HDFS路径：/tmp/warehouse。
Hudi表属性全局配置	-	-	支持通过参数配置部分高级功能，参数详情可参考Hudi高级配置一览表。

表7 Hudi高级配置一览表
参数名	参数类型	默认值	单位	参数说明
index.type	string	BLOOM	-	Hudi表索引类型。支持BLOOM和BUCKET索引，数据量较大场景下强烈建议使用BUCKET索引性能更好。
hoodie.bucket.index.num.buckets	int	256	个	Hudi表单分区下Bucket桶数。说明：使用Hudi BUCKET表时需要设置Bucket桶数，桶数设置关系到表的性能，需要格外引起注意。非分区表桶数 = MAX(CEIL(单表数据量大小(GB)/1GB), 4)。分区表桶数 = MAX(CEIL(单分区数据量大小(GB)/1GB), 1)。其中，要注意的是：需要使用的是表的总数据大小，而不是压缩以后的文件大小。桶的设置以偶数最佳，非分区表最小桶数请设置4个，分区表最小桶数请设置1个。
changelog.enabled	boolean	false	-	Hudi changelog功能开关，开启后Migration作业可输出DELETE和UPDATE BEFORE数据。
logical.delete.enabled	boolean	true	-	逻辑删除开关，changelog开启时必须关闭逻辑删除。
hoodie.write.liststatus.optimized	boolean	true	-	写log文件时是否开启liststatus优化。涉及到大表和分区数据量多的作业，在启动时list会非常耗时，可能导致作业启动超时，建议关闭。
hoodie.index.liststatus.optimized	boolean	false	-	定位数据时是否开启liststatus优化。涉及到大表和分区数据量多的作业，在启动时list会非常耗时，可能导致作业启动超时，建议关闭。
compaction.async.enabled	boolean	true	-	异步compaction开关。compaction操作一定程度会影响实时任务的写入性能，如果用户使用外置的compaction操作对hudi进行compaction，可以考虑设置为false关闭实时处理集成作业的compaction操作。
compaction.schedule.enabled	boolean	true	-	生成compaction计划的开关。compaction计划必须由本服务生成，计划的执行可以交给Spark。
compaction.delta_commits	int	5	次	生成compaction request的频率。compaction request生成频率降低可以使得compaction频率降低从而提升作业性能。如果hudi增量数据较小。可以考虑增大该值。说明：例如配置为40，即每40次commit生成一个compaction request，因为Migration每分钟生成1个commit，那么每个compaction request将间隔40分钟。
clean.async.enabled	boolean	true	-	做历史版本数据文件清理的开关。
clean.retain_commits	int	30	次	要保留的commit数。这些commit关联的数据文件版本将被保留 num_of_commits * time_between_commits 这么长的时间，建议配置为2倍的compaction.delta_commits。说明：例如配置为80，因为Migration每分钟生成1个commit，那么超过80分钟后如果有旧版本数据文件，则会生成clean request，且在执行clean时保留最近80个commit。
hoodie.archive.automatic	boolean	true	-	Hudi commit文件老化开关。
archive.min_commits	int	40	次	将旧版commit归档到日志文件中时要保留不归档的最小commit数。建议配置成clean.retain_commits + 1。说明：例如配置成81，那么在触发归档动作时，将会保留最近81次commit文件。
archive.max_commits	int	50	次	触发归档动作的commit数。建议配置成archive.min_commits + 20。说明：例如配置成101，那么将在生成101个commit文件后触发归档commit文件动作。

为了达到Migration作业性能最优，建议使用Hudi Bucket索引的MOR表，并根据实际数据量配置Bucket桶数。
为了保证Migration作业的稳定性，建议将Hudi Compaction单独拆成Spark作业交由MRS执行，在Migration任务里仅开启生成compaction计划，具体可以参考如何配置Hudi Compaction的Spark周期任务？。

刷新源表和目标表映射，检查映射关系是否正确，同时可根据需求修改表属性、添加附加字段，并通过“自动建表”能力在目的端Hudi数据库中建出相应的表。

图9 源表与目标表映射
点击放大

同步主键
 Hudi表必须设置“同步主键”，在源端为非主键表时，必须在字段映射阶段手动勾选主键。
表属性编辑
 单击操作列“表属性编辑”可配置Hudi表属性，包含表类型，分区类型及表自定义属性。

图10 Hudi表属性配置
- 表类型：Hudi的表类型，可选MERGE_ON_READ和COPY_ON_WRITE。
- 分区类型：Hudi表分区类型，可选无分区、时间分区、自定义分区。
  - 其中时间分区需要用户指定一个源端字段名，选择一个时间转换格式。
    比如时间分区用户指定一个源端字段名src_col_1，选择一个时间转换格式，日（yyyyMMdd）、月（yyyyMM）、年（yyyy），自动建表时会在Hudi表默认创建一个cdc_partition_key的字段，系统会根据配置的时间转换格式将源端字段(src_col_1)的值格式化后写入cdc_partition_key中。
  - 自定义分区不支持timestamp类型的字段，使用timestamp类型的字段会导致作业失败。
- 表自定义属性：支持通过参数配置单表的部分高级功能，参数详情可参考Hudi高级配置一览表。

附加字段编辑：单击操作列“附加字段编辑”可为目的端的Hudi表中增加自定义字段，同时附加字段也会额外加入到Hudi表的建表中。用户可以在已有的源表字段基础上添加多个附加字段，并自定义字段名、选择字段类型、填写字段值。

字段名称：目的端Hudi表新增字段的名称。
字段类型：目的端Hudi表新增字段的类型。

字段值：目的端Hudi表新增字段的取值来源。

表8 附加字段取值方式
类型	示例
常量	支持数字、字母、中文、特殊字符。彩色表情字符可能导致作业提交失败，需谨慎使用。
内置变量	源端host ip地址：source.host。源端schema名称：source.schema。源端table名称：source.table。目的端schema名称：target.schema。目的端table名称：target.table。
源表字段	源表中的任一字段。配置附加字段的取值来源于源表字段时，请注意任务运行过程中不能修改对应源表字段的名称，否则可能导致作业异常。
udf方法	substring(#col, pos[, len])：截取源端col列的子串, 范围在[pos, pos+len)。 date_format(#col, time_format[, src_tz, dst_tz])：将源端col列按time_format格式化, 可选转换时区。 now([tz])：获取指定时区的当前时间。 if(cond_exp, str1, str2)：满足条件表达式cond_exp时返回str1, 否则返回str2。 concat(#col[, #str, ...])：拼接多个参数, 可为源端列或字符串。 from_unixtime(#col[, time_format])：将unix时间戳按time_format格式化。 unix_timestamp(#col[, precision, time_format])：将时间转成unix时间戳，可显式定义时间格式及转换后精度，time_format时间格式要与源端保持一致。

自动建表：单击“自动建表”可按照已配置映射规则在目的端数据库自动建表，成功后表建立方式会显示为使用已有表。
图11 自动建表
- Migration仅支持自动建表，不支持自动建库和模式，需用户自行在目的端手动建出库和模式后再使用本功能建表。
- 自动建表时对应的字段类型映射关系请参见字段映射关系章节。
- 自动建出的Hudi表会带有3个审计字段，分别是cdc_last_update_date、logical_is_deleted、_hoodie_event_time，并会以_hoodie_event_time作为Hudi表的预聚合键。

配置任务属性。

表9 任务配置参数说明
参数	说明	默认值
执行内存	作业执行分配内存，跟随处理器核数变化而自动变化。	8GB
处理器核数	范围：2-32。每增加1处理核数，则自动增加4G执行内存和1并发数。	2
并发数	作业执行支持并发数。该参数无需配置，跟随处理器核数变化而自动变化。	1
自动重试	作业失败时是否开启自动重试。	否
最大重试次数	“自动重试”为是时显示该参数。	1
重试间隔时间	“自动重试”为是时显示该参数。	120秒
添加自定义属性	支持通过自定义属性修改部分作业参数及开启部分高级功能，详情可参见任务性能调优章节。	-

提交并运行任务。

作业配置完毕后，单击作业开发页面左上角“提交”，完成作业提交。

图12 提交作业
点击放大

提交成功后，单击作业开发页面“启动”按钮，在弹出的启动配置对话框按照实际情况配置同步位点参数，单击“确定”启动作业。

图13 启动配置
点击放大

**表10** 启动配置参数
参数	说明
同步模式	增量同步：从指定时间位点开始同步增量数据。全量+增量：先同步全量数据，随后实时同步增量数据。
时间	增量同步需要设置该参数，指示增量同步起始的时间位点。说明：配置的位点时间早于CDC日志最早时间点时，默认会以日志最新时间点开始消费。

监控作业。

通过单击作业开发页面导航栏的“前往监控”按钮，可前往作业监控页面查看运行情况、监控日志等信息，并配置对应的告警规则，详情请参见实时集成任务运维。

图14 前往监控

性能调优

若链路同步速度过慢，可参见任务性能调优章节中对应链路文档进行排查及处理。

父主题： 实时集成作业使用教程

上一篇：DMS Kafka同步到Hudi作业配置

下一篇：SQLServer同步到DWS作业配置

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试