通过数据质量对比数据迁移前后结果
数据对账对数据迁移流程中的数据一致性至关重要,数据对账的能力是检验数据迁移或数据加工前后是否一致的关键指标。
本章以DWS数据迁移到MRS Hive分区表为例,介绍如何通过DataArts Studio中的数据质量模块实现数据迁移前后的一致性校验。
前提条件
- 已在数据仓库服务创建DWS集群,确保与DataArts Studio实例网络互通,并且具有KMS密钥的查看权限。
- 已在MapReduce服务创建MRS集群,确保与DataArts Studio实例网络互通。
- 已创建CDM集群,详情请参见购买批量数据迁移增量包章节。
创建数据迁移连接
- 登录DataArts Studio控制台,单击相应工作空间后的“数据集成”。
- 在集群管理页面,单击所创建集群操作列“作业管理”,进入“作业管理”页面。
图1 作业管理页面
- 在连接管理页签中,单击“新建连接”,创建DWS数据连接,参数说明请参见配置DWS连接。
图2 配置DWS连接
- 同上述步骤,创建MRS Hive数据连接,参数说明请参见配置MRS Hive连接。
图3 配置MRS Hive连接
创建并执行数据迁移作业
- 登录DataArts Studio控制台,单击相应工作空间后的“数据集成”。
- 在“集群管理”页面,单击所创建集群操作列“作业管理”,进入“作业管理”页面。
- 在表/文件迁移页签中,单击新建作业,创建数据迁移作业。
- 配置DWS源端作业参数、MRS Hive目的端作业参数,参数说明请参见配置DWS源端参数、配置MRS Hive目的端作业参数。
图4 作业配置
- 配置作业字段映射及任务配置,单击“保存并运行”,执行CDM作业。
- 在“表/文件迁移”作业列表中,查看作业执行情况。
图5 查看作业运行情况
创建数据连接
- 登录DataArts Studio控制台,单击相应工作空间后的“管理中心”。
- 在DataArts Studio管理中心模块中,单击“创建数据连接”,创建DWS数据连接,参数说明请参见DWS数据连接。
图6 创建DWS数据连接
- 同上述步骤创建MRS Hive数据连接,参数说明请参见MRS Hive数据连接。
图7 创建MRS Hive数据连接
创建对账作业
- 登录DataArts Studio控制台,单击相应工作空间后的“数据质量”。
- 在DataArts Studio数据质量模块,选择左侧导航菜单
- 单击“新建”,配置对账作业的基本信息,如图8所示。
- 单击“下一步”,进入规则配置页面。您需要单击规则卡片中的,然后配置对账规则,选择数据迁移前后两张数据表,并配置告警规则,如图9所示。
- 源端和目的端的信息需要分别配置。
- 配置告警条件,其中单击左侧的表行数(${1_1})表示左侧源端选中表的行数,单击右侧表行数(${2_1})表示目的端表行数。此处配置告警条件为${1_1}!=${2_1},表示当左侧表行数与右侧表行数不一致时,触发报警并显示报警状态。
- 单击“下一步”,配置订阅信息,如图10所示。
勾选触发告警表示作业报警时发送通知到对应的SMN主题,勾选运行成功表示不报警时发送通知到SMN主题。
- 单击“下一步”,配置调度方式,如图11所示。
单次调度表示需要手动触发运行,周期性调度表示会按照配置定期触发作业运行。此处以当天配置为例,设置每15分钟触发运行一次对账作业为例的配置。
- 单击“提交”, 完成对账作业的创建。
执行对账作业并查看结果分析
- 在数据质量模块左侧导航栏中,选择 。
- 单击对账作业操作列中的“运行”,运行对账作业。
图12 运行对账作业
- 在数据质量模块左侧导航栏中,选择
,进入运维管理页面。图13 进入运维管理页面
- 作业执行完成后,单击“结果&日志”,查看对账作业运行结果,如果源端和目的端表行数一致,则迁移成功。
图14 查看运行结果
- 运行结果中,左侧表示源端表行数规则运行结果,右侧表示目的端表行数规则运行结果。
- 误差率表示两端数据行数的差异比率,此处误差率为0表示两端一致。