MRS HBase迁移至MRS HBase数据校验
本文主要介绍MRS HBase版本间数据迁移后,使用迁移中心 MgC进行数据一致性校验的步骤和方法。
准备工作
- 需要先在源端内网环境中安装用于配合数据校验的工具MgC Agent(原Edge)并注册用户,方法请参见安装Linux版本的MgC Agent。
- 需要将源端和目的端所有节点的主机名和IP地址映射添加到安装MgC Agent主机的/etc/hosts文件中,配置连接才能连接成功。
- 在安装MgC Agent的主机上,打开/etc/hosts文件进行编辑。
- 在/etc/hosts文件中,为每个源端和目的端节点添加一行,格式如下:
IP地址 主机名
例如,节点的IP地址是192.168.1.1,主机名是source-node-01,则添加:
192.168.1.1 source-node-01
- 完成所有映射的添加后,保存并关闭/etc/hosts文件。
- 为了确保配置正确,可以通过ping命令测试主机名解析是否成功。例如:
ping source-node-01
操作步骤
- 登录迁移中心管理控制台。
- 单击左侧导航栏的“配置管理”,进入配置管理页面。
- 选择“项目管理”页签,单击“创建项目”,右侧弹出创建新项目窗口。
图1 创建项目
- 项目类型选择“复杂迁移(大数据迁移)”,输入自定义项目名称,单击“创建”。
图2 创建大数据迁移项目
- 创建项目完成后,参考连接迁移中心,将MgC Agent与云端MgC控制台建立连接。
- 连接成功后,需要在MgC Agent上分别添加源端MRS HBase凭证和目的端MRS HBase凭证,类型选择“大数据-HBase”,认证方式选择“用户名/密钥”。凭证的添加方法请参考添加资源凭证。其中用户名输入HBase客户端登录用户名,密钥需要上传以下配置文件:
- 非安全集群(未开启Kerberos认证)需要上传core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml和hbase-site.xml等5个配置文件。配置文件的获取方法请参考准备运行环境配置文件。集群是否开启Kerberos认证,可通过查看集群基本信息来确认。
- 安全集群(开启Kerberos认证)需要上传core-site.xml,hdfs-site.xml,yarn-site.xml,krb5.conf,user.keytab,mapred-site.xml和hbase-site.xml等7个文件。其中krb5.conf,user.keytab两个文件是集群用户的凭证,获取方法如下。其余5个配置文件的获取方法请参考准备运行环境配置文件。
- 登录FusionInsight Manager界面,选择“系统 > 权限 > 用户”。
- 在用户名中选择developuser,单击操作“更多 > 下载认证凭据”下载认证凭据文件。
- 将下载的凭据文件解压即可得到用户的“user.keytab”文件与“krb5.conf”文件。
- 在MgC控制台左侧导航栏选择“实施 > 大数据校验”,进入大数据校验页面。在左侧导航栏的项目下拉列表中选择步骤4.创建的项目。
- 首次使用大数据校验功能时,需要先启用MgC Agent。单击“选择并启用迁移中心Agent”按钮,在弹窗的下拉列表中,选择与迁移中心连接成功的MgC Agent。
注意:
在进行大数据校验时,请确保MgC Agent一直处于在线并启用状态。
- 在功能入口区域,单击“迁移准备”,进入迁移准备页面。
- 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。
图3 创建连接
- 连接类型选择“HBase”,单击“下一步”。
- 根据表1,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。
表1 HBase连接参数配置说明 参数
配置说明
所属源
选择源端。
连接名称
默认创建名称为“HBase-4位随机数(字母和数字)”,也可以自定义名称。
迁移中心Agent
选择步骤5.与MgC建立连接的MgC Agent。
HBase凭证
选择步骤6.在MgC Agent添加的源端MRS HBase凭证。
安全集群
选择是否部署在安全集群下。
Zookeeper节点IP
填写连接到Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeepeer连接端口
填写连接到Zookeepeer的端口。
HBase 版本
选择HBase的版本。
采集资源使用信息
可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。
须知:使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。
- 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
- 区域:选择需要校验的数据所在区域/项目。
- 项目:选择需要校验的数据所在项目。
- 集群ID:输入需要校验的数据所在集群ID。
- 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息:
- 区域ID:输入需要校验的数据所在区域ID。例如,区域为“华南-广州”,则输入“cn-south-1”
- 项目ID:输入与区域对应的项目ID。
- 集群ID:输入需要校验的数据所在集群ID。
- 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
- 测试连接通过后,单击“确认”按钮,创建云服务连接完成。
- 选择元数据管理,单击创建元数据同步任务按钮,右侧弹出创建任务-元数据同步窗口。
图4 创建元数据同步任务
- 根据元数据同步任务参数配置说明,配置元数据同步任务参数后,单击“确认”按钮,创建元数据同步任务。
表2 元数据同步任务参数配置说明 参数
配置说明
任务名称
默认创建名称为“元数据同步任务-4位随机数(字母和数字)”,也可以自定义名称。
元数据连接
选择步骤12.创建的元数据连接。
数据库(可选)
填写需要进行元数据同步的数据库名称,如果有多个数据库,库名之间用逗号隔开。不填则代表同步全部数据库。
并发线程数
设置采集线程并发数。默认为3,1≤取值范围≤10。增加线程并发数,可以提高同步效率,但会占用更多源端连接和MgC Agent所安装主机的计算资源。
- 在任务管理页签,可以查看已创建的元数据同步任务列表以及参数配置信息。单击操作列的“更多>修改”,可以修改任务参数配置。
图5 元数据同步任务管理
- 单击操作列的“运行任务”,即可触发一次任务执行。每执行一次任务,会生成一条任务实例。
- 单击操作列的“查看实例”,进入任务实例管理页签。可以查看该任务的运行记录,以及每条任务实例的状态和采集结果。当元数据同步任务的实例状态为“已完成”且采集结果有数值时,在库表清单页签可以查看采集到的元数据列表。
图6 任务实例管理
- 在大数据校验页面的功能入口区域,单击“表管理”,进入表管理页面的表组页签。
- 单击“新增表组”,弹出新增表组窗口。根据新增表组参数说明,配置参数后,单击“确认”按钮,创建表组。
表3 新增表组参数说明 参数
说明
表组名
用户自定义
元数据连接
选择步骤12.创建的元数据连接。
注意:表组中的所有表必须来源于同一个元数据来源。
校验标准
选择可以接受的数据差异最大值(即错误容忍度)。MgC提供了多种类型的对数标准可供选择,关于对数标准的详细说明,可以单击新增表组弹窗中的“查看更多”进行查看。
说明(可选)
您可以输入用于区分表组的说明。
- 在表管理页面,选择库表清单页签,勾选要加入同一表组的数据表,单击列表上方的“表组管理 > 批量加入组”,在弹出的修改表组窗口中,选择要加入的表组,单击“确认”。
须知:
如果需要新增数据表,可以通过导入数据表的方式添加,方法请参考导入数据表并加入表组。
- 在功能入口区域,单击“迁移准备”,进入迁移准备页面。
- 选择“连接管理”,单击“创建连接”,右侧弹出新增连接窗口。
图7 创建连接
- 连接类型选择“HBase”,单击“下一步”,进入详细配置页面。
- 根据表4,配置连接参数后,单击“测试连接”按钮,测试通过代表连接成功。
表4 HBase服务参数配置说明 参数
配置说明
所属源
选择目的端。
连接名称
默认创建名称为“HBase-4位随机数(字母和数字)”,也可以自定义名称。
迁移中心Agent
选择步骤5.与MgC建立连接的MgC Agent。
HBase凭证
选择步骤6.在MgC Agent侧添加的目的端MRS HBase凭证。
安全集群
选择是否部署在安全集群下。
Zookeeper节点IP
填写连接到Zookeeper的IP地址。通常是部署Zookeeper的服务器公网IP地址或内网IP地址。
Zookeepeer连接端口
填写连接到Zookeepeer的端口。默认为2181。
HBase 版本
选择HBase的版本。
采集资源使用信息
可选参数。开启后,通过该连接创建的统计任务将收集大数据服务的资源使用信息,这些信息将用于MgC上的报告生成,以便于进行性能优化。
须知:使用该功能,需要MgC Agent添加的华为云账号AK/SK拥有MRS服务和DLI服务的只读权限(ReadOnly)。
- 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
- 区域:选择需要校验的数据所在区域/项目。
- 项目:选择需要校验的数据所在项目。
- 集群ID:输入需要校验的数据所在集群ID。
- 如果所选凭证与登录迁移中心 MgC的账号凭证不同,请手动输入如下参数信息:
- 区域ID:输入需要校验的数据所在区域ID。例如,区域为“华南-广州”,则输入“cn-south-1”
- 项目ID:输入与区域对应的项目ID。
- 集群ID:输入需要校验的数据所在集群ID。
- 如果所选凭证与登录迁移中心 MgC的账号凭证相同,请勾选“所选凭证与登录迁移中心凭证相同”,系统将根据所选的区域,自动查询账号在该区域下的项目。
- 在MgC控制台,分别创建源端和目的端HBase统计任务并执行,方法请参考创建统计任务并执行校验。需要注意任务配置中的表组,选择步骤步骤20.创建的表组。
- 任务类型请选择大数据组件中的“HBase”。
- 统计方式按实际需求选择,各统计方式说明请参见校验方式说明。
- 任务类型请选择大数据组件中的“HBase”。
- 当任务执行完成后(实例状态为“已完成”),在校验结果页面可以查看并导出任务的执行结果,方法请参考查看并导出校验结果。