迁移CarbonData数据

操作场景

如果用户需要快速从一个集群中将CarbonData的数据迁移到另外一个集群的CarbonData中，可以使用CarbonData的数据备份与恢复命令来完成该任务。使用此方法迁移数据，无需在新集群执行数据导入的过程，可以减少迁移的时间。

前提条件

两个集群已安装Spark2x客户端，例如安装目录为“/opt/client”。假设原始数据所在集群为A，需要迁移到集群B。

操作步骤

使用客户端安装用户登录A集群客户端所在节点。
使用客户端用户执行以下命令，配置环境变量。
source /opt/client/bigdata_env

source /opt/client/Spark2x/component_env
如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。
kinit carbondatauser

carbondatauser需要为原始数据的使用者，即拥有表的读写权限。

该用户需要加入hadoop，hive组，主组选择hadoop组，并关联角色System_administrator。
执行以下命令连接数据库，并查看表的数据在HDFS保存的位置：
spark-beeline

desc formatted 原始数据的表名称;

查看系统显示的信息中“Location”表示数据文件所在目录。
使用客户端安装用户登录B集群客户端所在节点，并执行以下命令，配置环境变量。
source /opt/client/bigdata_env

source /opt/client/Spark2x/component_env
如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。
kinit carbondatauser2

carbondatauser2需要为上传数据的用户。

该用户需要加入hadoop，hive组，主组选择hadoop组，并关联角色System_administrator。
执行spark-beeline命令连接数据库。
原始数据对应的数据库是否存在？
- 是，执行9。
- 否，执行命令create database 数据库名称，创建一个同名的数据库，然后执行9。
将原始数据从集群A的HDFS目录中，拷贝数据到集群B的HDFS中。
在集群B上传数据时，上传目录中需要存在与原始目录有相同的数据库以及表名目录，且上传用户需要有在此目录写入数据的权限。上传后该用户将拥有数据的读写权限。

例如，原始数据保存在“/user/carboncadauser/warehouse/db1/tb1”，则在新集群中数据可以保存在“/user/carbondatauser2/warehouse/db1/tb1”中：
1. 下载原始数据到集群A的“/opt/backup”目录下：
  hdfs dfs -get /user/carboncadauser/warehouse/db1/tb1 /opt/backup
2. 拷贝集群A的原始数据到集群B客户端节点的“/opt/backup”目录下：
  scp /opt/backup root@集群B客户端节点IP:/opt/backup
3. 上传拷贝到集群B的数据到HDFS中：
  hdfs dfs -put /opt/backup /user/carbondatauser2/warehouse/db1/tb1
在集群B的客户端环境执行以下命令，在Hive中生成原始数据对应的表所关联的元数据：
REFRESH TABLE $dbName.$tbName;

$dbName和$tbName分别表示数据对应的数据库名称以及表名称。
如果原表存在索引表，执行9和10，将集群A的索引表目录迁移到集群B。
执行以下命令，为CarbonData表注册索引表（注意，如果原表没有创建索引表，则不需要执行此步骤）：
REGISTER INDEX TABLE $tableName ON $maintable;

$tableName和$maintable分别表示索引表名称和主表名称。

父主题： CarbonData操作指导

上一篇：合并Segments

下一篇：迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

迁移CarbonData数据

操作场景

前提条件

操作步骤

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线