迁移CarbonData数据

操作场景

如果用户需要快速从一个集群中将CarbonData的数据迁移到另外一个集群的CarbonData中，可以使用CarbonData的数据备份与恢复命令来完成该任务。使用此方法迁移数据，无需在新集群执行数据导入的过程，可以减少迁移的时间。

前提条件

两个集群已安装Spark2x客户端，例如安装目录为“/opt/ficlient”。假设原始数据所在集群为A，需要迁移到集群B。

操作步骤

使用客户端安装用户登录A集群客户端所在节点。
使用客户端用户执行以下命令，配置环境变量。

source /opt/ficlient/bigdata_env

source /opt/ficlient/Spark2x/component_env
如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。

kinit carbondatauser

carbondatauser需要为原始数据的使用者，即拥有表的读写权限。
执行以下命令连接数据库，并查看表的数据在HDFS保存的位置：

spark-beeline

desc formatted 原始数据的表名称;

查看系统显示的信息中“Location”表示数据文件所在目录。
使用客户端安装用户登录B集群客户端所在节点，并执行以下命令，配置环境变量。

source /opt/ficlient/bigdata_env

source /opt/ficlient/Spark2x/component_env
如果集群为安全模式，执行以下命令进行用户认证。普通模式集群无需执行用户认证。

kinit carbondatauser2

carbondatauser2需要为上传数据的用户。
执行spark-beeline命令连接数据库。
原始数据对应的数据库是否存在？
- 是，执行9。
- 否，需创建一个同名的数据库，然后执行9。
将原始数据从集群A的HDFS目录中，拷贝数据到集群B的HDFS中。

在集群B上传数据时，上传目录中需要存在与原始目录有相同的数据库以及表名目录，且上传用户需要有在此目录写入数据的权限。上传后该用户将拥有数据的读写权限。

例如，原始数据保存在“/user/carboncadauser/warehouse/db1/tb1”，则在新集群中数据可以保存在“/user/carbondatauser2/warehouse/db1/tb1”中。
在集群B的客户端环境执行以下命令，在Hive中生成原始数据对应的表所关联的元数据：

REFRESH TABLE $dbName.$tbName;

$dbName和$tbName分别表示数据对应的数据库名称以及表名称。
如果原表存在索引表，执行9和10，将集群A的索引表目录迁移到集群B。
执行以下命令，为CarbonData表注册索引表（注意，如果原表没有创建索引表，则不需要执行此步骤）：

REGISTER INDEX TABLE $tableName ON $maintable;

$tableName和$maintable分别表示索引表名称和主表名称。

父主题： CarbonData操作指导

上一篇：合并Segments

下一篇：迁移Spark1.5的Carbondata数据到Spark2x的Carbondata中

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消