MRS数据源使用概述
MRS集群简介
MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》。
用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。Hive/Spark的数据文件则保存在HDFS中。GaussDB(DWS) 支持在相同网络中,配置一个GaussDB(DWS) 集群连接到MRS集群,然后将数据从HDFS中的文件读取到GaussDB(DWS) 。
实时数仓(单机部署)暂不支持从MRS导入数据。
使用流程
从MRS导入数据到集群流程如下:
- 前提条件
- 创建一个MRS集群,具体操作步骤请参见购买自定义集群。
- 创建一个HDFS外表,外表通过外部服务器的接口,从MRS集群查询数据。
具体操作步骤请参见《数据仓库服务数据迁移与同步》中从MRS导入数据到集群章节。
- 同一个网络下可以有多个MRS数据源, 但是GaussDB(DWS)集群每次只能和一个MRS集群建立连接。
- 在GaussDB(DWS) 集群创建一个MRS数据源连接,具体操作步骤请参见创建MRS数据源连接。
- 使用MRS数据源导入数据到集群,具体操作请参见使用MRS数据源。
- (可选)当MRS集群的HDFS配置发生变更时,在GaussDB(DWS)服务中,需要执行MRS数据源配置的更新操作,详情请参见更新MRS数据源配置。