更新时间:2024-06-11 GMT+08:00

MRS数据源使用概述

MRS集群简介

MapReduce服务(MapReduce Service,简称MRS)是一个基于开源Hadoop生态环境而运行的大数据集群,对外提供大容量数据的存储和分析能力,可解决用户的数据存储和处理需求。有关MRS服务的详细信息,请参考《MapReduce服务用户指南》

用户可以将海量业务数据,存储在MRS的分析集群,即使用Hive/Spark组件保存。Hive/Spark的数据文件则保存在HDFS中。GaussDB(DWS)支持在相同网络中,配置一个GaussDB(DWS)集群连接到MRS集群,然后将数据从HDFS中的文件读取到GaussDB(DWS)。

使用流程

从MRS导入数据到集群流程如下:

  1. 前提条件
    1. 在GaussDB(DWS)集群创建一个MRS集群,具体操作步骤请参见《MapReduce服务用户指南》“购买自定义集群”章节。
    2. 创建一个HDFS外表,外表通过外部服务器的接口,从MRS集群查询数据。

      具体操作步骤请参见《数据仓库服务数据库开发指南》“导入数据 > 从MRS导入数据到集群”章节。

      • 同一个网络下可以有多个MRS数据源, 但是GaussDB(DWS)集群每次只能和一个MRS集群建立连接。
  2. 在GaussDB(DWS) 集群创建一个MRS数据源连接,具体操作步骤请参见创建MRS数据源连接
  3. 使用MRS数据源导入数据到集群,具体操作步骤请参见《数据仓库服务数据库开发指南》中的“导入数据 > 从MRS导入数据到集群”章节。
  4. (可选)当MRS集群的HDFS配置发生变更时,在GaussDB(DWS)服务中,需要执行MRS数据源配置的更新操作,详情请参见更新MRS数据源配置