更新时间:2025-08-20 GMT+08:00

MRS存算分离概述

MRS支持用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,从而实现按需灵活扩展资源、提供低成本的海量数据分析方案。

MRS存算分离方案介绍

MRS集群中的数据默认存储在本地(如磁盘或HDFS)中,用于进行实时计算、流批处理和交互式分析等操作的数据都是直接从集群本地存储读取,操作完成后再存储到本地中,即存算一体。

由于业务发展与数据不断膨胀,存算一体方案会存在一些问题,例如,本地磁盘资源成本开销大、集群整体的计算资源和存储资源无法均衡变化、Hadoop分布式系统默认使用三副本保存数据会造成磁盘空间和单盘利用率较低。因此MRS服务提供了以对象存储服务OBS为载体的存算分离方案,在大数据存储容量大、计算资源需要弹性扩展的场景下,用户可以将数据存储在OBS分布式并行文件系统中,使用MRS集群仅作数据计算处理,从而实现按需灵活扩展资源、低成本的海量数据分析方案。

图1 MRS存算分离方案

MRS存算分离方案基于对象存储服务OBS的大容量高带宽能力,实现了与Hadoop生态中的多种计算引擎(例如Hive、Spark等)的兼容对接,相比传统企业在本地IDC机房部署大数据业务,MRS存算分离方案具有融合高效、资源利用率高、成本低的特点。

关于HDFS原理介绍请参见HDFS基本原理,关于OBS原理介绍请参见对象存储服务

约束与限制

  • 大数据存算分离场景,请务必使用OBS并行文件系统(并行文件系统),使用普通对象桶会对集群性能产生较大影响。
  • 当集群已对接了OBS(存算分离或者冷热分离场景),若需要删除组件或者MRS集群,需要在删除组件或者集群后,手工将OBS上相关的业务数据进行删除。
  • MRS集群配置存算分离后,组件可以对接访问OBS文件系统,同时也可以继续访问集群内的HDFS文件系统,具体请参考配置MRS集群通过IAM委托对接OBS配置MRS集群通过Guardian对接OBS
  • 基于Guardian存算分离管理面作业提交依赖JobGateway模式,不支持Executor模式。

视频介绍

基于Guardian服务的存算分离配置流程

  1. 创建MRS集群。

    MRS集群内需包含Guardian、Ranger、Hadoop等基础组件。

    目前仅MRS 3.3.0-LTS及之后的版本支持基于Guardian组件对接OBS。

  2. 创建OBS委托。

    用户需要创建1个具有OBS访问权限的委托,用于Guardian组件对接OBS时使用。

  3. 开启Guardian组件对接OBS开关并配置组件。

    修改Guardian服务相关配置参数,配置IAM委托认证信息,为其他组件提供访问OBS的临时认证凭据、细粒度权限控制的能力。

  4. 配置组件数据回收站目录的清理策略。

    在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。

  5. 组件对接OBS。
  6. 在具备OBS资源的访问权限后,MRS集群内组件可直接访问对应路径。用户可以通过组件客户端以绝对路径方式直接访问OBS文件系统下的资源。

基于IAM委托的存算分离配置流程

  1. 创建具有访问OBS权限的ECS委托。

    用户需要创建1个具有访问OBS权限的ECS委托,实现使用ECS自动获取的临时AK/SK来访问OBS。

  2. 创建MRS存算分离集群。
    • 新建存算分离集群

      创建一个MRS集群并绑定ECS委托,根据实际需求添加所需组件,支持通过IAM委托对接OBS的组件包括Hadoop、Hive、Spark、Presto、Flink、Flume、Hudi、Sqoop。

    • 为已有集群配置存算分离功能

      为已有集群绑定ECS委托实现存算分离功能。

  3. 创建OBS文件系统。

    用户需要创建用于存放集群数据的OBS并行文件系统。

  4. 配置组件数据回收站目录的清理策略。

    在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。

  5. 组件对接OBS。
  6. 在具备OBS资源的访问权限后,MRS集群内组件可直接访问对应路径。用户可以通过组件客户端以绝对路径方式直接访问OBS文件系统下的资源。

基于Guardian服务的OBS权限配置说明

基于Guardian服务的存算分离场景下,对于开启了Ranger鉴权的MRS集群,Ranger管理员可以通过Ranger为集群用户配置OBS目录或文件的读、写权限。

同时,基于Guardian权限模型存算分离,可使用Hive级联授权功能,实现用户基于Ranger对业务表授权,自动细粒度关联OBS对应存储目录的权限,无需二次授权,即用户只需在Ranger页面上对业务表进行一次授权,系统就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。

  • 对接OBS后,如需通过Ranger配置组件关于OBS相关路径的权限策略,需确保OBS服务已开启AccessLabel功能,若未开启,需手动开启,详细操作请联系OBS服务运维人员。
  • Ranger页面OBS授权对象只能针对Manager中自定义的用户组,内置用户组不支持,用户组仅由数字0~9、字母a~Z、下划线或#组成,且最大长度为52个字符,否则将导致策略添加失败。
  • 启用Kerberos认证的集群需要基于Ranger赋权,未启用Kerberos认证的集群默认拥有OBS权限,无需额外配置。