MRS存算分离配置流程说明
MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,从而实现按需灵活扩展资源、低成本的海量数据分析方案。
- 大数据存算分离场景,请务必使用OBS并行文件系统(并行文件系统),使用普通对象桶会对集群性能产生较大影响。
- 当集群已对接了OBS(存算分离或者冷热分离场景),若需要删除组件或者MRS集群,需要在删除组件或者集群后,手工将OBS上相关的业务数据进行删除。
- MRS集群配置存算分离后,组件可以对接访问OBS文件系统,同时也可以继续访问集群内的HDFS文件系统,具体请参考配置MRS集群通过IAM委托对接OBS。
存算分离功能使用流程:
- 配置存算分离集群。
请选择如下其中一种配置即可(推荐使用委托方式)。
- 通过为MRS集群绑定ECS委托方式访问OBS,避免了AK/SK直接暴露在配置文件中的风险,具体请参考配置MRS集群通过IAM委托对接OBS。
- 在MRS集群中配置AK/SK,AK/SK会明文暴露在配置文件中,请谨慎使用,具体请参考MRS集群客户端如何通过AK/SK信息对接OBS。
- MRS通过集群内的Guardian组件对接OBS,为其他组件提供获取访问OBS的临时认证凭据、细粒度权限控制的能力,操作流程请参见基于Guardian服务的存算分离配置流程,详细操作配置请参考配置Guardian服务对接OBS。
- 目前仅MRS 3.3.0-LTS及之后的版本支持基于Guardian组件对接OBS,其他版本集群请参考集群服务对接OBS示例相关章节进行配置。
- 基于Guardian存算分离管理面作业提交依赖JobGateway模式,不支持Executor模式。
- 使用存算分离集群。
在具备OBS资源的访问权限后,MRS集群内相关组件可通过客户端访问对应文件资源。
各组件访问OBS配置说明可参考如下内容:
基于Guardian服务的存算分离配置流程
- 创建MRS集群。
MRS集群内需包含Guardian、Ranger、Hadoop等基础组件。
目前仅MRS 3.3.0-LTS及之后的版本支持基于Guardian组件对接OBS。
- 创建OBS委托。
- 开启Guardian组件对接OBS开关并配置组件。
- 配置组件数据回收站目录的清理策略。
在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。
- 组件对接OBS。
- 在具备OBS资源的访问权限后,MRS集群内组件可直接访问对应路径。用户可以通过组件客户端以绝对路径方式直接访问OBS文件系统下的资源。
基于Guardian服务的OBS权限配置说明
基于Guardian服务的存算分离场景下,对于开启了Ranger鉴权的MRS集群,Ranger管理员可以通过Ranger为集群用户配置OBS目录或文件的读、写权限。
同时,基于Guardian权限模型存算分离,依赖Hive级联授权功能,实现用户基于Ranger对业务表授权,自动细粒度关联OBS对应存储目录的权限,无需二次授权,即用户只需在Ranger页面上对业务表进行一次授权,系统就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。
- Ranger页面OBS授权对象只能针对Manager中自定义的用户组,内置用户组不支持,用户组仅由数字0~9、字母a~Z、下划线或#组成,且最大长度为52个字符,否则将导致策略添加失败。
- 启用Kerberos认证的集群需要基于Ranger赋权,未启用Kerberos认证的集群默认拥有OBS权限,无需额外配置。
- 如果当前集群未启用Kerberos认证,访问OBS的用户,需要属于supergroup组。