MRS作业类型介绍
MRS作业分类
MRS作业是MRS为用户提供的程序执行平台,用于处理和分析用户数据。用户可以在MRS管理控制台中在线创建作业任务,也可以通过集群客户端后台方式提交作业。
MRS作业处理的数据通常来源于OBS或HDFS,用户创建作业前需要将待分析数据上传至OBS系统,MRS使用OBS中的数据进行计算分析。
MRS也支持将OBS中的数据导入至HDFS中,使用HDFS中的数据进行计算分析。数据完成处理和分析后,您可以将数据存储在HDFS中,也可以将集群中的数据导出至OBS系统。HDFS和OBS也支持存储压缩格式的数据,目前支持存储bz2、gz压缩格式的数据。
目前MRS集群支持在线创建如下几种类型的作业:
- MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境,MRS支持提交MapReduce Jar程序。
- Spark:基于内存进行计算的分布式计算框架,MRS支持提交SparkSubmit、Spark Script和Spark SQL作业。
- SparkSubmit:提交Spark Jar和Spark Python程序,运行Spark Application计算和处理用户数据。
- SparkScript:提交SparkScript脚本,批量执行Spark SQL语句。
- Spark SQL:使用Spark提供的类似SQL的Spark SQL语句,实时查询和分析用户数据。
- Hive:建立在Hadoop基础上的开源的数据仓库。MRS支持提交HiveScript脚本和直接执行Hive SQL语句。
- Flink:提供一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算。
- HadoopStreaming:HadoopStreaming作业像普通Hadoop作业一样,除了可以指定输入和输出的HDFS路径的参数外,它还可以指定mapper和reducer的可执行程序。
作业执行权限说明
对于开启Kerberos认证的安全集群,用户在MRS界面提交作业时,要先执行IAM用户同步操作,同步完成后会在MRS系统中产生同IAM用户名的用户。IAM同步用户是否有提交作业权限,取决于IAM同步时,用户所绑定的IAM策略,提交作业策略请参考IAM用户同步MRS集群说明章节中表1。
用户提交作业,如果涉及到具体组件的资源使用,如HDFS的目录访问、Hive表的访问等相关组件的权限时,需由admin(Manager管理员)用户进行授权,给提交作业用户赋予相关组件权限。
- 使用admin用户登录集群Manager界面。
- 参考管理MRS集群角色内容,增加用户具体需要的组件权限的角色。
- 参考管理MRS集群用户组修改提交作业用户所属的用户组,将新增的组件角色加入到该用户组中。
用户所在用户组绑定的组件角色修改后,权限生效需要一定时间,请耐心等待。