MRS MapReduce
功能
通过MRS MapReduce节点实现在MRS中执行预先定义的MapReduce程序。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。在MapReduce程序中计算的数据可以来自多个数据源,最常用的是HDFS,利用HDFS的高吞吐性能读取大规模的数据进行计算,同时在计算完成后,也可以将数据存储到HDFS。
参数
用户可参考表1和表2配置MRS MapReduce节点的参数。
参数 |
是否必选 |
说明 |
---|---|---|
节点名称 |
是 |
节点名称,可以包含中文、英文字母、数字、“_”、“-”、“/”、“<”、“>”等各类特殊字符,长度为1~128个字符。 |
MRS集群名 |
是 |
选择MRS集群。
如需新建集群,请参考以下方法:
|
MapReduce作业名称 |
是 |
MRS作业名称,只能由英文字母、数字、中划线和下划线组成,长度不能超过64个字符。
说明:
作业名称不得包含中文字符、超出长度限制等。如果作业名称不符合规则,将导致提交MRS作业失败。 |
Jar包资源 |
是 |
选择Jar包。在选择Jar包之前,您需要先将Jar包上传至OBS桶中,并在“资源管理”页面中新建资源将Jar包添加到资源管理列表中,具体操作请参考新建资源。
说明:
如果管理中心数据连接配置的是MRS租户面连接,MRS认证类型为keytab认证类型,在跨region或跨云场景下,Jar包资源不支持设置obs jar。由于DataArts Studio与MRS不是对接同一个OBS时,DataArts Studio传递过去的OBS域名,MRS无法访问识别,导致访问OBS报错域名无法访问。 |
Jar包参数 |
否 |
Jar包的参数。您可以根据实际业务需要输入Jar包参数。 |
输入数据路径 |
否 |
选择输入数据所在的路径。 |
输出数据路径 |
否 |
选择输出数据存储的路径。 |
参数 |
是否必选 |
说明 |
---|---|---|
节点状态轮询时间(秒) |
是 |
设置轮询时间(1~60秒),每隔x秒查询一次节点是否执行完成。 |
节点执行的最长时间 |
是 |
设置节点执行的超时时间,如果节点配置了重试,在超时时间内未执行完成,该节点将会再次重试。 |
失败重试 |
是 |
节点执行失败后,是否重新执行节点。
|
当前节点失败后,后续节点处理策略 |
是 |
节点执行失败后的操作:
|
是否空跑 |
否 |
如果勾选了空跑,该节点不会实际执行,将直接返回成功。 |
任务组 |
否 |
选择任务组。任务组配置好后,可以更细粒度地进行当前任务组中的作业节点的并发数控制,比如作业中包含多个节点、补数据、重跑等场景。 |