配置Spark对接MemArtsStore

操作场景

本章节介绍如何配置Spark任务中集成MemArtsStore。使用MemArtsStore存储Shuffle Data后，大数据应用不再依赖带本地盘的机型。其次，MemArtsStore提供多副本机制保证Shuffle Data的高可用性，单个节点故障不会导致Shuffle Data丢失。最后，MemArtsStore内部会对相同Partition的数据进行聚合，从而消除小IO问题，提升Shuffle性能。

前提条件

集群已安装Spark，且Spark功能正常。

操作步骤

修改SparkResource配置

登录FusionInsight Manager，选择“集群 > 服务 > Spark > 配置 > 全部配置 > SparkResource（角色） > MemArtsStore”。
在参数“spark.shuffle.manager”选择“org.apache.spark.shuffle.mass.MassShuffleManager”。
单击“保存”，在弹窗页面中单击“确定”，保存配置。
单击“实例”，勾选“SparkResource”，选择“更多 > 滚动重启实例”，重启SparkResource实例。
重新下载安装Spark服务客户端，或者更新已有客户端配置，具体参考使用MRS客户端。

修改Spark JDBCServer配置

登录FusionInsight Manager，选择“集群 > 服务 > Spark > 配置 > 全部配置 > JDBCServer（角色） > MemArtsStore”。
在参数“spark.shuffle.manager”选择“org.apache.spark.shuffle.mass.MassShuffleManager”。
单击“保存”，在弹窗页面中单击“确定”，保存配置。
单击“实例”，勾选“JDBCServer”，选择“更多 > 滚动重启实例”，重启JDBCServer实例。
重新下载安装Spark服务客户端，或者更新已有客户端配置，具体参考使用MRS客户端。

验证配置结果

登录Spark客户端节点，进入客户端目录，执行以下命令（普通模式无需执行用户认证）：
```
cd {客户端安装目录}
```
```
source bigdata_env
```
```
source Spark/component_env
```
```
kinit <用于认证的业务用户>
```

进入spark-sql客户端：

cd ./Spark/spark/bin

spark-sql --master yarn

提交一个SQL作业：

create table test1(name string, num int);
insert into test1 values("a",1),("b",2),("c",3);
select name,count(1) from test1 group by name;

登录FusionInsight Manager，选择“集群 > 服务 > MemArtsStore > 概览”。
查看图表“Store集群总计每秒写入次数”，在SQL作业运行期间该图表数据有波动，表示对接成功。

父主题： 使用MemArtsStore

上一篇：使用MemArtsStore

下一篇：MemArtsStore日志介绍

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问