更新时间:2024-12-11 GMT+08:00

配置在Spark对接MemArtsCC

操作场景

本章节介绍在存算分离场景下如何配置Spark任务中集成MemArtsCC缓存,MemArtsCC会在将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Spark的数据读取效率。

前提条件

修改Spark配置

  1. 登录FusionInsight Manager,选择“集群 > 服务 > Spark > 配置 > 全部配置 > SparkResource(角色) > OBS”。
  2. 在参数“fs.obs.readahead.policy”中配置参数值为“memArtsCC”。
  3. 单击“保存”,在弹窗页面中单击“确定”,保存配置。
  4. 单击“实例”,勾选“SparkResource”,选择“更多 > 滚动重启实例”,重启SparkResource实例。
  5. 重新下载安装Spark服务客户端,或者更新已有客户端配置,具体参考使用MRS客户端

验证配置结果

  1. 登录FusionInsight Manager,选择“集群 > 服务 > MemArtsCC > 图表 > 容量”。
  2. 查看图表“集群shard数量” 并记录shard数。
  3. 登录Spark客户端节点,创建一个Location为OBS的表并进行查询,具体请参考配置Spark通过Guardian访问OBS
  4. 重新执行1~2,查看“集群shard数量”,shard数量较2上升,表示对接成功。