文档首页/ 对象存储服务 OBS/ 最佳实践/ 大数据场景下使用OBS实现存算分离/ 对接大数据组件/ Spark对接OBS

更新时间：2025-12-11 GMT+08:00

查看PDF

Spark对接OBS

概述

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。

前提条件

已安装Hadoop，具体请参见Hadoop对接OBS。

注意事项

为了减少日志输出，在/opt/spark-2.3.3/conf/log4j.properties文件中增加配置：

log4j.logger.com.obs= ERROR

对接步骤

以Spark2.3.3为例。

下载spark-2.3.3-bin-without-hadoop.tgz，并解压到/opt/spark-2.3.3。

在/etc/profile文件中增加配置内容：

export SPARK_HOME=/opt/spark-2.3.3
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

配置spark。
1. 重命名/opt/spark-2.3.3/conf/spark-env.sh.template为spark-env.sh并增加配置：
```
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
```
  更多配置内容请参见Apache Hadoop。
2. 重命名/opt/spark-2.3.3/conf/log4j.properties.template为log4j.properties。
执行以下命令，验证是否对接成功。

$SPARK_HOME/bin/run-example org.apache.spark.examples.JavaWordCount obs://obs-bucket/input/test.txt

父主题：对接大数据组件

上一篇：Hive对接OBS

下一篇：Presto对接OBS

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问