切换产品类型

您可以点击下拉框切换本产品的不同产品类型,帮助您更高效地阅读文档。

计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
弹性伸缩 AS
镜像服务 IMS
专属主机 DeH
函数工作流 FunctionGraph
云手机服务器 CPH
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
虚拟专用网络 VPN
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
VPC终端节点 VPCEP
云连接 CC
企业路由器 ER
企业交换机 ESW
全球加速 GA
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
边缘安全 EdgeSec
态势感知 SA
威胁检测服务 MTD
CDN与智能边缘
内容分发网络 CDN
CloudPond云服务
智能边缘云 IEC
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
云搜索服务 CSS
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
数据可视化 DLV
数据湖工厂 DLF
湖仓构建 LakeFormation
企业应用
云桌面 Workspace
应用与数据集成平台 ROMA Connect
云解析服务 DNS
专属云
专属计算集群 DCC
IoT物联网
IoT物联网
设备接入 IoTDA
智能边缘平台 IEF
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
国际站常见问题
ICP备案
我的凭证
支持计划
客户运营能力
合作伙伴支持计划
专业服务
区块链
区块链服务 BCS
Web3节点引擎服务 NES
解决方案
SAP
高性能计算 HPC
视频
视频直播 Live
视频点播 VOD
媒体处理 MPC
实时音视频 SparkRTC
数字内容生产线 MetaStudio
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
存储容灾服务 SDRS
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
专属分布式存储服务 DSS
容器
云容器引擎 CCE
容器镜像服务 SWR
应用服务网格 ASM
华为云UCS
云容器实例 CCI
管理与监管
云监控服务 CES
统一身份认证服务 IAM
资源编排服务 RFS
云审计服务 CTS
标签管理服务 TMS
云日志服务 LTS
配置审计 Config
资源访问管理 RAM
消息通知服务 SMN
应用运维管理 AOM
应用性能管理 APM
组织 Organizations
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
应用身份管理服务 OneAccess
数据库
云数据库 RDS
文档数据库服务 DDS
数据管理服务 DAS
数据复制服务 DRS
云数据库 GeminiDB
云数据库 GaussDB
分布式数据库中间件 DDM
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
人脸识别服务 FRS
图引擎服务 GES
图像识别 Image
内容审核 Moderation
文字识别 OCR
AI开发平台ModelArts
图像搜索 ImageSearch
对话机器人服务 CBS
华为HiLens
视频智能分析服务 VIAS
语音交互服务 SIS
应用中间件
分布式缓存服务 DCS
API网关 APIG
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
多活高可用服务 MAS
事件网格 EG
企业协同
华为云会议 Meeting
云通信
消息&短信 MSGSMS
云生态
合作伙伴中心
云商店
开发者工具
SDK开发指南
API签名指南
Terraform
华为云命令行工具服务 KooCLI
其他
产品价格详情
系统权限
管理控制台
客户关联华为云合作伙伴须知
消息中心
公共问题
开发与运维
应用管理与运维平台 ServiceStage
软件开发生产线 CodeArts
需求管理 CodeArts Req
部署 CodeArts Deploy
性能测试 CodeArts PerfTest
编译构建 CodeArts Build
流水线 CodeArts Pipeline
制品仓库 CodeArts Artifact
测试计划 CodeArts TestPlan
代码检查 CodeArts Check
代码托管 CodeArts Repo
云应用引擎 CAE
开天aPaaS
云消息服务 KooMessage
云手机服务 KooPhone
云空间服务 KooDrive

安装Spark

更新时间:2025-01-08 GMT+08:00

前提条件

您需要准备一台可访问公网的Linux机器,节点规格建议为4U8G及以上。

配置JDK

以CentOS系统为例,安装JDK 1.8。

  1. 查询可用的JDK版本。

    yum -y list java*

  2. 选择安装JDK 1.8。

    yum install -y java-1.8.0-openjdk java-1.8.0-openjdk-devel

  3. 安装完成后,查看JDK版本。

    # java -version
    openjdk version "1.8.0_382"
    OpenJDK Runtime Environment (build 1.8.0_382-b05)
    OpenJDK 64-Bit Server VM (build 25.382-b05, mixed mode)

  4. 添加环境变量。

    1. Linux环境变量配置在/etc/profile文件中。
      vim /etc/profile
    2. 在编辑模式下,在文件最后添加如下内容:
      JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.382.b05-1.el7_9.x86_64
      PATH=$PATH:$JAVA_HOME/bin
      CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 
      export JAVA_HOME  PATH  CLASSPATH
    3. 保存并关闭profile文件,执行如下命令使其生效。
      source /etc/profile
    4. 查看JDK环境变量。
      echo $JAVA_HOME
      echo $PATH
      echo $CLASSPATH

获取Spark包

由于OBS适配hadoop2.8.3和3.1.1版本,本文使用3.1.1。

  1. 下载v3.1.1版本的Spark。如环境中未安装git,您需要先执行yum install git安装git。

    git clone -b v3.1.1 https://github.com/apache/spark.git

  2. 修改/dev/make-distribution.sh文件,指定Spark版本,目的是为了让编译的时候跳过检测。

    1. 使用搜索找到 VERSION 所在行,查看版本号所在行数。
      cat ./spark/dev/make-distribution.sh |grep -n '^VERSION=' -A18
    2. 显示129行到147行,将这些内容注释,并指定版本。
      sed -i '129,147s/^/#/g' ./spark/dev/make-distribution.sh
      sed -i '148a VERSION=3.1.3\nSCALA_VERSION=2.12\nSPARK_HADOOP_VERSION=3.1.1\nSPARK_HIVE=1' ./spark/dev/make-distribution.sh

  3. 下载依赖包。

    wget https://archive.apache.org/dist//maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz
    tar -zxvf apache-maven-3.6.3-bin.tar.gz && mv apache-maven-3.6.3 ./spark/build 

  4. 执行如下命令进行编译。

    ./spark/dev/make-distribution.sh --name hadoop3.1 --tgz -Pkubernetes -Pyarn -Dhadoop.version=3.1.1

  5. 编译可能需要一定时间,请耐心等待。编译完成后,软件包名称为spark-3.1.3-bin-hadoop3.1.tgz。

配置Spark运行环境

为了操作简便,使用root用户,并将编译出的软件包spark-3.1.3-bin-hadoop3.1.tgz放置于操作节点/root目录下。

  1. 将软件包移动至/root目录。

    mv ./spark/spark-3.1.3-bin-hadoop3.1.tgz /root

  2. 执行命令安装Spark。

    tar -zxvf spark-3.1.3-bin-hadoop3.1.tgz
    mv spark-3.1.3-bin-hadoop3.1 spark-obs
    cat >> ~/.bashrc <<EOF
    PATH=/root/spark-obs/bin:\$PATH
    PATH=/root/spark-obs/sbin:\$PATH
    export SPARK_HOME=/root/spark-obs
    EOF
    
    source ~/.bashrc

  3. 此时已经可以使用spark-submit等二进制,执行以下命令查看所用的Spark版本。

    spark-submit --version

配置Spark对接OBS

  1. 获取华为云OBS jar包。本文使用hadoop-huaweicloud-3.1.1-hw-45.jar,获取地址:https://github.com/huaweicloud/obsa-hdfs/tree/master/release

    wget https://github.com/huaweicloud/obsa-hdfs/releases/download/v45/hadoop-huaweicloud-3.1.1-hw-45.jar

  2. 复制华为云OBS jar包到相应目录。

    cp hadoop-huaweicloud-3.1.1-hw-45.jar /root/spark-obs/jars/

  3. 修改Spark配置项。为了对接OBS,需要为Spark添加对应的配置项。

    1. 获取AK/SK,详情请参见访问密钥
    2. 修改AK_OF_YOUR_ACCOUNT / SK_OF_YOUR_ACCOUNT / OBS_ENDPOINT为实际值。
      • AK_OF_YOUR_ACCOUNT:上一步中获取的AK。
      • SK_OF_YOUR_ACCOUNT:上一步中获取的SK。
      • OBS_ENDPOINT:OBS的Endpoint,可前往地区和终端节点查询。
      cp ~/spark-obs/conf/spark-defaults.conf.template ~/spark-obs/conf/spark-defaults.conf
      
      cat >> ~/spark-obs/conf/spark-defaults.conf <<EOF
      spark.hadoop.fs.obs.readahead.inputstream.enabled=true
      spark.hadoop.fs.obs.buffer.max.range=6291456
      spark.hadoop.fs.obs.buffer.part.size=2097152
      spark.hadoop.fs.obs.threads.read.core=500
      spark.hadoop.fs.obs.threads.read.max=1000
      spark.hadoop.fs.obs.write.buffer.size=8192
      spark.hadoop.fs.obs.read.buffer.size=8192
      spark.hadoop.fs.obs.connection.maximum=1000
      spark.hadoop.fs.obs.access.key=AK_OF_YOUR_ACCOUNT
      spark.hadoop.fs.obs.secret.key=SK_OF_YOUR_ACCOUNT
      spark.hadoop.fs.obs.endpoint=OBS_ENDPOINT
      spark.hadoop.fs.obs.buffer.dir=/root/hadoop-obs/obs-cache
      spark.hadoop.fs.obs.impl=org.apache.hadoop.fs.obs.OBSFileSystem
      spark.hadoop.fs.obs.connection.ssl.enabled=false
      spark.hadoop.fs.obs.fast.upload=true
      spark.hadoop.fs.obs.socket.send.buffer=65536
      spark.hadoop.fs.obs.socket.recv.buffer=65536
      spark.hadoop.fs.obs.max.total.tasks=20
      spark.hadoop.fs.obs.threads.max=20
      spark.kubernetes.container.image.pullSecrets=default-secret
      EOF

预置镜像到SWR

在K8s内运行Spark任务,需要构建相同版本的Spark容器镜像,并将其上传到SWR。在编译Spark时,会自动生成配套的Dockerfile文件,您可通过此文件制作镜像并上传至SWR。

  1. 制作镜像。

    cd ~/spark-obs
    docker build -t spark:3.1.3-obs --build-arg spark_uid=0 -f kubernetes/dockerfiles/spark/Dockerfile .

  2. 上传镜像。

    1. (可选)登录SWR管理控制台,选择左侧导航栏的“组织管理”,单击页面右上角的“创建组织”,创建一个组织。

      如已有组织可跳过此步骤。

    2. 在左侧导航栏选择“我的镜像”,单击右侧“客户端上传”,在弹出的页面中单击“生成临时登录指令”,单击复制登录指令。
    3. 在集群节点上执行上一步复制的登录指令,登录成功会显示“Login Succeeded”。
    4. 登录制作镜像的节点,复制登录指令。
      docker tag [{镜像名称}:{版本名称}] swr.ap-southeast-1.myhuaweicloud.com/{组织名称}/{镜像名称}:{版本名称}
      docker push swr.ap-southeast-1.myhuaweicloud.com/{组织名称}/{镜像名称}:{版本名称}

      记录下镜像的访问地址以供后文填写。

      例如记录下地址为:swr.ap-southeast-1.myhuaweicloud.com/dev-container/spark:3.1.3-obs

配置Spark History Server

  1. 修改~/spark-obs/conf/spark-defaults.conf文件,开启Spark事件日志记录,并配置OBS桶名称及目录。

    cat >> ~/spark-obs/conf/spark-defaults.conf <<EOF
    spark.eventLog.enabled=true
    spark.eventLog.dir=obs://{bucket-name}/{log-dir}/
    EOF
    • spark.eventLog.enabled:设置为true,表示开启Spark事件日志记录。
    • spark.eventLog.dir:OBS桶名称及路径,格式为obs://{bucket-name}/{log-dir}/,例如obs://spark-sh1/history-obs/。请务必修改OBS桶名称及目录为正确值。

  2. 修改~/spark-obs/conf/spark-env.sh文件,如果该文件不存在,使用命令复制模板为文件。

    cp ~/spark-obs/conf/spark-env.sh.template ~/spark-obs/conf/spark-env.sh
    
    cat >> ~/spark-obs/conf/spark-env.sh <<EOF
    SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=obs://{bucket-name}/{log-dir}/"
    EOF

    此处的OBS地址需要与上一步spark-default.conf中的一致。

  3. 直接启动history server。

    start-history-server.sh

    回显如下:

    starting org.apache.spark.deploy.history.HistoryServer, logging to /root/spark-obs/logs/spark-root-org.apache.spark.deploy.history.HistoryServer-1-spark-sh1.out

  4. 启动后可以通过节点端口18080访问。

    如需关闭history server,可执行以下脚本:

    stop-history-server.sh

我们使用cookie来确保您的高速浏览体验。继续浏览本站,即表示您同意我们使用cookie。 详情

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容