更新时间:2024-05-11 GMT+08:00
从零开始使用Spark
本章节提供从零开始使用Spark提交sparkPi作业的操作指导,sparkPi是最经典的Spark作业,它用来计算Pi(π)值。
操作步骤
- 准备sparkPi程序。
开源的Spark的样例程序包含多个例子,其中包含sparkPi。可以从https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz中下载Spark的样例程序。
解压后在“spark-2.1.0-bin-hadoop2.7/examples/jars”路径下获取“spark-examples_2.11-2.1.0.jar”,即为Spark的样例程序。spark-examples_2.11-2.1.0.jar样例程序包含sparkPi程序。
- 上传数据至OBS。
- 登录OBS控制台。
- 单击“并行文件系统 > 创建并行文件系统”,创建一个名称为sparkpi的文件系统。
sparkpi仅为示例,文件系统名称必须全局唯一,否则会创建并行文件系统失败。其他参数分别保持默认值。
- 单击sparkpi文件系统名称,并选择“文件”。
- 单击“新建文件夹”,分别创建program文件夹。
- 进入program文件夹,单击上传文件,从本地选择1中下载的程序包,“存储类别”选择“标准存储”。
- 登录MRS控制台,在左侧导航栏选择 ,单击集群名称。
- 提交sparkPi作业。
在MRS控制台选择“作业管理”,单击“添加”,进入“添加作业”页面。
- 作业类型选择“SparkSubmit”。
- 作业名称为“sparkPi”。
- 执行程序路径配置为OBS上存放程序的地址。例如:obs://sparkpi/program/spark-examples_2.11-2.1.0.jar。
- 运行程序参数选择“--class”,值填写“org.apache.spark.examples.SparkPi”。
- 执行程序参数中填写的参数为: 10。
- 服务配置参数无需填写。
只有集群处于“运行中”状态时才能提交作业。
作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。
- 查看作业执行结果。
- 进入“作业管理”页面,查看作业是否执行完成。
作业运行需要时间,作业运行结束后,刷新作业列表。
作业执行成功或失败后都不能再次执行,只能新增作业,配置作业参数后重新提交作业。
- 进入Yarn原生界面,查看作业输出信息。
- 进入“作业管理”页面,单击对应作业所在行“操作”列的“查看详情”,获取“作业实际编号”。
- 登录Manager页面,选择“服务管理 > Yarn > ResourceManager WebUI > ResourceManager (主)”进入Yarn界面。
- 单击“作业实际编号”对应ID。
图1 Yarn界面
- 单击作业日志中的“Logs”。
图2 sparkPi作业日志
- 单击“here”获取更详细日志。
图3 sparkPi作业更详细日志
- 获取作业执行结果。
图4 sparkPi作业执行结果
- 进入“作业管理”页面,查看作业是否执行完成。
父主题: 使用Spark