从零开始使用Spark
本章节提供从零开始使用Spark提交sparkPi作业的操作指导,sparkPi是最经典的Spark作业,它用来计算Pi(π)值。
操作步骤
- 准备sparkPi程序。
开源的Spark的样例程序包含多个例子,其中包含sparkPi。可以从https://archive.apache.org/dist/spark/spark-2.1.0/spark-2.1.0-bin-hadoop2.7.tgz中下载Spark的样例程序。
解压后在“spark-2.1.0-bin-hadoop2.7/examples/jars”路径下获取“spark-examples_2.11-2.1.0.jar”,即为Spark的样例程序。spark-examples_2.11-2.1.0.jar样例程序包含sparkPi程序。
- 上传数据至OBS。
- 登录MRS控制台,在左侧导航栏选择 ,单击集群名称。
- 提交sparkPi作业。
在MRS控制台选择“作业管理”,单击“添加”,进入“添加作业”页面,具体请参见运行Spark作业。图2 sparkPi作业
- 作业类型选择“SparkSubmit”。
- 作业名称为“sparkPi”。
- 执行程序路径配置为OBS上存放程序的地址。例如:obs://sparkpi/program/spark-examples_2.11-2.1.0.jar。
- 运行程序参数选择“--class”,值填写“org.apache.spark.examples.SparkPi”。
- 执行程序参数中填写的参数为: 10。
- 服务配置参数无需填写。
只有集群处于“运行中”状态时才能提交作业。
作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。
- 查看作业执行结果。
- 进入“作业管理”页面,查看作业是否执行完成。
作业运行需要时间,作业运行结束后,刷新作业列表。
作业执行成功或失败后都不能再次执行,只能新增作业,配置作业参数后重新提交作业。
- 进入Yarn原生界面,查看作业输出信息。
- 进入“作业管理”页面,单击对应作业所在行“操作”列的“查看详情”,获取“作业实际编号”。
图3 作业实际编号
- 登录Manager页面,选择“服务管理 > Yarn > ResourceManager WebUI > ResourceManager (主)”进入Yarn界面。
- 单击“作业实际编号”对应ID。
图4 Yarn界面
- 单击作业日志中的“Logs”。
图5 sparkPi作业日志
- 单击“here”获取更详细日志。
图6 sparkPi作业更详细日志
- 获取作业执行结果。
图7 sparkPi作业执行结果
- 进入“作业管理”页面,单击对应作业所在行“操作”列的“查看详情”,获取“作业实际编号”。
- 进入“作业管理”页面,查看作业是否执行完成。