文档首页> MapReduce服务 MRS> 最佳实践> 数据分析> 使用Spark2x实现车联网车主驾驶行为分析
更新时间:2024-03-21 GMT+08:00

使用Spark2x实现车联网车主驾驶行为分析

本手册基于华为云MapReduce服务实践所编写,用于指导您了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果。

本实践仅适用于MRS 3.1.0版本,请按照指导创建集群。

本实践基本内容如下所示:

  1. 场景描述
  2. 第一步:创建集群
  3. 第二步:准备Spark样例程序和样例数据
  4. 第三步:创建作业
  5. 第四步:查看作业执行结果

场景描述

本次实践的原始数据为车主的驾驶行为信息,包括车主在日常的驾驶行为中,是否急加速、急减速、空挡滑行、超速、疲劳驾驶等信息。通过Spark2x组件的强大的分析能力,分析统计指定时间段内,车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违法行为的次数。

创建集群

  1. 进入购买MRS集群页面
  2. 选择“自定义购买”

    参见表1配置集群软件信息。
    表1 软件配置

    参数名称

    配置方式

    区域

    选择“中国-香港”

    说明:

    本指导以“中国-香港”为例进行介绍,如果您需要选择其他区域进行操作,请确保所有操作均在同一区域进行。

    计费模式

    按需计费

    集群名称

    mrs_demo

    集群类型

    选择“分析集群”,用来做离线数据分析

    版本类型

    选择“普通版”

    集群版本

    选择“MRS 3.1.0”

    说明:

    本实践仅适用于MRS 3.1.0版本。

    组件选择

    勾选所有组件

    元数据

    选择“本地元数据”

    图1 自定义购买-软件配置

  3. 单击“下一步”配置硬件信息。

    参见表2配置集群硬件信息。
    表2 硬件配置

    参数名称

    配置方式

    可用区

    可用区2

    企业项目

    选择“default”。

    虚拟私有云

    选择需要创建集群的VPC,单击“查看虚拟私有云”进入VPC服务查看已创建的VPC名称和ID。如果没有VPC,需要创建一个新的VPC。

    子网

    选择需要创建集群的子网,可进入VPC服务查看VPC下已创建的子网名称和ID。如果VPC下未创建子网,请单击“创建子网”进行创建。

    安全组

    选择“自动创建”。

    弹性公网IP

    选择“暂不绑定”。

    集群节点

    保持默认值。

    图2 自定义购买-硬件配置

  4. 单击“下一步”,高级配置页签参考表3配置以下信息,其他选项保持默认值。

    表3 高级配置

    参数名称

    配置方式

    Kerberos认证

    关闭Kerberos认证。

    用户名

    Manager管理员用户,目前默认为admin用户。

    密码

    配置Manager管理员用户的密码。

    确认密码

    再次输入Manager管理员用户的密码。

    登录方式

    选择“密码”。

    用户名

    用于登录弹性云服务器的用户,目前默认为root用户。

    密码

    配置登录ECS的用户密码。

    确认密码

    再次输入登录ECS的用户密码。

    图3 自定义购买-高级配置

  5. 单击“下一步”,在“确认配置”页面检查配置集群信息,如需调整配置,可单击,跳转到对应页签后重新设置参数。
  6. 勾选通信安全授权后,单击“立即购买”,进入任务提交成功页面。
  7. 单击“返回集群列表”,可以查看到集群创建的状态。

    集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运行中”,请您耐心等待。

准备Spark2x样例程序和样例数据

  1. 创建OBS并行文件系统,用于存放Spark样例程序、样例数据、作业执行结果和日志。

    1. 登录华为云管理控制台。
    2. “服务列表”中,选择存储 > 对象存储服务
    3. 单击“并行文件系统 > 创建并行文件系统”,创建一个名称为“obs-demo-analysis-hwt4”的文件系统。策略等参数保持默认值。
      图4 创建并行文件系统

  2. 单击文件系统名称。选择左侧导航栏“文件”,在“文件”页签下单击“新建文件夹”,分别新建program、input文件夹,如图5所示。

    图5 新建文件夹

  3. https://mrs-obs-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/mrs-demon-samples/demon/driver_behavior.jar路径下载样例程序driver_behavior.jar至本地。
  4. 进入“program”文件夹,单击“上传文件”,选择本地存放的driver_behavior.jar样例程序。
  5. 单击“上传”,上传样例程序到OBS桶。
  6. https://mrs-obs-ap-southeast-1.obs.ap-southeast-1.myhuaweicloud.com/mrs-demon-samples/demon/detail-records.zip获取Spark样例数据到本地。
  7. 将下载的“detail-records.zip”解压,获取图6所示的样例数据。

    图6 样例数据

  8. 进入“input”文件夹,单击“上传文件”,选择本地存放的Spark样例数据。单击“上传”,上传样例数据到OBS文件系统。

    上传7解压后的数据至“input”文件夹下,上传后如下图所示:

创建作业

  1. 在MRS控制台左侧导航栏选择集群列表 > 现有集群,单击名称为“mrs_demo”的集群。
  2. 在集群信息页面选择“作业管理”页签,单击“添加”,进入添加作业页面。

    图7 添加作业

  3. 图8完成作业参数配置。

    表4 配置作业信息

    参数名称

    配置方法

    作业类型

    选择“SparkSubmit”。

    作业名称

    输入“driver_behavior_task”。

    执行程序路径

    单击“OBS”,选择准备Spark2x样例程序和样例数据中上传的名称为driver_behavior.jar的jar包。

    运行程序参数

    参数选择“--class”,值输入“com.huawei.bigdata.spark.examples.DriverBehavior”。

    执行程序参数

    输入“AK SK 1 输入路径 输出路径”。

    • AK/SK请参考说明方式获取。
    • 1为固定输入,用于指定作业执行时调用的程序函数。
    • 输入路径可通过单击“OBS”进行选择输入路径。
    • 输出路径请手动输入一个不存在的目录,例如obs://obs-demo-analysis-hwt4/output/。
    说明:

    AK/SK,请通过如下方式获取。

    1. 登录华为云管理控制台。
    2. 单击右上角的用户名,然后选择“我的凭证”。
    3. 系统跳转至“我的凭证”页面,单击“访问密钥”。
    4. 单击“新增访问密钥”申请新密钥,按照提示输入密码与验证码之后,浏览器自动下载一个“credentials.csv”文件,文件为csv格式,以英文逗号分隔,中间的为AK,最后一个为SK。

    服务配置参数

    保持默认不配置。

    图8 添加作业

  4. 单击“确定”,开始提交作业,执行程序。

查看作业执行结果

  1. 进入“作业管理”页面,查看作业执行状态。

    图9 作业执行状态

  2. 等待1~2分钟,登录OBS控制台,进入obs-demo-analysis-hwt4文件系统的output目录中,查看执行结果,在生成的csv文件所在行的“操作”列单击“下载”按钮将该文件下载到本地。

    图10 下载作业执行结果

  3. 在本地将下载后的csv文件使用Excel文本打开,按照样例程序中定义的字段为每列数据进行分类,得到如下图所示作业执行结果。

    图11 执行结果