场景说明

假定Hive的person表存储用户当天消费的金额信息，HBase的table2表存储用户历史消费的金额信息。

现person表有记录name=1,account=100，表示用户1在当天消费金额为100元。

table2表有记录key=1,cf:cid=1000，表示用户1的历史消息记录金额为1000元。

基于某些业务要求，要求开发Spark应用程序实现如下功能：

根据用户名累计用户的历史消费金额，即用户总消费金额=100(用户当天的消费金额) + 1000(用户历史消费金额)。

上例所示，运行结果table2表用户key=1的总消费金额为cf:cid=1100元。

数据规划

在开始开发应用前，需要创建Hive表，命名为person，并插入数据。同时，创建HBase table2表，用于将分析后的数据写入。

将原日志文件放置到HDFS系统中。
1. 在本地新建一个空白的log1.txt文件，并在文件内写入如下内容。
```
1,100
```
2. 在HDFS中新建一个目录/tmp/input，并将log1.txt文件上传至此目录。
  1. 在HDFS客户端，执行如下命令获取安全认证。
    cd /opt/client
    
    kinit -kt '/opt/client/Spark/spark/conf/user.keytab' <用于认证的业务用户>
    
    user.keytab文件位置请根据自己实际路径填写。
  2. 在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input（hdfs dfs命令有同样的作用），创建对应目录。
  3. 在Linux系统HDFS客户端使用命令hadoop fs -put log1.txt /tmp/input，上传数据文件。
将导入的数据放置在Hive表里。

首先，确保ThriftServer已启动。然后使用Beeline工具，创建Hive表，并插入数据。
1. 执行如下命令，创建命名为person的Hive表。
  create table person
  
  (
  
  name STRING,
  
  account INT
  
  )ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ESCAPED BY '\\' STORED AS TEXTFILE;
2. 执行如下命令插入数据。
  load data inpath '/tmp/input/log1.txt' into table person;
创建HBase表。
1. 通过HBase创建名为table2的表，命令如下。
  create 'table2', 'cf'
2. 通过HBase插入数据，执行如下命令。
  put 'table2', '1', 'cf:cid', '1000'
如果开启了kerberos认证，需要将客户端的配置文件“spark-default.conf”和sparkJDBC服务端中的配置项spark.yarn.security.credentials.hbase.enabled置为true。