Hive JDBC样例程序开发思路
开发思路
- 数据准备。
- 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。
- 雇员信息表“employees_info”的字段为雇员编号、姓名、支付薪水币种、薪水金额、缴税税种、工作地、入职时间,其中支付薪水币种“R”代表人民币,“D”代表美元。
- 雇员联络信息表“employees_contact”的字段为雇员编号、电话号码、e-mail。
- 雇员信息扩展表“employees_info_extended”的字段为雇员编号、姓名、电话号码、e-mail、支付薪水币种、薪水金额、缴税税种、工作地,分区字段为入职时间。
创建表代码实现请见创建Hive表。
- 加载雇员信息数据到雇员信息表“employees_info”中。
加载数据代码实现请见加载数据到Hive表中。
雇员信息数据如表1所示:
表1 雇员信息数据 编号
姓名
支付薪水币种
薪水金额
缴税税种
工作地
入职时间
1
Wang
R
8000.01
personal income tax&0.05
Country1:City1
2014
3
Tom
D
12000.02
personal income tax&0.09
Country2:City2
2014
4
Jack
D
24000.03
personal income tax&0.09
Country3:City3
2014
6
Linda
D
36000.04
personal income tax&0.09
Country4:City4
2014
8
Zhang
R
9000.05
personal income tax&0.05
Country5:City5
2014
- 加载雇员联络信息数据到雇员联络信息表“employees_contact”中。
雇员联络信息数据如表2所示:
- 加载雇员扩展信息数据到雇员联络信息表“employees_info_extended”中。
雇员扩展信息数据如表3所示:
表3 雇员扩展信息数据 编号
姓名
电话号码
e-mail
支付薪水币种
薪水金额
缴税税种
工作地
入职时间
1
Wang
135 XXXX XXXX
xxxx@xx.com
R
8000.01
personal income tax&0.05
Country1:City1
2014
3
Tom
159 XXXX XXXX
xxxxx@xx.com.cn
D
12000.02
personal income tax&0.09
Country2:City2
2014
4
Jack
186 XXXX XXXX
xxxx@xx.org
D
24000.03
personal income tax&0.09
Country3:City3
2014
6
Linda
189 XXXX XXXX
xxxx@xxx.cn
D
36000.04
personal income tax&0.09
Country4:City4
2014
8
Zhang
134 XXXX XXXX
xxxx@xxxx.cn
R
9000.05
personal income tax&0.05
Country5:City5
2014
- 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。
- 数据分析。
数据分析代码实现,请见查询Hive表数据。
- 查看薪水支付币种为美元的雇员联系方式。
- 查询入职时间为2014年的雇员编号、姓名等字段,并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中。
- 统计表employees_info中有多少条记录。
- 查询使用以“cn”结尾的邮箱的员工信息。
- 提交数据分析任务,统计表employees_info中有多少条记录。实现请参见使用JDBC接口提交数据分析任务。