Hive样例程序开发思路
开发思路
- 数据准备。
- 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。
- 雇员信息表“employees_info”的字段为雇员编号、姓名、支付薪水币种、薪水金额、缴税税种、工作地、入职时间,其中支付薪水币种“R”代表人民币,“D”代表美元。
- 雇员联络信息表“employees_contact”的字段为雇员编号、电话号码、e-mail。
- 雇员信息扩展表“employees_info_extended”的字段为雇员编号、姓名、电话号码、e-mail、支付薪水币种、薪水金额、缴税税种、工作地,分区字段为入职时间。
创建表代码实现请见创建Hive表。
- 加载雇员信息数据到雇员信息表“employees_info”中。
加载数据代码实现请见加载Hive数据。
雇员信息数据如表1所示。
表1 雇员信息数据 编号
姓名
支付薪水币种
薪水金额
缴税税种
工作地
入职时间
1
Wang
R
8000.01
personal income tax&0.05
China:Shenzhen
2014
3
Tom
D
12000.02
personal income tax&0.09
America:NewYork
2014
4
Jack
D
24000.03
personal income tax&0.09
America:Manhattan
2014
6
Linda
D
36000.04
personal income tax&0.09
America:NewYork
2014
8
Zhang
R
9000.05
personal income tax&0.05
China:Shanghai
2014
- 加载雇员联络信息数据到雇员联络信息表“employees_contact”中。
雇员联络信息数据如表2所示。
- 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。
- 数据分析。
数据分析代码实现,请见查询Hive数据。
- 查看薪水支付币种为美元的雇员联系方式。
- 查询入职时间为2014年的雇员编号、姓名等字段,并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中。
- 统计表employees_info中有多少条记录。
- 查询使用以“cn”结尾的邮箱的员工信息。
- 提交数据分析任务,统计表employees_info中有多少条记录。实现请见分析Hive数据。