更新时间:2024-08-05 GMT+08:00

Impala样例程序开发思路

场景说明

假定用户开发一个Impala数据分析应用,用于管理企业雇员信息,如表1表2所示。

开发思路

  1. 数据准备。

    1. 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。
      • 雇员信息表“employees_info”的字段为雇员编号、姓名、支付薪水币种、薪水金额、缴税税种、工作地、入职时间,其中支付薪水币种“R”代表人民币,“D”代表美元。
      • 雇员联络信息表“employees_contact”的字段为雇员编号、电话号码、e-mail。
      • 雇员信息扩展表“employees_info_extended”的字段为雇员编号、姓名、电话号码、e-mail、支付薪水币种、薪水金额、缴税税种、工作地,分区字段为入职时间。

        创建表代码实现请见创建Impala表

    2. 加载雇员信息数据到雇员信息表“employees_info”中。

      加载数据代码实现请见加载Impala数据

      雇员信息数据如表1所示。

      表1 雇员信息数据

      编号

      姓名

      支付薪水币种

      薪水金额

      缴税税种

      工作地

      入职时间

      1

      Wang

      R

      8000.01

      personal income tax&0.05

      China:Shenzhen

      2014

      3

      Tom

      D

      12000.02

      personal income tax&0.09

      America:NewYork

      2014

      4

      Jack

      D

      24000.03

      personal income tax&0.09

      America:Manhattan

      2014

      6

      Linda

      D

      36000.04

      personal income tax&0.09

      America:NewYork

      2014

      8

      Zhang

      R

      9000.05

      personal income tax&0.05

      China:Shanghai

      2014

    3. 加载雇员联络信息数据到雇员联络信息表“employees_contact”中。

      雇员联络信息数据如表2所示。

      表2 雇员联络信息数据

      编号

      电话号码

      e-mail

      1

      135 XXXX XXXX

      xxxx@xx.com

      3

      159 XXXX XXXX

      xxxxx@xx.com.cn

      4

      186 XXXX XXXX

      xxxx@xx.org

      6

      189 XXXX XXXX

      xxxx@xxx.cn

      8

      134 XXXX XXXX

      xxxx@xxxx.cn

  2. 数据分析。

    数据分析代码实现,请见查询Impala数据

    • 查看薪水支付币种为美元的雇员联系方式。
    • 查询入职时间为2014年的雇员编号、姓名等字段,并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中。
    • 统计表employees_info中有多少条记录。
    • 查询使用以“cn”结尾的邮箱的员工信息。

  3. 提交数据分析任务,统计表employees_info中有多少条记录。实现请见Impala样例程序指导