文档首页 > > 用户指南> MRS集群组件操作指导> 使用Hive> 从零开始使用Hive

从零开始使用Hive

分享
更新时间:2020/09/04 GMT+08:00

Hive是基于Hadoop的一个数据仓库工具,可将结构化的数据文件映射成一张数据库表,并提供类SQL的功能对数据进行分析处理,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

背景信息

MRS集群创建成功后,默认在集群所有节点的“/opt/client”目录安装保存了原始客户端。在使用客户端前,需要下载并更新客户端配置文件,确认MRS Manager的主管理节点后才能使用客户端。

假定用户开发一个应用程序,用于管理企业中的使用A业务的用户信息,使用Hive客户端实现A业务操作流程如下:

普通表的操作:

  • 创建用户信息表user_info。
  • 在用户信息中新增用户的学历、职称信息。
  • 根据用户编号查询用户姓名和地址。
  • A业务结束后,删除用户信息表。
表1 用户信息

编号

姓名

性别

年龄

地址

12005000201

A

19

A城市

12005000202

B

23

B城市

12005000203

C

26

C城市

12005000204

D

18

D城市

12005000205

E

21

E城市

12005000206

F

32

F城市

12005000207

G

29

G城市

12005000208

H

30

H城市

12005000209

I

26

I城市

12005000210

J

25

J城市

操作步骤

  1. 下载客户端配置文件。

    1. 登录MRS控制台,在左侧导航栏选择集群列表 > 现有集群 ,单击集群名称。创建集群请参考自定义购买集群
    2. 选择“组件管理”。

      针对MRS 1.8.10及之前版本,登录MRS Manager页面,具体请参见访问MRS Manager,然后选择“服务管理”。

    3. 单击“下载客户端”

      “客户端类型”选择“仅配置文件”“下载路径”选择“服务器端”,单击“确定”开始生成客户端配置文件,文件生成后默认保存在主管理节点“/tmp/MRS-client”。

      图1 仅下载客户端的配置文件

  2. 登录MRS Manager的主管理节点。

    1. 在MRS控制台,选择“集群列表 > 现有集群”,单击集群名称,在“节点管理”页签中查看节点名称,名称中包含“master1”的节点为Master1节点,名称中包含“master2”的节点为Master2节点。

      MRS Manager的主备管理节点默认安装在集群Master节点上。在主备模式下,由于Master1和Master2之间会切换,Master1节点不一定是MRS Manager的主管理节点,需要在Master1节点中执行命令,确认MRS Manager的主管理节点。命令请参考2.d

    2. 针对MRS1.6.2版本(不包含)前的集群,以linux用户使用密码方式登录Master1节点。针对MRS1.6.2版本(包含)后的集群,以root用户使用密码方式登录Master1节点。操作方法,请参见《用户指南》登录集群节点章节。
    3. 切换至omm用户。

      sudo su - root

      su - omm

    4. 执行以下命令确认MRS Manager的主管理节点。

      sh ${BIGDATA_HOME}/om-0.0.1/sbin/status-oms.sh

      回显信息中“HAActive”参数值为“active”的节点为主管理节点(如下例中“mgtomsdat-sh-3-01-1”为主管理节点),参数值为“standby”的节点为备管理节点(如下例中“mgtomsdat-sh-3-01-2”为备管理节点)。

      Ha mode
      double
      NodeName              HostName                      HAVersion          StartTime                HAActive             HAAllResOK           HARunPhase 
      192-168-0-30          mgtomsdat-sh-3-01-1           V100R001C01        2014-11-18 23:43:02      active               normal               Actived    
      192-168-0-24          mgtomsdat-sh-3-01-2           V100R001C01        2014-11-21 07:14:02      standby              normal               Deactived
    5. 使用root用户登录MRS Manager的主管理节点,例如“192-168-0-30”节点。

  3. 执行以下命令切换到客户端安装目录。

    MRS集群创建成功后,客户端默认安装在“/opt/client”目录下。

    cd /opt/client

  4. 执行以下命令,更新主管理节点的客户端配置。

    切换到omm用户。

    sudo su - omm

    sh refreshConfig.sh /opt/client 客户端配置文件压缩包完整路径

    例如,执行命令:

    sh refreshConfig.sh /opt/client /tmp/MRS-client/MRS_Services_Client.tar

    界面显示以下信息表示配置刷新更新成功:

     ReFresh components client config is complete.
     Succeed to refresh components client config.

    对于MRS 1.8.5及之后版本集群,步骤1~4的操作也可以参考更新客户端页面的方法二操作。

  5. 在Master节点使用客户端。

    1. 在已更新客户端的主管理节点,例如“192-168-0-30”节点,执行以下命令切换到客户端目录。

      cd /opt/client

    2. 执行以下命令配置环境变量。

      source bigdata_env

    3. 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建Hive表的权限,具体请参见创建角色配置拥有对应权限的角色,参考创建用户为用户绑定对应角色。如果当前集群未启用Kerberos认证,则无需执行此命令。

      kinit MRS集群用户

      例如,kinit hiveuser。

    4. 直接执行Hive组件的客户端命令。

      beeline

  6. 运行Hive客户端命令,实现A业务。

    内部表的操作:

    1. 根据表1创建用户信息表user_info并添加相关数据。
      create table user_info(id string,name string,gender string,age int,addr string);
      insert into table user_info(id,name,gender,age,addr) values("12005000201","A","男","19","A城市");
      ......(其他语句相同)
    2. 在用户信息表user_info中新增用户的学历、职称信息。

      以增加编号为12005000201的用户的学历、职称信息为例,其他用户类似。

      alter table user_info add columns(education string,technical string);
    3. 根据用户编号查询用户姓名和地址。

      以查询编号为12005000201的用户姓名和地址为例,其他用户类似。

      select name,addr from user_info where id='12005000201';
    4. 删除用户信息表。
      drop table user_info;

    外部分区表的操作:

    创建外部分区表并导入数据:

    1. 创建外部表数据存储路径:
      hdfs dfs -mkdir /hive/user_info
    2. 建表:
      create external table user_info(id string,name string,gender string,age int,addr string) partitioned by(year string) row format delimited fields terminated by ' ' lines terminated by '\n' stored as textfile location '/hive/user_info';

      fields terminated指明分隔的字符,如按空格分隔,' '。

      lines terminated 指明分行的字符,如按换行分隔,'\n'。

      /hive/user_info为数据文件的路径。

    3. 导入数据。
      1. 使用insert语句插入数据。

        insert into user_info partition(year="2018") values ("12005000201","A","男","19","A城市");

      2. 使用load data命令导入文件数据。
        1. 根据表1数据创建文件。如,文件名为txt.log,以空格拆分字段,以换行符作为行分隔符。
        2. 上传文件至hdfs。
          hdfs dfs -put txt.log /tmp
        3. 加载数据到表中。
          load data inpath '/tmp/txt.log' into table user_info partition (year='2011');
    4. 查询导入数据。
      select * from user_info;
    5. 删除用户信息表。
      drop table user_info;

  7. 删除集群。

    请参见删除集群章节。

分享:

    相关文档

    相关产品

文档是否有解决您的问题?

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

反馈提交失败,请稍后再试!

*必选

请至少选择或填写一项反馈信息

字符长度不能超过200

提交反馈 取消

如您有其它疑问,您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问