Hive应用开发简介
Hive简介
Hive是一个开源的,建立在Hadoop上的数据仓库框架,提供类似SQL的HiveQL语言操作结构化数据,其基本原理是将HiveQL语言自动转换成MapReduce任务或Spark任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。
Hive主要特点如下:
- 通过HiveQL语言非常容易的完成数据提取、转换和加载(ETL)。
- 通过HiveQL完成海量结构化数据分析。
- 灵活的数据存储格式,支持JSON,CSV,TEXTFILE,RCFILE,ORCFILE,SEQUENCEFILE等存储格式,并支持自定义扩展。
- 多种客户端连接方式,支持JDBC接口。
Hive的主要应用于海量数据的离线分析(如日志分析,集群状态分析)、大规模的数据挖掘(用户行为分析,兴趣分区,区域展示)等场景下。