更新时间:2024-08-05 GMT+08:00

MapReduce访问多组件样例程序开发思路

场景说明

该样例以MapReduce访问HDFS、HBase、Hive为例,介绍如何编写MapReduce作业访问多个服务组件。帮助用户理解认证、配置加载等关键使用方式。

该样例逻辑过程如下:

以HDFS文本文件为输入数据:

log1.txt:数据输入文件

YuanJing,male,10
GuoYijun,male,5

Map阶段:

  1. 获取输入数据的一行并提取姓名信息。
  2. 查询HBase一条数据。
  3. 查询Hive一条数据。
  4. 将HBase查询结果与Hive查询结果进行拼接作为Map输出。

Reduce阶段:

  1. 获取Map输出中的最后一条数据。
  2. 将数据输出到HBase。
  3. 将数据保存到HDFS。