从零开始使用Hadoop

本章节提供从零开始使用Hadoop提交wordcount作业的操作指导，wordcount是最经典的Hadoop作业，它用来统计海量文本的单词数量。

操作步骤

准备wordcount程序。

开源的Hadoop的样例程序包含多个例子，其中包含wordcount。可以从https://dist.apache.org/repos/dist/release/hadoop/common/中下载Hadoop的样例程序。

例如，选择hadoop-2.10.x版本，下载“hadoop-2.10.x.tar.gz”，解压后在“hadoop-2.10.x\share\hadoop\mapreduce”路径下获取“hadoop-mapreduce-examples-2.10.x.jar”，即为Hadoop的样例程序。“hadoop-mapreduce-examples-2.10.x.jar”样例程序包含了wordcount程序。

hadoop-2.10.x表示Hadoop的版本号。

准备数据文件。

数据文件无格式要求，准备一个或多个txt文件即可，如下内容为txt文件样例：

qwsdfhoedfrffrofhuncckgktpmhutopmma
jjpsffjfjorgjgtyiuyjmhombmbogohoyhm
jhheyeombdhuaqqiquyebchdhmamdhdemmj
doeyhjwedcrfvtgbmojiyhhqssddddddfkf
kjhhjkehdeiyrudjhfhfhffooqweopuyyyy

上传数据至OBS。
1. 登录OBS控制台。
2. 单击“并行文件系统 > 创建并行文件系统”，创建一个名称为wordcount01的文件系统。
  wordcount01仅为示例，文件系统名称必须全局唯一，否则会创建并行文件系统失败。
3. 在OBS文件系统列表中单击文件系统名称wordcount01，选择“文件 > 新建文件夹”，分别创建program、input文件夹。
  - program：存放用户程序
  - input：存放用户数据文件
4. 进入program文件夹，选择“上传文件 > 添加文件”，从本地选择1中下载的程序包，然后单击“上传”。
5. 进入input文件夹，将2中准备的数据文件上传到input文件夹。
登录MRS控制台，在左侧导航栏选择“集群列表 > 现有集群”，单击集群名称，该集群需要包含Hadoop组件。
提交wordcount作业。

在MRS控制台选择“作业管理”页签，单击“添加”，进入“添加作业”页面。
- 作业类型选择“MapReduce”。
- 作业名称为“mr_01”。
- 执行程序路径配置为OBS上存放程序的地址。例如：obs://wordcount01/program/hadoop-mapreduce-examples-2.10.x.jar。
- 执行程序参数中填写的参数为：wordcount obs://wordcount01/input/ obs://wordcount01/output/。
  - 参数“obs://wordcount01/input/”中的OBS文件系统名需要替换为实际环境创建的文件系统名。
  - 参数“obs://wordcount01/output/”中的OBS文件系统名需要替换为实际环境创建的文件系统名，目录output请手动输入一个不存在的目录。
- 服务配置参数无需填写。
只有集群处于“运行中”状态时才能提交作业。

作业提交成功后默认为“已接受”状态，不需要用户手动执行作业。
查看作业执行结果。
1. 进入“作业管理”页面，查看作业是否执行完成。
  作业运行需要时间，作业运行结束后，刷新作业列表。
  
  作业执行成功或失败后都不能再次执行，只能新增或者复制作业，配置作业参数后重新提交作业。
2. 登录OBS控制台，进入OBS路径，查看作业输出信息。
  进入到5中创建的output路径查看相关的output文件，需要下载到本地以文本方式打开进行查看。

父主题： 使用HDFS

上一篇：使用HDFS

下一篇：配置内存管理

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消