从零开始使用Hadoop
本章节提供从零开始使用Hadoop提交wordcount作业的操作指导,wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。
操作步骤
- 准备wordcount程序。
开源的Hadoop的样例程序包含多个例子,其中包含wordcount。可以从https://dist.apache.org/repos/dist/release/hadoop/common/中下载Hadoop的样例程序。
例如,选择hadoop-2.10.x版本,下载“hadoop-2.10.x.tar.gz”,解压后在“hadoop-2.10.x\share\hadoop\mapreduce”路径下获取“hadoop-mapreduce-examples-2.10.x.jar”,即为Hadoop的样例程序。“hadoop-mapreduce-examples-2.10.x.jar”样例程序包含了wordcount程序。
hadoop-2.10.x表示Hadoop的版本号。
- 准备数据文件。
数据文件无格式要求,准备一个或多个txt文件即可,如下内容为txt文件样例:
qwsdfhoedfrffrofhuncckgktpmhutopmma jjpsffjfjorgjgtyiuyjmhombmbogohoyhm jhheyeombdhuaqqiquyebchdhmamdhdemmj doeyhjwedcrfvtgbmojiyhhqssddddddfkf kjhhjkehdeiyrudjhfhfhffooqweopuyyyy
- 上传数据至OBS。
- 登录MRS控制台,在左侧导航栏选择“集群列表 > 现有集群”,单击集群名称,该集群需要包含Hadoop组件。
- 提交wordcount作业。
在MRS控制台选择“添加”,进入“添加作业”页面。
页签,单击- 作业类型选择“MapReduce”。
- 作业名称为“mr_01”。
- 执行程序路径配置为OBS上存放程序的地址。例如:obs://wordcount01/program/hadoop-mapreduce-examples-2.10.x.jar。
- 执行程序参数中填写的参数为:wordcount obs://wordcount01/input/ obs://wordcount01/output/。
- 参数“obs://wordcount01/input/”中的OBS文件系统名需要替换为实际环境创建的文件系统名。
- 参数“obs://wordcount01/output/”中的OBS文件系统名需要替换为实际环境创建的文件系统名,目录output请手动输入一个不存在的目录。
- 服务配置参数无需填写。
只有集群处于“运行中”状态时才能提交作业。
作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。
- 查看作业执行结果。
- 进入
作业运行需要时间,作业运行结束后,刷新作业列表。
作业执行成功或失败后都不能再次执行,只能新增或者复制作业,配置作业参数后重新提交作业。
页面,查看作业是否执行完成。
- 登录OBS控制台,进入OBS路径,查看作业输出信息。
进入到5中创建的output路径查看相关的output文件,需要下载到本地以文本方式打开进行查看。
- 进入