更新时间:2024-07-19 GMT+08:00
从零开始使用Hadoop
本章节提供从零开始使用Hadoop提交wordcount作业的操作指导,wordcount是最经典的Hadoop作业,它用来统计海量文本的单词数量。
操作步骤
- 准备wordcount程序。
开源的Hadoop的样例程序包含多个例子,其中包含wordcount。可以从https://dist.apache.org/repos/dist/release/hadoop/common/中下载Hadoop的样例程序。
例如,选择hadoop-x.x.x版本,下载“hadoop-x.x.x.tar.gz”,解压后在“hadoop-x.x.x\share\hadoop\mapreduce”路径下获取“hadoop-mapreduce-examples-x.x.x.jar”,即为Hadoop的样例程序。“hadoop-mapreduce-examples-x.x.x.jar”样例程序包含了wordcount程序。
hadoop-x.x.x表示Hadoop的版本号,具体以实际为准。
- 准备数据文件。
数据文件无格式要求,准备一个或多个txt文件即可,如下内容为txt文件样例:
qwsdfhoedfrffrofhuncckgktpmhutopmma jjpsffjfjorgjgtyiuyjmhombmbogohoyhm jhheyeombdhuaqqiquyebchdhmamdhdemmj doeyhjwedcrfvtgbmojiyhhqssddddddfkf kjhhjkehdeiyrudjhfhfhffooqweopuyyyy
- 上传数据至OBS。
- 登录OBS控制台。
- 单击“并行文件系统 > 创建并行文件系统”,创建一个名称为wordcount01的文件系统。
wordcount01仅为示例,文件系统名称必须全局唯一,否则会创建并行文件系统失败。
- 在OBS文件系统列表中单击文件系统名称wordcount01,选择“文件 > 新建文件夹”,分别创建program、input文件夹。
图1 wordcount01文件系统文件夹列表
- program:存放用户程序
- input:存放用户数据文件
- 进入program文件夹,选择“上传文件 > 添加文件”,从本地选择1中下载的程序包,然后单击“上传”,上传完成后如图2所示。
- 进入input文件夹,将2中准备的数据文件上传到input文件夹,上传完成后如图3所示。
- 登录MRS控制台,在左侧导航栏选择“集群列表 > 现有集群”,单击集群名称,该集群需要包含Hadoop组件。
- 提交wordcount作业。
在MRS控制台选择“添加”,进入“添加作业”页面。
页签,单击图4 wordcount作业
- 作业类型选择“MapReduce”。
- 作业名称为“mr_01”。
- 执行程序路径配置为OBS上存放程序的地址。例如:obs://wordcount01/program/hadoop-mapreduce-examples-x.x.x.jar。
- 执行程序参数中填写的参数为:wordcount obs://wordcount01/input/ obs://wordcount01/output/。
- 参数“obs://wordcount01/input/”中的OBS文件系统名需要替换为实际环境创建的文件系统名。
- 参数“obs://wordcount01/output/”中的OBS文件系统名需要替换为实际环境创建的文件系统名,目录output为一个不存在的目录,具体以实际为准。
- 服务配置参数无需填写。
只有集群处于“运行中”状态时才能提交作业。
作业提交成功后默认为“已接受”状态,不需要用户手动执行作业。
- 查看作业执行结果。
父主题: 使用HDFS