武汉理工大学《云计算与服务计算》实验指导书 1 实验二 Hadoop 环境下MapReduce 并行编程 一 . 实验目的 1. 学习MapReduce 编程模型,理解MapReduce 的编程思想。会用MapReduce框架编写简单的并行程序。 2. 熟悉使用eclipse 编写、调试和运行MapReduce 并行程序。 二 . 实验内容 1. 登录 Openstack 云平台,进入搭建好 Hadoop 的虚拟机,按照实验指导说明,在终端启动 hadoop、启动 eclipse。 2. 用MapReduce 编程思想,修改 hadoop 自带的例子程序WordCount,实现如下功能:统计给定文件 data.dat 中出现频率最多的三个单词,并输出这三个单词和出现的次数。(注:这里不区分字母大小写,如 he 与He 当做是同一个单词计数) 三 . 实验指导 1. 进入虚拟机,打开终端,切换为 root 用户,命令使用: su root 输入密码 2. 进入 hadoop 安装目录,本实验中 hadoop 安装目录为:/usr/local/hadoop-2.6.0/,使用ls 查看该目录中的文件: 3. 所有与hadoop 启动/关闭有关的脚本位于 sbin 目录下,所以继续进入 sbin 目录。其中,hadoop2.X 版本的启动命令主要用到 start-dfs.sh 和 start-yarn.sh。 关闭 hadoop 主要用到 stop-dfs.sh 和 stop-yarn.sh。 实 验 二 Hadoop环 境 下 MapReduce并 行 编 程 --第 1页实 验 二 Hadoop环 境 下 MapReduce并 行 编 程 --第 1页武汉理工大学《云计算与服务计算》实验指导书 2 执行 start-dfs.sh,然后使用 jps 命令查看启动项,保证 NameNode 和 DataNode已启动,否则启动出错: 执行 start-yarn.sh,jps 查看时,保证以下 6 个启动项已启动: 4. 打开 eclipse,在右上角进入 Map/Reduce 模式,建立 eclispe-hadoop 连接 实 验 二 Hadoop环 境 下 MapReduce并 行 编 程 --第 2页实 验 二 Hadoop环 境 下 MapReduce并 行 编 程 --第 2页武汉理工大学《云计算与服务计算》实验指导书 3 5. 连接成功后,能够在(1)这个文件夹下再创建文件夹(创建后需refresh) 6. 建立wordcount 项目,如下步骤: 7. next,项目名任意(如wordcount),finish。将 WordCount.java 文件复制到实 验 二 Hadoop环 境 下 MapReduce并 行 编 程 --第 3页实 验 二 Hadoop环 境 下 MapReduce并 行 编 程 --第 3页武汉理工大学《云计算与服务计算》实验指导书 4...