实验 3 MapReduce 编程初级实践1
通过实验掌握基本的 MapReduce 编程方法;2
掌握用 MapReduce 解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等
实验平台已经配置完成的 Hadoop 伪分布式环境
实验内容和要求1
编程实现文件合并和去重操作对于两个输入文件,即文件 A 和文件 B,请编写 MapReduce 程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件 C
下面是输入文件和输出文件的一个样例供参考
实验最终结果(合并的文件):代码如下:package com
Merge;import java
IOException;import org
apache
hadoop
Configuration;import org
apache
hadoop
Path;import org
apache
hadoop
Text;import org
apache
hadoop
mapreduce
Job;import org
apache
hadoop
mapreduce
Mapper;import org
apache
hadoop
mapreduce
Reducer;import org
apache
hadoop
mapreduce
FileInputFormat;import org
apache
hadoop
mapreduce
output
FileOutputFormat;public class Merge { public static class Map extends Mapper