Hadoop的MapReduce执行过程介绍

下载本文档

阅读 92
下载 1
格式 pdf
大小 1.15 MB
约17页
2025-01-30 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/17页

2/17页

3/17页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/17

文本预览下载提示常见问题

1、Map-Reduce 的逻辑过程假设我们需要处理一批有关天气的数据，其格式如下： •按照 ASCII 码存储，每行一条记录 •每一行字符从 0 开始计数，第 15 个到第 18 个字符为年 •第 25 个到第 29 个字符为温度，其中第 25 位是符号 +/- 我们现在需要统计出每年的最高温度。 Map-Reduce 主要包括两个步骤：Map 和 Reduce 每一步都有key-value 对作为输入和输出： •map 阶段的key-value 对的格式是由输入的格式所决定的，如果是默认的TextInputFormat，则每行作为一个记录进程处理，其中key为此行的开头相对于文件的起始位置，value 就是此行的字符文本 •map 阶段的输出的key-value 对的格式必须同reduce 阶段的输入key-value 对的格式相对应对于上面的例子，在 map 过程，输入的key-value 对如下：在map 过程中，通过对每一行字符串的解析，得到年-温度的key-value 对作为输出：在reduce 过程，将 map 过程中的输出，按照相同的 key 将 value 放到同一个列表中作为 reduce 的输入在reduce 过程中，在列表中选择出最大的温度，将年-最大温度的key-value 作为输出：其逻辑过程可用如下图表示： 2、编写 Map-Reduce 程序编写 Map-Reduce 程序，一般需要实现两个函数：mapper 中的 map 函数和 reducer 中的 reduce 函数。一般遵循以下格式：注：Reporter： Reporter 是用于 Map/Reduce 应用程序报告进度（心跳），设定应用级别的状态消息，更新 Counters（计数器）的机制。 OutputCollector： OutputCollector 是一个Map/Reduce 框架提供的用于收集 Mapper或Reducer 输出数据的通用机制（包括中间输出结果和作业的输出结果）。对于上面的例子，则实现的mapper 如下：实现的reducer 如下：注：代码中 LongWritable, IntWritable, Text 均是 Hadoop 中实现的用于封装 Java 数据类型的类，这些类都能够被串行化从而便于在分布式环境中进行数据交换，你可以将它们分别视为 long, int, String 的替代品欲运行上面实现的Mapper 和Reduce，则需要生成一个Map-Re...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容