大数据技术 MapReduce Tutorial-职坐标

大数据技术 MapReduce Tutorial

沉沙 2018-09-27 来源：阅读 1762 评论 0

摘要：本篇教程探讨了大数据技术 MapReduce Tutorial，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术 MapReduce Tutorial，希望阅读本篇文章以后大家有所收获，帮助大家对大数据技术的理解更加深入。

Mapper
Mapper的maps阶段将输入键值对经过计算得到中间结果键值对，框架会将中间结果按照key进行分组，然后传递给reducer以决定最终的输出。用户可以通过Job.setGroupingComparatorClass(Class)来指定一个Comparator。
Mapper的输出会被排序，然后被分到不同的区，以供reducer处理。分区数与Reducer任务数相同。
如果指定了Combiner，那么会对中间结果进行本地聚集操作，这样可以减少从Mapper到Reducer传输的数量。

Reducer
Reducer减少中间结果的值，这些中间结果的值共享一个key
Reducer有三个主要阶段：shuffle、sort、reduce
Shuffle：这个阶段的输入时Mapper的输出，而且是被排过序的。这个阶段会从所有Mapper的输出中抓取相关分区。
Sort：这个阶段会按照key分组。Shuffle和Sort阶段是同时进行的，在抓取maps输出的时候就已经进行了合并
Reduce：Reducer的输出是没有排序的

Partitioner
Partitioner控制Mapper中间结果的keys分区。默认的Partitioner是HashPartitioner。

1、默认的分区方式是哈希取模（HashPartitioner），它会用key的哈希值经过计算然后对reduce任务书取模，以决定中间结果在哪个分区。由于是先用key值取哈希，再进行模运算，那么key值相同的会进入到同一个分区。
2、Reducer任务的数量是根据公式算出来的。大概是 * 的0.95倍到1.75倍之间。也就是说Reducer任务数决定了会有多少个分区。
3、分区是框架做的，中间结果的排序可以自定义
4、如果指定了Combiner则可以对中间结构进行本地聚集操作
5、Shuffle阶段是通过HTTP抓取相关的分区并且对分区中的key进行分组排序
感谢您的阅读，如果您觉得阅读本文对您有帮助，请点一下“推荐”按钮。欢迎各位转载，但必须在文章页面中给出作者和原文连接。