大数据技术全面解读 MapReduce详解(三)MR的shuffer、combiner与Yarn集群分析
沉沙 2018-10-10 来源 : 阅读 2186 评论 0

摘要:本篇教程探讨了大数据技术全面解读 MapReduce详解(三)MR的shuffer、combiner与Yarn集群分析,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术全面解读 MapReduce详解(三)MR的shuffer、combiner与Yarn集群分析,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

<

一、流量汇总排序的实现

  1.需求   

    对日志数据中的上下行流量信息汇总,并输出按照总流量倒序排序的结果

  2.分析   

  基本思路:实现自定义的bean来封装流量信息,并将bean作为map输出的key来传输

  MR程序在处理数据的过程中会对数据排序(map输出的kv对传输到reduce之前,会排序),排序的依据是map输出的key

  所以,我们如果要实现自己需要的排序规则,则可以考虑将排序因素放到key中,让key实现接口:WritableComparable然后重写key的compareTo方法

  当然,这里还需要考虑的问题是如果分区导致了结果多个reducer,则单个reducer是有序的,但全局不一定有序!

  3.代码
FlowSortMapper
FlowSortReducer
FlowBean
FlowSortDriver

  这里注意一下输入输出路径即可,这里再次提醒运行的方式:

hadoop jar zk03.jar com.mr.flowsort.FlowSortDriver

 二、MR内部shuffer过程

  这里对上面一整个排序的过程、数据的流向进行剖析:

    (注意mr不仅仅是处理文本文件,只要更改默认的inputFormat即可,像之前的一次读一行就是由TextInputFormat决定的。所以是支持自定义的!常见的操作多行的文本的InputFormat也是有例如NLineInputFormat等定义的!)

  1.概述

    v mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;

      通俗的讲, Shuffle描述着数据从map task输出到reduce task输入的这段过程

    v shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存);

    v 具体来说:就是将maptask输出的处理结果数据,分发给reducetask,并在分发的过程中,对数据按key进行了分区和排序;

  2.流程详解

    

  流程详解:


1、maptask收集我们的map()方法输出的kv对,放到内存缓冲区中
2、从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件
3、多个溢出文件会被合并成大的溢出文件
4、在溢出过程中,及合并的过程中,都要调用partitoner进行分组和针对key进行排序
5、reducetask根据自己的分区号,去各个maptask机器上取相应的结果分区数据
6、reducetask会取到同一个分区的来自不同maptask的结果文件,reducetask会将这些文件再进行合并(归并排序)
7、合并成大文件后,shuffle的过程也就结束了,后面进入reducetask的逻辑运算过程(从文件中取出一个一个的键值对group,调用用户自定义的reduce()方法)

Shuffle中的缓冲区大小会影响到mapreduce程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快 
缓冲区的大小可以通过参数调整,  参数:io.sort.mb  默认100M




 三、MR中的Combiner

  (1)combiner是MR程序中Mapper和Reducer之外的一种组件

  (2)combiner组件的父类就是Reducer

  (3)combiner和reducer的区别在于运行的位置:

    Combiner是在每一个maptask所在的节点运行

    Reducer是接收全局所有Mapper的输出结果;

  (4) combiner的意义就是对每一个maptask的输出进行局部汇总,以减小网络传输量

  具体实现步骤:

    1、 自定义一个combiner继承Reducer,重写reduce方法

    2、 在job中设置:  job.setCombinerClass(CustomCombiner.class)
WordcountCombiner
WordCountDriver

  (5) combiner能够应用的前提是不能影响最终的业务逻辑

    而且,combiner的输出kv应该跟reducer的输入kv类型要对应起来

      注意:Combiner的输出是Reducer的输入,如果Combiner是可插拔的,添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致,且不影响最终结果的场景。

  整个流程以及combiner的所处位置,参考详解:https://www.cns.com/ljy2013/articles/4435657.html
四、mapreduce与yarn集群分析

  1.yarn概述


  Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,
这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。
最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,
所以MapReduce的committer们决定从架构上重新设计MapReduce,使下一代的MapReduce(MRv2/Yarn)框架具有更好的扩展性、可用性、可靠性、向后兼容性和更高的资源利用率
以及能支持除了MapReduce计算框架外的更多的计算框架。



  2.yarn重要概念

  1、 yarn并不清楚用户提交的程序的运行机制

  2、 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)

  3、 yarn中的主管角色叫ResourceManager

  4、 yarn中具体提供运算资源的角色叫NodeManager

  5、 这样一来,yarn其实就与运行的用户程序完全解耦,就意味着yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如 mapreduce、storm程序,spark程序,tez ……

  6、 所以,spark、storm等运算框架都可以整合在yarn上运行,只要他们各自的框架中有符合yarn规范的资源请求机制即可

  7、 Yarn就成为一个通用的资源调度平台,从此,企业中以前存在的各种运算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享


   

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 1 不喜欢 | 0
看完这篇文章有何感觉?已经有1人表态,100%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程