大数据技术 Hadoop学习(10):Hadoop1.x与Hadoop2.x
沉沙 2018-10-08 来源 : 阅读 1659 评论 0

摘要:本篇教程探讨了大数据技术 Hadoop学习(10):Hadoop1.x与Hadoop2.x,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

本篇教程探讨了大数据技术 Hadoop学习(10):Hadoop1.x与Hadoop2.x,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。

<



      上一篇,我们使用Maven构建了我的MapReduce程序,并且成功的运行了Job。那么大家可能会觉得为什么要这么做,有没有些理论依据,毕竟对hadoop的功能,特点有了了解后,做事情会心里稍微有点底。所以我们开始补些理论知识。

      下面,我们就开始比较下Hadoop1.x与Hadoop2.x,感受下产品迭代的快乐。

  

里程碑

    一:里程碑

      2003-2004年 Doug Cutting和Mike Cafarella利用业余时间实现了HDFS和MapReduce机制。

      2005年作为Lucene的子项目Nutch正式引入Apache基金会

      2006年MapReduce,NDFS分别被纳入Hadoop项目中

      2010年发布0.20.2:security  append

      2011年12月0.20.线路发布1.0版本

      2012年发布1.04

      2011年10月份发布0.23.0:开始有了Yarn

      2012年3月份发布2.0.0:alpha

      2013年发布2.1.0:beta

      2013年10月发布2.2.0:稳定版。很重要的版本,Yarn,High Availability for HDFS,HDFS Federation,HDFS Snapshots,Support for running Hadoop on Microsoft Windows

      2014年11月发布2.6.0:很重要的版本,比如密钥管理服务器,凭证提供,支持SSD,热插拔DataNode,long running services in YARN,Support for rolling upgrades等。

      2015年4月发布2.7.0:放弃了jdk1.6,不是稳定版,支持支持文件截断,Make YARN authorization pluggable等。

      2015年7月发布2.7.1:2.7线路的稳定版。

      2015年9月23号发布2.6.1:2.6线路的版本,修复了很多bug。

Hadoop1.x与Hadoop2.x

    一:架构比较

      Hadoop1.x中1的NameNodes只可能有一个,虽然可以通过SecondaryNameNode与NameNode进行数据同步备份,但是总会存在一定的时延,如果NameNode挂掉,但是如果有部份数据还没有同步到SecondaryNameNode上,还是可能会存在着数据丢失的问题。

      Hadoop2.x中,HDFS的变化,主要体现在增强了NameNode的水平扩展及可用性,可以同时部署多个NameNode,这些NameNodes之间是相互独立,也就是说他们不需要相互协调,DataNode同时在所有NameNodes注册,做为他们共有的存储节点,并向定时向所有的这些NameNodes发送心跳块使用情况的报告,并处理所有NameNodes向其发送的指令。

      Hadoop2.x中将MapReduce分成两部门,形成了Yarn(云资源管理系统),从而扩展出很多新的玩法。

    二:定位

      从图中,我们可以看到Hadoop1.x是单一功能使用系统,Hadoop2.x是多用途平台。2.x开始,hadoop的功能增强了许多,可以适合很多地方。
    三:特性:

      Hadoop1.x:批量应用

      Hadoop2.x:批量应用,交互式,实时性,流式,内存计算。
    四:HDFS与HDFS2

      HDFS2多了高可用性。
    五:MapReduce

      Hadoop2.x中将原来1.x中的MapReduce的功能分开了,只保留了数据处理。将集群资源管理放到了Yarn中。从而让2.x的生态圈极大的扩展。
    六:Hadoop2.x中HDFS架构

      图中,我们可以看到一个NameNode(Active)还有一个NameNode(Standby)。这两者中间有JournalNode,放镜像文件,编辑日志文件。使用Zookeeper来保证故障转移,从而实现HA。还具有联邦的功能,

    七:Yarn架构图

      Hadoop发展到了2.6.0,Yarn也有了HA。Yarn把Datanode和应用的执行状态都存在RMStateStore上面。从而具有long running services,Support for rolling upgrades。任务挂了就不用重新跑了。太牛的功能了。

    八:生态应用

      Hadoop1.x其他的生态应用都是基于MapReduce上面的,但是到了Hadoop2.x,他将资源管理的的放到了Yarn,那么其他的生态应用,可以基于MapReduce的计算框架,也可以选择Tez(DAG计算框架),Storm(流式计算框架)。所以使用范围大大的扩展开来。

    --------------------------------------------------------------------

      到此,本章节的内容讲述完毕。
   

本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!

本文由 @沉沙 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved