沉沙
2018-09-27
来源 :
阅读 1807
评论 0
摘要:本篇教程探讨了大数据技术 MapReduce学习,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
本篇教程探讨了大数据技术 MapReduce学习,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
<
Overview
一个MapReduce作业通常会将数据输入切分成独立的块,这些块会被map任务并行的处理。框架会对map的输出进行排序,然后再作为reduce任务的输入。典型的,一个任务的输入和输出都会被存储到一个文件系统中。框架关系调度任务,监控它们,并且在任务失败之后重新执行。
典型的,计算节点和存储节点是相同的,因此,MapReduce框架和HDFS通常运行在相同的节点上。可以配置让调度任务高效的处理在数据所在的节点上。
在集群中的每个节点上,MapReduce框架由一个master(ResourceManager)和一个slave(NodeManager)组成。
最简单的,应用指定输入输出的位置,并且通过实现相应的接口或抽象类提供map和reduce功能。
虽然,Hadoop框架是用Java实现的,但MapReduce应用不一定非要用Java来写。
Inputs and Outputs
MapReduce框架只操作键值对
key和value必须是可序列化的,并且需要实现Writable接口。另外,key必须实现WritableComparable接口以提供排序功能
Example: WordCount v1.0
MapReduce - User Interfaces
Payload
典型的,应用程序实现Mapper和Reducer接口,以提供map和reduce方法。这是作业的核心。
Mapper
Mapper的maps输入键值对转换成一系列中间结果键值对
总得来说,通过job.setMapperClass(Class)方法将mapper的实现传递给作业,然后框架调用map(WritableComparable, Writeable, Conetxt)方法执行任务。
Mapper的输出会被排序、分区。分区的总数与作业中reduce任务的数量相同。用户通过实现Partitioner接口来自定义分区逻辑。
可选的,用户可以通过job.setCombiner(Class)来指定一个combiner,这个conbiner会对中间结果输出执行本地聚集操作,这样可以减少从Mapper到Reducer的数据传输。
How Many Maps?
maps的数量由输入文件的总大小决定,也就是说,等于输入文件的block总数。如果你的输入文件大小是10TB,并且Block大小是128M,那么你将有82000个maps。
Reducer
Reducer有3个主要阶段:shuffle, sort and reduce
Shuffle
Reducer的输入时已经排过序的mapper的输出。这个阶段是抓取所有mapper的输出相关的分区
Sort
在这一步,按照key进行分组。shuffle和sort是同时进行的。
maps的数量与block数量相同,分区数量和reducer数量相同
本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!
喜欢 | 0
不喜欢 | 0
您输入的评论内容中包含违禁敏感词
我知道了

请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号