摘要:本篇教程探讨了大数据技术 updateStateByKey和mapWithState解密,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
本篇教程探讨了大数据技术 updateStateByKey和mapWithState解密,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入。
<
背景:整个Spark Streaming是按照Batch Duractions划分Job的。但是很多时候我们需要算过去的一天甚至一周的数据,这个时候不可避免的要进行状态管理,而Spark Streaming每个Batch Duractions都会产生一个Job,Job里面都是RDD,所以此时面临的问题就是怎么对状态进行维护?这个时候就需要借助updateStateByKey和mapWithState方法完成核心的步骤。1、简单看下updateStateByKey源码: 在DStream中updateStateByKey和mapWithState是通过隐式转换来完成,本身没有这样的方法。implicit def toPairDStreamFunctions[K, V](stream: DStream[(K, V)]) (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null): PairDStreamFunctions[K, V] = {new PairDStreamFunctions[K, V](stream)}[: ClassTag](
updateFunc: ([]Option[]) => Option[]
): DStream[()] = ssc.withScope {
updateStateByKey(updateFuncdefaultPartitioner())
}最终会通过StateDStream中的computeUsingPreviousRDD和compute来完成这样的功能,简单的流程图如下:2、简单看下mapWithState源码mapWithState是返回MapWithStateDStream对象,维护和更新历史状态都是基于Key,使用一个function对key-value形式的数据进行状态维护[: ClassTag: ClassTag](
spec: StateSpec[]
): MapWithStateDStream[] = {
MapWithStateDStreamImpl[](
selfspec.asInstanceOf[StateSpecImpl[]]
)
}通过InternalMapWithStateDStream类中的compute来完成
本文由职坐标整理发布,学习更多的大数据技术相关知识,请关注职坐标大技术云计算大技术技术频道!
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号