大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略
小职 2021-09-15 来源 : 阅读 810 评论 0

摘要:本篇主要介绍了大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略,通过具体的内容展现,希望对于大家大数据开发的学习有一定的帮助。

本篇主要介绍了大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略,通过具体的内容展现,希望对于大家大数据开发的学习有一定的帮助。

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略


9月17日19:30-20:30《高薪职场人必备技能》免费讲座   +QQ:2851229782


生产者数据分发策略

        kafka在数据生产的时候,有一个数据分发策略。默认的情况使用DefaultPartitioner.class类。这个类中就是定义数据分发的策略

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略

策略一:用户指定了partition

        生产就不会调用DefaultPartitioner.partition() 方法 , 数据分发策略的时候,可以指定数据发往哪个 partition 。当ProducerRecord 的构造参数中有 partition 的时候,就可以发送到对应 partition 上

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略

策略二:用户发生数据的时候指定了key没有指定partition ,采用hash算法

注意: 如果 key 一直不变,同一个 key 算出来的 hash 值是个固定值。如果是固定值,这种 hash 取模就没有意义。 Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略

策略三: 当用户既没有指定partition也没有key。采用粘性的划分策略(Sticky Partitioning Strategy)方案(2.4以上版本新特性,老版本为轮询)

Sticky Partitioning Strategy会随机地选择一个分区并会尽可能地坚持使用该分区——即所谓的粘住这个分区。


原因:


kafka 在发送消息的时候 , 采用批处理方案 , 当达到一批后进行分送 , 但是如果一批数据中有不同分区的数据 , 就无法放置到一个批处理中, 而老版本中轮询方案 , 就会导致一批数据被分到多个小的批次中 , 从而影响效率 , 故在新版本中 , 采用这种粘性的划分策略

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略

总结

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略




我是小职,记得找我

✅ 解锁高薪工作

✅ 免费获取基础课程·答疑解惑·职业测评

大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略

本文由 @小职 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程