摘要:本篇主要介绍了大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略,通过具体的内容展现,希望对于大家大数据开发的学习有一定的帮助。
本篇主要介绍了大数据开发入门到精通--大数据Kafka:kafka生产者数据分发策略,通过具体的内容展现,希望对于大家大数据开发的学习有一定的帮助。
9月17日19:30-20:30《高薪职场人必备技能》免费讲座 +QQ:2851229782
生产者数据分发策略
kafka在数据生产的时候,有一个数据分发策略。默认的情况使用DefaultPartitioner.class类。这个类中就是定义数据分发的策略
策略一:用户指定了partition
生产就不会调用DefaultPartitioner.partition() 方法 , 数据分发策略的时候,可以指定数据发往哪个 partition 。当ProducerRecord 的构造参数中有 partition 的时候,就可以发送到对应 partition 上
策略二:用户发生数据的时候指定了key没有指定partition ,采用hash算法
注意: 如果 key 一直不变,同一个 key 算出来的 hash 值是个固定值。如果是固定值,这种 hash 取模就没有意义。 Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions
策略三: 当用户既没有指定partition也没有key。采用粘性的划分策略(Sticky Partitioning Strategy)方案(2.4以上版本新特性,老版本为轮询)
Sticky Partitioning Strategy会随机地选择一个分区并会尽可能地坚持使用该分区——即所谓的粘住这个分区。
原因:
kafka 在发送消息的时候 , 采用批处理方案 , 当达到一批后进行分送 , 但是如果一批数据中有不同分区的数据 , 就无法放置到一个批处理中, 而老版本中轮询方案 , 就会导致一批数据被分到多个小的批次中 , 从而影响效率 , 故在新版本中 , 采用这种粘性的划分策略
总结
我是小职,记得找我
✅ 解锁高薪工作
✅ 免费获取基础课程·答疑解惑·职业测评
您输入的评论内容中包含违禁敏感词
我知道了
请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号