【项目实战】Kafka 分区中的AR、ISR、OSR

?博主介绍: 博主从事应用安全和大数据领域,有8年研发经验,5年面试官经验,Java技术专家,WEB架构师,阿里云专家博主,华为云云享专家,51CTO TOP红人

Java知识图谱点击链接:体系化学习Java(Java面试专题)

?? 感兴趣的同学可以收藏关注下不然下次找不到哟??

✊✊ 感觉对你有帮助的朋友,可以给博主一个三连,非常感谢 ???

在这里插入图片描述

文章目录

  • 1、什么是 AR、ISR、OSR
  • 2、ISR 的伸缩性
  • 3、AR = ISR + OSR ?
  • 4、数据写入及同步的过程
  • 4、HW 和 LEO
  • 5、写在最后总结

1、什么是 AR、ISR、OSR

AR(Assigned Replicas) 是指为每个分区分配的副本集合。在Kafka中,每个分区可以有多个副本,其中一个副本被选举为leader,其他副本为follower。AR是指包括leader副本在内的所有副本的集合。

ISR(In-Sync Replicas) 是指与leader副本保持同步的follower副本集合。只有处于ISR中的副本才会被认为是同步的,其他副本将被视为不可靠的。当follower副本无法及时跟上leader副本的同步进度时,它将被移出ISR,直到它能够追赶上来。ISR机制确保了数据的一致性和可靠性。

OSR(Out-of-Sync Replicas) 是指与leader副本不同步的follower副本集合。当follower副本无法及时跟上leader副本的同步进度时,它将被移出ISR,并被标记为OSR。OSR副本将尝试追赶上来,一旦追赶上来并与leader副本保持同步,它将被重新添加到ISR中。

这些概念在Kafka中用于管理副本的分配和同步,以确保数据的可靠性和一致性。

2、ISR 的伸缩性

ISR(In-Sync Replicas,同步副本) 的伸缩性是指ISR的能力适应负载变化和副本增减的能力。ISR的伸缩性对于Kafka集群的性能和可靠性非常重要。

当Kafka集群的负载增加或减少时,ISR的伸缩性可以通过以下方式来实现:

  1. 副本增加:当负载增加时,可以通过增加follower副本来提高ISR的伸缩性。新的follower副本将追赶上leader副本的同步进度,并加入ISR,从而分担负载。

  2. 副本减少:当负载减少时,可以通过减少follower副本来提高ISR的伸缩性。不再需要的follower副本将被移出ISR,并停止与leader副本的同步,从而减轻负载。

通过动态调整ISR的大小,Kafka可以根据负载的变化来自动平衡数据分布和副本同步,以提供更好的性能和可靠性。ISR的伸缩性是Kafka集群能够处理大规模数据流的关键因素之一。

3、AR = ISR + OSR ?

在这里插入图片描述

对于Kafka中的副本集合,有一个简单的关系可以描述为:AR(Assigned Replicas,分配副本)等于ISR(In-Sync Replicas,同步副本)加上OSR(Out-of-Sync Replicas,不同步副本)。

具体来说,AR是指为每个分区分配的副本集合,包括leader副本和follower副本。ISR是与leader副本保持同步的follower副本集合,即可靠的副本。OSR是与leader副本不同步的follower副本集合,即不可靠的副本。

因此,AR可以被分解为ISR和OSR的组合。ISR中的副本用于保证数据的一致性和可靠性,而OSR中的副本则需要追赶上来并与leader副本保持同步,才能重新加入ISR。

4、数据写入及同步的过程

整个数据写入及同步的过程分为九个步骤:

  1. leader 副本将数据写入本地磁盘

  2. leader 副本更新 LEO

  3. follower 副本发送同步数据请求,携带自身的 LEO

  4. leader 副本更新本地保存的其它副本的 LEO

  5. leader 副本尝试更新 ISR 列表

  6. leader 副本更新 HW

  7. leader 副本给 follower 副本返回数据,携带 leader 副本的 HW 值

  8. follower 副本接收响应并写入数据,更新自身 LEO

  9. follower 副本更新本地的 HW 值

4、HW 和 LEO

在这里插入图片描述

HW(High Watermark)表示Kafka分区中已经被确认的最高偏移量。它代表了消费者可以安全地读取的消息位置。消费者只能消费高于HW的消息,确保消息的可靠性。

LEO(Log End Offset)表示Kafka分区中当前的最高偏移量。它代表了分区中最新的消息位置,包括已经写入但尚未被确认的消息。LEO是一个动态的值,随着消息的写入和确认而变化。

HW和LEO在Kafka中用于管理消息的可靠性和一致性。消费者可以通过比较HW和LEO来确定自己的消费进度,并确保不会丢失任何重要的消息。

5、写在最后总结

AR(Assigned Replicas,分配副本)、ISR(In-Sync Replicas,同步副本)、OSR(Out-of-Sync Replicas,不同步副本)、HW(High Watermark,高水位标记)和LEO(Log End Offset,日志结束偏移量),如下:

  1. AR是指为每个分区分配的副本集合,包括leader副本和follower副本。每个分区可以有多个副本,其中一个副本被选举为leader,其他副本为follower。

  2. ISR是指与leader副本保持同步的follower副本集合。只有处于ISR中的副本才会被认为是同步的,其他副本将被视为不可靠的。ISR中的副本会按照leader副本的进度来进行数据复制和同步。

  3. OSR是指与leader副本不同步的follower副本集合。当follower副本无法及时跟上leader副本的同步进度时,它将被移出ISR,并被标记为OSR。OSR副本将尝试追赶上来,一旦追赶上来并与leader副本保持同步,它将被重新添加到ISR中。

  4. HW(High Watermark)是指已经被确认的最高偏移量,代表了消费者可以安全地读取的消息位置。消费者只能消费高于HW的消息,确保消息的可靠性。

  5. LEO(Log End Offset)是指当前分区中最新的消息位置,包括已经写入但尚未被确认的消息。LEO是一个动态的值,随着消息的写入和确认而变化。

综上所述,AR是包括leader和follower副本的集合,ISR是与leader副本保持同步的follower副本集合,OSR是与leader副本不同步的follower副本集合。HW代表了消费者可以安全读取的消息位置,LEO代表了当前分区中最新的消息位置。这些概念在Kafka中用于管理副本的同步和消息的可靠性。

?? 本文由激流原创,原创不易,希望大家关注、点赞、收藏,给博主一点鼓励,感谢!!!
???????????????????????????????
在这里插入图片描述文章来源地址https://uudwc.com/A/Lmnzm

原文地址:https://blog.csdn.net/qq_37967783/article/details/131827911

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请联系站长进行投诉反馈,一经查实,立即删除!

上一篇 2023年07月22日 19:23
极域工具包 1.2重磅发布!解除断网,解禁USB、键盘,增加解硬盘保护功能!
下一篇 2023年07月22日 19:30