超简单的Kafka架构入门指南，看这一篇就够了

2023-05-08 一灯架构

1. Kafka简介

Apache Kafka 是一种高吞吐、分布式的流处理平台，由 LinkedIn 开发并于 2011 年开源。它具有高伸缩性、高可靠性和低延迟等特点，因此在大型数据处理场景中备受青睐。Kafka 可以处理多种类型的数据，如事件、日志、指标等，广泛应用于实时数据流处理、日志收集、监控和分析等领域。

通常用作消息队列和流处理，作为消息队列的时候，竞品有RabbitMQ、ActiveMQ、RocketMQ、Apache Pulsar等。

2. Kafka架构

下面介绍一下Kafka架构中最重要的三个参与者：

Producer（生产者）：生产者负责将消息发送到 Kafka 集群。
Consumer（消费者）：消费者负责从 Kafka 集群中拉取并消费消息。
Broker（代理节点）：Broker 是 Kafka 集群中的一个服务代理节点，可以看作是一台服务器。Kafka 集群通常由多个 Broker 组成，以实现负载均衡和容错。

3. 分区与副本

Kafka为了对消息进行分类，引入了Topic（主题）的概念。生产者在发送消息的时候，需要指定发送到某个Topic，然后消息者订阅这个Topic并进行消费消息。

Kafka为了提升性能，又在Topic的基础上，引入了Partition（分区）的概念。Topic是逻辑概念，而Partition是物理分组。一个Topic可以包含多个Partition，生产者在发送消息的时候，需要指定发送到某个Topic的某个Partition，然后消息者订阅这个Topic并消费这个Partition中的消息。

Kafka为了提高系统的吞吐量和可扩展性，把一个Topic的不同Partition放到多个Broker节点上，充分利用机器资源，也便于扩展Partition。

Kafka为了保证数据的安全性和服务的高可用，又在Partition的基础上，引入Replica（副本）的概念。一个Partition包含多个Replica，Replica之间是一主多从的关系，有两种类型Leader Replica（领导者副本）和Follower Replica（跟随者副本），Replica分布在不同的Broker节点上。

Leader Replica负责读写请求，Follower Replica只负责同步Leader Replica数据，不对外提供服务。当Leader Replica发生故障，就从Follower Replica选举出一个新的Leader Replica继续对外提供服务，实现了故障自动转移。

下图展示的是，同一个Topic的不同Partition在Broker节点的分布情况：

Kafka为了提升Replica的同步效率和数据写入效率，又对Replica进行分类。针对一个Partition的所有Replica集合统称为AR（Assigned Replicas，已分配的副本），包含Leader Replica和Follower Replica。与Leader Replica保持同步的Replica集合称为ISR（In-Sync Replicas，同步副本），与Leader Replica保持失去同步的Replica集合称为OSR（Out-of-Sync Replicas，失去同步的副本），AR = ISR + OSR。

Leader Replica将消息写入磁盘前，需要等ISR中的所有副本同步完成。如果ISR中某个Follower Replica同步数据落后Leader Replica过多，会被转移到OSR中。如果OSR中的某个Follower Replica同步数据追上了Leader Replica，会被转移到ISR中。当Leader Replica发生故障的时候，只会从ISR中选举出新的Leader Replica。

4. 偏移量

Kafka为了记录副本的同步状态，以及控制消费者消费消息的范围，于是引入了LEO（Log End Offset，日志结束偏移量）和HW（High Watermark，高水位）。

LEO表示分区中的下一个被写入消息的偏移量，也是分区中的最大偏移量。LEO用于记录Leader Replica和Follower Replica之间的数据同步进度，每个副本中各有一份。

HW表示所有副本（Leader和Follower）都已成功复制的最小偏移量，是所有副本共享的数据值。换句话说，HW之前的消息都被视为已提交，消费者可以消费这些消息。用于确保消息的一致性和只读一次。

下面演示一下LEO和HW的更新流程：

初始状态，三个副本中各有0和1两条消息，LEO都是2，位置2是空的，表示是即将被写入消息的位置。HW也都是2，表示Leader Replica中的所有消息已经全部同步到Follower Replica中，消费者可以消费0和1两条消息。

生产者往Leader Replica中发送两条消息，此时Leader Replica的LEO的值增加2，变成4。由于还没有开始往Follower Replica同步消息，所以HW值和Follower Replica中LEO值都没有变。由于消费者只能消费HW之前的消息，也就是0和1两条消息。

Leader Replica开始向Follower Replica同步消息，同步速率不同，Follower1的两条消息2和3已经同步完成，而Follower2只同步了一条消息2。此时，Leader和Follower1的LEO都是4，而Follower2的LEO是3，HW表示已成功同步的最小偏移量，值是3，表示此时消费者只能读到0、1、2，三条消息。

所有消息都同步完成，三个副本的LEO都是4，HW也是4，消费者可以读到0、1、2、3，四条消息。

5. 消费者组

Kafka为了提高消息的处理效率，引入了消费者组的概念。一个消费者组（Consumer Group）包含多个消费者，一个消费者组可以同时订阅多个Topic，一个Topic也可以同时被多个消费者组订阅。

为了保证同一个Partition的消息被顺序处理，针对一个消费者组，一个Partition的消息只会交给这个消息者组的一个消费者处理。

6. 总结

本文简单介绍了Kafka架构，以及架构中涉及到底的一些名词概念，包括Producer（生产者）、Consumer（消费者）、Broker（代理节点）、Topic（主题）、Partition（分区）、Leader Replica（领导者副本）、Follower Replica（跟随者副本）、LEO（Log End Offset，日志结束偏移量）、HW（High Watermark，高水位）、Consumer Group（消费者组）等。