Kafka 服务端机制与运维基础

2.1 Kafka 的整体架构是怎样的？

回答

Kafka 整体可以分为三层角色：生产者（Producer）、服务端（Broker 集群）、消费者（Consumer）。Producer 负责发送消息，Broker 负责存储与管理消息，Consumer 从 Broker 拉取并处理消息。消息以 Topic 组织，逻辑上的 Topic 实际由多个分区（Partition）构成，分布在不同的 Broker 上。

分析

这个问题主要考察你对 Kafka 架构的基本理解，建议从逻辑角色和物理部署两个维度进行描述。

Kafka 的核心是一个分布式日志系统，它将消息流进行持久化，并允许消费者以自己节奏进行读取。整个系统由多个 Producer 向 Topic 发送消息，Broker 集群负责接收、写入和存储数据，同时管理消息的副本和分区。消费者通过 Consumer Group 协议从对应的分区中拉取数据。

每个 Topic 被划分为多个 Partition，Partition 是实际的并发与存储单位。每个 Partition 只能被组内一个消费者实例处理，实现并发控制。

Broker 之间没有中心节点，依靠 ZooKeeper 或 KRaft 进行元数据管理和选主等集群协调任务。ZooKeeper 中记录了 Topic 元数据、Broker 状态、Partition 分配等关键信息。

整体来看，Kafka 架构设计简洁但高效，通过分区机制天然实现水平扩展，通过副本机制保证高可用，是目前最主流的分布式消息系统之一。

2.2 如何获取 Kafka 中所有的 Topic 列表？

回答

Kafka 提供了标准接口用于获取 Topic 列表。在命令行中可使用 kafka-topics.sh --list --bootstrap-server <host:port> 命令；在 Java 或 Go 客户端中，则通过 AdminClient 实现获取。

分析

获取 Topic 列表是 Kafka 管理与监控的基本操作之一，通常用于系统启动初始化、管理平台展示或权限管控逻辑。

Kafka 提供了标准的 AdminClient API 支持跨语言操作。在 Java 中，使用如下方式可查询当前集群中所有 Topic：

Properties props = new Properties();
props.put(AdminClientConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
try (AdminClient client = AdminClient.create(props)) {
    Set<String> topics = client.listTopics().names().get();
}

Go 等语言的客户端（如 Confluent 提供的库）也提供了类似 API，调用方式略有不同，但核心逻辑是一致的：通过 AdminClient 与 Broker 通信，请求 Topic 元数据。

从系统运维角度来看，Topic 是 Kafka 的核心资源单元，因此定期检查 Topic 列表是监控与审计系统常规流程的一部分。

2.3 有了 Topic，为何还要引入 Partition？Kafka 为什么要将消息分区？

回答

即使一个业务已经对应一个 Topic，随着业务数据量增加，单个 Topic 仍可能产生大量消息。Kafka 为了实现更高的吞吐与并发能力，引入了 Partition 机制，将消息进一步切分至多个分区存储，实现“分而治之”。

分析

Kafka 的 Topic 是逻辑上的消息分类单位，但真正负责数据存储与调度的是 Partition。可以理解为：Topic 是目录，Partition 是实际的文件。

如果没有 Partition，所有消息只能写入一个分区，对应一个 Broker，这样不仅写入能力受限，还会出现单点瓶颈。而 Partition 机制则允许一个 Topic 被拆分为多个子单元，每个 Partition 可以分别写入、分别被消费者读取，天然支持并发和扩展。

更重要的是，分区机制还能实现“副本机制”，为每个 Partition 配置多个副本，提升了 Kafka 的容错能力和高可用性。

因此，引入 Partition 的本质目的就是为了提升并发度、增强系统扩展性和容灾能力，是 Kafka 架构中极为关键的一环。

2.4 Partition 是逻辑概念还是物理概念？

回答

Partition 是一个物理概念，对应磁盘上的实际日志文件。Kafka 的消息是被真实写入 Partition 的，而 Topic 则仅是一个逻辑组织单位。

分析

Kafka 中的 Topic 更像是用户视角下的抽象标签，是逻辑分类结构；而 Partition 才是系统内部实际承担存储和调度职责的物理单元。

每个 Partition 在磁盘上对应一组日志文件，包括数据文件、索引文件等。Producer 写入消息时，Kafka 会根据分区策略将消息写入某个 Partition，这些消息以追加写入方式顺序存储，Consumer 也是从 Partition 中顺序拉取数据。

正因为 Partition 是真正的数据载体，Kafka 才能基于分区实现并行消费、副本复制、分布式部署等高可用设计。

简单地说：Topic 是你看到的门牌号，Partition 才是实际装货的仓库。

2.5 Kafka 中有哪些常用的分区分配策略？

回答

Kafka 消费者通过 partition.assignment.strategy 参数指定分配策略。常见策略包括：

Range：按范围分配，适合分区数远大于消费者数的场景；
RoundRobin：轮询分配，确保每个消费者尽量均衡分到分区；
Sticky：尽量保持原有分配，减少 rebalance 期间的抖动；
CooperativeSticky：支持“渐进式”再平衡，是目前最推荐的策略。

分析

消费者组在进行分区分配时，核心目标是平衡性与稳定性。Kafka 提供了多种策略以适配不同业务需求：

Range（范围策略）：按分区编号顺序划分给不同消费者，简单高效，但在分区数不能被消费者数整除时容易造成不均衡。
RoundRobin（轮询策略）：以“发牌”的方式将分区均匀分给所有消费者，适合每个消费者都订阅相同 Topic 的情况。
Sticky（粘性策略）：在维持负载均衡前提下，尽可能维持上一次分配结果，减少因分配变化导致的处理中断。
CooperativeSticky（协同粘性策略）：Kafka 2.4 后引入，通过“分步再平衡”提升消费稳定性，让未变动的消费者继续正常消费，避免全局阻塞。

在业务对消费稳定性要求较高的场景中，推荐使用 CooperativeSticky 策略，它能显著减少 rebalance 带来的停顿和资源浪费。

2.6 Kafka 创建 Topic 时如何将分区放置到不同的 Broker 上？

回答

Kafka 在创建 Topic 时会按照轮询（round-robin）的方式将分区均匀分配到集群内的不同 Broker 上，以实现负载均衡。每个分区只对应一个主副本所在的 Broker，副本则根据 replication.factor 分布在其他 Broker 上。

分析

Kafka 的分区设计决定了其天然具备水平扩展能力。创建 Topic 时，如果集群中有多个 Broker，Kafka 会将 Topic 的 Partition 尽可能均匀分配到不同 Broker 上。

例如，有 3 个 Broker 和 6 个分区，那么 Kafka 会轮询地将分区分布为：

Partition 0 → Broker 1
Partition 1 → Broker 2
Partition 2 → Broker 3
Partition 3 → Broker 1
…

副本分配由控制器进行协调，按照 replication.factor 配置为每个分区分配 follower 副本，通常会避免主副本和副本落在同一节点上，以提升高可用性。

这种自动化分配策略避免了人为分配的低效与失误，并且在 Broker 增加时还能通过 Reassign 分区重新平衡，提高资源利用效率。

2.7 消息是如何决定写入哪个 Partition 的？

回答

Kafka 中决定消息写入哪个 Partition 的逻辑主要分三种情况：显式指定 Partition、根据 Key 做 Hash 分配、或默认使用轮询策略。常规使用中，推荐使用 Key 分配来保持相同业务维度数据的局部有序。

分析

Kafka 中一个 Topic 通常会包含多个 Partition，而 Producer 在发送消息时需要明确该消息要写入哪一个分区。

第一种情况是显式指定 Partition。这种方式业务可控性强，但也牺牲了 Kafka 的分布式调度能力，一般只在少数场景（如分区路由）中使用。
第二种情况是设置 Key，Kafka 会根据 Key 的 Hash 值对 Partition 总数取模，从而确定目标分区。这种方式是最常见的实践方式，不仅保证相同 Key 的消息落入同一分区，还能维持局部顺序性。
第三种是既未设置 Partition 也未设置 Key，此时 Kafka 会采用轮询（round-robin）策略，平均分配消息至各个 Partition，提高整体吞吐效率。

这个机制体现了 Kafka 在“控制 vs. 吞吐”之间的灵活平衡：你可以要顺序性，也可以要负载均衡，但需要根据业务场景做出权衡。

2.8 Kafka 服务端默认允许的最大消息大小是多少？如何修改？

回答

Kafka 默认允许的最大消息大小为 1MB，配置项为 message.max.bytes，可在 Broker 端配置文件中进行修改来支持更大消息体。

分析

Kafka 是为高吞吐设计的日志型消息队列，其默认假设消息体不会太大。为了避免单条消息对内存、网络资源造成冲击，Kafka 将单条消息默认上限设置为 1MB。

如果业务中确实需要发送大消息（如压缩后的图像、交易流水等），则可以通过以下方式进行配置：

# 在 broker 配置文件中设置
message.max.bytes=5242880  # 设置为 5MB

需要注意的是，客户端发送端和消费端也需要设置对应的参数以匹配：

Producer 配置：max.request.size
Consumer 配置：fetch.message.max.bytes

否则即使 Broker 接收了大消息，客户端可能仍会出现读取失败或消息截断的问题。

总的来说，合理设置消息大小上限，应结合业务特点与 Kafka 的资源使用模型，不建议盲目扩大以规避设计问题。

2.9 Kafka 中 Partition 的数据是如何存储到磁盘上的？

回答

Kafka 将每个 Partition 作为一个目录存储在磁盘中，Partition 以多个 Segment 文件的形式分段保存，Segment 文件包括 .log（消息数据）、.index（索引）等组成，默认每个 Segment 最大为 1GB。

分析

Kafka 的高吞吐能力得益于其顺序写磁盘 + 分段存储的架构设计。每个 Partition 对应磁盘中的一个文件夹，命名格式为 <topic>-<partition>。

在该目录下，Kafka 会按固定大小将消息划分为多个 Segment 文件，每个 Segment 是一组顺序写入的消息块，命名通常以起始 offset 作为前缀，如：

00000000000000000000.log
00000000000000000000.index

一旦当前 Segment 文件达到设定大小（如 1GB），Kafka 就会滚动生成下一个 Segment。这样做的好处是：

控制单个文件大小，便于管理和查找；
Segment 可以被单独清理、压缩、移动，提升磁盘使用效率；
保证写入性能，顺序写入 + 零拷贝机制可以充分发挥操作系统缓冲。

此外，Kafka 还会定期清理旧 Segment（结合保留策略），实现“写入不断增长，但磁盘使用可控”的设计目标。

2.10 Kafka 如何清理旧数据？数据越积越多怎么办？

回答

Kafka 提供两种主要的数据清理策略：基于时间（retention.ms）和基于大小（retention.bytes）。超过设定阈值的旧数据会自动被删除，以控制磁盘使用。

分析

Kafka 是日志系统，它默认“写不删”，但磁盘空间终究有限，因此引入了可配置的日志保留策略。主要包括：

基于时间的策略（常见配置 log.retention.hours、retention.ms）：超过保留时间的 Segment 将被清理，适合“消息有效期有限”的场景，如日志、监控。
基于大小的策略（如 retention.bytes）：当 Topic 的所有 Partition 总和超出配置大小后，Kafka 会从最旧的 Segment 开始清理。

除了这两种保留方式，Kafka 还支持：

Compact 压缩策略：保留每个 Key 的最新值，适用于变更日志（如数据库变更捕获）。
TTL + 压缩组合策略：在部分业务中配合使用，用于降低数据冗余。

通过这些策略，Kafka 实现了“可持续写入 + 有效空间控制”的能力，是其在大数据、日志系统中广受青睐的重要原因。

2.11 ZooKeeper 对于 Kafka 的作用是什么？

回答

ZooKeeper 是 Kafka 中负责协调和元数据管理的关键组件。它主要用于记录 Broker 状态、Topic 配置、控制器选举以及分区与消费者之间的关系。虽然 Kafka 后续逐步减少对 ZooKeeper 的依赖，但在传统架构中，ZooKeeper 是 Kafka 正常运行不可或缺的一环。

分析

Kafka 作为一个分布式系统，需要一个“中立的调度者”来维持集群一致性和状态同步，而 ZooKeeper 正是扮演这个协调者角色。

首先，Broker 节点的注册与心跳管理依赖 ZooKeeper。每个 Broker 启动时会向 ZooKeeper 注册自己的信息，并定期上报心跳。如果 ZooKeeper 检测到某个 Broker 心跳超时，会触发控制器进行处理，如重新分配 Leader。

其次，Topic 的元数据信息，包括分区数量、副本分布、ISR（同步副本集合）等，都保存在 ZooKeeper 中。这使得 Kafka 能够快速获知 Topic 的结构和状态。

最重要的是，Kafka 的控制器选举也是基于 ZooKeeper 实现的。Kafka 集群中某个 Broker 会被选为控制器，负责处理集群中的元数据变更（如 Broker 上下线、分区 Leader 选举等），该信息会被记录在 ZooKeeper 的 /controller 路径下。

此外，Kafka 还将部分配置信息如 Topic 参数存储在 ZooKeeper 中，便于所有 Broker 实时读取和感知更新。

早期版本中，Kafka 还将消费者的消费进度（offset）也保存在 ZooKeeper 中，但由于写入频繁、性能开销大，后续改为保存在内部的 __consumer_offsets Topic 中，这样既减轻了 ZooKeeper 的压力，也提升了消费性能。

综上，ZooKeeper 在 Kafka 架构中扮演着“集群协调核心”的角色，尽管目前 Kafka 正在推进无 ZooKeeper 架构（KRaft），但理解其历史作用依然是掌握 Kafka 的基础之一。