Java面试谈谈你对Kafka数据存储?7年架构师...

谈谈你对Kafka数据存储原理的理解。

Java面试题解析。一位5年工作经验的小伙伴，面试的时候被问到这样一个问题。谈谈你对Kafka数据存储原理的理解。这位小伙伴一时间没有回答上来，那么今天我给大家来聊一聊我对这个问题的理解。另外我把往期分享的视频全部整理成了一份20万字的文档，后续还会连更，希望能够以此来提高各位粉的面试通遇率。

想获取的小伙伴，可以在我的个人煮叶简介中找到。

面试题：谈谈你对Kafka数据存储原理的理解？

要了解Kafka的数据存储原理。我从以下5个方面来分析。分别是：Topic主题。

第一点，cna副本。

第二点，Segment分片。Segment分段以及Index索引。

首先来看Topic主题。在Kafka中用来存储消息的队列叫做Topic，它是一个逻辑的概念，也可以理解是生产者和Topic以及Topic和消费者的关系都是多对多。生产者可以发送消息到多个Topic，也可以从多个Topic去获取消息。

如图所示，生产者发送消息的时候酒如果Topic不存在，Kafka默认会自动创建。

药水为了实现横向扩展，它会把不同的数据存储在不同的Broker上。

为了去降低单台服务器的访问压力，它会把一个Topic的数据分割成多个Partitior，也就是分段。

那么在服务器上每个Partition都有一个物理目录，Topic名字后面的数字，每个crushtion都有一个物理目录，在Topic的名字后面加上一个数字标号，也就是代表分区的标号。

比如说我们创建一个名为mytopic的主题，它的数据目录被分布到了3台机器，如图所示mytopic-0存在A节点。

第三点，

sine。

为了提高分区的可靠性，又设计了一个副本机制。我们在创建Topic的时候，可以通过指定抗凝on-最小副本因子来确定Topic的副本数。

副本因子数必需要小于等于节点数，否则就会报错。这样就可以去保证绝对不会有一个分，绝对不会有一个分区的两个副本，分布在同一个节点上，不然就失去了副本的意义了。

我创建了一个3个分区3个副本的，它的名字叫做a3part3，back。

它被均匀的分布到了3个Broker节点上，每个Broker节点互为备份。那么在这些所有的副本中又有两个角色，一个叫做Leader，个叫做Follower。Leader是负责对外提供读写的服务。而Follower它的维一任务就是从Leader中去异步拉取数据，如图中所示，红色的副本为Le，也被均匀的分布在各个节点上。这样设计就可以去保证读写的均匀，也被称之为单调读一致性。

第四点，g-4Segment分段。

接下来就是分段。

为了防止数据的不断追加，从而去影响检索的效率。

那么当我们的Woodtion超出一定大小的时候，就会被切割为多个Segment来组织数据。那么在磁盘上每个显著性ment，由一个log文件和2个index文件来组成。这3个文件是成套出现的。

最后点，index是用来存储我们Consumer的OffData偏移量的索引文件。

timeindex存储消息时间戳的索引文件。

保存着最原始的数据文件，这些文件的名字，以切割时记录的Offset值作为文件的名字。

它的文件结构是这样子的。

通过前面的介绍，我们已经了解了Kafka的文件存储结构。我们看到有两种索引文件，一种是偏移量的索引文件，它记录的是Offset和消息在Log文件中的位置映射关系。另一种是时间戳索引文件。它记录的是时间戳和Offset的关系。

牙冠ka为了去提高检索的效率，并不会为每一条消息去建立索引，而是采用的稀疏索引。也就是说，它会隔一批消息才会去产生一条索引记录。如图所示。我们可以通过参数来设置索引的稀疏程度。

相对来说，越稠密的索引检索数据就更快。但是它会消耗更多的存储空间，越稀疏的索引占用的空间就越小。当然Kafka的时间戳索引。由于Kafka的索引文件是以Offset来命名的，这样效率就大大提升。

就是我对Kafka数据存储原理的理解，我是被编程耽误的文艺Tom。如果我的分享对你有帮助，请你动动手指，关注我，面试不再难。

展开阅读全文

页面更新：2024-03-12

标签：生产者副本节点分区索引原理消息文件时间数据

1 2 3 4 5

Java面试谈谈你对Kafka数据存储?7年架构师...

甘肃省高校新增30个本科专业智能建造、酿酒工程、智慧交通等入选

HummerRisk V1.0 开发手册(微服务版)

北云科技新品高精度定位芯片Alice上海车展首发亮相

香农芯创：境外销售收入主要来源于阿里、腾讯、字节等企业

大众首个海外电池工厂将布局加拿大获近100亿美元补贴承诺

CrunchBase：Web3投资资金继续下滑，同比下降 82%

车展来了｜新能源概念车集中亮相，跨国车企加码中国研发团队

智能科技加持自行车产业深刻变革

“了不起的甲骨文”小程序上线冷门绝学“触手可及”

台积电全年业绩下滑大局已定，刹车台厂产能、与美拉扯百亿补贴

北京打造科幻产业重点项目群，科幻产业总产值占全国三分之一

中汽股份：长三角（盐城）智能网联汽车试验场预计2024年投入运营

秋田微：已完成5G通讯用波长选择器（WSS）硅基液晶器件设计和样品制作

马斯克的SpaceX爆炸，狗狗币在过去三个小时内暴跌 8%

MINI中国就冰淇淋事件道歉；微信内测朋友圈置顶功能；京东618发布“减负增收”大礼包>>速看APP一周大事件

年轻人不再“宅”，唯品会419一组数据亮了

洪崖洞开关灯时间有变，五一打卡请留意

三消息：李梦已经抵美，李春江有望继续执教，江苏肯帝亚或将

TikTok CEO周受资再次公开谈，如何解决数据安全等问题作

奋力冲刺，“节”连不断-福建省安装公司一批重点项目节

睡前在枕头下放颗蒜，一段时间后，5大好处或会“不请自来

（体育·中超）综合消息：申花迎来两连胜浙江遭遇两连败

马斯克第一时间祝贺狗狗币DOGE在“狗狗日”突遭棒击

大悦城空降原神主题公园？每天限量500人，排队时间已超过3

午睡超过这个时间，越睡越伤身！