认识Apache BookKeeper

2020-01-03

Apache Bookkeeper简介

Apache bookkeeper是一个分布式，可扩展，容错（多副本），低延迟的存储系统，其提供了高性能，高吞吐的存储能力。Bookkeeper实现了Append方式的写操作。

Bookkeeper有一个非常成功的应用案例：apache pulsar，是近年雅虎开源的一个MQ，pulsar相对于kafka来说，在存储上有优势，kafka的单个partition的存储容量受到了部署kafka的broker的硬盘容量限制，当有大量的数据需要MQ支持时，partition可能会遇到瓶颈而无法扩展。当然可以预先增加partition的数量和broker的数量来满足MQ的存储需求，但是当消息需要存储的时候相对较长或者数据量非常多之后，比如存储一个月，需要按月做数据的回拉跑计算任务，这种场景对kafka的集群来说是有非常大的浪费的，因为我们需要的是更多的存储，不是更多了broker的能力，bookkeeper为pulsar提供了存储计算分离的架构支持，存储和pulsar的broker能分别扩展，这是kafka不具备的

基本概念

· Entry：Entry是存储到bookkeeper中的一条记录

· Ledger：可以认为ledger是用来存储Entry的，多个Entry序列组成一个ledger

· Bookie：一个Bookie就是bookkeeper的一台存储服务器，用于存储ledger，一般来说存储的是ledger的一段，因为存储是分布式的，每个ledger会存储在多个bookie上

· MetaData Storage：元数据存储，是用于存储bookie相关的元数据，比如bookie上有哪些ledger，bookkeeper目前使用的是zk存储，所在在部署bookkeeper前，要先有zk集群

· 数据存储文件与缓存：

· Journal：其实就是bookkeeper的WAL(write ahead log)，用于存bookkeeper的事务日志，journal文件有一个最大大小，达到这个大小后会新起一个journal文件

· Entry log：存储entry的文件，我理解ledger是一个逻辑上的概念，不同ledger中的entry会先按ledger聚合，然后写入entry log文件中。同样，entry log会有一个最大大小，达到最大大小后会新起一个新的entry log文件

· Index file：ledger的索引文件，ledger中的entry被写入到了entry log文件中，索引文件用于邓颖超entry log文件中每一个ledger做索引，记录每个ledger在entry log中的存储位置以及数据在entry log文件中的长度

· Ledger cache：用于缓存索引文件的，加快查找效率

· 数据落盘：内存中会存储一个LastLogMark，其中包含txnLogId(journal文件的id)和txnLogPos(journal文件中的位置)，entry log文件和index文件都会先在内存中被缓存，当内存达到一定值或者离上一次刷盘过期了一段时间（定时线程）后，会触发entry log文件和index文件的刷盘，之后再将LastLogMark持久化，当lastLogMark被持久化后，表示在lastLogMark之前的entry和索引都已经写到了磁盘上，这个时候可以将lastLogMark之前的journal文件清掉，如果LastLogMark在持久化前出现了宕机，可以通过journal文件做恢复，保证了数据不丢

· Data Compaction：数据的合并，有点类似于hbase的compact过程。在bookie上，虽然entry log在刷盘前会按ledger做聚合，但是因数数据会不断的新增，每个leadger的数据会交差存储在entry log文件中，而bookie上有一个用于做垃圾回收的线程，该线程会将没有关联任何ledger的entry文件进行删除，以便回收磁盘空间，而compaction的目的则是为了避免entry log中只有少数的记录是有关联的ledger的情况，不能让这样的entry log文件一直占用磁盘空间，所以垃圾收集线程会将这样的entry log中有关联ledger的entry复制到一个新的entry log文件中（同时修改索引），然后将老的entry log文件删除。与hbase类似，bookkeeper的compaction也分为两种：

· Minor compaction：当entry log中有效的entry只占20#以下时做compaction

· Major compaction：当entry log中有效的占到80%以下时就可开始做compaction

提供的API

Bookkeeper提供了两个层次的api：

· Ledger API：用于直接操作ledger，相对比较复杂，是bookkeeper提供的底层api

· Distributed Log：分布式log，是基于ledger api的高层次api，相对更简单易用

分布式Log架构：

分布式log api写入的log，会以写入相同的顺序存储在bookkeeper上：

Bookkeeper的适用场景

· WAL：bookkeeper可作为wal方案

· 流存储：比如pulsar通过bookkeeper存储消息

· 对象/Blob存储