系统有万亿条消息怎么存储？

2023-12-26 微信公众号 ByteByteGo

我们如何设计一个能存储数万亿条信息的系统?

Discord 的消息存储演进给我们提供了真实案例参考。

下图显示了 Discord 消息存储的演变过程：MongoDB -> Cassandra -> ScyllaDB

系统有万亿条消息怎么存储？图片

第一阶段

2015 年，Discord 的第一个版本建立在单个 MongoDB 之上。2015 年 11 月左右，MongoDB 存储了 1 亿条消息，其内存无法再容纳数据和索引。延迟变得不可预测。消息存储需要转移到另一个数据库。这时 Cassandra 被选中。

2017 年，Discord 拥有 12 个 Cassandra 节点，存储了数十亿条消息。

2022 年初，Discord 拥有 177 个 Cassandra 节点，存储了数万亿条消息。此时，延迟再次变得难以预测，维护的成本也变得过于昂贵。

造成这一问题有几个原因：

这时，Discord 重新设计了消息存储的架构：

新架构的优势在于：

为了进一步保护 ScyllaDB，Discord 针对数据服务还做了以下优化：

优化后的系统性能大大提高：

该系统可轻松应对世界杯流量高峰。

本文参考 Discord blog。