<返回更多

从Clickhouse迁移到Doris,数据仓库性能大提升

2023-11-17  微信公众号  Java学研大本营
加入收藏

从一个OLAP数据库迁移到另一个数据库是一项艰巨的工程。即使能找到一些有用的数据工具,您可能仍会犹豫是否对数据架构进行大手术,因为不确定如何运作。

本文分享如何从ClickHouse迁移到Doris的过程,包括为什么需要更改,需要注意什么以及如何比较两个数据库在各自环境中的性能。

1 使用Doris替换Kylin、ClickHouse和Druid

这里有一家电子商务SaaS提供商,其数据系统提供实时和离线报告、客户分割和日志分析服务。最初,他们为这些不同的目的使用了不同的OLAP引擎:

从Clickhouse迁移到Doris,数据仓库性能大提升

这三个组件都有各自的痛点:

由于它们共同工作,这种架构可能太难以导航,因为它需要在开发、监控和维护方面了解所有这些组件。此外,每次用户扩展集群时,他们必须停止当前集群并迁移所有数据库和表,这不仅是一个巨大的任务,而且会对业务造成巨大的干扰。

从Clickhouse迁移到Doris,数据仓库性能大提升图片

Apache Doris填补了这些空白。

因此,计划进行迁移。

2 替换手术

ClickHouse是旧数据架构中的主要性能瓶颈,也是最初想要进行更改的原因,因此从ClickHouse开始。

2.1 SQL语句的更改

表创建语句

从Clickhouse迁移到Doris,数据仓库性能大提升图片

这里构建了自己的SQL重写工具,可以将ClickHouse表创建语句转换为Doris表创建语句。该工具可以自动执行以下更改:

从Clickhouse迁移到Doris,数据仓库性能大提升图片

查询语句

同样,也有工具可以将ClickHouse查询语句转换为Doris查询语句。这是为了准备ClickHouse和Doris之间的比较测试。转换中的关键考虑因素包括:

2.2 数据摄入方法的变化

从Clickhouse迁移到Doris,数据仓库性能大提升图片

Apache Doris提供了广泛的数据写入方法。对于实时链接,采用Stream Load从NSQ和Kafka摄取数据。

对于大型离线数据,测试了不同的方法,以下是结论:

Spark-Doris-Connector是一种更通用的方法。它可以处理大量数据并确保写入稳定性。关键是找到正确的写入速度和并行性。

Spark-Doris-Connector还支持Bitmap。它允许您将Bitmap数据的计算工作负载移动到Spark集群中。

Spark-Doris-Connector和Flink-Doris-Connector都依赖于Stream Load。CSV是推荐的格式选择。用户的数十亿行测试表明,CSV比JSON快40%。

Spark Load方法利用Spark资源进行数据洗牌和排名。计算结果放在HDFS中,然后Doris直接从HDFS读取文件(通过Broker Load)。这种方法非常适合大规模数据摄入。数据越多,摄入速度越快,资源利用率越高。

3 压力测试

这里比较了两个组件在SQL和连接查询方案上的性能,并计算了Apache Doris的CPU和内存消耗。

3.1 SQL查询性能

Apache Doris在16个SQL查询中的10个中表现优于ClickHouse,最大的性能差距比例接近30。总体而言,Apache Doris比ClickHouse快2~3倍。

从Clickhouse迁移到Doris,数据仓库性能大提升图片

3.2 连接查询性能

对于连接查询测试,使用了不同大小的主表和维表。

测试包括完全连接查询和过滤连接查询。完全连接查询连接主表和维表的所有行,而过滤连接查询使用WHERE过滤器检索特定卖家ID的数据。结果如下:

主表(40亿行):

主表(250亿行):

主表(960亿行):

Doris在所有查询中都表现出相对较快的性能,而ClickHouse无法执行所有查询。

在CPU和内存消耗方面,Apache Doris在所有大小的连接查询中都保持稳定的集群负载。

关键词:数据仓库      点击(10)
声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多数据仓库相关>>>