Redis有序集合zset的内部数据结构分析

2019-06-17

概述

在redis所支持的五种数据类型当中，zset是一个有序集合的实现，集合中的每个元素由成员对象member和分值score组成，整个有序集合按照分值score从小到大排序的，其中分值是可以重复的，而成员对象member是不能重复的。
有序集合zset在内部可以使用压缩列表ziplist或者跳跃表skiplist来实现。

数据结构分析

一、压缩列表

如果使用压缩列表ziplist来实现，则键和分值紧凑相邻保存在压缩列表中，同时分值小的排在列表前面，分值大的排在列表后面。使用压缩列表ziplist来保存需要满足以下两个条件，否则使用跳跃表skiplist：
集合元素少于128个；
集合每个元素的键和分值都少于64个字节；
即在集合元素较少，元素类型较小时，使用压缩列表，这样由于数据元素较少，故虽然压缩列表效率较低，但是基本不会有多大影响，而且可以充分利用压缩列表的连续内存和紧凑的数据结构实现来节省内存。
以上两个条件可以在配置文件中分别通过zset-max-ziplist-entries和zset-max-ziplist-value这两个参数来修改。

二、跳跃表与字典

// 有序集合
typedef struct zset {
 dict *dict;
 zskiplist *zsl;
} zset;

如果是使用跳跃表skiplist，则会结合一个哈希字典dict来实现：
即使用哈希字典dict来保存键和分值的映射，实现O(1)复杂度获取某个键的分值；通过跳跃表skiplist来根据分值排序来排序该集合，从而实现按分值排序，其中跳跃表的每个节点都同时包含分值和键。
在内存使用方面，哈希字典dict和跳跃表skiplist是通过指针来共享键和分值的，故不会存在两份数据，节省了内存。
如果只使用哈希字典来实现，则获取给定键对应的分值复杂度为O(1)，但是如果每次获取有序集合，则需要获取整个集合然后排序，需要O(NlogN)的时间复杂度和O(N)的空间复杂度。
如果只使用跳跃表skiplist来实现，则每次获取某个键的分值都需要在跳跃表来查找，时间复杂度为O(logN)。