Hive 分区和分桶的区别

2022-02-21 大数据工匠

前言

Hive的分区和分桶都是细化数据管理，加快数据查询和分析，两者有什么区别呢？下面讲解一下分区和分桶的原理。

分区及原理

Hive的分区表可以有一个或多个分区键，用于确定数据的存储方式。分区（除了作为存储单元）还允许用户有效地识别满足指定条件的数据，显著加快查询分析速度。分区字段并不是数据的一部分，而是加载时虚拟的列，数据在HDFS上存储时分区就相当于文件目录。

分区建表SQL

分区表使用partitioned by 子句指定，以指定字段列，需要指定字段类型。

--分区表建表sql
USE testdb;
CREATE TABLE test_partition (
    field1 String Comment 'field1 comment',
    field2 String Comment 'field2 comment')
Comment 'table comment'
PARTITIONED BY(d String Comment 'date')
STORED AS ORC;

--分区表查询
SELECT *
FROM testdb.test_partition
WHERE d = '2022-02-01'

建表完成后查看LOCATION参数为：'
hdfs://ns/user/hive/warehouse/testdb.db/test_partition'。当存储数据时，2022-02-01日期的数存储在hdfs://ns/user/hive/warehouse/testdb.db/test_partition/d=2022-02-01目录下。

如果指定多个分区列用逗号分隔开，如：建表是PARTITIONED BY(d String Comment 'date',h String Comment 'hour')，分区字段日期常用格式：d=yyyy-MM-dd，h=HH。第二个参数会作为子目录存储在HDFS上：***/test_partition/d=2022-02-01/h=12

分桶及原理

分桶表中的数据可以根据表中某列的哈希函数的值依次划分为存储桶，用于分桶的字段是数据中实际的一列。其原理：根据分桶的列计算hash值，对hash值取模运算，将数据放到对应的桶里。

分桶建表SQL

分桶表由clustered by 子句指定，指定字段为真实字段，需要指定桶的个数，桶编号从零开始。

--分桶表建表sql，创建4个桶
USE testdb;
CREATE TABLE test_bucket (
    field1 String Comment 'field1 comment',
    field2 String Comment 'field2 comment')
COMMENT 'table comment'
clustered by (field1) into 4 buckets
row format delimited
fields terminated by ',';

--分桶表查询
SELECT *
FROM testdb.test_bucket
WHERE field1 = '0'

相同点和不同点

相同点：分区和分桶表都是Hive细化数据管理，加快数据查询和分析。

不同点：

分区字段不是实际的列，分桶字段必须是实际的列。
分区表的分区数量可以一直增长，而分桶表创建好后桶的数量就固定不变了。

思考

因为分桶原理是用hash计算后取模计算分桶，用哈希计算必然会冲突，如果大批量数据计算的hash值相等，极端情况下全部数据集中到一个桶中时，就导致分桶表退化成一张维表。