0

0

PostgreSQL源码分析: 动态Hash

php中文网

php中文网

发布时间:2016-06-07 17:58:48

|

1619人浏览过

|

来源于php中文网

原创

1. 为什么需要动态hash 平常的hash,大多是下面这样一副面孔: 图1 一个静态hash结构 这种Hash维护着一些桶,就是图上左边的部分,每一个桶中装着hash值相同的数据。 这些具有相同hash值的数据形成一个链表。这种hash的一个最主要缺点就是桶的数目是一定的,不

1. 为什么需要动态hash

平常的hash,大多是下面这样一副面孔:



图1         一个静态hash结构

这种Hash维护着一些桶,就是图上左边的部分,每一个桶中装着hash值相同的数据。

这些具有相同hash值的数据形成一个链表。这种hash的一个最主要缺点就是桶的数目是一定的,不易扩展,随着插入数据增多,查找效率会急剧下降。

动态hash就是用来解决这个问题的,postgresql实现的动态hash保证填充因子不超过一个预定值的情况下动态地增长hash表的容量。同时每一次扩容所作的改动不大,空间利用率也比较地高。

2.      动态hash的结构

Postgresql与动态hash相关的代码分布在dynahash.c和hashfn.c这两个文件之中hashfn.c

主要是一些Hash Function,而dynahash.c才是动态hash的主要实现。

与普通hash表相比,动态hash多了一个新的行政单位: 目录。 如下图:



图2   postgresql 动态hash结构

dir是一个大小可变的数组,初始长度可以在创建时指定,以后每一次扩展其长度都会X2。dir中的每一项都指向一个长度固定的Segment, 这些Segment的长度都相同且必须是2的整数次幂,Segment数组中的元素是Bucket(桶) ,每一个桶中存放着一个链表,动态hash将所有具有相同hash值的元素都放在同一个桶中。

现在来看一下pg中 这些基本概念的定义:      

typedef struct HASHELEMENT 

    struct HASHELEMENT *link;   /* link to next entry in same bucket */ 
    uint32      hashvalue;      /* hash function result for this entry */ 
} HASHELEMENT;


/* A hash bucket is a linked list of HASHELEMENTs */ 
typedef HASHELEMENT *HASHBUCKET; 
 
 
/* A hash segment is an array of bucket headers */ 
typedef HASHBUCKET *HASHSEGMENT;
这些定义都可以和上图相对应,不再多说。

3. 给定hash value,如何找到与其对应的Bucket

先看一下实现吧:

/* Convert a hash value to a bucket number */ 
static inline uint32 
calc_bucket(HASHHDR *hctl, uint32 hash_val) 

    uint32      bucket; 
 
    bucket = hash_val & hctl->high_mask; 
    if (bucket > hctl->max_bucket) 
        bucket = bucket & hctl->low_mask; 
 
    return bucket; 

hctl->max_bucket 指的是bucket总数减1,对于图2来说,这个值为15

hctl->low_mask 是max_bucket + 1)的最大的2^K减1, 对于图2来说,这个值是16 - 1 = 15 (0000 1111)

hctl->high_mask 是2^(K + 1)减1, 对于图2来说,这个值是32 - 1 = 31 (0x0001 1111)

这几个变量要注意的是,hctl->max_bucket在hash表创建好以后,会变化,一般情况下每次增加一个,如果hctl->max_bucket变成了2的整数次幂,就需要更新hctl->low_mask和hctl->high_mask。更新代码如下:

/*
* If we crossed a power of 2, readjust masks.
*/ 
if ((uint32) new_bucket > hctl->high_mask) 

    hctl->low_mask = hctl->high_mask; 
    hctl->high_mask = (uint32) new_bucket | hctl->low_mask; 
}  

我们回头继续看那个calc_bucket函数, 因为理解这个函数是理解动态扩展的关键。从上面关于max_bucket,low_mask和high_mask的介绍,可以得出下面的结论:

hctl->high_mask >=  hctl->max_bucket >= hctl->low_mask

反应在它们的二进制表示上,如果hctl->low_mask占m位(2^m - 1),则hctl->high_mask占m + 1位。而hctl->max_bucket是在闭区间[low_mask,high_mask]之间的。所以要取得hash_val的bucket值应优先&上high_mask,如果发现得到的bucket的序号比max_bucket还大,则再&上low_mask。这一步为后面的扩展埋下了伏笔。在扩展的时候,也就是max_bucket增加的时候,可能会造成这种情况,扩展前后同一hash_val通过calc_bucket算出的值不一样。下面在叙述扩展的时候再详细解说其解决办法 。

4.  动态扩展

在弄清楚动态hash的结构以及如何从hash值得到其所在的bucket后,hash表的查找,删除以及通常情况下的插入操作就非常地容易啦。比如删除,就先是调用 cal_bucket找到所在的桶,然后在这个桶中一个个地找,找到具有相同键值的元素,就从桶所对应的链表中删除。 下面来说一下动态扩展的问题,毕竟这才是pg动态hash的核心。

说到动态扩展,就得说扩展时机,什么时候我们的hash表需要增大容量呢? 我们增大容量是为了保证其查找的效率。而hash表的查找效率是与一个叫做填充因子东西有很大关系的。pg的填充因子定义为:

填充因子 = hctl->nentries / (hctl->max_bucket + 1)

从这个公式可以看出填充因子会随着插入元素的增多而增加, 当增大到比hctl->ffactor还要大的时候就需要扩展了,这里的扩展的意思是指hctl->max_bucket要增加1个。其步骤如下:

1) 计算出 max_bucket + 1所在的segment索引值segndx

>

2) 如果segndx没有超出已分配的segment的容量,转入5),否则继续;

3) 检查segndx是否超出了现有的dir大小,如是,将dir的大小扩展为以前的2倍;

4) 给dir[segndx]分配一个新的segment;

>

5) 计算max_bucket + 1在没有扩展前的bucket号old_bucket;

6) max_bucket++后检查max_bucket是否成了2的整数次幂,若是,修改low_mask和high_mask;

7) 计算新的bucket号new_bucket;

>

8) 遍历old_bucket链表,重新计算他们所应该在的bucket,将需要移动的移到到new_bucket中。

这个过程中只有步骤8需要说明一下。为什么只是本次扩展前的old_bucket,而没有检查,前一次,前两次扩展的old_bucket呢?这是由calc_bucket中计算bucket的方法所决定的,其实你想的没有错,是应该去遍历前一次,两次,扩展的那些old_bucket,但是没有必要,即使你这样做了,你也从这些bucket中找不到一个可以入到new_bucket中的元素。我们只需要证明经过一次扩展,留在old_bucket中的元素的hash值对应的bucket从些以后不会再改变就行了。

扩展前后bucket计算路径可以用下面矩阵来表示:

扩展后 &high_mask            扩展后 &low_mask

扩展前  &high_mask                    (1)                                     (2)

扩展前  &low_mask                      (3)                                     (4)

这其中(2)是不可能出现的,因为扩展前的high_mask与扩展后low_mask相等,如果(2)成立就出出现max_bucket > (max_bucket + 1)的矛盾。而对于 情况(1),由于high_mask和max_bucket只会增加,把以bucket号从些不会改变, 而(3)和(4)实际上就是本次扩展需要移动的项。所以已经证明那些留在 old_bucket中的元素不会变。

5.  总结

pg实现的这个动态hash保证填充因子不超过设定值,其检索效率不会因插入元素的增多而降低,同时其扩展的代价也不是十分地大,每次只需要移动一个bucket中的某些项到新的bucket中。

相关专题

更多
Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

37

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

37

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

19

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

16

2026.01.13

PHP缓存策略教程大全
PHP缓存策略教程大全

本专题整合了PHP缓存相关教程,阅读专题下面的文章了解更多详细内容。

6

2026.01.13

jQuery 正则表达式相关教程
jQuery 正则表达式相关教程

本专题整合了jQuery正则表达式相关教程大全,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

交互式图表和动态图表教程汇总
交互式图表和动态图表教程汇总

本专题整合了交互式图表和动态图表的相关内容,阅读专题下面的文章了解更多详细内容。

45

2026.01.13

nginx配置文件详细教程
nginx配置文件详细教程

本专题整合了nginx配置文件相关教程详细汇总,阅读专题下面的文章了解更多详细内容。

9

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.1万人学习

PostgreSQL 手册
PostgreSQL 手册

共0课时 | 0人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号