0

0

怎样在C++中实现布隆过滤器_概率数据结构详解

尼克

尼克

发布时间:2025-06-26 15:08:02

|

862人浏览过

|

来源于php中文网

原创

布隆过滤器通过多个哈希函数将元素映射到位数组中,以判断元素“可能”存在或“绝对”不存在。1. 初始化时位数组全为0;2. 添加元素时通过k个哈希函数计算位置并将对应位置置为1;3. 查询时若所有对应位为1则认为可能存在,否则绝对不存在。c++++实现需选择快速、均匀分布且独立的哈希函数如murmurhash,同时根据误判率确定位数组大小和哈希函数数量,并实现添加和查询操作。优化空间效率可通过调整误判率、使用压缩技术或counting bloom filter实现。处理误判可减小误判率、使用白名单或多层布隆过滤器。其应用场景包括缓存穿透、垃圾邮件过滤、网络爬虫和数据库查询优化,但存在误判、无法删除元素、位数组大小难确定及哈希函数选择困难等局限性。

怎样在C++中实现布隆过滤器_概率数据结构详解

布隆过滤器是一种巧妙的数据结构,它以极高的空间效率告诉你,某个元素“可能”存在于一个集合中,或者“绝对”不存在。注意,这里的“可能”意味着存在误判的概率,但这种概率可以控制。核心在于用多个哈希函数将元素映射到一个位数组中,通过检查这些位是否都被置位来判断元素是否存在。

怎样在C++中实现布隆过滤器_概率数据结构详解

布隆过滤器在C++中的实现,核心在于位数组和哈希函数的选择。一个好的实现应该兼顾效率和误判率。

怎样在C++中实现布隆过滤器_概率数据结构详解

布隆过滤器如何工作?

布隆过滤器使用一个位数组(也称为位图)和 k 个不同的哈希函数。

立即学习C++免费学习笔记(深入)”;

怎样在C++中实现布隆过滤器_概率数据结构详解
  1. 初始化: 位数组的所有位初始化为 0。
  2. 添加元素: 当要添加一个元素时,通过 k 个哈希函数计算出 k 个哈希值,然后将位数组中对应这 k 个位置置为 1。
  3. 查询元素: 当要查询一个元素时,同样通过 k 个哈希函数计算出 k 个哈希值。如果位数组中对应这 k 个位置都为 1,则认为该元素可能存在;如果其中任何一个位置为 0,则认为该元素绝对不存在。

C++ 实现布隆过滤器的基本步骤

  • 选择哈希函数:选择合适的哈希函数至关重要。MurmurHash、FNV hash 是常见的选择,它们在速度和分布上表现良好。C++11 提供了 std::hash,但通常需要自定义哈希函数以满足布隆过滤器的需求,保证不同的哈希函数之间尽可能独立。
  • 确定位数组大小和哈希函数数量:位数组的大小和哈希函数的数量直接影响布隆过滤器的误判率。一般来说,位数组越大,哈希函数越多,误判率越低,但同时空间占用也会增加。需要根据实际应用场景进行权衡。可以使用公式来估算最佳的位数组大小和哈希函数数量,以达到期望的误判率。
  • 实现添加和查询操作:根据选定的哈希函数和位数组,实现添加元素和查询元素的操作。需要注意处理哈希冲突,确保即使不同的元素哈希到相同的位置,也能正确地进行判断。
#include 
#include 
#include 
#include 

class BloomFilter {
private:
    std::vector bitset;
    size_t bitset_size;
    size_t num_hash_functions;
    std::vector> hash_functions;

public:
    BloomFilter(size_t expected_elements, double false_positive_rate) {
        // 计算位数组大小和哈希函数数量
        bitset_size = calculate_bitset_size(expected_elements, false_positive_rate);
        num_hash_functions = calculate_num_hash_functions(bitset_size, expected_elements);

        bitset.resize(bitset_size, false);

        // 初始化哈希函数
        hash_functions.resize(num_hash_functions);
        for (size_t i = 0; i < num_hash_functions; ++i) {
            hash_functions[i] = [i, this](const std::string& str) {
                return custom_hash(str, i) % bitset_size;
            };
        }
    }

    void add(const std::string& element) {
        for (const auto& hash_function : hash_functions) {
            bitset[hash_function(element)] = true;
        }
    }

    bool contains(const std::string& element) {
        for (const auto& hash_function : hash_functions) {
            if (!bitset[hash_function(element)]) {
                return false;
            }
        }
        return true;
    }

private:
    size_t calculate_bitset_size(size_t expected_elements, double false_positive_rate) {
        return static_cast(-(expected_elements * std::log(false_positive_rate)) / (std::log(2) * std::log(2)));
    }

    size_t calculate_num_hash_functions(size_t bitset_size, size_t expected_elements) {
        return static_cast((bitset_size / expected_elements) * std::log(2));
    }

    // 自定义哈希函数
    size_t custom_hash(const std::string& str, size_t seed) {
        size_t hash = seed;
        for (char c : str) {
            hash = ((hash << 5) + hash) + c; // hash * 33 + c
        }
        return hash;
    }
};

int main() {
    BloomFilter bf(1000, 0.01); // 预计存储1000个元素,误判率0.01

    bf.add("apple");
    bf.add("banana");
    bf.add("orange");

    std::cout << "apple: " << bf.contains("apple") << std::endl;   // 输出: 1
    std::cout << "grape: " << bf.contains("grape") << std::endl;   // 输出: 0 (可能误判)
    std::cout << "banana: " << bf.contains("banana") << std::endl; // 输出: 1

    return 0;
}

如何选择合适的哈希函数?

哈希函数的选择是布隆过滤器性能的关键。理想的哈希函数应该满足以下条件:

  • 快速:哈希函数的计算速度直接影响布隆过滤器的性能。
  • 均匀分布:哈希函数应该将元素均匀地映射到位数组中,避免哈希冲突。
  • 独立性:不同的哈希函数之间应该尽可能独立,减少它们之间的关联性。

常见的哈希函数包括 MurmurHash、FNV hash 等。也可以使用多个简单的哈希函数组合成更复杂的哈希函数。例如,可以使用线性同余法生成多个不同的种子,然后将这些种子作为参数传递给一个基本的哈希函数。

千图设计室AI海报
千图设计室AI海报

千图网旗下的智能海报在线设计平台

下载

如何优化布隆过滤器的空间效率?

布隆过滤器的空间效率取决于位数组的大小。为了在满足误判率要求的前提下,尽可能地减小位数组的大小,可以采用以下方法:

  • 选择合适的误判率:误判率越低,需要的位数组越大。需要根据实际应用场景,权衡空间效率和准确率。
  • 使用压缩技术:可以使用压缩技术对位数组进行压缩,例如使用 Run-Length Encoding (RLE) 或其他更高级的压缩算法。
  • 使用 Counting Bloom Filter:标准的布隆过滤器只能进行添加和查询操作,不能删除元素。Counting Bloom Filter 使用计数器代替位,允许删除元素,但会增加空间占用。

如何处理布隆过滤器的误判?

布隆过滤器存在误判的可能性,即它可能会错误地认为一个不存在的元素存在。为了处理误判,可以采取以下方法:

  • 减小误判率:通过增加位数组的大小和哈希函数的数量,可以减小误判率。
  • 使用白名单:对于一些常见的元素,可以使用白名单来避免误判。白名单是一个包含所有已知元素的集合,在查询元素时,先检查白名单,如果元素在白名单中,则认为它存在,否则再使用布隆过滤器进行判断。
  • 使用多层布隆过滤器:可以使用多层布隆过滤器来减小误判率。第一层布隆过滤器用于快速判断元素是否存在,如果第一层布隆过滤器认为元素可能存在,则再使用第二层布隆过滤器进行判断,以此类推。

布隆过滤器的应用场景

布隆过滤器在很多场景都有应用,例如:

  • 缓存穿透:在缓存系统中,可以使用布隆过滤器来判断一个请求是否会命中缓存。如果布隆过滤器认为请求不会命中缓存,则直接返回错误,避免请求穿透到数据库。
  • 垃圾邮件过滤:可以使用布隆过滤器来判断一封邮件是否是垃圾邮件。将已知的垃圾邮件地址添加到布隆过滤器中,然后使用布隆过滤器来判断新邮件的发送者是否是垃圾邮件发送者。
  • 网络爬虫:可以使用布隆过滤器来避免重复爬取相同的网页。将已经爬取过的网页 URL 添加到布隆过滤器中,然后使用布隆过滤器来判断新的 URL 是否已经被爬取过。
  • 数据库查询优化:可以使用布隆过滤器来判断一个元素是否可能存在于数据库中。如果布隆过滤器认为元素不存在,则可以避免查询数据库,提高查询效率。

布隆过滤器的局限性

布隆过滤器虽然有很多优点,但也存在一些局限性:

  • 存在误判:布隆过滤器存在误判的可能性,可能会错误地认为一个不存在的元素存在。
  • 不能删除元素:标准的布隆过滤器只能进行添加和查询操作,不能删除元素。
  • 位数组大小难以确定:位数组的大小和哈希函数的数量需要根据实际应用场景进行权衡,难以确定最佳值。
  • 哈希函数选择困难:选择合适的哈希函数是布隆过滤器性能的关键,但选择合适的哈希函数并不容易。

总的来说,布隆过滤器是一种非常有用的数据结构,但在使用时需要充分考虑其优缺点,并根据实际应用场景进行选择。

相关专题

更多
treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

529

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

7

2025.12.22

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

905

2023.09.19

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

389

2023.08.14

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

333

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2068

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

346

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

251

2023.09.05

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

65

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 5.7万人学习

C 教程
C 教程

共75课时 | 3.8万人学习

C++教程
C++教程

共115课时 | 10.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号