0

0

如何在c++中实现一个快速的字符串搜索算法? (Boyer-Moore)

冰火之心

冰火之心

发布时间:2026-01-11 10:53:02

|

388人浏览过

|

来源于php中文网

原创

c++kquote>Boyer-Moore 比 std::string::find 更快因其从模式末尾匹配并用 bad_char 表跳过无效位置,在长文本短模式下平均复杂度达 O(n/m);手写最小实现只需 bad_char 规则,用 std::array 存最右位置,失配时按 std::max(1, j - bad_char[txt[i+j]]) 跳跃。

如何在c++中实现一个快速的字符串搜索算法? (boyer-moore)

为什么 Boyer-Moore 比 std::string::find 更快?

它不逐字符比对,而是从模式串末尾开始匹配,并利用两个预计算表(bad_chargood_suffix)大幅跳过不可能匹配的位置。在长文本 + 短模式(如日志关键词搜索、DNA 序列扫描)下,平均时间复杂度接近 O(n/m),远优于朴素算法的 O(n×m)

如何手写一个最小可用的 Boyer-Moore 实现(C++17)?

只实现 bad_char 规则即可覆盖绝大多数实用场景,且代码简洁、不易出错。完整版(含 good_suffix)逻辑复杂,边界条件多,实际性能提升有限,反而容易引入 off-by-one 错误。

关键点:

  • bad_char 表用 std::array 实现,初始化为 -1,记录每个字节在模式串中**最右出现位置**
  • 匹配时从模式末尾开始比较;失配时查表,计算跳跃步数:std::max(1, j - bad_char[txt[i+j]])
  • 注意:必须确保 i 不越界,每次更新后检查 i
#include 
#include 
#include 

int boyer_moore_search(const std::string& txt, const std::string& pat) { if (pat.empty()) return 0; if (pat.size() > txt.size()) return -1;

std::array bad_char;
bad_char.fill(-1);
for (size_t i = 0; i zuojiankuohaophpcn pat.size(); ++i) {
    bad_char[static_cast(pat[i])] = static_cast(i);
}

int i = 0;
const int n = static_cast(txt.size());
const int m = static_cast(pat.size());

while (i zuojiankuohaophpcn= n - m) {
    int j = m - 1;
    while (j youjiankuohaophpcn= 0 && pat[j] == txt[i + j]) --j;
    if (j zuojiankuohaophpcn 0) return i;
    int shift = j - bad_char[static_cast(txt[i + j])];
    i += std::max(1, shift);
}
return -1;

}

立即学习C++免费学习笔记(深入)”;

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

下载

哪些情况会让 Boyer-Moore 变慢甚至退化?

当模式串含大量重复字符(如 "aaaa"),或文本与模式高度相似(如搜索 "abababab""abababababab..." 中),bad_char 规则几乎无法跳过,退化为 O(n×m)。此时应切换策略:

  • 对极短模式(len ),直接用 std::search 或循环比较
  • 对重复性强的模式,可提前检测字符分布熵,低于阈值时 fallback 到 std::string_view::find
  • 若需多模式匹配(如同时搜 100 个关键词),不要单个 Boyer-Moore 套循环,改用 Aho-Corasick

使用 std::boyer_moore_searcher 有什么坑?

C++17 引入了 std::boyer_moore_searcher,但它的实现质量严重依赖标准库厂商:

  • libstdc++(GCC):仅实现 bad_char,且内部用 std::unordered_map 建表,小模式下开销反超手写数组
  • libc++(Clang):同样未实现 good_suffix,且部分版本存在迭代器失效 bug
  • 所有实现都不支持自定义字符类型(如 char16_t),也不暴露跳转逻辑供调试

除非你明确测试过目标平台的性能且结果满意,否则建议优先手写轻量版——控制权在自己手里,一行 bad_char 表就能压住大部分场景。

真正难的不是写对算法,是判断什么时候不该用它。

相关文章

c++速学教程(入门到精通)
c++速学教程(入门到精通)

c++怎么学习?c++怎么入门?c++在哪学?c++怎么学才快?不用担心,这里为大家提供了c++速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

315

2023.08.02

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

253

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

206

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1463

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

616

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

548

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

543

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

159

2025.07.29

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

78

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 3.6万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号