正则表达式是模式匹配工具,非独立语言;JavaScript通过RegExp对象和字符串方法原生支持;创建方式有字面量(/p/f)和构造函数(new RegExp(p,f)),后者需双写反斜杠;常用方法包括match、test、replace、split;flag中g、i、y最常用,y具粘性匹配特性;需注意特殊字符转义、贪婪控制及回溯爆炸风险。

正则表达式不是“一种语言”,而是一种**模式匹配工具**,JavaScript 通过 RegExp 对象和字符串方法(如 match()、replace()、test())原生支持它。关键不在于背语法,而在于知道什么时候该用、怎么写得稳、以及为什么 /^abc$/ 和 new RegExp("abc") 行为可能不同。
怎么创建正则表达式对象
两种方式:字面量语法和构造函数。它们在动态构建时行为差异明显。
- 字面量写法:
/pattern/flags,比如/\d+/g—— 编译时机固定,不能拼接变量,但性能略好、可被 JS 引擎优化 - 构造函数写法:
new RegExp(pattern, flags),比如new RegExp("\\d+", "g")—— 注意:字符串中反斜杠要双写,适合 pattern 来自用户输入或变量拼接 - 错误示例:
new RegExp("\d+", "g")会报错,因为\d在字符串里被当作非法转义;必须写成"\\d+"
常用字符串方法怎么配合正则使用
别只记 replace(),不同方法返回值类型和匹配逻辑差别很大。
-
str.match(/a/g)→ 返回匹配数组(无g标志时返回带index、input的对象) -
str.test(/a/)→ 返回布尔值,适合条件判断,比match()轻量 -
str.replace(/a/g, "b")→ 替换所有匹配项;若第二个参数是函数,可做动态替换:str.replace(/(\w+)\s+(\w+)/, (_, first, last) => `${last}, ${first}`) -
str.split(/\s+/)→ 按正则切分字符串,比split(" ")更鲁棒(能处理多个空格、制表符等)
哪些 flag 值真正影响行为
常见 flag 就三个,但 g 和 y 的区别常被忽略。
Unix in a Nutshell同时涵盖了许多重要的、业界标准的开放源码工具 本书还完整地讨论了常用的shell(bash、ksh及tcsh)和重要元素如正则表达式,乃至旧式工具如sed、awk与vi。 Unix不是一个庞大的物体:它是一个综合体,而《Unix技术手册》则是将这一切合并在一起的一本书。 到底unix是什么?原始的unix源码是由sco拥有,unix注册商标是由open group拥有,而领先的仿unix系统则是gnu/linux、mac os x及solaris。这些版本所附的命令与选
立即学习“Java免费学习笔记(深入)”;
-
g(global):全局匹配,否则只找第一个就停 -
i(ignoreCase):忽略大小写,/abc/i匹配"AbC" -
y(sticky):从lastIndex开始“粘性”匹配,不跳过字符 —— 这个 flag 让正则具备“断点续扫”能力,但需要手动维护lastIndex,且只在exec()和test()中生效 - 错误认知:
g不代表“多行匹配”,那是mflag 的事;而m实际很少用,除非你明确要让^和$匹配每行起止而非整个字符串首尾
容易踩的坑:特殊字符没转义、贪婪匹配失控
正则里 .、*、+、?、^、$、(、)、[、]、{、}、|、\ 都有特殊含义。想匹配字面量?得加反斜杠。
- 想匹配字符串
"price: $19.99"中的金额,别写/\$[0-9.]+/——.会匹配任意字符,应写成/\$\d+\.\d{2}/ - 贪婪 vs 懒惰:
/a.*b/在"a1b2b"中匹配整个"a1b2b";改成/a.*?b/才匹配"a1b" - 性能隐患:嵌套量词如
/(a+)+b/在恶意输入下可能引发回溯爆炸(ReDoS),简单字符串尽量用非正则方案
真正难的不是写出一个能跑的正则,而是写出一个不会在某个边界输入下卡死、不会因少一个 g 标志就漏匹配、也不会把用户输入的括号当语法解析的正则。动手前先问自己:这个需求,用 includes() 或 split().filter() 能不能搞定?










