str.replace()适用于固定子串的简单替换,速度快且安全;re.sub()适用于基于模式的复杂替换,支持正则表达式匹配、捕获组和条件替换,但需注意转义和性能问题。

Python里做文本替换,str.replace() 和 re.sub() 是最常用的两个工具,但它们适用场景完全不同。选错方法不仅写起来费劲,还容易出错或漏替换。
什么时候用 replace() 就够了
str.replace(old, new) 是纯字符串逐字匹配,不涉及模式、不区分大小写(除非手动处理)、也不支持通配。它快、安全、直观,适合明确知道要换什么、换几次的场景。
- 替换固定子串,比如把所有
"apple"换成"orange" - 只换前 N 次:用
replace(old, new, count=2) - 想保留原始大小写?得自己先判断,
replace不管这个 - 注意:它不会递归替换,
"aaa".replace("aa", "b")结果是"ba",不是"b"(因为只找一次“aa”,从左到右匹配后跳过已处理位置)
为什么正则替换更灵活但要小心
re.sub(pattern, repl, string) 基于规则匹配,能处理模糊、结构化、带条件的文本。但正则写错一个符号,结果可能完全不对。
- 批量替换同类格式:比如所有邮箱
re.sub(r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b", "[EMAIL]", text) - 捕获后动态替换:把
"year: 2023"改成"年份:2023",可用re.sub(r"year:\s*(\d{4})", r"年份:\1", text) - 忽略大小写替换:
re.sub("hello", "hi", text, flags=re.I) - 性能比
replace低,尤其简单任务硬套正则,反而拖慢代码
常见陷阱与绕过方法
两者混用或误用,容易踩坑。
立即学习“Python免费学习笔记(深入)”;
-
replace对特殊字符无感,但正则中.、*、+等有含义——要替换字面量"a.b",正则得写成r"a\.b"或用re.escape("a.b") -
replace不支持“只在单词边界替换”,比如只想换独立的"cat",不碰"scatter"——必须用re.sub(r"\bcat\b", ...) - 想同时做多个不同替换?
replace要链式调用(易读但略啰嗦),正则可用函数作为repl参数统一处理 - 中文文本里用正则要注意 Unicode:默认
\w不匹配汉字,要用[\u4e00-\u9fff]或开启re.U标志
一个实用小建议:先想清楚再动手
拿到一段替换需求,先问自己三个问题:
- 要替换的内容是不是完全固定的?是 →
replace优先 - 是否需要“看起来像XX”而不是“就是XX”?比如所有手机号、所有日期格式 → 上正则
- 有没有上下文约束?比如“仅当后面跟冒号时才替换”或“排除注释行” → 正则 +
flags或预处理
不复杂但容易忽略。










