0

0

怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

幻夢星雲

幻夢星雲

发布时间:2026-01-09 17:01:33

|

123人浏览过

|

来源于php中文网

原创

可通过正则表达式精准清除乱码:一、匹配删除Unicode无效与私有区字符;二、清除UTF-8损坏字节序列;三、按Unicode类别排除控制符等;四、白名单式保留指定语言字符。

怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

如果文本中出现了无法识别的字符或乱码,例如、、等替换符号,或非Unicode标准范围内的控制字符、私有区符号、未定义码点等,可通过正则表达式精准定位并清除。以下是几种可行的清除方法:

一、匹配并删除Unicode无效与私有区字符

该方法基于Unicode标准,排除合法文字范围(如常见汉字、英文字母、数字、标点),仅保留基本多语言平面(BMP)中广泛支持的字符,同时剔除U+FFFE、U+FFFF、代理对高位/低位、私有使用区(U+E000–U+F8FF、U+F900–U+FAD9等)及控制字符(U+0000–U+001F、U+007F–U+009F)。

1、使用正则表达式 [^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF] 匹配所有非预期字符。

2、在Python中调用 re.sub():执行 re.sub(r'[^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF]', '', text)

3、在JavaScript中使用 text.replace(/[^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF]/g, '')

二、清除UTF-8编码损坏产生的字节序列

当原始文本被错误解码(如将UTF-8字节流以ISO-8859-1读取),会生成形如 \xC3\xA9 解析失败后的孤立高位字节(如 或类似 \x80\x81 类片段)。此类乱码常表现为单个U+FFFD REPLACEMENT CHARACTER,或连续出现的不可见控制符组合。

1、匹配U+FFFD替换符及其相邻异常组合:正则为 [\uFFFD]+|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]

2、在Python中执行 re.sub(r'[\uFFFD]+|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]', '', text)

3、若需保留换行与制表符,可将正则微调为 [\uFFFD]+|[\x00-\x08\x0E-\x1F\x7F-\x9F](显式排除 \x09 \x0A \x0D)。

剪刀手
剪刀手

全自动AI剪辑神器:日剪千条AI原创视频,零非原创风险,批量高效制作引爆流量!免费体验,轻松上手!

下载

三、按字符类别排除C0/C1控制符与非图形字符

利用Unicode通用类别(General Category)匹配方式,在支持PCRE或Python regex 模块(非内置 re)的环境中,可直接排除控制字符(Cc)、格式字符(Cf)、未分配字符(Cn)、私有字符(Co)及代理项(Cs)。

1、启用Unicode属性匹配,使用正则 [\p{Cc}\p{Cf}\p{Cs}\p{Co}\p{Cn}]+(注意:Python内置 re 不支持 \p{},需改用 regex 第三方库)。

2、安装并导入:运行 pip install regex,然后代码中使用 import regex; regex.sub(r'[\p{Cc}\p{Cf}\p{Cs}\p{Co}\p{Cn}]+', '', text)

3、在支持PCRE的工具(如Notepad++、Sublime Text)中,启用“匹配Unicode属性”选项后,直接搜索 \p{C} 并替换为空。

四、保留指定语言字符集,其余一律清除

当明确文本应仅含某几种语言(如简体中文+英文+数字+常用标点),可构造白名单式正则,避免误删正常内容,同时彻底排除其他所有字符。

1、构建白名单正则:包含ASCII可打印字符、全角ASCII对应符号、GB2312常用汉字、中文标点、日文平假名/片假名(如需)——示例为 [a-zA-Z0-9\s\u0021-\u007E\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]

2、执行反向清除:先用该正则提取所有合法字符,再拼接成新字符串;或用否定逻辑:匹配非白名单字符,即 [^a-zA-Z0-9\s\u0021-\u007E\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]

3、在sed命令中使用UTF-8环境:执行 sed -E 's/[^a-zA-Z0-9[:space:]\u0021-\u007E\u3000-\u303F\u4E00-\u9FFF]//g'(需GNU sed 4.8+ 且 locale 设置为UTF-8)。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

741

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

634

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

756

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1259

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

705

2023.08.11

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

3

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.5万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.1万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号