怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

幻夢星雲

发布时间：2026-01-09 17:01:33

123人浏览过

来源于php中文网

原创

可通过正则表达式精准清除乱码：一、匹配删除Unicode无效与私有区字符；二、清除UTF-8损坏字节序列；三、按Unicode类别排除控制符等；四、白名单式保留指定语言字符。

怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

如果文本中出现了无法识别的字符或乱码，例如、、等替换符号，或非Unicode标准范围内的控制字符、私有区符号、未定义码点等，可通过正则表达式精准定位并清除。以下是几种可行的清除方法：

一、匹配并删除Unicode无效与私有区字符

该方法基于Unicode标准，排除合法文字范围（如常见汉字、英文字母、数字、标点），仅保留基本多语言平面（BMP）中广泛支持的字符，同时剔除U+FFFE、U+FFFF、代理对高位/低位、私有使用区（U+E000–U+F8FF、U+F900–U+FAD9等）及控制字符（U+0000–U+001F、U+007F–U+009F）。

1、使用正则表达式 [^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF] 匹配所有非预期字符。

2、在Python中调用 re.sub()：执行 re.sub(r'[^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF]', '', text)。

3、在JavaScript中使用 text.replace(/[^\u0020-\u007E\u00A0-\u00FF\u4E00-\u9FFF\u3400-\u4DBF\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\uFF00-\uFFEF]/g, '')。

二、清除UTF-8编码损坏产生的字节序列

当原始文本被错误解码（如将UTF-8字节流以ISO-8859-1读取），会生成形如 \xC3\xA9 解析失败后的孤立高位字节（如或类似 \x80\x81 类片段）。此类乱码常表现为单个U+FFFD REPLACEMENT CHARACTER，或连续出现的不可见控制符组合。

1、匹配U+FFFD替换符及其相邻异常组合：正则为 [\uFFFD]+|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]。

2、在Python中执行 re.sub(r'[\uFFFD]+|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]', '', text)。

3、若需保留换行与制表符，可将正则微调为 [\uFFFD]+|[\x00-\x08\x0E-\x1F\x7F-\x9F]（显式排除 \x09 \x0A \x0D）。

剪刀手

全自动AI剪辑神器：日剪千条AI原创视频，零非原创风险，批量高效制作引爆流量！免费体验，轻松上手！

下载

三、按字符类别排除C0/C1控制符与非图形字符

利用Unicode通用类别（General Category）匹配方式，在支持PCRE或Python regex 模块（非内置 re）的环境中，可直接排除控制字符（Cc）、格式字符（Cf）、未分配字符（Cn）、私有字符（Co）及代理项（Cs）。

1、启用Unicode属性匹配，使用正则 [\p{Cc}\p{Cf}\p{Cs}\p{Co}\p{Cn}]+（注意：Python内置 re 不支持 \p{}，需改用 regex 第三方库）。

2、安装并导入：运行 pip install regex，然后代码中使用 import regex; regex.sub(r'[\p{Cc}\p{Cf}\p{Cs}\p{Co}\p{Cn}]+', '', text)。

3、在支持PCRE的工具（如Notepad++、Sublime Text）中，启用“匹配Unicode属性”选项后，直接搜索 \p{C} 并替换为空。

四、保留指定语言字符集，其余一律清除

当明确文本应仅含某几种语言（如简体中文+英文+数字+常用标点），可构造白名单式正则，避免误删正常内容，同时彻底排除其他所有字符。

1、构建白名单正则：包含ASCII可打印字符、全角ASCII对应符号、GB2312常用汉字、中文标点、日文平假名/片假名（如需）——示例为 [a-zA-Z0-9\s\u0021-\u007E\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]。

2、执行反向清除：先用该正则提取所有合法字符，再拼接成新字符串；或用否定逻辑：匹配非白名单字符，即 [^a-zA-Z0-9\s\u0021-\u007E\u3000-\u303F\u3040-\u309F\u30A0-\u30FF\u4E00-\u9FFF\u3400-\u4DBF]。

3、在sed命令中使用UTF-8环境：执行 sed -E 's/[^a-zA-Z0-9[:space:]\u0021-\u007E\u3000-\u303F\u4E00-\u9FFF]//g'（需GNU sed 4.8+ 且 locale 设置为UTF-8）。

如何使用JavaScript动态修改JSP中按钮的value值以传递参数

在Java应用中执行MongoDB Shell查询与聚合：从文件到动态参数

WireMock代理API时HTML响应而非JSON的排查与解决

WireMock代理API时遭遇JavaScript禁用错误：原因与解决方案

解决WireMock代理API时误指向前端页面的问题

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Java过滤器Filter_Java Servlet Filter接口详解与使用方法下一篇：在Java中什么是反射机制_Java运行时动态访问解析

作者最新文章

小红书网页版入口通道官方正版在线访问连接

2026-01-09 16:55

怎么用正则表达式删除乱码_正则匹配并清除文本中的乱码字符

2026-01-09 17:01

Java教程网站_高质量Java编程教程网站推荐

2026-01-09 17:08

Python中function的含义_Python语言中函数（function）的基本概念

2026-01-09 17:21

yy漫画官方网站入口 yy漫画官方在线入口

2026-01-09 18:16

包子漫画在线阅读入口包子漫画最新版网页进入入口

2026-01-09 18:24

医保卡里的钱可以取出来吗【解答】

2026-01-09 18:32

车厘子是凉性还是热性车厘子热量高吗

2026-01-09 18:33

抖币充值怎么退款抖币充值退款方法【教程】

2026-01-09 18:39

医保跨省共济开通地区医保跨省共济哪些省份可以用

2026-01-09 18:39

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

741

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

634

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

756

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1259

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

705

2023.08.11