0

0

XML解析错误“名称中不能包含字符”怎么办

煙雲

煙雲

发布时间:2026-01-05 12:20:02

|

339人浏览过

|

来源于php中文网

原创

XML解析报错因标签/属性名含非法字符:仅允许字母、数字、下划线、连字符、点号、冒号,且不能以数字或连字符开头;需用正则清洗或CDATA包裹内容,并用lxml精确定位错误。

xml解析错误“名称中不能包含字符”怎么办

这个错误通常出现在 XML 解析器(如 Python 的 xml.etree.ElementTree、Java 的 DocumentBuilder浏览器 DOM 解析)遇到非法字符时,核心原因是 XML 规范对元素名、属性名有严格限制:只能包含字母、数字、下划线、连字符、点号和冒号,且不能以数字或连字符开头——任何其他字符(比如中文、空格、括号、斜杠、Unicode 控制字符)都会直接触发该报错

检查并清理 XML 标签名和属性名中的非法字符

最常见诱因是手动拼接 XML 字符串时混入了不可见字符或非规范符号。比如从数据库字段、用户输入或 Excel 导出内容中直接取值作为标签名:

  • 合法(含连字符);但 (含空格)、(中文)、(括号)全部非法
  • 属性名同理: 合法; 合法;但 会因空格中断解析
  • 特别注意 BOM(\ufeff)、零宽空格(\u200b)、换行符(\n)等不可见字符,它们常藏在复制粘贴的文本里

用正则预处理标签名再生成 XML

如果必须基于动态内容生成 XML,不能依赖人工校验,就得在构造前做标准化。Python 示例中常用 re.sub 清洗:

import re

def sanitize_xml_name(name):

替换所有非合法字符为下划线,再去除首尾下划线和开头数字

cleaned = re.sub(r'[^a-zA-Z0-9_\-:.]', '_', name)
cleaned = re.sub(r'^([0-9\-]|_+)', '', cleaned)  # 去掉开头数字、连字符、连续下划线
cleaned = re.sub(r'_+$', '', cleaned)  # 去掉结尾下划线
return cleaned or 'tag'

示例

print(sanitize_xml_name("用户姓名")) # → "tag" print(sanitize_xml_name("data-type/2024")) # → "data-type_2024" print(sanitize_xml_name(" _id ")) # → "id"

注意:清洗后语义可能丢失,建议只用于机器生成场景(如日志序列化),不用于需人工阅读的配置文件

用 CDATA 包裹文本内容,而非修改标签名

如果问题是「内容里有特殊字符导致解析失败」,那根本不是标签名的问题——而是把本该放 CDATA 的内容硬塞进了标签体。XML 中,纯文本内容允许任意字符,但必须确保它不被误解析为 markup:

Pictory
Pictory

AI视频制作工具,可以通过长内容中制作简短视频

下载
  • 错误写法:价格: ¥100 & 数量 > 5 —— &> 必须转义,否则报错
  • 正确做法一(转义):价格: ¥100 & 数量 youjiankuohaophpcn 5
  • 正确做法二(CDATA): 5]]>

CDATA 段内所有字符原样保留,无需转义,适合嵌入 HTML 片段、JSON、代码示例等。

用 lxml 替代标准库解析器获取更详细的错误位置

Python 自带的 xml.etree.ElementTree 报错只说“名称中不能包含字符”,不指明第几行第几个字符。换成 lxml.etree 能快速定位问题源:

from lxml import etree

try: etree.fromstring(xml_string) except etree.XMLSyntaxError as e: print(f"line {e.line}, column {e.column}: {e.msg}") # 如:line 5, column 12: Invalid character in name

拿到行列号后,直接查原始 XML 对应位置,比盲猜高效得多。注意 lxml 需要额外安装:pip install lxml

真正棘手的往往是那些看起来“没毛病”的名字——比如用了全角空格、软连字符(\u00ad)或阿拉伯语数字。解析前用 repr() 打印字符串,或用在线工具(如 https://www.soscisurvey.de/tools/view-chars.php)查看隐藏字符,比反复试错快得多。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

734

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

631

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

752

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1258

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

705

2023.08.11

漫蛙2入口地址合集
漫蛙2入口地址合集

本专题整合了漫蛙2入口汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 8.3万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 6.9万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号