XML解析器不识别HTML5特有的命名字符实体如 ,仅预定义5个实体;XML中空格可用普通空格、不间断空格( 或 )等数值引用;xml:space="preserve"可保留空白,但无法使 有效;HTML5与XML混用时应统一用 替代 。

XML解析器如何看待HTML5中的 实体
是 HTML 特有的命名字符实体,XML 解析器默认不识别它。直接在 XML 文档里写 会导致解析失败,报错类似:
Entity 'nbsp' not defined。XML 只预定义了 5 个实体:
&、、>、"、',其余如 、© 等都需显式声明 DTD 或改用 Unicode 字符/数值字符引用。
XML中表示空格的合法方式有哪些
XML 本身对空白字符(空格、制表、换行)是“照单全收”的,但处理逻辑取决于上下文和解析器设置。常见做法包括:
- 普通空格字符(U+0020):直接输入,最安全
- 不间断空格(U+00A0):用
或,无需 DTD,所有 XML 解析器都支持 - 其他 Unicode 空格字符(如 U+2000–U+200F):同样用数值字符引用,例如
(en 空格) - 避免使用
,除非你控制整个 XML 处理链并主动声明了它的 DTD 实体
XML文档中xml:space属性的作用
xml:space 是一个标准属性,用于告诉解析器是否保留元素内的空白。它只影响“元素内容中的空白”,不影响属性值或标签结构:
-
xml:space="default"(默认):解析器可自由合并/裁剪空白(如把多个空格压成一个,或忽略换行) -
xml:space="preserve":原样保留所有空白字符(空格、制表、换行),类似 HTML 的 - 该属性不改变空格的“语义”,只是控制是否被解析器丢弃;它不能让
变得有效
Hello world
上面的 内部的多个空格和缩进会被保留;而没加该属性时,多数解析器会归一化为单个空格。
立即学习“前端免费学习笔记(深入)”;
HTML5与XML混用时的典型陷阱
当把 HTML5 片段当作 XML 解析(比如用 DOMParser 解析 XHTML 字符串,或在 SVG 中嵌入 HTML 标签),空格处理容易出错:
-
浏览器的
DOMParser在"text/xml"模式下拒绝,但在"application/xhtml+xml"模式下可能接受——前提是文档声明了 XHTML DTD - SVG 内联 HTML 需用
,其中的仍无效,必须换 - 服务端生成 XML 时若从 HTML 模板复制内容,容易漏掉
替换步骤,导致下游解析崩溃
最稳妥的做法:只要目标是 XML(含 XHTML、SVG、RSS、配置文件等),一律用 代替 ,别依赖 DTD 声明。











