XPath无直接去重语法,需用count()配合current()判断节点值是否全局唯一,如//name[count(//name[text()=current()/text()])=1],推荐normalize-space()处理空白以确保准确匹配。

XPath 本身没有直接的“去重”或“值唯一”选择语法,但可以通过组合函数和轴来定位**值在文档中只出现一次的节点**。核心思路是:对每个候选节点,检查整个文档中与其文本值相等的同类型节点数量是否为 1。
用 count() + 自身值匹配判断唯一性
这是最常用、兼容性最好的方法。例如,想选所有 name 元素中,文本内容在整个文档里只出现一次 的那些节点:
`//name[count(//name[text() = current()/text()]) = 1]`
说明:
-
current()/text()获取当前遍历的name节点的文本值; -
//name[text() = ...]找出所有文本值等于它的name节点; -
count(...)统计个数,等于 1 即表示该值唯一。
注意节点类型和上下文要一致
上面的例子默认所有 name 是同级或可全局匹配的。如果节点嵌套复杂或需限定范围(比如只在某个父元素下判断唯一),应缩小路径范围:
`//book/title[count(../title[text() = current()/text()]) = 1]`
这样只在每个 book 的子 title 中判断,而不是全文档——根据需求选 //title(全局)还是 ../title(局部)。
用 distinct-values()(仅 XPath 2.0+ / XSLT 2.0+)
如果环境支持 XPath 2.0 或更高版本,可用更简洁的方式预处理值列表:
`//name[not(text() = distinct-values(//name/text())[position() > 1])]`
但实际中更推荐用 count() 方式,因为:
- XPath 1.0 兼容性更好(如多数浏览器 DOM API、旧版 Selenium);
- 逻辑清晰、调试直观;
- 避免
distinct-values()在含空格/换行时需配合normalize-space()的额外处理。
常见坑:文本值需标准化再比较
XML/HTML 中的文本常含空白、换行。直接比 text() 可能误判。稳妥做法是用 normalize-space():
`//name[count(//name[normalize-space(text()) = normalize-space(current()/text())]) = 1]`
或者更严谨地统一处理:
`//name[count(//name[normalize-space() = normalize-space(current()/.)]) = 1]`
其中 current()/. 等价于当前节点自身,normalize-space(.) 会自动合并并裁剪首尾空白。
基本上就这些。关键不是“选唯一值”,而是“选其值在文档中无重复的节点”——靠 count() 配合 current() 回溯是最稳的路子。









