利用Rvest和XPath进行高级HTML元素属性选择教程

碧海醫心

发布时间：2025-09-10 19:43:00

619人浏览过

来源于php中文网

原创

利用rvest和xpath进行高级html元素属性选择教程

本教程旨在指导R语言用户如何利用rvest包结合XPath表达式，精确地选择和提取HTML文档中具有特定非ID或非Class属性的元素。通过实例演示，您将学习如何使用XPath定位任意属性值匹配的元素，从而克服CSS选择器在处理复杂属性时的局限性，提升网页数据抓取效率和灵活性。

1. rvest与HTML元素选择基础

rvest是R语言中用于网页抓取和解析的强大工具包。它通常与CSS选择器结合使用，通过元素的ID、类名或标签名来定位目标元素。例如，html_elements('#id_name')用于选择ID为id_name的元素，html_elements('.class_name')用于选择类名为class_name的元素，而html_elements('p')则选择所有

标签。

然而，当我们需要根据其他任意属性（例如size、data-value等）来选择元素时，传统的CSS选择器可能会显得力不从心。以下是一个典型的场景，我们将尝试根据font标签的size属性来选择元素：

library(rvest)

# 创建一个最小的HTML文档
html <- minimal_html('
    Here is size 5 font 
    And here is size 3 font 
   ')

# 尝试使用常规方法选择
html %>% html_elements('#name1') # 成功：通过ID
html %>% html_elements('.second') # 成功：通过Class
html %>% html_elements('font')   # 成功：通过标签名
# html %>% html_elements('#5')    # 失败：这不是ID
# html %>% html_elements('.5')    # 失败：这不是Class

在上述示例中，我们无法直接使用html_elements('#5')或html_elements('.5')来选择size=5的font元素，因为size既不是ID也不是类名。

2. 利用XPath进行高级属性选择

为了解决上述问题，rvest包提供了强大的XPath支持。XPath（XML Path Language）是一种用于在XML文档中查找信息的语言，由于HTML是XML的一种特殊形式，因此XPath同样适用于HTML文档。它允许我们通过元素的层级关系、属性、文本内容等多种方式进行精确选择。

立即学习“前端免费学习笔记（深入）”；

要使用XPath，只需在html_elements()函数中指定xpath参数。

2.1 选择具有特定属性值的特定标签

如果目标是选择所有font标签中size属性值为5的元素，可以使用以下XPath表达式：

佳蓝在线销售系统(创业版) 佳蓝在线销售

1、对ASP内核代码进行DLL封装，从而大大提高了用户的访问速度和安全性；2、采用后台生成HTML网页的格式，使程序访问速度得到进一步的提升；3、用户可发展下级会员并在下级购买商品时获得差额利润；4、全新模板选择功能；5、后台增加磁盘绑定功能；6、后台增加库存查询功能；7、后台增加财务统计功能；8、后台面值类型批量设定；9、后台财务曲线报表显示；10、完善订单功能；11、对所有传输的字符串进行安全

下载

# 选择所有font标签中，size属性值为5的元素
elements_with_size_5_font <- html %>% html_elements(xpath = '//font[@size=5]')
print(elements_with_size_5_font)

输出：

{xml_nodeset (1)}
[1] Here is size 5 font

XPath解释：

//：表示从文档的任何位置开始查找。
font：指定要查找的元素标签名是font。
[@size=5]：这是一个谓词（predicate），用于筛选元素。@size表示元素的size属性，=5表示该属性的值必须等于5。

2.2 选择具有特定属性值的任意标签

如果不仅限于font标签，而是想选择文档中所有size属性值为5的元素（无论其标签名是什么），可以使用通配符*：

# 选择所有标签中，size属性值为5的元素
elements_with_any_tag_and_size_5 <- html %>% html_elements(xpath = '//*[@size=5]')
print(elements_with_any_tag_and_size_5)

输出：

{xml_nodeset (1)}
[1] Here is size 5 font

XPath解释：

*：通配符，表示匹配任何标签名的元素。
[@size=5]：与之前相同，筛选size属性值为5的元素。

3. 注意事项与总结

CSS选择器与XPath的选择： 对于简单的选择（如ID、Class、标签名），CSS选择器通常更简洁易读。但当需要进行更复杂的选择，例如基于非标准属性、文本内容、兄弟节点或父子关系等，XPath是更强大和灵活的选择。
XPath的强大功能： XPath不仅仅局限于属性值匹配。它还可以用于：
- 通过文本内容选择：//p[contains(text(), 'some text')]
- 通过属性是否存在：//img[@src]
- 通过属性包含特定字符串：//a[contains(@href, 'example.com')]
- 通过位置选择：//li[1] (第一个li元素)
- 通过父子关系：//div/p (作为div子元素的p标签)
- 通过逻辑运算符组合条件：//a[@class='link' and @target='_blank']
调试XPath： 编写复杂的XPath表达式时，建议使用浏览器开发者工具（Elements面板通常支持XPath查询）进行测试和验证，以确保其准确性。
html_nodes()与html_elements()： 在rvest的早期版本中，主要使用html_nodes()。现在，html_elements()是推荐的函数，它返回一个xml_nodeset对象，与html_nodes()功能相似但更符合现代R包的命名规范。

通过本教程，您应该已经掌握了在rvest中使用XPath进行高级HTML元素属性选择的方法。熟练运用XPath将极大提升您在R语言中进行网页数据抓取和解析的能力，应对更复杂的网页结构和数据提取需求。

html5边框怎么实现_HTML5用CSS border设元素边框粗细颜色样式【实现】

CSS 中 :enabled 伪类的作用与默认可交互状态的区别解析

HTML5建模怎么处理模型锯齿_抗锯齿设置提升画质技巧【解答】

HTML5空格在JSON数据里怎么存_JSON中空格的表示方式【汇总】

html5如何建立网页_HTML5网页建立步骤与搭建技巧【指南】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

503

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

261

2023.07.27