0

0

R语言Web Scraping:高效提取HTML中内嵌的JSON数据

花韻仙語

花韻仙語

发布时间:2025-10-02 10:42:01

|

308人浏览过

|

来源于php中文网

原创

R语言Web Scraping:高效提取HTML中内嵌的JSON数据

本教程详细讲解如何使用R语言从包含JSON数据的网页中进行数据抓取。当JSON数据以文本形式内嵌于HTML结构中时,传统的HTML解析方法会失效。我们将利用rvest库读取页面内容,并通过html_text函数提取原始文本,随后结合jsonlite::parse_json将其转换为可操作的R数据框,最终实现目标数据的精确提取。

理解挑战:HTML中内嵌的JSON数据

在web数据抓取过程中,我们经常会遇到网页源代码中直接包含json格式数据的场景。这类数据并非通过标准的html标签(如

等)进行结构化,而是作为纯文本字符串存在于html文档的某个部分,通常是或前端免费学习笔记(深入)”;

步骤1:加载必要的R包

首先,确保已安装并加载rvest和jsonlite这两个库。

# 如果尚未安装,请先运行以下命令
# install.packages("rvest")
# install.packages("jsonlite")

library(rvest)
library(jsonlite)

步骤2:读取网页内容

使用rvest::read_html()函数读取目标网页的全部内容。即使页面主体是JSON,read_html仍会将其视为一个HTML文档。

url <- "https://example.com/data.json" # 请替换为你的目标网址
page_content <- read_html(url)

# 查看读取到的内容,会发现JSON数据被包裹在HTML结构中
print(page_content)
# {html_document}
# 
# [1] 

[\n{\n"title1" : "abc 123",\n"title2" : "bca 321",\n...

步骤3:提取原始文本字符串

这是关键一步。我们需要使用html_text()函数从page_content对象中提取出所有的纯文本内容。对于本例,这将直接得到包含JSON数据的完整字符串。

json_string <- html_text(page_content)

# 打印字符串以确认其内容为JSON格式
print(json_string)
# [
# {
# "title1" : "abc 123",
# "title2" : "bca 321",
# ...

步骤4:解析JSON数据

现在我们拥有了纯粹的JSON字符串,可以使用jsonlite::parse_json()函数对其进行解析。为了方便后续的数据操作,建议将simplifyDataFrame参数设置为TRUE,这会尝试将嵌套的JSON对象扁平化为数据框。

parsed_json_data <- jsonlite::parse_json(json_string, simplifyDataFrame = TRUE)

# 查看解析后的数据结构
str(parsed_json_data)
# 'data.frame': 2 obs. of  4 variables:
#  $ title1: chr  "abc 123" "aec 183"
#  $ title2: chr  "bca 321" "bga 351"
#  $ title3: chr  "cba 213" "cha 293"
#  $ title4:'data.frame':   2 obs. of  2 variables:
#   ..$ title5: chr  "title6" "title6"
#   ..$ title7:List of 2
#   .. ..$ : num  -17662 987622
#   .. ..$ : num  -1.62e+09 6.52e+08

从str()的输出可以看出,parsed_json_data现在是一个数据框,其中title4是一个嵌套的数据框,而title4$title7则是一个包含列表的列表,每个子列表代表原始JSON中的一个title7数组。

魔术橡皮擦
魔术橡皮擦

智能擦除、填补背景内容

下载

步骤5:定位并提取目标数据

根据str()的输出,我们可以通过链式索引来访问title4$title7。由于title7是一个列表,其每个元素又是一个包含两个数值的向量,我们可以使用do.call(rbind, ...)将其转换为一个矩阵或数据框,方便进一步处理。

# 提取 title7 的数据
target_data <- do.call(rbind, parsed_json_data$title4$title7)

# 为结果添加列名(可选)
colnames(target_data) <- c("title7_1", "title7_2")

# 添加一个ID列(可选)
final_result <- data.frame(id = 1:nrow(target_data), target_data)

# 打印最终结果
print(final_result)
#   id      title7_1    title7_2
# 1  1 -1.766235e+04    987621.8
# 2  2 -1.621626e+09 652238322.1

至此,我们已成功从HTML中内嵌的JSON数据中提取出了所需的title7信息,并将其整理成了一个结构化的数据框。

注意事项

  • JSON格式的准确性:确保从网页提取的文本是有效的JSON格式。如果JSON字符串存在语法错误,jsonlite::parse_json()会报错。
  • simplifyDataFrame参数:simplifyDataFrame = TRUE在多数情况下能将JSON转换为易于操作的数据框,但对于非常复杂或结构不规则的JSON,可能需要手动处理嵌套的列表。
  • 网络请求失败:在实际应用中,应考虑网络连接问题或目标网站响应异常。可以使用tryCatch等机制进行错误处理。
  • 网站结构变化:Web Scraping依赖于目标网站的结构。如果网站更新,其HTML或JSON的结构可能会改变,导致现有代码失效。定期检查和维护是必要的。
  • 合法性与道德:在进行Web Scraping时,务必遵守目标网站的robots.txt文件规定,尊重网站的使用条款,并避免对服务器造成过大负担。

总结

本教程展示了一种在R语言中处理HTML页面内嵌JSON数据的有效方法。通过结合rvest库的read_html()和html_text()函数来提取原始文本,再利用jsonlite库的parse_json()函数将JSON字符串转换为R数据结构,我们可以灵活地访问和处理这些数据。这种方法克服了传统HTML节点选择器在处理非标准HTML结构数据时的局限性,为Web Scraping提供了更广阔的可能性。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

403

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

528

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

307

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

74

2025.09.10

html版权符号
html版权符号

html版权符号是“©”,可以在html源文件中直接输入或者从word中复制粘贴过来,php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

596

2023.06.14

html在线编辑器
html在线编辑器

html在线编辑器是用于在线编辑的工具,编辑的内容是基于HTML的文档。它经常被应用于留言板留言、论坛发贴、Blog编写日志或等需要用户输入普通HTML的地方,是Web应用的常用模块之一。php中文网为大家带来了html在线编辑器的相关教程、以及相关文章等内容,供大家免费下载使用。

641

2023.06.21

html网页制作
html网页制作

html网页制作是指使用超文本标记语言来设计和创建网页的过程,html是一种标记语言,它使用标记来描述文档结构和语义,并定义了网页中的各种元素和内容的呈现方式。本专题为大家提供html网页制作的相关的文章、下载、课程内容,供大家免费下载体验。

461

2023.07.31

html空格
html空格

html空格是一种用于在网页中添加间隔和对齐文本的特殊字符,被用于在网页中插入额外的空间,以改变元素之间的排列和对齐方式。本专题为大家提供html空格的相关的文章、下载、课程内容,供大家免费下载体验。

243

2023.08.01

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.7万人学习

AngularJS教程
AngularJS教程

共24课时 | 2.2万人学习

CSS教程
CSS教程

共754课时 | 17.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号