0

0

解决Web Scraping中HTML结构不一致问题:IBM文档网站案例分析

DDD

DDD

发布时间:2025-09-12 09:43:49

|

533人浏览过

|

来源于php中文网

原创

解决Web Scraping中HTML结构不一致问题:IBM文档网站案例分析

在Web Scraping过程中,网站HTML结构的不一致性常导致程序中断。本文将深入探讨这一常见挑战,以IBM文档网站为例,展示如何通过分析网站的内部API调用来获取稳定且结构化的数据。我们将利用Python的httpx和trio进行异步请求,并通过识别隐藏的API端点,实现更健壮、高效的数据抓取,避免直接依赖易变的HTML结构。

Web Scraping中HTML结构不一致的挑战

在进行web scraping时,开发者经常会遇到一个棘手的问题:同一url在不同时间或不同请求条件下返回的html结构可能不尽相同。这可能是由于多种原因造成的,例如:

  1. 动态内容加载: 现代网站普遍使用JavaScript动态加载内容。如果爬虫未能正确执行JavaScript,可能只能获取到初始的、不完整的HTML骨架。
  2. A/B测试或个性化内容: 网站可能对不同用户展示不同版本的页面,或根据用户地理位置、设备等信息提供个性化内容。
  3. 用户代理(User-Agent)检测: 网站可能会根据请求头中的User-Agent来判断请求来源是浏览器还是爬虫,从而返回不同的HTML内容,甚至直接返回错误页面或简化版页面。
  4. 服务器端渲染(SSR)与客户端渲染(CSR)混合: 某些页面可能部分内容由服务器渲染,部分由客户端渲染,导致首次请求与完全加载后的DOM结构差异。
  5. 错误或重定向: 当原始URL失效或被重定向时,可能会返回一个包含错误信息的HTML页面,而非预期的内容。

在上述IBM文档网站的案例中,观察到两种截然不同的HTML结构:一种是包含完整表格数据的预期结构,另一种则包含大量error.sorryText等JavaScript变量,明显是一个错误或备用页面。这表明网站可能根据请求的某些特征,或在无法找到特定内容时,返回了不同的响应。

识别并利用API数据源

当面对不稳定的HTML结构时,一个更可靠的策略是尝试识别网站用于加载数据的底层API。许多现代网站,尤其是那些动态加载内容的网站,通常会通过内部API获取数据,然后使用JavaScript在客户端渲染这些数据。直接请求这些API端点,往往能获得更稳定、结构化的JSON或XML数据,甚至直接是包含目标数据的HTML片段。

要找到这些API端点,通常需要借助浏览器开发者工具(如Chrome DevTools或Firefox Developer Tools)的“网络” (Network) 选项卡。在加载目标页面时,监控所有发出的XHR/Fetch请求,通常可以找到返回所需数据的API调用。

在IBM文档网站的案例中,通过分析其请求流程,可以发现它首先访问了一个常规URL,然后该页面会提供一个"oldUrl":"(.*?)"的线索。这个oldUrl实际上指向了一个内部的API端点,该端点能够直接返回包含表格数据的HTML片段。

立即学习前端免费学习笔记(深入)”;

松果AI写作
松果AI写作

专业全能的高效AI写作工具

下载

解决方案:异步请求与API调用

为了解决HTML结构不一致的问题,我们可以采取以下步骤:

  1. 模拟浏览器行为: 使用一个真实的User-Agent请求头,以尽可能地模拟浏览器行为,避免被网站识别为爬虫而返回异常内容。
  2. 首次请求获取API线索: 对原始URL发起GET请求,解析其内容以提取指向实际数据API的oldUrl。
  3. 构造API请求: 利用提取到的oldUrl构建正确的API请求URL,并添加必要的参数(例如parsebody=true和lang=en),这些参数通常是API正常工作所必需的。
  4. 发起API请求并解析数据: 对API端点发起请求,获取其响应。由于API通常返回更干净、更结构化的数据(或包含目标HTML片段),我们可以直接使用pandas.read_html()等工具进行高效解析。
  5. 异步处理: 对于需要抓取大量页面的场景,使用异步HTTP客户端(如httpx)配合异步运行时(如trio或asyncio)可以显著提高抓取效率。

以下是实现这一策略的Python代码示例:

import httpx  # 异步HTTP客户端
import trio   # 异步运行时
import re     # 正则表达式模块
import pandas as pd # 数据处理库

# 定义请求头,模拟浏览器
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/113.0'
}

async def fetch_table_data(identifier: str):
    """
    异步函数:根据标识符获取表格数据
    """
    async with httpx.AsyncClient(headers=headers, base_url='https://www.ibm.com/docs') as client:
        # 1. 构造原始URL的参数
        initial_params = {
            'topic': f'tables-{identifier}' # 使用传入的标识符
        }
        # 2. 对原始URL发起首次请求,获取包含API线索的HTML
        # 注意:这里假设 identifier 最终会映射到类似 t-accessdateval 这样的 topic
        # 如果原始问题中的 URL 结构是固定的,如 "en/imdm/12.0?topic=t-accessdateval"
        # 那么 initial_params['topic'] 应该直接是 't-accessdateval' 或类似的固定值
        # 这里为了演示通用性,我们用 f'tables-{identifier}'

        # 原始问题中的URL是 "https://www.ibm.com/docs/en/imdm/12.0?topic=t-accessdateval"
        # 对应的path是 'en/imdm/12.0',topic是 't-accessdateval'
        # 所以这里的 path 和 params 需要根据实际情况调整

        # 假设 identifier 已经是 't-accessdateval' 这样的形式
        initial_response = await client.get('en/imdm/12.0', params={'topic': identifier})

        # 3. 使用正则表达式从响应文本中提取 'oldUrl'
        # 'oldUrl' 通常指向一个内部API端点
        match = re.search(r'"oldUrl":"(.*?)"', initial_response.text)
        if not match:
            print(f"未能找到 {identifier} 的 oldUrl。")
            return pd.DataFrame() # 返回空DataFrame

        old_url_path = match.group(1)

        # 4. 构造API请求的URL路径
        # API路径通常是 'api/v1/content/' 加上提取到的 oldUrl
        api_url_path = "api/v1/content/" + old_url_path

        # 5. 定义API请求的参数
        api_params = {
            'parsebody': 'true', # 确保API返回解析后的内容
            'lang': 'en'         # 指定语言
        }

        # 6. 对API端点发起GET请求
        api_response = await client.get(api_url_path, params=api_params)

        # 7. 使用pandas.read_html直接解析API响应中的表格数据
        # attrs={'class': 'defaultstyle'} 用于精确匹配目标表格
        try:
            # api_response.content 包含的是HTML片段,pandas可以直接解析
            dataframes = pd.read_html(api_response.content, attrs={'class': 'defaultstyle'})
            if dataframes:
                df = dataframes[0]
                # 可以根据需要添加其他信息,例如原始的 identifier
                df.insert(0, "Source_Identifier", identifier)
                return df
            else:
                print(f"未能从 {identifier} 的API响应中找到表格。")
                return pd.DataFrame()
        except ValueError as e:
            print(f"解析 {identifier} 的HTML表格时出错: {e}")
            return pd.DataFrame()

async def main():
    # 假设 'identifiers.csv' 包含一列名为 'Identifier' 的数据
    # 例如:Identifier
    #      t-accessdateval
    #      t-another-table
    df_identifiers = pd.read_csv('identifiers.csv')

    all_dfs = []

    # 遍历所有标识符,并发地获取数据
    async with trio.TaskGroup() as tg:
        for index, row in df_identifiers.iterrows():
            identifier = row['Identifier']
            tg.start_soon(lambda id=identifier: all_dfs.append(trio.run(fetch_table_data, id))) # 包装为同步调用以添加到列表
            # 实际上,trio.run(fetch_table_data, id) 是一个阻塞调用,这里需要调整为异步收集结果
            # 正确的异步收集方式如下:
            # task_result = await fetch_table_data(identifier)
            # all_dfs.append(task_result)
            # 或者更优的,使用 tg.start_soon 来并行运行任务,并收集结果

            # 由于 trio.run 不能在另一个 trio.run 内部调用,我们需要调整收集结果的方式
            # 简单起见,这里先演示串行,如果需要并行,可以构建一个列表的 awaitables
            # 或者让 fetch_table_data 返回一个 Future/Deferred,然后在 TaskGroup 中等待
            # 对于本教程,我们先采用一个简化的并行/串行混合方式,或者直接在 main 中串行调用

            # 更直接的并行收集方式:
            # tasks = [tg.start_soon(fetch_table_data, identifier) for identifier in df_identifiers['Identifier']]
            # 然后需要一种机制来收集这些任务的结果。
            # 这里为了教程的简洁性,先展示一个可以运行的串行/伪并行结构,
            # 真正的并行收集需要更复杂的 TaskGroup 模式,例如使用 trio.Queue 或共享列表加锁。

            # 为了避免复杂性,我们在这里直接串行调用,或者使用一个简单的异步列表收集
            df = await fetch_table_data(identifier)
            if not df.empty:
                all_dfs.append(df)

    if all_dfs:
        combined_df = pd.concat(all_dfs, ignore_index=True)
        print(combined_df)
        combined_df.to_csv('combined_table_data_api.csv', index=False)
    else:
        print("未获取到任何数据。")

if __name__ == "__main__":
    trio.run(main)

代码解析:

  1. httpx和trio: httpx是一个现代的HTTP客户端,支持同步和异步请求。trio是一个异步I/O库,提供了一种结构化的并发编程方式。
  2. headers: 设置User-Agent,模拟浏览器请求,这对于避免被网站反爬机制识别非常重要。
  3. fetch_table_data函数:
    • 接收identifier作为参数,用于构建URL。
    • 首先向en/imdm/12.0路径发送请求,并传入topic参数。
    • 使用re.search从响应文本中查找"oldUrl":"(.*?)"模式,提取出实际的API路径。
    • 将提取到的oldUrl_path与api/v1/content/拼接,形成完整的API请求路径。
    • 向这个API路径发送请求,并带上parsebody=true和lang=en参数,这些参数告诉API返回可解析的HTML内容。
    • pd.read_html(api_response.content, attrs={'class': 'defaultstyle'}):这是核心步骤。pandas库的read_html函数可以直接从HTML内容中识别并提取表格,返回一个DataFrame列表。attrs={'class': 'defaultstyle'}用于指定只查找class为defaultstyle的表格,提高准确性。
    • 将获取到的DataFrame添加一个Source_Identifier列,以便追踪数据来源。
  4. main函数:
    • 读取包含标识符的CSV文件。
    • 遍历每个标识符,调用fetch_table_data函数获取数据。为了教程简洁,这里展示的是串行调用。在实际大规模抓取中,应利用trio.TaskGroup等机制实现真正的并发。
    • 将所有获取到的DataFrame合并成一个。
    • 打印并保存最终的合并数据到CSV文件。

总结与最佳实践

  • 深入分析网站行为: 当HTML结构不稳定时,不要只盯着HTML本身,而是要利用浏览器开发者工具(Network Tab)观察网站的实际数据加载方式,尤其是XHR/Fetch请求。
  • 优先使用API: 如果网站有明确的API来提供数据,尽可能直接调用API。API通常提供更稳定、结构化、易于解析的数据格式(如JSON、XML),且不易受前端UI改动的影响。
  • 模拟真实用户: 使用合适的User-Agent和其他HTTP请求头(如Referer、Accept-Language等)来模拟真实浏览器行为,可以有效避免被网站的反爬机制拦截或返回异常内容。
  • 异步编程: 对于需要处理大量请求的Web Scraping任务,httpx配合asyncio或trio等异步库可以显著提升性能和效率。
  • 健壮性与错误处理: 在代码中加入适当的错误处理机制(如try-except块),以应对网络错误、API响应异常或解析失败等情况,确保爬虫的稳定运行。
  • 遵守Robots协议和网站使用条款: 在进行Web Scraping时,务必检查网站的robots.txt文件,并遵守网站的使用条款,进行负责任的抓取。

通过上述方法,我们可以更有效地应对Web Scraping中HTML结构不一致的挑战,构建出更稳定、高效和健壮的数据抓取系统。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

749

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

635

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

706

2023.08.11

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

1

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.6万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.2万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号