使用Selenium自动化处理动态下拉菜单与数据提取教程

心靈之曲

发布时间：2025-11-11 11:18:02

897人浏览过

来源于php中文网

原创

使用Selenium自动化处理动态下拉菜单与数据提取教程

本教程详细介绍了如何使用selenium webdriver处理网页中动态展开的下拉菜单，并从中提取嵌套的子分类链接。我们将通过识别并迭代点击展开图标，实现所有子菜单的可见化，随后筛选并收集目标href属性。内容涵盖selenium环境配置、元素定位技巧、动态dom交互策略，并提供完整的python代码示例，旨在帮助开发者高效地从复杂网页结构中抓取所需数据。

在进行网页数据抓取时，经常会遇到动态加载或折叠的元素，特别是多级下拉菜单。这些菜单通常需要用户交互（如点击）才能展开，进而暴露其内部的子项链接。本教程将以一个具体的案例为例，演示如何使用Python和Selenium WebDriver有效处理这类场景，最终目标是获取所有子分类的链接。

1. 环境准备与项目初始化

首先，确保你已安装Python和Selenium库，并且配置了WebDriver（如Chrome WebDriver）。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time # 用于演示，实际项目中建议使用显式等待

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
driver = webdriver.Chrome()
# 设置隐式等待，在查找元素时，如果元素未立即可用，WebDriver会等待指定的时间
driver.implicitly_wait(5) # 建议设置一个合理的等待时间
driver.get(URL)

# 初始化ActionChains，用于执行复杂的鼠标操作，本例中暂未使用，但可保留备用
# action = webdriver.ActionChains(driver)

在初始化阶段，我们加载了必要的库，设置了目标URL，并启动了Chrome浏览器实例。driver.implicitly_wait()是一个全局设置，它会指示WebDriver在查找任何元素时等待指定的时间，直到元素出现或超时。

2. 识别并展开所有动态下拉菜单

目标网页中的子分类项隐藏在可折叠的菜单中，通过点击一个“加号”图标 (ion-plus-round) 可以展开。为了获取所有子分类链接，我们需要迭代地点击这些展开图标，直到所有菜单都处于展开状态。

关键挑战： 当点击一个展开图标后，页面的DOM结构可能会发生变化，导致之前定位到的元素引用失效。因此，在每次点击之前，我们需要重新定位所有可展开的图标。

# 查找所有带有“展开”图标的元素
# 这些图标通常有一个特定的CSS类，例如 'icon expand-icon ion-plus-round'
# 使用CSS选择器定位这些元素
expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

# 循环点击所有展开图标
# 注意：由于点击操作可能改变DOM，导致元素列表失效，
# 我们需要在每次点击前重新查找元素。
while True:
    # 重新查找所有展开图标
    current_expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

    # 如果没有找到任何展开图标，说明所有菜单都已展开，跳出循环
    if not current_expand_icons:
        break

    try:
        # 点击第一个找到的展开图标
        # 注意：这里我们总是点击列表中的第一个，因为每次循环都会重新查找
        # 这样可以确保我们总是在处理当前页面上可见的、未展开的菜单
        current_expand_icons[0].click()
        # 每次点击后短暂等待，确保DOM更新完成
        time.sleep(0.5) 
    except Exception as e:
        # 捕获可能的异常，例如元素变得不可点击
        print(f"点击展开图标时发生错误: {e}")
        break # 发生错误时退出循环

这段代码的核心在于 while True 循环。每次循环开始时，我们都会重新查找所有带有 ion-plus-round 类的元素。如果找到了，就点击列表中的第一个，然后短暂等待，让页面有时间更新。如果没有找到任何这样的元素，就意味着所有可展开的菜单都已展开，此时循环终止。

杰易OA办公自动化系统6.0

基于Intranet/Internet 的Web下的办公自动化系统，采用了当今最先进的PHP技术，是综合大量用户的需求,经过充分的用户论证的基础上开发出来的，独特的即时信息、短信、电子邮件系统、完善的工作流、数据库安全备份等功能使得信息在企业内部传递效率极大提高，信息传递过程中耗费降到最低。办公人员得以从繁杂的日常办公事务处理中解放出来，参与更多的富于思考性和创造性的工作。系统力求突出体系结构简明

下载

3. 提取子分类链接

在所有下拉菜单都展开之后，我们可以开始提取所需的子分类链接。这些链接通常包含特定的标识符，例如在 href 属性中包含 "subcat" 字符串。

# 定位包含所有分类链接的父容器
# 假设所有分类（包括主分类和子分类）都在第一个 'list-group' 元素内
item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]

# 查找容器内所有的 'a' 标签（链接）
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')

# 过滤出子分类链接
subcat_links = []
for link_element in all_links:
    href = link_element.get_attribute('href')
    if href and 'subcat' in href: # 检查href是否存在且包含 'subcat' 字符串
        subcat_links.append(href)

# 打印或处理收集到的子分类链接
print("已收集到的子分类链接数量:", len(subcat_links))
for link in subcat_links:
    print(link)

# 关闭浏览器
driver.quit()

这段代码首先定位到包含所有分类链接的父容器。然后，它查找该容器内的所有标签，并遍历这些标签。对于每个链接，它提取 href 属性，并通过检查 href 中是否包含 "subcat" 字符串来判断其是否为目标子分类链接。最终，所有符合条件的链接都会被收集到 subcat_links 列表中。

4. 完整代码示例

将上述所有步骤整合，形成一个完整的自动化脚本：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 定义目标URL
URL = "https://albiononline2d.com/en/item"

# 初始化Chrome WebDriver
driver = webdriver.Chrome()
driver.implicitly_wait(5) # 设置隐式等待
driver.get(URL)

print("页面加载完成，开始展开下拉菜单...")

# 循环点击所有展开图标
while True:
    # 重新查找所有展开图标，确保处理动态DOM变化
    current_expand_icons = driver.find_elements(By.CSS_SELECTOR, 'span[class="icon expand-icon ion-plus-round"]')

    # 如果没有找到任何展开图标，说明所有菜单都已展开，跳出循环
    if not current_expand_icons:
        print("所有下拉菜单已展开。")
        break

    try:
        # 点击第一个找到的展开图标
        current_expand_icons[0].click()
        # 每次点击后短暂等待，确保DOM更新完成
        time.sleep(0.5) 
    except Exception as e:
        print(f"点击展开图标时发生错误: {e}")
        break # 发生错误时退出循环

print("开始提取子分类链接...")

# 定位包含所有分类链接的父容器
# 使用WebDriverWait进行显式等待，确保元素可见
try:
    item_categories_container = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.CLASS_NAME, 'list-group'))
    )
    # 由于页面可能有多个list-group，我们取第一个作为主分类容器
    item_categories_container = driver.find_elements(By.CLASS_NAME, 'list-group')[0]
except Exception as e:
    print(f"无法找到主分类容器: {e}")
    driver.quit()
    exit()

# 查找容器内所有的 'a' 标签（链接）
all_links = item_categories_container.find_elements(By.TAG_NAME, 'a')

# 过滤出子分类链接
subcat_links = []
for link_element in all_links:
    href = link_element.get_attribute('href')
    if href and 'subcat' in href: # 检查href是否存在且包含 'subcat' 字符串
        subcat_links.append(href)

print("\n--- 收集到的子分类链接 ---")
print(f"总共收集到 {len(subcat_links)} 个子分类链接。")
for link in subcat_links:
    print(link)

# 关闭浏览器
driver.quit()
print("\n浏览器已关闭。")

5. 注意事项与最佳实践

动态元素处理： 对于像本例中点击后会改变DOM结构导致元素引用失效的情况，务必在每次交互前重新定位元素。这是处理动态网页的关键。
等待策略：
- 隐式等待 (implicitly_wait)：全局设置，对所有 find_element 和 find_elements 调用生效。
- 显式等待 (WebDriverWait 和 expected_conditions)：更精确和健壮的等待方式，可以等待特定条件（如元素可见、可点击等）发生。在生产环境中，强烈建议优先使用显式等待，尤其是在元素加载时间不确定的情况下。
- time.sleep()：虽然简单，但在自动化测试和爬虫中应尽量避免，因为它会强制程序暂停固定时间，效率低下且不稳定。本例中用于演示，实际项目中可替换为更智能的等待。
元素定位器： 选择稳定且唯一的定位器。CSS选择器和XPath通常比类名或标签名更具特异性。
错误处理： 使用 try-except 块来捕获可能发生的异常（如 NoSuchElementException 或 ElementNotInteractableException），提高脚本的健壮性。
浏览器管理： 始终在脚本结束时调用 driver.quit() 来关闭浏览器实例，释放资源。
目标扩展： 一旦获取了所有子分类链接，你可以进一步遍历这些链接，访问每个子分类页面，并提取更深层次的数据（例如，每个子分类页面上的具体物品信息）。

总结

通过本教程，我们学习了如何使用Selenium WebDriver有效地处理动态网页中的下拉菜单。核心策略包括迭代地重新定位并点击展开图标以揭示所有隐藏内容，然后精确地提取目标链接。理解并正确应用隐式/显式等待以及动态元素处理是成功实现这类自动化任务的关键。掌握这些技术将大大提高从复杂Web应用中抓取数据的能力。

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

BeautifulSoup嵌套元素提取指南：从HTML获取到内容解析

python Helium库怎么实现Web自动化？

如何使用Python生成PDF？