使用 Selenium 提取 Twitter 视频 URL

霞舞

发布时间：2025-08-20 18:52:14

765人浏览过

来源于php中文网

原创

使用 selenium 提取 twitter 视频 url

本教程旨在指导开发者如何使用 Python 和 Selenium 自动化提取 Twitter 推文中嵌入的视频 URL。我们将通过一个实际示例，演示如何利用 Selenium 模拟用户行为，定位视频元素，并提取其对应的直播链接。本教程将提供详细的代码示例和解释，帮助你快速掌握该技术。

Selenium 提取 Twitter 视频 URL 的方法

Twitter 页面结构复杂，直接提取视频源 URL 较为困难。通常，Twitter 会将视频嵌入到直播链接中。因此，我们需要找到包含直播链接的元素，并提取其 href 属性。

示例代码

以下代码演示了如何使用 Selenium 提取 Twitter 推文中的视频直播 URL：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 初始化 Chrome WebDriver
driver = webdriver.Chrome()
driver.maximize_window()

# 打开目标 Twitter 推文
driver.get("https://twitter.com/Tesla/status/1711184330792579093")

# 设置显式等待，最长等待 10 秒
wait = WebDriverWait(driver, 10)

# 接受 cookies (如果需要)
try:
    wait.until(EC.element_to_be_clickable((By.XPATH, "//span[text()='Accept all cookies']"))).click()
except:
    pass # 如果没有 cookies 弹窗，则跳过

# 定位包含直播链接的  标签，并提取 href 属性
link = wait.until(EC.element_to_be_clickable((By.XPATH, "//div[@data-testid='card.layoutLarge.media']//following::a[1]"))).get_attribute("href")
print(link)

# 关闭浏览器
driver.quit()

代码解释

导入必要的库:

selenium.webdriver: 用于控制浏览器。

selenium.webdriver.common.by.By: 用于指定元素的定位方式（例如，XPATH）。

selenium.webdriver.support.ui.WebDriverWait: 用于设置显式等待。

selenium.webdriver.support.expected_conditions as EC: 用于定义等待的条件（例如，元素可点击）。
初始化 WebDriver:
- driver = webdriver.Chrome(): 创建 Chrome WebDriver 实例。
- driver.maximize_window(): 最大化浏览器窗口。
打开 Twitter 推文:

PHP-B2B(原友邻b2b)
PHPB2B Athena 是一款基于PHP、MySQL的B2B行业电子商务网站管理系统，系统提供了供求信息、公司库、专业市场库、产品库、展会、人才招聘、行业资讯等模块，适用于想在行业里取得领先地位的企业快速架设B2B网站，可以运行于Linux与Windows等多重服务器环境，安装方便，使用灵活。强大的插件功能：系统自带企业视频展播、在线QQ客服、baidu sitemap以及google si

下载
- driver.get("https://twitter.com/Tesla/status/1711184330792579093"): 使用 WebDriver 打开指定的 Twitter 推文链接。
设置显式等待:
- wait = WebDriverWait(driver, 10): 创建 WebDriverWait 实例，设置最大等待时间为 10 秒。
接受 Cookies (如果需要):
- try...except 块用于处理可能出现的 Cookies 弹窗。如果找到 "Accept all cookies" 按钮，则点击它。如果不存在，则跳过。
定位并提取链接:
- wait.until(EC.element_to_be_clickable((By.XPATH, "//div[@data-testid='card.layoutLarge.media']//following::a[1]"))).get_attribute("href"): 这行代码是关键。它使用 XPath 定位包含直播链接的标签。
  - //following::a[1]: 在 div 元素之后查找第一个标签。这里假设直播链接是媒体内容后第一个出现的链接。
  - EC.element_to_be_clickable(...): 确保找到的元素是可点击的。
  - .get_attribute("href"): 提取标签的 href 属性，即直播链接。
打印链接:
- print(link): 将提取到的直播链接打印到控制台。
关闭浏览器:
- driver.quit(): 关闭浏览器窗口，释放资源。

注意事项

XPath 的选择: XPath 表达式需要根据 Twitter 页面结构进行调整。Twitter 的页面结构可能会发生变化，因此需要定期检查和更新 XPath。可以使用浏览器的开发者工具来查找合适的 XPath。
显式等待: 使用显式等待可以确保元素在被操作之前已经加载完成，避免出现 NoSuchElementException 异常。
Cookies 处理: 根据实际情况处理 Cookies 弹窗。
反爬虫机制: Twitter 具有反爬虫机制。频繁的请求可能会导致 IP 被封禁。建议设置合理的请求间隔，并使用代理 IP。
直播链接的有效性: 提取到的直播链接可能不是永久有效的。Twitter 的直播链接可能会在一段时间后失效。
错误处理: 建议添加适当的错误处理机制，例如捕获 TimeoutException 异常，以便在元素未找到或超时的情况下进行处理。

总结

本教程介绍了如何使用 Selenium 提取 Twitter 推文中的视频直播 URL。通过合理地选择 XPath 表达式，并使用显式等待，可以有效地定位目标元素，并提取所需的信息。在实际应用中，需要注意 Twitter 的反爬虫机制，并采取相应的措施。此外，请务必遵守 Twitter 的使用条款和条件。

Python正则系统学习路线第9讲_核心原理与实战案例详解【指导】

Willans 公式实现素数生成时的数值溢出解决方案

Willans 公式实现中的大数溢出问题与高效修正方案

Willans 公式生成第 n 个素数的 Python 实现与溢出修复指南

Willans 公式实现素数生成时的数值溢出修复教程

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

708

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

736

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

616

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

695

2023.08.11