
本文旨在解决使用beautifulsoup进行网页抓取时遇到的空列表问题。我们将深入分析导致空列表的常见原因,特别是选择器不准确和代码结构不合理。教程将演示如何通过采用更精确的css选择器和优化迭代逻辑来构建健壮的抓取脚本,确保数据能够被正确提取,避免常见的抓取失败。
网页抓取中的常见挑战:空列表问题
在使用BeautifulSoup进行网页内容抓取时,开发者常常会遇到一个令人困惑的问题:尽管目标网页内容清晰可见,但抓取结果却是一个空列表。这通常意味着我们的抓取逻辑未能成功定位并提取到预期的HTML元素。空列表的出现,往往是由于选择器不准确、HTML结构理解有误或代码迭代方式存在缺陷所致。
以下是一个可能导致空列表的初始抓取尝试示例:
import requests
from bs4 import BeautifulSoup
url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)
if data.status_code == 200:
soup = BeautifulSoup(data.content, 'html.parser')
# 尝试查找标题和文章内容
headlines = soup.find('div', class_=['news-card-title', 'news-right-box'])
articles = soup.find('div', class_=['news-card-content', 'news-right-box'])
# 检查并尝试组合数据
if headlines and articles and len(headlines) == len(articles): # 此处会出错
news_articles = [
{
'news_headline': headline.find_all('span', attrs={'itemprop': 'headline'}).string,
'news_article': article.find_all('div', attrs={'itemprop': 'articleBody'}).string,
'news_category': news_category
}
for headline, article in zip(headlines, articles)
]
news_data.extend(news_articles)
print(news_data) # 输出结果为空列表深入分析原始代码的问题所在
上述代码之所以会输出空列表,主要原因在于对BeautifulSoup的find()方法及其返回值的理解和使用存在偏差,以及后续逻辑的结构性问题:
- find() 方法的局限性: soup.find() 方法只会返回第一个匹配的Tag对象,如果没有找到任何匹配项,则返回 None。在示例中,headlines 和 articles 变量很可能因为选择器不准确或目标元素不存在而直接被赋值为 None。
- NoneType 对象的处理: 如果 headlines 或 articles 变量为 None,那么 if headlines and articles 条件就会失败,导致后续的代码块不执行。即使它们成功找到了一个 Tag 对象,len(headlines) 这样的操作也会引发 TypeError,因为 Tag 对象没有 len() 方法。
- 迭代逻辑的缺陷: zip(headlines, articles) 期望 headlines 和 articles 都是可迭代的序列(如列表)。但由于 find() 返回的是单个 Tag 对象或 None,而不是一个包含多个 Tag 对象的列表,这种 zip 操作是无法按预期工作的。即使 headlines 和 articles 都是单个 Tag 对象,zip 也只会迭代一次,且后续的 find_all().string 操作也可能因 None 或找不到子元素而失败。
- 文本提取方式: 使用 .string 属性来提取文本内容在某些情况下可能会返回 None,特别是当标签包含子标签或混合内容时。更稳健的方法是使用 get_text()。
优化策略:使用CSS选择器精准定位元素
为了解决上述问题并实现可靠的网页抓取,我们可以采用以下优化策略:
- 使用CSS选择器: CSS选择器提供了更强大、更灵活的方式来定位HTML元素。BeautifulSoup通过 soup.select()(返回所有匹配的元素列表)和 soup.select_one()(返回第一个匹配的元素)支持CSS选择器。
- 定位父级容器: 识别包含所有目标信息(如新闻标题、文章内容)的共同父级HTML元素。这样,我们只需迭代这些父级容器,并在每个容器内部提取所需的数据。这大大简化了逻辑,并提高了代码的健壮性。
- 统一迭代逻辑: 避免对多个独立的元素列表进行 zip 操作,而是通过迭代父级容器,在其内部直接查找子元素。
- 使用 get_text() 提取文本: get_text() 方法能够递归地提取一个标签内所有文本内容,并将其拼接成一个字符串,比 .string 更具鲁棒性。
下面是基于这些优化策略的改进代码示例:
import requests
from bs4 import BeautifulSoup
url = 'https://inshorts.com/en/read/technology'
news_data = []
news_category = url.split('/')[-1]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'}
data = requests.get(url, headers=headers)
if data.status_code == 200:
soup = BeautifulSoup(data.content, 'html.parser')
# 使用CSS选择器定位所有新闻文章的父级容器
# 这里的'[itemtype="http://schema.org/NewsArticle"]'是一个非常精确的选择器
# 它匹配所有具有指定itemtype属性的元素,通常代表一个独立的内容块
for article_container in soup.select('[itemtype="http://schema.org/NewsArticle"]'):
# 在每个文章容器内部,使用select_one()定位标题和文章主体
headline_element = article_container.select_one('[itemprop="headline"]')
article_body_element = article_container.select_one('[itemprop="articleBody"]')
# 检查元素是否存在,并使用get_text()提取内容
news_headline = headline_element.get_text(strip=True) if headline_element else "N/A"
news_article = article_body_element.get_text(strip=True) if article_body_element else "N/A"
news_data.append(
{
'news_headline': news_headline,
'news_article': news_article,
'news_category': news_category
}
)
print(news_data) # 将输出包含数据的列表关键改进点与最佳实践
- 选择器精度至关重要: 示例中使用了 [itemtype="http://schema.org/NewsArticle"] 这样的属性选择器,它通常比简单的类名或标签名更具唯一性和稳定性。在实际抓取中,务必花时间检查目标网站的HTML结构,找到最能代表目标内容的独特标识符(如 id、独特的 class 组合、自定义属性等)。
- 迭代逻辑的鲁棒性: 通过首先定位包含单个完整数据记录的父级元素(如 article_container),然后遍历这些父级元素,并在每个父级元素内部查找其子元素,可以极大地增强代码的鲁棒性。这种“先大后小”的策略避免了多个独立列表之间长度不匹配或元素顺序错乱的问题。
-
select() 与 select_one() 的选择:
- soup.select('CSS选择器'):返回所有匹配的元素列表,适用于需要获取多个相同类型元素的情况。
- element.select_one('CSS选择器'):返回第一个匹配的元素,如果没有找到则返回 None。适用于在已知父元素内查找唯一的子元素。
- get_text() 的应用: 始终优先使用 get_text(strip=True) 来提取文本内容。strip=True 参数可以自动去除文本两端的空白字符,使得提取的数据更干净。相比之下,.string 属性在标签内包含其他标签时会返回 None,不够灵活。
- 空值处理: 在提取 headline_element 和 article_body_element 后,增加了 if headline_element else "N/A" 这样的判断,这是良好的编程习惯。即使选择器通常很准确,也应考虑到某些元素可能偶尔缺失的情况,避免程序因 NoneType 错误而崩溃。
- User-Agent 设置: 在 headers 中设置 User-Agent 是一个良好的实践,可以模拟浏览器请求,减少被网站识别为爬虫的风险,从而避免被阻止访问。
总结
当使用BeautifulSoup进行网页抓取时遇到空列表,通常是由于HTML元素选择器不够精确或数据迭代逻辑存在缺陷。通过深入理解目标网页的HTML结构,并利用强大的CSS选择器(如属性选择器)来精准定位包含完整数据记录的父级容器,然后在其内部安全地提取子元素,可以构建出高效且健壮的网页抓取脚本。同时,采用 get_text() 进行文本提取和适当的空值处理,将进一步提升代码的可靠性,确保数据能够被成功抓取。










