讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

如何用Python实现一个简单的爬虫？

紅蓮之龍

发布时间：2025-09-05 21:22:02

|

303人浏览过

|

来源于php中文网

原创

答案：使用Python实现简单爬虫最直接的方式是结合requests和BeautifulSoup库。首先通过requests发送HTTP请求获取网页HTML内容，并设置headers、超时和编码；然后利用BeautifulSoup解析HTML，通过CSS选择器提取目标数据，如文章标题和链接；为避免被封IP，应遵守robots.txt协议、控制请求频率、添加time.sleep()延时，并妥善处理异常。对于动态网页，需引入Selenium模拟浏览器行为，等待JavaScript渲染后再提取数据。同时必须遵守法律与道德边界，尊重网站规则，不抓取隐私数据，保护知识产权，避免对服务器造成过大压力。

如何用python实现一个简单的爬虫？

用Python实现一个简单的爬虫，最直接且高效的方式通常是结合

requests

库来获取网页内容，再利用

BeautifulSoup

库进行解析。这套组合拳对于处理大多数静态网页来说，简直是新手入门的不二之选，它能让你快速从网页上抓取所需信息。

解决方案

要用Python构建一个基础的爬虫，核心逻辑无非是“请求”和“解析”。我们先用

requests

库向目标网站发送一个HTTP请求，获取到网页的HTML内容，然后用

BeautifulSoup

将这些杂乱无章的HTML代码转化成易于操作的数据结构，最后从中提取我们想要的信息。

我们以一个简单的例子来说明。假设我们想从一个虚构的博客页面（比如

http://example.com/blog

）上抓取所有文章的标题和链接。

import requests
from bs4 import BeautifulSoup
import time # 为了礼貌和避免被封，加个延时

def simple_blog_crawler(url):
    try:
        # 模拟浏览器发送请求，带上User-Agent是个好习惯
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36'
        }
        response = requests.get(url, headers=headers, timeout=10) # 设置超时，防止无限等待
        response.raise_for_status() # 如果请求不成功（比如404, 500），会抛出HTTPError异常

        # 设置编码，防止中文乱码，通常requests会自动识别，但手动指定更保险
        response.encoding = response.apparent_encoding

        # 使用BeautifulSoup解析HTML内容
        soup = BeautifulSoup(response.text, 'html.parser')

        # 假设文章标题都在h2标签内，链接在h2下的a标签里
        # 这是一个常见的CSS选择器用法，你可能需要根据实际网页结构调整
        articles = soup.select('div.article-list h2 a') # 假设文章列表在div.article-list里

        if not articles:
            print(f"在 {url} 未找到文章标题，请检查选择器或网页结构。")
            return []

        extracted_data = []
        for article in articles:
            title = article.get_text(strip=True) # 获取标签内的文本，并去除空白符
            link = article.get('href') # 获取a标签的href属性

            # 有时候链接可能是相对路径，需要拼接成绝对路径
            if link and not link.startswith(('http://', 'https://')):
                from urllib.parse import urljoin
                link = urljoin(url, link)

            extracted_data.append({'title': title, 'link': link})

        return extracted_data

    except requests.exceptions.RequestException as e:
        print(f"请求 {url} 时发生错误: {e}")
        return []
    except Exception as e:
        print(f"解析 {url} 时发生未知错误: {e}")
        return []

if __name__ == "__main__":
    target_url = "http://quotes.toscrape.com/" # 换成一个实际存在的、适合爬取的网站
    print(f"正在抓取 {target_url} 的内容...")

    # 实际运行时，请务必遵守网站的robots.txt协议和使用条款
    # 为了演示，这里假设可以抓取
    data = simple_blog_crawler(target_url)

    if data:
        for item in data:
            print(f"标题: {item['title']}, 链接: {item['link']}")
    else:
        print("未能成功抓取任何数据。")

    time.sleep(2) # 抓取完一页，休息一下

这段代码基本上涵盖了一个简单爬虫的核心流程：发送请求、处理响应、解析HTML、提取数据。实际操作中，你可能需要根据目标网站的HTML结构调整

soup.select()

中的选择器。我个人觉得，调试选择器是爬虫开发中最花时间但也最有趣的部分，它就像解谜一样。

立即学习“Python免费学习笔记（深入）”；

爬虫新手常犯的错误有哪些，又该如何避免？

说实话，刚开始玩爬虫的时候，我在这上面吃过不少亏，踩过的坑简直能堆成小山。新手最容易犯的错误，我总结下来主要有这么几点：

首先，忽视

robots.txt

文件。很多网站都会有一个

robots.txt

文件，它就像是给爬虫的“君子协议”，告诉你哪些页面可以爬，哪些不建议爬。我见过不少人，包括我自己一开始，直接就冲上去抓取，结果被网站管理员直接封IP，或者干脆被“请”出去了。避免方法很简单：每次开始爬取前，花几秒钟访问一下目标网站的

yourdomain.com/robots.txt

，看看有没有什么限制。尊重规则，这是最基本的网络礼仪。

其次，不处理异常。网络环境复杂多变，页面可能加载失败、超时，或者目标元素不存在。如果代码没有

try-except

块来捕获这些异常，程序一遇到问题就直接崩溃了。这会让人非常沮丧，而且效率低下。我的经验是，对

requests.get()

、

response.raise_for_status()

以及

BeautifulSoup

的解析操作都加上异常处理，这样即使某个请求失败了，整个爬虫也能继续运行，并记录下错误信息，方便后续排查。

再者，请求频率过高，或者说，不讲“武德”。有些新手为了追求速度，会一股脑地发送大量请求，短时间内对目标服务器造成巨大压力。这不仅容易被网站识别为恶意行为而封禁IP，甚至可能真的给对方服务器带来负担。我通常会在每次请求之间加入

time.sleep()

，哪怕只是几秒钟，也能极大地降低被封的风险，同时给服务器一个喘息的机会。更高级一点，可以引入代理IP池和请求头轮换，但对于简单爬虫来说，

time.sleep()

已经很管用了。

最后，选择器不准确或太脆弱。网页结构是会变的，今天能用的CSS选择器，明天可能就失效了。我曾经写过一个爬虫，跑了几个月好好的，突然有一天就抓不到数据了，一查才发现是网站前端改版了，导致我写死的选择器完全失效。避免这种问题，除了定期检查和更新选择器外，更重要的是在写选择器时，尽量选择那些看起来比较稳定、层级不那么深的元素，或者使用更具鲁棒性的XPath。同时，在代码中加入日志记录，一旦抓取到的数据量异常，就能及时发现并处理。

如何应对动态网页内容的抓取挑战？

当网页内容不再是简单的HTML，而是通过JavaScript在浏览器端动态渲染出来的，仅仅使用

requests

和

BeautifulSoup

就显得力不从心了。

requests

只能获取到原始的HTML文本，而这些文本里往往只有加载JavaScript的指令，真正的数据要等JavaScript执行后才会填充到页面上。这就像你拿到一张藏宝图，但地图上的宝藏位置需要你解开一个谜语才能知道，而

requests

只给了你谜语本身，没帮你解。

这时候，我们就需要一个能够模拟浏览器行为的工具了，比如

Selenium

。

Selenium

最初是用于自动化测试的，但它完美地解决了动态内容抓取的问题。它的原理是启动一个真实的浏览器（或者无头浏览器，即没有图形界面的浏览器），然后通过代码控制这个浏览器进行点击、输入、滚动等操作，等待JavaScript执行完毕，最终获取到完整的、渲染后的页面内容。

dmSOBC SHOP网店系统

dmSOBC SHOP网店系统

dmSOBC SHOP网店系统由北京时代胜腾信息技术有限公司（http://www.webzhan.com）历时6个月开发完成，本着简单实用的理念，商城在功能上摒弃了外在装饰的一些辅助功能，尽可能的精简各项模块开发，做到有用的才开发，网店V1.0.0版本开发完成后得到了很多用户的使用并获得了好评，公司立即对网店进行升级，其中包括修正客户提出的一些意见和建议，现对广大用户提供免费试用版本，如您在使用

下载

用

Selenium

来抓取动态内容的基本流程是这样的：

启动浏览器驱动：你需要下载对应浏览器（如Chrome、Firefox）的
```
WebDriver
```
，并配置好路径。
访问URL：
```
driver.get(url)
```
，这会像真实用户一样打开网页。
等待内容加载：这是关键一步。因为JavaScript的执行需要时间，你不能立即去获取页面内容。
```
Selenium
```
提供了多种等待机制，比如
```
WebDriverWait
```
结合
```
expected_conditions
```
，可以等待某个元素出现、可点击，或者等待某个特定的条件满足。
获取页面源码：一旦页面加载并渲染完毕，你可以通过
```
driver.page_source
```
获取到完整的HTML内容。
解析页面：拿到完整的HTML后，你就可以像之前一样，再次结合
```
BeautifulSoup
```
进行解析和数据提取了。
关闭浏览器：完成抓取后，记得
```
driver.quit()
```
关闭浏览器，释放资源。

举个例子，如果我们要抓取一个需要点击“加载更多”按钮才能显示全部内容的页面：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 假设你已经下载了chromedriver并放在了系统路径中，或者指定了路径
# driver = webdriver.Chrome('/path/to/chromedriver') # 如果不在系统路径
driver = webdriver.Chrome() # 如果在系统路径

try:
    driver.get("http://your-dynamic-website.com") # 替换成实际的动态网站

    # 等待某个元素加载完成，比如页面上的某个主要内容区域
    WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "main-content"))
    )
    print("页面主要内容已加载。")

    # 模拟点击“加载更多”按钮
    # 假设“加载更多”按钮的ID是'load-more-button'
    try:
        load_more_button = WebDriverWait(driver, 5).until(
            EC.element_to_be_clickable((By.ID, "load-more-button"))
        )
        load_more_button.click()
        print("点击了'加载更多'按钮。")
        # 再次等待新内容加载
        time.sleep(3) # 简单粗暴的等待，更推荐使用WebDriverWait
    except:
        print("未找到或无法点击'加载更多'按钮，可能已加载全部或没有此按钮。")

    # 获取渲染后的页面HTML
    rendered_html = driver.page_source

    # 此时你可以用BeautifulSoup解析rendered_html了
    # from bs4 import BeautifulSoup
    # soup = BeautifulSoup(rendered_html, 'html.parser')
    # ... 进行数据提取 ...
    print("成功获取渲染后的页面内容。")

finally:
    driver.quit() # 无论成功失败，都要关闭浏览器

虽然

Selenium

功能强大，但它也有缺点：资源消耗大，运行速度慢，因为它真的启动了一个浏览器。对于大规模的动态网页抓取，你可能需要考虑更轻量级的方案，比如分析网页的XHR请求（JavaScript发送的异步请求），直接模拟这些请求来获取数据。但对于初学者而言，

Selenium

提供了一个直观且有效的解决方案。

在进行网络爬虫时，我们应该关注哪些法律与道德边界？

这一点，我觉得是每个爬虫开发者都必须深思熟虑的。技术本身是中立的，但使用技术的人却要承担相应的社会责任。在爬虫领域，这尤其重要，因为你直接与他人的数据和服务器打交道。

首先，也是最基础的，是遵守

robots.txt

协议。我前面提过它是一个“君子协议”，虽然它不具备法律强制力，但它代表了网站所有者的意愿。如果你无视它，轻则被封IP，重则可能被视为恶意攻击。尊重

robots.txt

，不仅是技术道德，也是维护整个互联网生态平衡的一部分。

其次，关注网站的服务条款（Terms of Service, ToS）。很多网站会在其服务条款中明确规定是否允许爬虫抓取数据，以及抓取的数据用途。有些网站可能允许抓取公开数据，但禁止商业用途；有些则可能完全禁止。虽然ToS的法律效力在不同司法管辖区可能有所差异，但作为负责任的开发者，我们应该阅读并尽量遵守这些条款。我个人认为，ToS就像是网站与用户之间的一个契约，无视它就是一种失信行为。

再来，数据隐私和个人信息保护。这是最敏感也最容易触犯法律红线的部分。如果你在爬取过程中不小心获取到了用户的个人身份信息（如姓名、电话、邮箱、身份证号等），并且未经授权进行存储、分析或发布，那就可能触犯了《个人信息保护法》、GDPR（欧盟通用数据保护条例）等相关法律法规。我的原则是：不爬取个人隐私数据，不存储敏感信息，不滥用任何数据。即使是公开数据，也要思考其聚合后是否会构成对个人隐私的侵犯。

还有，版权和知识产权。你爬取到的内容，其版权归属原网站或原作者。未经授权地复制、发布或商业化使用这些内容，可能构成侵犯著作权。比如，爬取了别人的原创文章，然后直接发布到自己的平台，这显然是不对的。在利用爬取到的数据时，务必注意版权问题，确保自己的行为合法合规。

最后，也是我最想强调的，是对服务器的压力和资源消耗。即使网站没有明确禁止爬虫，你也不能无限制地对它发起请求。过高的请求频率可能导致目标网站服务器过载，影响正常用户访问，甚至造成网站瘫痪。这不仅是不道德的，在某些情况下也可能被视为拒绝服务攻击（DoS）。我始终认为，一个负责任的爬虫，应该像一个“温柔的访客”，合理设置请求间隔，控制并发量，尽量在非高峰时段进行爬取，将对网站的影响降到最低。

总而言之，爬虫技术是一把双刃剑，用得好可以高效获取信息，造福社会；用不好则可能带来法律风险和道德谴责。在动手写代码之前，先问问自己：我这样做合法吗？道德吗？会给别人带来困扰吗？带着这份审慎和责任感去开发，才能走得更远，也更安心。

相关文章

从绝对定位Div布局到CSS Grid：构建表格化视图的现代方法

从CSS定位Div布局到HTML表格或Grid布局的转换策略

将基于CSS样式将Div布局转换为HTML表格

使用Selenium抓取动态隐藏内容的策略与实践

从CSS定位Div布局到HTML表格或CSS Grid的转换策略

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何应对反爬虫策略？IP 代理与用户代理池下一篇：Django和Flask框架的优缺点对比。

作者最新文章

JavaScript如何操作CSS_样式编程有哪些技巧

2025-12-31 15:11

番茄小说如何签约_番茄小说签约作者流程与条件

2025-12-31 15:34

javascript如何实现数据绑定_双向绑定原理是什么

2025-12-31 15:38

Javascript中的IndexedDB是什么_怎样用Javascript进行客户端数据存储？

2025-12-31 15:41

怎样使用ES6中的类_它与原型继承有什么区别

2025-12-31 15:43

搜搜小说入口网页版_搜搜小说官方网页版登录免费阅读网站

2025-12-31 17:16

如何理解Javascript的AST抽象语法树_怎样用Javascript操作AST？

2025-12-31 17:17

JavaScript如何实现单例模式_怎样确保全局只有一个实例

2025-12-31 17:41

什么是原型_Javascript对象如何继承

2025-12-31 18:07

淘宝闪购入口在哪找？淘宝闪购官方限时抢购频道一键直达

2025-12-31 18:08

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

更多

python开发工具

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

717

2023.06.15

python打包成可执行文件

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

627

2023.07.20

python能做什么

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

743

2023.07.25

format在python中的用法

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

699

2023.08.11

php源码安装教程大全

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

纯CSS3水平手风琴分享按钮菜单

HTML5实现简单进度条效果

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

Sass 教程

Sass 教程

共14课时 | 0.7万人学习

Bootstrap 5教程

Bootstrap 5教程

共46课时 | 2.7万人学习

CSS教程

CSS教程

共754课时 | 17.4万人学习

最新文章

更多

Python大文件处理策略_内存优化说明【指导】

Python面向对象实战讲解_类与设计模式深入理解

用Python构建微服务架构实践_FastAPI与Django对比详解

Python类装饰器使用_元编程解析【教程】

Python对象比较与排序_魔术方法解析【教程】

Python与OpenAI接口集成实战_生成式AI应用场景解析

PythonPandas数据分析项目教程_时间序列透视表应用

Python文件操作优化_大文件与流处理解析【教程】

Python变量作用域规则_LEGB模型应用解析【教程】

Python字符串处理进阶_切片方法解析【指导】

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部