0

0

如何优化 Python 爬虫的速度?

不言

不言

发布时间:2018-05-22 11:47:16

|

4769人浏览过

|

来源于php中文网

原创

目前在写一个 python 爬虫,单线程 urllib 感觉过于慢了,达不到数据量的要求(十万级页面)。求问有哪些可以提高爬取效率的方法?

回复内容:

考虑用多进程+分布在不同机房的集群。

理由如下:
如果单进程,则瓶颈多出在CPU上。

多进程的话可以高效利用CPU。但是其实多数情况是在网络,所以说更好的解决办法是用多个机房的多台机器同时跑多进程的爬虫,这样减少网络阻塞。

实现的话,用scrapy+rq-queue然后用redis来作队列就好。

用这个方法爬过douban的几千万个页面

请参考我在另一个问题里的回答:
Python 爬虫如何入门学习? 1.开启gzip
2.多线程
3.对于定向采集可以用正则取代xpath
4.用pycurl代替urlib
5.换个带宽高的环境 谢邀。
爬虫下载慢主要原因是阻塞等待发往网站的请求和网站返回
解决的方法是采用非阻塞的epoll模型。
将创建的socket连接句柄和回调函数注册给操作系统,这样在单进程和单线程的情况下可以并发大量对页面的请求。
如果觉得自己写比较麻烦,我用过现成的类库:tornado的异步客户端
tornadoweb.org/document
如果你打不开增加host或翻墙
host地址:
74.125.129.121  tornadoweb.org对Python来说,最好分割任务 + 多进程 你可以试试直接使用开源的爬虫库scrapy,原生支持多线程,还可以设定抓取速率,并发线程数等等参数;除此之外,scrapy对爬虫提取HTML内容也有良好的支持。
中文入门教程也已经问世,可以Google一下。 gevent,eventlet,pycurl

from multiprocessing.dummy import Pool

openshift上面跑gevent爬1024也就分分钟的事情……
话说我为什么只开了20个协程呢【严肃脸】
哦对了1024会短时间封IP,用同一个cookie爬就没事了 1.dns cache
2. 多线程
3. 异步io 用 Asynccore 之类手写。看看 Twisted 有没有非阻塞、异步的 HTTP client 框架。
用过 multiprocessing 包 + utllib 做 http client 速度相当不理想,线程应该会好但我的直觉是提升有限。
----
推荐 gevent + grequests

lucene索引优化 中文WORD版
lucene索引优化 中文WORD版

本文档主要讲述的是lucene索引优化;这篇文章主要介绍了如何提高Lucene的索引速度。介绍的大部分思路都是很容易尝试的,当然另外一部分可能会加大你程序的复杂度。所以请确认索引速度确实很慢,而且很慢的原因确实是因为Lucene自身而造成的;希望本文档会给有需要的朋友带来帮助;感兴趣的朋友可以过来看看

下载

相关专题

更多
Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

11

2026.01.12

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

106

2026.01.09

c++框架学习教程汇总
c++框架学习教程汇总

本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

64

2026.01.09

学python好用的网站推荐
学python好用的网站推荐

本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

139

2026.01.09

学python网站汇总
学python网站汇总

本专题整合了学python网站汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.09

python学习网站
python学习网站

本专题整合了python学习相关推荐汇总,阅读专题下面的文章了解更多详细内容。

19

2026.01.09

俄罗斯手机浏览器地址汇总
俄罗斯手机浏览器地址汇总

汇总俄罗斯Yandex手机浏览器官方网址入口,涵盖国际版与俄语版,适配移动端访问,一键直达搜索、地图、新闻等核心服务。

93

2026.01.09

漫蛙稳定版地址大全
漫蛙稳定版地址大全

漫蛙稳定版地址大全汇总最新可用入口,包含漫蛙manwa漫画防走失官网链接,确保用户随时畅读海量正版漫画资源,建议收藏备用,避免因域名变动无法访问。

480

2026.01.09

php学习网站大全
php学习网站大全

精选多个优质PHP入门学习网站,涵盖教程、实战与文档,适合零基础到进阶开发者,助你高效掌握PHP编程。

52

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 3万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号