0

0

最近准备用python做一个网络爬虫的毕业设计求建议?

不言

不言

发布时间:2018-05-19 16:43:52

|

15655人浏览过

|

来源于php中文网

原创

python小白,准备5个月时间做出效果。求建议比如做出来针对什么。具体做为 什么应用。流程之类的。实在是很小。白,求指点

Rationale
Rationale

Rationale 是一款可帮助企业主、经理和个人做出艰难的决定的AI工具

下载

回复内容:

做爬虫,特别是python写说容易挺容易,说难也挺难的,
举个栗子 简单的:将paste.ubuntu.com上面的所有代码爬下来
写个for循环,调用urllib2的几个函数就成了,基本10行到20行以内的代码
难度0
情景:
1.网站服务器很卡,有些页面打不开,urlopen直接就无限卡死在了某些页面上(2.6以后urlopen有了timeout)
2.爬下来的网站出现乱码,你得分析网页的编码
3.网页用了gzip压缩,你是要在header里面约定好默认不压缩还是页面下载完毕后自己解压
4.你的爬虫太快了,被服务器要求停下来喝口茶
5.服务器不喜欢被爬虫爬,会对对header头部浏览器信息进行分析,如何伪造
6.爬虫整体的设计,用bfs爬还是dfs爬
7.如何用有效的数据结构储存url使得爬过的页面不被重复爬到
8.比如1024之类的网站(逃,你得登录后才能爬到它的内容,如何获取cookies
以上问题都是写爬虫很常见的,由于python强大的库,略微加了一些代码而已
难度1
情景:
1.还是cookies问题,网站肯定会有一个地方是log out,爬虫爬的过程中怎样避免爬到各种Log out导致session失效
2.如果有验证码才能爬到的地方,如何绕开或者识别验证码
3.嫌速度太慢,开50个线程一起爬网站数据
难度2
情景:
1.对于复杂的页面,如何有效的提取它的链接,需要对正则表达式非常熟练
2.有些标签是用Js动态生成的,js本身可以是加密的,甚至奇葩一点是jsfuck,如何爬到这些
难度3
总之爬虫最重要的还是模拟浏览器的行为,具体程序有多复杂,由你想实现的功能和被爬的网站本身所决定
爬虫写得不多,暂时能想到的就这么多,欢迎补充 我的毕设也是爬虫,从毕设角度讲下。首先只写个爬虫是很简单的,所以要加一点噱头。比如多线程,比如智能。其次既然要做一个爬虫,要事先和导师交流下。万一导师的意思是叫你写个搜索引擎,而你写了个爬虫,那就不好了。最后,写几个页面来展示爬虫的结果,既可以增加代码量,也可以充实论文。 看scrapy文档,非常好用。 加点难度,实现个分布式的爬虫,同时要写好客户端和服务端的管理,再配合前端页面管理任务和服务器。。
网页的数据要是抓着没意思,可以抓抓APP的数据⊙▽⊙ Request+Bs4看我的签名,里面有很多案例,供你快速搞定采集,不信来辩! 我也正在写     先抓数据   再进行数据分析  最后在网页上呈现   大致这个思路     看看pyspider:binux/pyspider · GitHub
也许能找到点灵感。。 简单的爬虫不到20行就可以写出来。httplib加上正则。
毕设最重要的一个是点子,一个是技术。这两个部分可以结合,也可以互补。
如果仅仅是一个爬虫,可以从多线程,分布式这些方面考虑。谈谈性能,这方面可以说的很深,毕设也会很有营养。最后写一个漂亮的UI,妥妥的A+有木有。
如果有好的点子,实现一项或者多项特别的功能。技术上欠缺一些也OK。 毕设想要做得好,可以从两个方面考虑
1. 项目技术好,有深度
2. 项目有实际价值,就是能够应用到生活中来
所以要么你的爬虫在技术上很niubility
要么你的爬虫抓取到的数据,it's useful
当然数据本身是不会说话的,你得把数据整理、分析,最后得出结论,那你的毕设也是棒棒的了,这样在技术上差一些也没什么关系 比如爬取某liu的视频(图片太简单),加点噱头,多线程同时抓取不同页面的,哦,写好后记得把程序开源分享下!

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

714

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

625

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

738

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

574

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

697

2023.08.11

JavaScript 性能优化与前端调优
JavaScript 性能优化与前端调优

本专题系统讲解 JavaScript 性能优化的核心技术,涵盖页面加载优化、异步编程、内存管理、事件代理、代码分割、懒加载、浏览器缓存机制等。通过多个实际项目示例,帮助开发者掌握 如何通过前端调优提升网站性能,减少加载时间,提高用户体验与页面响应速度。

3

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号