php - 请问如何更快速有效的爬网站?
ringa_lee
ringa_lee 2017-04-11 10:33:43
[PHP讨论组]

大家好,其实我是门外汉,我上学的时候,玩过大话西游,QQ幻想,后来洛奇,学了一点按键精灵(一种和vb差不多的编程语言),辅助我玩游戏来着。这是我的编程基础。

要是我爬别人的网站,就会先把需要爬的url保存在TXT,或者Excel文件里。

用按键精灵打开浏览器,模拟手动(快捷键或者鼠标点击)输入TXT或者Excel的网址。

然后模拟手动全选,然后用 处理字符串函数,mid,right,left,len,instr 这些提取需要的字符串。

然后保存到Excel,或者是 txt 。

这样做其实很费机器,CPU使用很高,而且网速占用也很高。因为要加载很多不需要的图片,如图片,flash,mpg文件等。
而且经常出错,可能是excel出错,也可能是脚本出错,很多时候是浏览器出错。

请问大家,你们是怎么做的呢?

我目前会php,MySQL,JavaScript,jQuery,ajax 等编程语言。对json,xml,html 的数据,也都了解了。

希望大家结合我会的,当然以方便为主,有更方便的也可以告诉一下。

另外对于浏览器的调试信息,也就是f12的面板,我就会看js的输出。

只要有思路,欢迎大家回答,我起点低,基本是个回答都对我有帮助,谢谢了!

ringa_lee
ringa_lee

ringa_lee

全部回复(5)
PHP中文网

你说的是爬取网站代码,还是让搜索引擎快速爬取你的网站,如果是前置一般都是用python写爬虫,这个我不是太了解,但是后者就是seo,这个我还是比较了解的 一般的方法,是登陆Google搜索引擎和百度,向搜索引擎提交自己的网站URL,这样做是不够。此外Google Sitemaps 有助于加速网页的查找,这也是抓取网页和编制索引重要的第一步,但有很多因素会影响抓取/编制索引过程。Google Sitemaps 可让您告诉Google关于您网页的信息(您认为哪些网页最重要、这些网页的更改频率), 让Google更有效的抓取我们网站的网页。所以我们还要在为我们的网站制作一个Google Sitemaps,这样一般在2-4天之内Google 就会收录你的网站,首次收录只是收录你首页和首页上链接的网页。在Google Sitemaps中设置网页的更新频率为daily,你只要每天跟新你的网站,Google就会不断来更新你的站,用不了多久Google就会深度漫游你的网站,收录更多的页面。

高洛峰

用node爬过

PHP中文网

写爬虫的童鞋可以试试神箭手云爬虫,自带JS渲染、代理ip、验证码识别等功能,还可以发布和导出爬取的数据,生成图表等,都在云端进行,不需要安装开发环境。

黄舟

你这个属于页面信息的抓取,推荐你先学习一下simple_html_dom库(php的一个库)和curl(php的一个扩展),然后可以用他们尝试着抓取一些小数据,存储进mysql里面转成Excel或者写入文件。

天蓬老师

可以试下Scrap,scrapy.org。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号