目标站点:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容:正文图片和文字说明;
本人实现方法:
因为分页地址是连续的,我是在目标地址上做循环
http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm
用get_headers访问后 获取返回是否为200,是的话进行内容抓取
1、curl获取当前地址html后,截取所需内容
2、_2这个就是变量,自增后继续判断下一页是否可以访问,可以访问就继续采集
以上是可以实现采集抓取的,但是好像速度很慢,而且每次都是curl去抓取对服务器貌似也有压力
在原版的基础上做了一下修正评论没有提交正文的问题特价商品的调用连接问题去掉了一个后门补了SQL注入补了一个过滤漏洞浮动价不能删除的问题不能够搜索问题收藏时放入购物车时出错点放入购物车弹出2个窗口修正主题添加问题商家注册页导航连接问题销售排行不能显示更多问题热点商品不能显示更多问题增加了服务器探测 增加了空间使用查看 增加了在线文件编辑增加了后台管理里两处全选功能更新说明:后台的部分功能已经改过前台
问题:如何改进,大家是如何用php做的抓取,求思路和方向
回复内容:
目标站点:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容:正文图片和文字说明;
本人实现方法:
因为分页地址是连续的,我是在目标地址上做循环
http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm
用get_headers访问后 获取返回是否为200,是的话进行内容抓取
1、curl获取当前地址html后,截取所需内容
2、_2这个就是变量,自增后继续判断下一页是否可以访问,可以访问就继续采集
以上是可以实现采集抓取的,但是好像速度很慢,而且每次都是curl去抓取对服务器貌似也有压力
问题:如何改进,大家是如何用php做的抓取,求思路和方向
下面不是有分页么,直接获取里面的链接存到数组抓吧
- 直接抓取,抓取返回结果的时候就先判断状态码是否为200
- Curl并发









