请问有没有开源的工具来采集网页的数据
比如要包含连续规则抓取,例如先抓取分页信息,从中获取详情页,从详情页抓取真正需要的dom字段
包含最后自定义存到数据库,
系统采用VS2008+Sql2005开发适用于中小型的酒店管理,全部采用三层架构,ASP.NET开发,运用CSS加DIV的界面布局,完整的源代码和数据库设计,是你不可多得的参考资料。 有客房管理、房间类型管理、入住和退房管理等简单功能HotelManager为网站目录DB_51aspx下为Sql2005数据库,附加即可(Sql2000格式数据库转换后稍后发布)
包含可以伪造ip等
包含自动队列机制,自动延迟
立即学习“PHP免费学习笔记(深入)”;
等等
谢谢
回复内容:
请问有没有开源的工具来采集网页的数据
比如要包含连续规则抓取,例如先抓取分页信息,从中获取详情页,从详情页抓取真正需要的dom字段
包含最后自定义存到数据库,
包含可以伪造ip等
包含自动队列机制,自动延迟
立即学习“PHP免费学习笔记(深入)”;
等等
谢谢
有,你可以试试【神箭手云爬虫开发平台。】
神箭手云爬虫是一个帮助JS开发者快速开发爬虫系统的SaaS服务平台。神箭手提供上手简单,灵活开放的云爬虫开发框架,让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上,爬取速度更快,效率更高。
phpcrawler,php爬虫,php采集器,多进程,多线程
phpQuery










