php - 该选择哪个语言开发爬虫?
伊谢尔伦
伊谢尔伦 2017-04-10 16:10:39
[PHP讨论组]

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发!
网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。
PHP的也有个snoopy类库,C++的就不清楚了。
不知道,C++中有没有这方面的爬虫类库推荐呢?

伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全部回复(18)
ringa_lee

参考

C/C++ 网络爬虫

高洛峰

推荐Python。有requests等类库。
也有scrapy这样的框架。

PHP中文网

python 唯一的好处就是 request 库真的很方便

我以前都是用 php 做爬虫的,现在都改用 python 了


其实用 JavaScript 也是很好的,node 或者 phantomJS

因为很多时候你不仅要把 HTML 爬下来,还要解析;而 python 的 DOM 库简直糟糕透顶;比如 BeautifulSoup,很多操作就非常不方便;相比之下,js 进行 DOM 操作就方便多了

伊谢尔伦

弱弱的推荐一下 php 的 goutte

ringa_lee

毫不犹豫golang

大家讲道理

用python 没有原因

PHPz

snoopy类库很久以前用过,不过感觉不是很好用。功能一般。
其实爬虫最网页请求那一块比较容易实现,也没有什么好说的。其实最主要是对请求回来的数据处理,分析。
所以我觉得用node.js会是很好的选择。

看看那位童鞋推荐下node.js有什么好的库。

PHPz

node.js的jquery也不错。。。

迷茫

建议用node, phamtomjs, node的jQuery, 还有jsdom, node下面很多解析html的包,非常方便

高洛峰

我觉得不是说选择哪个语言,主要是看开发者对哪个语言最熟悉。

热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号