0

0

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战

P粉602998670

P粉602998670

发布时间:2025-07-01 09:57:02

|

937人浏览过

|

来源于php中文网

原创

实现一个简单的爬虫程序在golang中使用colly框架非常高效。1. 安装colly:执行go get github.com/gocolly/colly/v2完成安装;2. 创建采集器:使用colly.newcollector()创建采集器并用onhtml监听html元素提取内容,如抓取网页标题;3. 抓取多个链接:通过onhtml捕获a标签并递归访问子链接,可设置maxdepth限制爬取深度;4. 设置请求头与延迟:用onrequest设置user-agent模拟浏览器行为,并通过limit控制并发和请求间隔降低被封风险;5. 保存数据:将结果保存为json格式或存入数据库,满足后续分析需求。这些步骤展示了colly的基本用法,适合快速开发小型爬虫项目。

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战

实现一个简单的爬虫程序其实并不难,尤其是在 Golang 中使用 colly 这个框架,可以非常高效地完成网页抓取任务。Colly 是 Go 语言中最流行的爬虫库之一,简单易用、性能高,适合新手入门和快速开发。

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战

安装 Colly

在开始写代码之前,首先需要安装 colly:

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战
go get github.com/gocolly/colly/v2

这一步完成后,就可以在项目中导入并使用了。记得保持你的 Go 环境配置正确,否则可能会遇到依赖问题。

立即学习go语言免费学习笔记(深入)”;


创建第一个爬虫:抓取网页标题

我们先从最基础的示例入手:抓取某个网页的 标签内容。

怎样用Golang实现一个简单的爬虫程序 使用colly框架实战
package main

import (
    "fmt"
    "github.com/gocolly/colly/v2"
)

func main() {
    // 创建一个新的 collector
    c := colly.NewCollector()

    // 在访问每个页面时触发
    c.OnHTML("title", func(e *colly.HTMLElement) {
        fmt.Println("页面标题是:", e.Text)
    })

    // 开始访问目标网址
    c.Visit("https://example.com")
}

这段代码的作用就是访问 example.com 并提取其中的标题。关键点在于:

  • 使用 colly.NewCollector() 创建采集器。
  • 使用 OnHTML 监听 HTML 元素,传入选择器(如 CSS 选择器)。
  • 使用 Visit 发起请求。

你可以把 https://example.com 替换成任何你想爬取的网站试试看。


抓取多个链接:遍历页面中的所有超链接

很多时候我们不仅想抓取一个页面的内容,还想顺着链接继续爬下去。这时候可以用 OnHTML 来捕获 标签,并递归访问它们。

c.OnHTML("a[href]", func(e *colly.HTMLElement) {
    link := e.Attr("href")
    // 访问子链接
    c.Visit(link)
})

但要注意,这样会无限递归下去。通常我们会限制采集深度:

Contentfries
Contentfries

将长视频改造成更加引人注目的短视频

下载
c := colly.NewCollector(
    colly.MaxDepth(2), // 只爬两层页面
)

这样就能避免爬到太多无关页面,控制资源消耗。


设置请求头与延迟:模拟浏览器行为

有些网站会对爬虫做限制,我们可以稍微“伪装”一下请求头,让服务器认为你是浏览器访问:

c.OnRequest(func(r *colly.Request) {
    r.Headers.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36")
})

另外,为了避免对服务器造成压力,也可以设置访问间隔:

c.Limit(&colly.LimitRule{
    DomainGlob:  "*",
    Parallelism: 2,
    Delay:       1 * time.Second,
})

这样每秒最多请求一次,同时并发不超过两个请求,可以有效降低被封 IP 的风险。


小技巧:保存数据到文件或数据库

爬下来的数据当然要保存起来。常见的做法是保存为 JSON 或 CSV 文件。

例如保存成 JSON:

type Result struct {
    Title string `json:"title"`
    URL   string `json:"url"`
}

var results []Result

c.OnHTML("title", func(e *colly.HTMLElement) {
    results = append(results, Result{
        Title: e.Text,
        URL:   e.Request.URL.String(),
    })
})

// 最后用 json.MarshalIndent 写入文件即可

如果你打算做更复杂的分析,还可以考虑将数据存入 SQLite、MySQL 或 MongoDB。


基本上就这些了。Colly 功能很强大,上面只是展示了最基本的一些用法。实际使用中还可以结合代理、分布式架构等来提升效率。不过对于大多数小规模爬虫需求来说,这些已经够用了。

相关专题

更多
golang如何定义变量
golang如何定义变量

golang定义变量的方法:1、声明变量并赋予初始值“var age int =值”;2、声明变量但不赋初始值“var age int”;3、使用短变量声明“age :=值”等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

174

2024.02.23

golang有哪些数据转换方法
golang有哪些数据转换方法

golang数据转换方法:1、类型转换操作符;2、类型断言;3、字符串和数字之间的转换;4、JSON序列化和反序列化;5、使用标准库进行数据转换;6、使用第三方库进行数据转换;7、自定义数据转换函数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

224

2024.02.23

golang常用库有哪些
golang常用库有哪些

golang常用库有:1、标准库;2、字符串处理库;3、网络库;4、加密库;5、压缩库;6、xml和json解析库;7、日期和时间库;8、数据库操作库;9、文件操作库;10、图像处理库。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

335

2024.02.23

golang和python的区别是什么
golang和python的区别是什么

golang和python的区别是:1、golang是一种编译型语言,而python是一种解释型语言;2、golang天生支持并发编程,而python对并发与并行的支持相对较弱等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

206

2024.03.05

golang是免费的吗
golang是免费的吗

golang是免费的。golang是google开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的开源编程语言,采用bsd开源协议。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

388

2024.05.21

golang结构体相关大全
golang结构体相关大全

本专题整合了golang结构体相关大全,想了解更多内容,请阅读专题下面的文章。

193

2025.06.09

golang相关判断方法
golang相关判断方法

本专题整合了golang相关判断方法,想了解更详细的相关内容,请阅读下面的文章。

187

2025.06.10

golang数组使用方法
golang数组使用方法

本专题整合了golang数组用法,想了解更多的相关内容,请阅读专题下面的文章。

191

2025.06.17

桌面文件位置介绍
桌面文件位置介绍

本专题整合了桌面文件相关教程,阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
golang socket 编程
golang socket 编程

共2课时 | 0.1万人学习

nginx浅谈
nginx浅谈

共15课时 | 0.8万人学习

golang和swoole核心底层分析
golang和swoole核心底层分析

共3课时 | 0.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号