0

0

并发读取文件并行处理:Go 语言 worker pool 实战教程

霞舞

霞舞

发布时间:2025-12-27 21:35:02

|

413人浏览过

|

来源于php中文网

原创

并发读取文件并行处理:Go 语言 worker pool 实战教程

本文详解如何在 go 中安全实现“并发读取文件 + 并行处理行数据”,解决因通道关闭时机不当导致的死锁问题,通过分离读取、处理与聚合三阶段,并合理使用 goroutine 和 sync.waitgroup,构建健壮的无锁(mutex-free)流水线。

在 Go 中实现“并发读取文件并行处理”时,一个常见误区是将文件读取、任务分发和结果收集全部放在主 goroutine 中同步执行——这极易引发死锁。正如示例代码所示:主协程在 close(jobs) 后调用 wg.Wait(),但此时 worker 协程仍在阻塞等待 jobs 通道(虽已关闭,但需确保所有 worker 已退出),而主协程又未消费 results 通道,导致 results

核心原则:职责分离(Separation of Concerns)
应将流程拆分为三个独立并发阶段:

  • Producer(生产者):单独 goroutine 负责逐行读取文件 → 写入 jobs 通道 → 完成后关闭 jobs;
  • Workers(工作池):多个 goroutine 从 jobs 读取、执行正则匹配 → 将结果(如 1)写入 results;
  • Collector(收集器):单独 goroutine 监听 wg.Wait() 完成信号 → 关闭 results;主 goroutine 则安全地 range 消费 results。

以下是修正后的完整实现(关键改动已加注释):

func telephoneNumbersInFile(path string) int {
    file := strings.NewReader(path)
    telephone := regexp.MustCompile(`\(\d+\)\s\d+-\d+`)

    jobs := make(chan string, 100)   // 建议缓冲,避免 producer 因 consumer 慢而阻塞
    results := make(chan int, 100)

    wg := new(sync.WaitGroup)

    // 1️⃣ 启动 Worker 池(3 个)
    for w := 1; w <= 3; w++ {
        wg.Add(1)
        go matchTelephoneNumbers(jobs, results, wg, telephone)
    }

    // 2️⃣ 生产者:在新 goroutine 中读取文件并关闭 jobs
    go func() {
        scanner := bufio.NewScanner(file)
        for scanner.Scan() {
            jobs <- scanner.Text()
        }
        close(jobs) // ✅ 关键:必须在 goroutine 中关闭,避免阻塞主流程
    }()

    // 3️⃣ 收集器:等待所有 worker 结束后关闭 results
    go func() {
        wg.Wait()
        close(results) // ✅ 确保 results 可被 range 安全遍历
    }()

    // 4️⃣ 主 goroutine:安全聚合结果
    counts := 0
    for v := range results { // ✅ range 自动在 channel 关闭后退出
        counts += v
    }
    return counts
}

func matchTelephoneNumbers(jobs <-chan string, results chan<- int, wg *sync.WaitGroup, telephone *regexp.Regexp) {
    defer wg.Done()
    for line := range jobs { // ✅ range 自动在 jobs 关闭后退出
        if telephone.MatchString(line) {
            results <- 1
        }
    }
}

关键注意事项:

Get笔记
Get笔记

Get笔记,一款AI驱动的知识管理产品

下载
  • ? 通道缓冲很重要:jobs 和 results 均设为缓冲通道(如 make(chan T, 100)),可显著提升吞吐量,避免生产者/消费者因瞬时速度差而阻塞;
  • ? 永远不要在主 goroutine 中 close() 后立即 wg.Wait():这会形成竞态,必须由独立 goroutine 触发 close(results);
  • ? 无需 mutex:本方案完全基于通道通信(CSP 模型),天然线程安全,符合 Go “不要通过共享内存来通信”的哲学;
  • ? 扩展性提示:若需批量处理(如每次传入 []string),只需将 jobs 类型改为 chan []string,并在 Producer 中按需切片发送,Worker 内部遍历切片即可——逻辑不变。

此模式是 Go 中构建高并发 I/O 处理流水线的标准范式,适用于日志分析、ETL、配置解析等场景。掌握它,你便拥有了驾驭 Go 并发本质的一把关键钥匙。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

311

2023.08.02

线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

465

2023.08.10

go语言 数组和切片
go语言 数组和切片

本专题整合了go语言数组和切片的区别与含义,阅读专题下面的文章了解更多详细内容。

45

2025.09.03

ip地址修改教程大全
ip地址修改教程大全

本专题整合了ip地址修改教程大全,阅读下面的文章自行寻找合适的解决教程。

35

2025.12.26

压缩文件加密教程汇总
压缩文件加密教程汇总

本专题整合了压缩文件加密教程,阅读专题下面的文章了解更多详细教程。

18

2025.12.26

wifi无ip分配
wifi无ip分配

本专题整合了wifi无ip分配相关教程,阅读专题下面的文章了解更多详细教程。

46

2025.12.26

漫蛙漫画入口网址
漫蛙漫画入口网址

本专题整合了漫蛙入口网址大全,阅读下面的文章领取更多入口。

94

2025.12.26

b站看视频入口合集
b站看视频入口合集

本专题整合了b站哔哩哔哩相关入口合集,阅读下面的文章查看更多入口。

289

2025.12.26

俄罗斯搜索引擎yandex入口汇总
俄罗斯搜索引擎yandex入口汇总

本专题整合了俄罗斯搜索引擎yandex相关入口合集,阅读下面的文章查看更多入口。

372

2025.12.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 3万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号