Python并发核心是任务调度与资源隔离的协同,需厘清事件循环、GIL、协程状态机边界;I/O密集用多线程或asyncio(配aiohttp),CPU密集用multiprocessing,混合型任务应分层处理。

Python并发系统的核心在于理解“任务调度”与“资源隔离”的关系,而不是单纯堆砌async/await或threading代码。第55讲聚焦两个关键:一是理清事件循环、GIL、协程状态机三者的协作边界;二是用真实I/O密集型场景(如批量API调用+本地文件写入)验证不同并发模型的实际吞吐差异。
搞懂事件循环不是背概念,而是看它何时被阻塞
asyncio.run()启动的默认事件循环,本质是一个单线程上的任务轮询器。它不执行CPU密集型操作,只负责在IO就绪、定时器触发、任务await挂起/恢复时切换协程。常见误区是以为await requests.get()会把网络请求交给事件循环处理——其实requests是同步阻塞库,它会让整个事件循环卡住。必须换用aiohttp或httpx.AsyncClient。
- 用asyncio.create_task()显式提交协程,避免直接await导致串行
- 用asyncio.wait_for()包住可能超时的协程,防止某个请求拖垮整体
- 调试时加asyncio.current_task().get_name()打印当前执行上下文,定位卡点
GIL对多线程的影响,只在CPU密集时才真正显现
threading.Thread跑requests.get()或json.loads(),GIL确实存在,但影响微乎其微——因为这些操作大部分时间在等系统调用返回,GIL会被主动释放。真正被GIL锁死的是纯Python循环(如for i in range(10**7): x += i)。此时multiprocessing.Process才能绕过限制。
- I/O密集型任务(HTTP、数据库、文件读写):多线程足够,开销小、共享内存方便
- CPU密集型任务(图像处理、数值计算):优先用multiprocessing,或改用numba/cython释放GIL
- 混合型任务(边请求边解析JSON):用线程池处理I/O,再把解析逻辑丢给进程池
实战案例:高并发爬虫+去重+结构化存储
目标:并发抓取100个网页,提取标题和正文长度,去重后存入SQLite。要求总耗时
立即学习“Python免费学习笔记(深入)”;
- 用aiohttp.ClientSession控制连接复用,设置limit=20防目标站拒绝
- 响应体用await resp.text()而非resp.json(),避免自动解析失败中断
- 去重用asyncio.Lock保护全局set,或更优:用aiosqlite异步写入+唯一索引约束
- 最后用asyncio.gather(*tasks, return_exceptions=True)收集全部结果,统一处理异常
不复杂但容易忽略:并发数不是越多越好,要匹配目标服务的承受力和本机文件描述符上限。先从10起步,用time.time()打点观察TPS曲线,再逐步调优。










