Python爬虫数据去重方案_hash与集合应用【指导】

冷炫風刃

发布时间：2025-12-26 22:10:56

919人浏览过

来源于php中文网

原创

用 hash 而不是原始字符串去重，因 URL 等字段存在空格、换行、编码差异等问题，直接比较易漏判；hash 可归一化处理，提升稳定性，但需注意碰撞风险及内存管理、标准化、去重时机和分布式适配。

python爬虫数据去重方案_hash与集合应用【指导】

为什么用 `hash` 而不是直接存原始字符串去重？

爬虫抓取的 URL、标题、正文等字段常含空格、换行、编码差异（如 %20 和空格），直接字符串比较容易漏判重复。用 hash 统一归一化后再比对，更稳定。
但注意：hash 不是万能的——不同内容可能产生相同哈希值（碰撞），不过在单机爬虫场景下，用 hashlib.md5() 或 hashlib.sha256() 几乎可忽略该风险。

`set` 存哈希值时内存爆了怎么办？

高频爬虫（如每秒百条）持续往 set 里加 bytes 哈希值，几小时后可能吃光几 GB 内存。这不是算法问题，是数据生命周期没管好。
实操建议：

按时间窗口滚动清理：比如只保留最近 24 小时的哈希值，用 deque + 时间戳配合 set 实现
改用布隆过滤器（bloomfilter 库）：内存占用低一个数量级，支持百万级去重，但有极小误判率（不漏判，可能把新数据当重复）
落地到轻量数据库：如 sqlite 的 UNIQUE 索引列存 md5(url)，重启不丢，还支持查重历史

URL 去重必须先标准化再哈希

同一个页面可能有无数种 URL 表达：https://a.com/?x=1&y=2、https://a.com/?y=2&x=1、https://A.COM/x/，直接哈希会当成不同项。
标准化步骤不能少：

from urllib.parse import urlparse, urlunparse, parse_qs, urlencode
def normalize_url(url):
parsed = urlparse(url.lower())  # 协议和域名转小写
query_dict = parse_qs(parsed.query)  # 自动去重参数顺序、合并同名参数
normalized_query = urlencode(query_dict, doseq=True)
return urlunparse((
parsed.scheme,
parsed.netloc,
parsed.path.rstrip('/'),  # 去除末尾斜杠
'', '', normalized_query
))

之后再对 normalize_url(url) 的结果做 hashlib.md5(...).hexdigest()。

海螺AI

MiniMax平台的AI对话问答工具，你的AI伙伴

下载

立即学习“Python免费学习笔记（深入）”；

去重逻辑放在哪一层最稳妥？

别在解析完就立刻去重，也别拖到入库前才做——中间环节（如管道、中间件、存储前钩子）都可能出错或跳过。
推荐位置：

Requests 发起前：检查待请求 URL 是否已爬过（适合广度优先）
Response 解析后、提取 item 前：对响应体做 hashlib.sha256(response.body).hexdigest()，防镜像站/缓存页重复
Item Pipeline 最末端：用 item['url_hash'] = hashlib.md5(item['url'].encode()).hexdigest()，再查库或集合

真正难的是多进程/分布式场景——这时单机 set 失效，得换 Redis 的 SET 或 BF.ADD，且哈希值必须带业务前缀避免冲突。

Python性能优化系统学习路线第28讲_核心原理与实战案例详解【教程】

Python多线程系统学习路线第16讲_核心原理与实战案例详解【教程】

Python函数系统学习路线第45讲_核心原理与实战案例详解【指导】

Python正则系统学习路线第49讲_核心原理与实战案例详解【教程】

Python迭代器系统学习路线第248讲_核心原理与实战案例详解【技巧】

相关标签:

python redis 编码爬虫内存占用 .net 为什么 red Python 分布式中间件字符串算法 sqlite redis 数据库 https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python复杂正则如何拆解_提升可维护性技巧【技巧】下一篇：Python字典系统学习路线第563讲_核心原理与实战案例详解【技巧】

作者最新文章

qq邮箱网页版登陆在线直达_qq邮箱网页版登录正版官方入口一键直达2026最新

2025-12-24 11:48

4399在线玩网页版入口官网_4399网页版正版官方入口一键直达小游戏2026

2025-12-24 11:49

qq邮箱登陆网页版官网_qq邮箱网页版登录正版官方入口正规网址最全渠道2026

2025-12-24 11:50

发票怎么查询真伪_全国发票查验平台真伪查询步骤

2025-12-24 12:11

亲戚称谓计算器免费教程_亲戚称谓计算器在线使用方法

2025-12-24 12:53

Google笔记神器再进化！NotebookLM一键将文字转成试算表表格

2025-12-24 13:09

手机修改ip属地方法详细教程与工具推荐

2025-12-24 13:10

mbti官网免费版怎么进_16个人格类型免费完整版测试入口地址

2025-12-24 13:12

肯德基电脑版下载-肯德基PC端下载 v6.29.0

2025-12-24 13:23

告别尴尬翻译！Google翻译导入Gemini突破语意理解障碍终于搞懂俚语和方言

2025-12-24 14:07

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

707

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

735

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

616

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

695

2023.08.11