Python集合基于哈希表实现,平均时间复杂度O(1);去重推荐dict.fromkeys保序或set()不保序;运算符要求双set,方法支持任意可迭代对象;update类方法支持原地更新;frozenset用于嵌套或作字典键。

Python集合(set)是处理去重、交并差等操作最高效的数据结构之一,底层基于哈希表实现,平均时间复杂度为 O(1)。掌握其核心用法和常见陷阱,能显著提升数据清洗和逻辑判断效率。
快速去重:list → set → list 的正确写法
直接用 set(my_list) 能去重,但会丢失原始顺序。若需保持首次出现顺序,推荐用字典去重(Python 3.7+ 保证插入顺序):
-
✅ 推荐(保序):
list(dict.fromkeys(my_list)) -
✅ 简单场景(不关心顺序):
list(set(my_list)) - ❌ 避免嵌套循环手动去重: 效率低,代码冗长,易出错
集合运算符 vs 方法:何时用 &,何时用 .intersection()?
运算符(&、|、-、^)要求两侧都是 set;而方法(.intersection()、.union() 等)可接受任意可迭代对象(如 list、tuple、generator),更灵活:
-
✅ 用运算符: 两个变量确定是 set,追求简洁,如
set_a & set_b -
✅ 用方法: 一边是 list 或其他类型,如
set_a.intersection([1, 2, 3]),无需提前转 set -
⚠️ 注意:
set_a & [1, 2, 3]会报TypeError
原地更新:减少内存开销的 update / intersection_update
当不需要保留原集合、只关心结果时,用带 _update 后缀的方法,避免创建新对象:
立即学习“Python免费学习笔记(深入)”;
-
set_a.update(set_b)相当于set_a |= set_b(并集原地更新) -
set_a.intersection_update(set_b)相当于set_a &= set_b(交集原地更新) - 适合处理大集合或内存敏感场景,比如日志去重合并、实时数据流过滤
不可变集合 frozenset:嵌套与字典键的唯一解
普通 set 不可哈希,不能作为字典键或放入另一个 set;frozenset 是不可变版本,解决该限制:
fruits = frozenset(['apple', 'banana'])-
menu = {fruits: 'fruit salad'}✅ 可作字典键 -
all_menus = {frozenset(['a']), frozenset(['b', 'c'])}✅ 可存入 set - 注意:frozenset 不支持 add/remove,创建后即固定










