迭代器是实现__iter__()和__next__()方法的对象,支持按需遍历;生成器是用yield定义的函数,自动实现迭代器协议,二者均支持延迟加载与内存高效遍历。

Python中的迭代器和生成器是实现高效遍历与延迟加载的核心机制。它们不一次性把所有数据装入内存,而是按需产出,特别适合处理大文件、数据库游标、无限序列或计算开销大的场景。
什么是迭代器:满足协议的对象
迭代器是一个实现了__iter__()和__next__()两个方法的对象。调用__iter__()返回自身,__next__()每次返回一个元素,耗尽后抛出StopIteration异常。
- 内置类型如list、str、dict本身不是迭代器,但可通过iter()函数获得迭代器
- 手动实现一个计数迭代器:
class Countdown:
def __init__(self, start):
self.current = start
def __iter__(self):
return self
def __next__(self):
if self.current
raise StopIteration
self.current -= 1
return self.current + 1
for n in Countdown(3): print(n) # 输出:3 2 1
生成器:更简洁的迭代器写法
生成器函数使用yield关键字,每次执行到yield就暂停并返回值,下次调用继续从暂停处运行。Python自动为其生成__iter__和__next__方法。
- 生成器表达式语法类似列表推导式,但用圆括号:(x**2 for x in range(10)),返回生成器对象,不立即计算
- 适合替代简单循环逻辑,避免手动管理状态
- 示例:逐行读取大文件,不加载全文到内存
def read_large_file(filepath):
with open(filepath, 'r') as f:
for line in f:
yield line.strip()
# 使用时按需取行
for line in read_large_file('huge.log'):
if 'ERROR' in line:
print(line)
yield from:简化嵌套生成器委托
当一个生成器需要复用另一个生成器的产出时,用yield from可避免手动循环yield,还能正确传递send()、throw()和close()信号。
立即学习“Python免费学习笔记(深入)”;
- 等价于:for item in subgen: yield item,但更高效、语义更清晰
- 常用于递归结构(如树遍历)或组合多个数据源
def chain_generators(*gens):
for gen in gens:
yield from gen
gen1 = (x for x in [1, 2])
gen2 = (x for x in [3, 4])
for x in chain_generators(gen1, gen2): print(x) # 输出:1 2 3 4
实战技巧:何时用生成器?怎么优化?
生成器不是万能的——它只能遍历一次、无法索引、不能回退。但正是这些限制换来了内存与性能优势。
- ✅ 适合:流式处理(日志/网络响应)、大数据集分批、动态计算序列(斐波那契、素数)、协程通信基础
- ❌ 避免:需多次遍历、随机访问、调试时频繁检查中间值(可用list(gen)临时转为列表,但注意内存)
- ? 提示:配合itertools模块(如islice、takewhile)可安全截取或条件过滤生成器










