
本文介绍一种python脚本方法,用于识别并删除存在“逐行前缀包含”关系的重复行序列(如“this” → “this line” → “this line has”),仅保留每条链中最长的那行。
在文本处理中,有时我们需要清理“渐进式重复”的行——即后一行完全以前行内容为开头(前缀关系),形成类似嵌套的字符串链。例如:
This This line This line has This line has five This line has five strings
目标不是去重(set去重只处理完全相同的行),而是识别这种前缀继承链,并仅保留每条链的最后一个(即最长)行。上述示例中,所有前4行都是第5行的真前缀,因此只输出第5行。
以下是一个健壮、简洁的实现方案:
infilename = "input.txt" # 替换为你的输入文件路径
with open(infilename) as fin:
# 读取所有行并去除换行符(避免因\n导致startswith判断失败)
lines = list(map(str.rstrip, fin))
i = 0
while i < len(lines):
# 向后扫描:只要下一行以当前行为前缀,就跳过当前行
while i + 1 < len(lines) and lines[i + 1].startswith(lines[i]):
i += 1
# 此时lines[i]是当前前缀链的末端(最长行),输出它
print(lines[i])
i += 1✅ 关键逻辑说明:
立即学习“Python免费学习笔记(深入)”;
- 使用 str.startswith() 判断前缀关系,天然支持空字符串和边界情况;
- 外层 while 遍历每一“链起点”,内层 while 快进至该链终点;
- 每次循环只输出链尾,不输出中间任何前缀行。
⚠️ 注意事项:
- 输入行必须严格按前缀顺序排列(如示例所示)。若顺序混乱(如“This line has”出现在“This”之前),该算法将失效;如需鲁棒性更强的处理(如任意顺序下找最长非前缀子集),需改用排序+集合筛法,但复杂度上升;
- rstrip() 是必需的——否则换行符会影响 startswith 判断;
- 若需写入文件而非打印,将 print(lines[i]) 替换为 outfile.write(lines[i] + '\n') 即可(注意手动补回换行符)。
该方法时间复杂度为 O(n×m),其中 n 为行数、m 为平均行长度,适用于常规日志或配置文本清洗场景,简洁高效,无需额外依赖。










