0

0

如何基于多列键去重,从CSV文件中筛选唯一行并追加到目标文件

花韻仙語

花韻仙語

发布时间:2026-01-08 15:17:37

|

682人浏览过

|

来源于php中文网

原创

如何基于多列键去重,从CSV文件中筛选唯一行并追加到目标文件

本文介绍一种使用pandas高效实现“按指定列(第3、4、5列)判断唯一性,从排序后的源csv中选取首个不重复行,写入新文件并同步更新主表”的完整方案,解决原始脚本中误判重复、逻辑错位等核心问题。

在处理类似 tops.csv(主数据表)与 yesterday.csv(待筛选增量数据)的场景时,常见需求是:对 yesterday.csv 按关键列(如第11列降序 + 第2列升序)排序后,逐行检查其第3、4、5列(即索引为2、3、4的列)是否已在 tops.csv 中存在;一旦找到首个“三列组合”完全未出现过的行,就将其写入 for_email.csv 并追加至 tops.csv

原始脚本存在多个关键缺陷:

  • ❌ df_sorted.drop_duplicates(subset=df_sorted.columns[2:]) 错误地基于全部后续列去重,而非仅限目标三列(2,3,4);
  • ❌ tops_df[tops_df.columns[2:]].eq(row.iloc[2:]).all(axis=1).any() 的逐行比较逻辑未对齐索引,且未考虑列类型/空值鲁棒性;
  • ❌ 循环中 break 位置过早(写入1行即终止),但未确保该行真实“未存在于 tops”——因前面的 drop_duplicates 已破坏原始排序优先级;
  • ❌ 手动字符串拼接写入 CSV 绕过了 Pandas 的类型保持与转义机制,易引发格式错误。

✅ 推荐采用 pd.merge(..., how='outer', indicator=True) + 布尔索引 的声明式方案,兼具可读性、健壮性与性能:

import pandas as pd

# 1. 加载数据(无header,列索引从0开始)
tops = pd.read_csv('tops.csv', header=None)
yesterday = pd.read_csv('yesterday.csv', header=None)

# 2. 对 yesterday 按要求排序:第11列(索引10)降序,第2列(索引1)升序
yesterday_sorted = yesterday.sort_values(by=[10, 1], ascending=[False, True])

# 3. 外连接 + 指示器列,标记每行来源
merged = pd.merge(
    tops,
    yesterday_sorted,
    how='outer',
    indicator=True,
    validate='one_to_one'  # 可选:校验无重复匹配
)

# 4. 标识需保留的 "yesterday" 行:来源为 'right_only' 且 (2,3,4) 列组合在 tops 中未出现
# 注意:duplicated 默认保留首次出现,因此先标记所有重复项(含 tops 自身重复),再过滤
is_dup_in_key = merged.duplicated(subset=[2, 3, 4], keep=False)  # 所有在key上重复的行
is_from_yesterday = merged['_merge'] == 'right_only'
# 保留:来自 yesterday 且其 key 在整个 merged 中首次出现(即未在 tops 中存在)
mask = is_from_yesterday & ~merged.duplicated(subset=[2, 3, 4], keep='first')

# 5. 提取目标行,并写入 for_email.csv
for_email_row = merged[mask].drop('_merge', axis=1)
for_email_row.to_csv('for_email.csv', index=False, header=False)

# 6. 将新行追加到 tops.csv(注意:若 tops 无header,append 模式需确保格式一致)
with open('tops.csv', 'a', newline='') as f:
    for_email_row.to_csv(f, index=False, header=False)

print(f"已成功写入 {len(for_email_row)} 行至 for_email.csv 并追加至 tops.csv")

? 关键设计说明

Mangaize
Mangaize

一键将照片转换为动漫风格的AI工具

下载
  • 排序前置:yesterday.sort_values(...) 确保最高优先级行排在最前,duplicated(..., keep='first') 才能准确捕获“首个未出现的行”;
  • 精准去重键:显式指定 subset=[2,3,4](对应第3、4、5列),避免列范围误用;
  • 指示器驱动逻辑:_merge == 'right_only' 精确标识纯新增行,规避 tops 内部重复干扰;
  • 原子性保障:to_csv(..., header=False) 确保追加时不写入列名,与原始 tops.csv 格式严格一致;
  • 健壮性增强:keep='first' 在合并后数据中,将 tops 的原始行视为“首次出现”,yesterday 的同key行自然被标记为重复,从而被 ~duplicated(..., keep='first') 过滤。

? 扩展建议

  • 若需支持多行写入(如TOP-3),将 mask 替换为 mask.nlargest(3, columns=[10,1]) 或结合 cumsum() 限制数量;
  • 生产环境建议添加异常处理(如文件不存在、编码错误)及日志记录;
  • 对超大文件,可改用 dask 或流式处理避免内存压力。

该方案彻底规避了原始脚本的隐式索引错位与逻辑耦合问题,以清晰的数据流和向量化操作达成高可靠性与可维护性。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

java中break的作用
java中break的作用

本专题整合了java中break的用法教程,阅读专题下面的文章了解更多详细内容。

116

2025.10.15

java break和continue
java break和continue

本专题整合了java break和continue的区别相关内容,阅读专题下面的文章了解更多详细内容。

255

2025.10.24

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

253

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

206

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1463

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

612

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

547

2024.03.22

Golang 分布式缓存与高可用架构
Golang 分布式缓存与高可用架构

本专题系统讲解 Golang 在分布式缓存与高可用系统中的应用,涵盖缓存设计原理、Redis/Etcd集成、数据一致性与过期策略、分布式锁、缓存穿透/雪崩/击穿解决方案,以及高可用架构设计。通过实战案例,帮助开发者掌握 如何使用 Go 构建稳定、高性能的分布式缓存系统,提升大型系统的响应速度与可靠性。

53

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Rust 教程
Rust 教程

共28课时 | 4.2万人学习

Git 教程
Git 教程

共21课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号