0

0

数据帧中高效筛选重复项并保留最新N条记录的教程

DDD

DDD

发布时间:2025-09-05 15:58:14

|

230人浏览过

|

来源于php中文网

原创

数据帧中高效筛选重复项并保留最新N条记录的教程

本教程旨在解决数据分析中常见的挑战:如何从Pandas DataFrame中高效地筛选出基于特定列的重复项,并仅保留每组重复项中的最新N条记录。我们将探讨一种简洁且性能优越的方法,即利用groupby().tail()组合操作,并提供详细的代码示例与性能考量,以帮助读者在处理大规模数据集时做出最佳选择。

引言:数据帧重复项处理的挑战

在数据清洗和预处理阶段,处理数据帧中的重复记录是一项常见任务。有时,我们不仅需要识别重复项,还需要根据特定业务逻辑进行筛选,例如,保留每组重复项中的最新或最旧的几条记录。当数据集规模庞大时,选择一个高效的处理方法至关重要,以避免不必要的计算资源消耗和漫长的等待时间。

考虑一个场景,您有一个包含用户活动记录的数据帧,其中可能存在基于用户姓名和性别等信息的多条记录。您的目标是针对每个唯一的姓名-性别组合,仅保留其最新的三条活动记录。

常见但可能效率较低的方法(基于窗口函数)

一种常见的思路是使用窗口函数(在PySpark等分布式计算框架中尤为常见,但在Pandas中也可以通过模拟实现)。其基本步骤包括:

  1. 分区 (PartitionBy):根据重复项的定义列(例如 first_name, last_name, sex)对数据进行分组。
  2. 排序 (OrderBy):在每个分区内,根据一个唯一标识符(例如 id 列,代表记录的顺序或时间戳)进行排序,通常是降序以获取最新记录。
  3. 行号分配 (row_number):为每个分区内的记录分配一个行号。
  4. 过滤 (Filter):筛选出 row_number 小于或等于N的记录。

以下是这种思路的示例代码(模仿Spark的Window函数概念):

# 假设df是一个Pandas DataFrame,且F是pandas的函数别名
# import pandas.api.extensions as F
# from pandas.core.window import RollingGroupby, ExpandingGroupby # 实际Pandas中没有直接的Window函数
# 这里的代码是用户尝试的Spark风格代码,在Pandas中实现会更复杂,且可能效率不高
# window_spec = Window.partitionBy('first_name', 'last_name', 'sex').orderBy(F.desc('id'))
# df_with_row_number = df.withColumn('row_number', F.row_number().over(window_spec))
# filtered_df = df_with_row_number.filter('row_number <= 3')
# result_df = filtered_df.drop('row_number')

尽管这种方法逻辑清晰,但在处理大规模Pandas DataFrame时,手动实现复杂的窗口函数逻辑(如自定义排序和行号分配)可能涉及多次数据遍历和中间DataFrame的创建,从而导致性能开销较大,尤其是在内存使用方面。

Pandas groupby().tail() 的高效解决方案

Pandas库提供了一个更为简洁和高效的方法来解决这个问题:groupby().tail()。这个组合操作允许我们首先根据指定的列对数据帧进行分组,然后从每个组的末尾(或头部)选择指定数量的行。结合预排序,这可以非常高效地实现我们的目标。

Article Forge
Article Forge

行业文案AI写作软件,可自动为特定主题或行业生成内容

下载

示例代码

让我们通过一个具体的例子来演示如何使用 groupby().tail(N) 来筛选并保留每组重复项的最后N条记录。

import pandas as pd

# 原始数据帧示例
data = {
    'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'first_name': ['John', 'John', 'John', 'Mark', 'John', 'Mark', 'John', 'Mark', 'Mark', 'John'],
    'last_name': ['Doe', 'Doe', 'Doe', 'Kay', 'Doe', 'Kay', 'Doe', 'Kay', 'Kay', 'Doe'],
    'sex': ['Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male'],
    'country': ['USA', 'Canada', 'Mexico', 'Italy', 'Spain', 'France', 'Peru', 'India', 'Laos', 'Benin']
}

df = pd.DataFrame(data)

print("原始数据帧:")
print(df)
print("-" * 30)

# 步骤1: 确保数据按 'id' 列(或其他代表顺序的列)排序
# 这一步至关重要,它定义了“最后N个”的含义。
# 如果id越大代表越新,则按id升序排列。
df_sorted = df.sort_values(by='id', ascending=True)

# 步骤2: 使用 groupby() 和 tail() 保留每组的最后3条记录
# 根据 'first_name', 'last_name', 'sex' 进行分组,并从每个组的末尾选择3条记录
result_df = df_sorted.groupby(['first_name', 'last_name', 'sex']).tail(3)

# 步骤3: 重置索引(可选)
# 如果需要一个干净的、从0开始的整数索引,可以执行此步骤。
result_df = result_df.reset_index(drop=True)

print("\n筛选后的数据帧 (保留每组最新3条):")
print(result_df)

代码详解

  1. 数据准备: 首先,我们创建了一个示例 pd.DataFrame,它模拟了具有重复 first_name, last_name, sex 组合的数据。
  2. 数据排序 (df.sort_values(by='id', ascending=True)): 这是实现“保留最新N条”的关键一步。tail(N) 方法总是从组的末尾选择行。因此,为了确保这些“末尾”的行确实是您想要的“最新”记录,您必须在执行 groupby().tail() 之前,根据一个能够表示记录顺序(例如时间戳、ID号)的列对整个数据帧进行排序。在这里,我们假设 id 值越大代表记录越新,因此按 id 升序排列
  3. 分组与截取 (df_sorted.groupby(['first_name', 'last_name', 'sex']).tail(3)):
    • groupby(['first_name', 'last_name', 'sex']):根据 first_name, last_name, sex 这三列的值将数据帧分成多个逻辑组。例如,所有 John Doe Male 的记录将形成一个组。
    • .tail(3):对于每个分组,此方法会选择该组中最后3行。由于我们之前已经按 id 进行了排序,这确保了选出的3行是该组中 id 值最大的(即最新的)3条记录。
  4. 重置索引 (result_df.reset_index(drop=True)): groupby().tail() 操作会保留原始索引。如果您希望结果数据帧拥有一个从0开始的连续新索引,可以使用 reset_index(drop=True)。drop=True 参数表示不将旧索引作为新列添加到数据帧中。

输出结果

执行上述代码后,您将得到以下结果:

原始数据帧:
   id first_name last_name   sex country
0   1       John       Doe  Male     USA
1   2       John       Doe  Male  Canada
2   3       John       Doe  Male  Mexico
3   4       Mark       Kay  Male   Italy
4   5       John       Doe  Male   Spain
5   6       Mark       Kay  Male  France
6   7       John       Doe  Male    Peru
7   8       Mark       Kay  Male   India
8   9       Mark       Kay  Male    Laos
9  10       John       Doe  Male   Benin
------------------------------

筛选后的数据帧 (保留每组最新3条):
   id first_name last_name   sex country
0   5       John       Doe  Male   Spain
1   6       Mark       Kay  Male  France
2   7       John       Doe  Male    Peru
3   8       Mark       Kay  Male   India
4   9       Mark       Kay  Male    Laos
5  10       John       Doe  Male   Benin

性能考量与最佳实践

  • 效率对比: groupby().tail() 方法在Pandas中通常比手动实现复杂的窗口函数(如使用 apply 结合自定义逻辑)更高效。Pandas的 groupby 操作是高度优化的,并且 tail 方法直接作用于分组对象,减少了中间数据结构的创建和内存消耗。
  • 排序的重要性: 务必记住,tail(N) 总是选择组的“末尾”N行。如果“最新”或“最旧”有特定定义,您必须在 groupby 之前对数据帧进行适当的排序。
    • 要保留最新N条,按时间/ID升序排序,然后使用 tail(N)。
    • 要保留最旧N条,按时间/ID降序排序,然后使用 tail(N),或者更直接地使用 head(N) (在升序排序后)。
  • 数据规模: 对于中等规模的数据集(GB级别),Pandas的 groupby().tail() 表现优异。对于超大规模数据集(TB级别或更大),您可能需要考虑使用分布式计算框架,如PySpark,其中窗口函数是其核心功能,并能更好地利用集群资源。
  • 处理 NaN 值: groupby 操作默认会忽略分组键中的 NaN 值。如果您的分组列中可能包含 NaN,并且您希望将它们视为一个独立的组或进行特定处理,请在 groupby 之前进行适当的缺失值处理(如填充或删除)。

总结

本教程详细介绍了如何利用Pandas的 groupby().tail() 方法高效地从数据帧中筛选出基于特定列的重复项,并仅保留每组的最新N条记录。通过结合 sort_values 进行预排序,这种方法不仅代码简洁,而且在性能上通常优于手动实现的窗口函数逻辑。理解并正确应用这些Pandas操作,将极大地提升您在数据清洗和预处理任务中的效率。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

320

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

229

2023.10.07

Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

179

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

273

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

251

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

121

2025.08.07

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

529

2023.12.01

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

150

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 41万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号