0

0

Pandas DataFrame 高效比较:仅保留差异行与列的教程

DDD

DDD

发布时间:2025-09-21 20:30:01

|

934人浏览过

|

来源于php中文网

原创

Pandas DataFrame 高效比较:仅保留差异行与列的教程

本教程详细介绍了如何使用Pandas的compare方法高效地比较两个DataFrame,并仅提取出存在差异的行和列,同时保留指定的维度列。通过将维度列设为索引,compare方法能够识别数值变更,并通过后续处理生成一个简洁明了的差异报告,极大地简化了数据对比和变更追踪的过程。

在数据分析和处理中,我们经常需要对比两个结构相似的pandas dataframe,以找出它们之间的差异。例如,在版本控制、数据更新审计或a/b测试结果分析等场景下,快速定位并只关注那些发生变化的行和列是至关重要的。本教程将指导您如何利用pandas库的强大功能,实现这一目标。

场景描述与挑战

假设我们有两个DataFrame,df1和df2,它们包含相同的结构和大部分相同的数据,但某些行或列的特定值可能存在差异。我们的目标是生成一个新的DataFrame,其中只包含那些发生变化的行(及其对应的维度列)以及发生变化的具体列。

考虑以下两个示例DataFrame:

DataFrame 1 (df1):

pet_name exam_day result_1 result_2 pre_result_1
Patrick 2023-01-01 1 10 123
Patrick 2023-01-02 2 20 123
Patrick 2023-01-03 3 30 123
Patrick 2023-01-04 4 40 123

DataFrame 2 (df2):

pet_name exam_day result_1 result_2 pre_result_1
Patrick 2023-01-01 1 10 123
Patrick 2023-01-02 99 20 123
Patrick 2023-01-03 3 30 123
Patrick 2023-01-04 4 100 123

在这个例子中,df1和df2在以下位置存在差异:

  • pet_name='Patrick', exam_day='2023-01-02' 的 result_1 列
  • pet_name='Patrick', exam_day='2023-01-04' 的 result_2 列

我们希望最终的输出DataFrame只包含这些差异,以及用于标识这些差异的维度列(pet_name和exam_day),例如:

pet_name exam_day result_1 result_2
Patrick 2023-01-02 2 NaN
Patrick 2023-01-02 99 NaN
Patrick 2023-01-04 NaN 40
Patrick 2023-01-04 NaN 100

传统的 merge(..., indicator=True, how='outer') 方法虽然能识别出有差异的行,但它会保留所有列,并且对同一行中的多个差异处理不够直观。为了达到上述精确的差异报告效果,Pandas提供了更专业的工具

知了追踪
知了追踪

AI智能信息助手,智能追踪你的兴趣资讯

下载

使用 DataFrame.compare 方法

Pandas 1.1.0 版本引入的 DataFrame.compare 方法是解决此类问题的理想工具。它专门用于比较两个DataFrame,并以一种清晰的格式突出显示差异。

核心步骤

  1. 设置索引: 首先,将用于标识唯一记录的维度列(例如 pet_name 和 exam_day)设置为DataFrame的索引。这使得 compare 方法能够基于这些键进行行匹配和比较。
  2. 执行比较: 调用 compare 方法,传入另一个DataFrame和 align_axis=0 参数。align_axis=0 表示按行对齐并比较列值。
  3. 处理多级列索引: compare 方法的输出会有一个多级列索引,其中包含原始列名和指示差异来源(self 或 other)的内层索引。我们需要移除这个内层索引,以便后续处理。
  4. 重置索引: 最后,将之前设置的维度索引重置为常规列,使其成为最终输出DataFrame的一部分。

示例代码

import pandas as pd
import numpy as np

# 示例数据
data1 = {
    'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],
    'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
    'result_1': [1, 2, 3, 4],
    'result_2': [10, 20, 30, 40],
    'pre_result_1': [123, 123, 123, 123]
}
df1 = pd.DataFrame(data1)

data2 = {
    'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],
    'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
    'result_1': [1, 99, 3, 4], # result_1 for 2023-01-02 is different
    'result_2': [10, 20, 30, 100], # result_2 for 2023-01-04 is different
    'pre_result_1': [123, 123, 123, 123]
}
df2 = pd.DataFrame(data2)

print("df1:")
print(df1)
print("\ndf2:")
print(df2)

# 1. 将维度列设置为索引
# 2. 调用 compare 方法,align_axis=0 表示按行比较列
# 3. 移除多级列索引中的内层 ('self', 'other')
# 4. 重置索引,将维度列变回常规列
out = (df1.set_index(['pet_name', 'exam_day'])
          .compare(df2.set_index(['pet_name', 'exam_day']), align_axis=0)
          .droplevel(-1, axis=1) # 移除最内层索引 (self/other)
          .reset_index())

print("\n差异结果:")
print(out)

输出解析

运行上述代码,您将得到如下输出:

df1:
  pet_name    exam_day  result_1  result_2  pre_result_1
0  Patrick  2023-01-01         1        10           123
1  Patrick  2023-01-02         2        20           123
2  Patrick  2023-01-03         3        30           123
3  Patrick  2023-01-04         4        40           123

df2:
  pet_name    exam_day  result_1  result_2  pre_result_1
0  Patrick  2023-01-01         1        10           123
1  Patrick  2023-01-02        99        20           123
2  Patrick  2023-01-03         3        30           123
3  Patrick  2023-01-04         4       100           123

差异结果:
  pet_name    exam_day  result_1  result_2
0  Patrick  2023-01-02       2.0       NaN
1  Patrick  2023-01-02      99.0       NaN
2  Patrick  2023-01-04       NaN      40.0
3  Patrick  2023-01-04       NaN     100.0

可以看到,最终的 out DataFrame 准确地捕获了 df1 和 df2 之间的所有差异。对于每个有差异的行,它会生成两行记录:一行显示 df1 中的值(self),另一行显示 df2 中的值(other)。没有差异的列则显示 NaN。

详细步骤说明

  1. df1.set_index(['pet_name', 'exam_day']): 这将 pet_name 和 exam_day 列设置为DataFrame的索引。compare 方法会使用这些索引来匹配并比较对应的行。
  2. .compare(df2.set_index(['pet_name', 'exam_day']), align_axis=0): 这是核心的比较操作。
    • df2.set_index(...) 确保两个DataFrame在比较前具有相同的索引结构。
    • align_axis=0 参数告诉 compare 方法在行级别进行对齐和比较。它会查找两个DataFrame中索引相同的行,并比较这些行中所有列的值。只有存在差异的列才会被保留在结果中。
    • 此步骤的直接输出将是一个具有多级列索引的DataFrame,例如:
                               result_1  result_2
      pet_name exam_day                            
      Patrick  2023-01-02 self        2.0       NaN
                          other      99.0       NaN
               2023-01-04 self        NaN      40.0
                          other       NaN     100.0

      其中,列名是原始列名,第二级索引 self 和 other 指示该值来自哪个DataFrame。

  3. .droplevel(-1, axis=1): 这一步非常关键,它移除了列索引的最后一级(即 self 和 other 标识)。这样做是为了让结果DataFrame的列结构更简洁,只保留原始的列名。axis=1 指定操作对象是列索引。
  4. .reset_index(): 最后,将之前设置为索引的 pet_name 和 exam_day 列重新转换回常规的数据列。这样,它们就作为标识符与差异值一同呈现在最终结果中。

注意事项与最佳实践

  • 索引选择: 确保您选择的索引列能够唯一标识DataFrame中的每一条记录。如果索引不唯一,compare 方法可能无法正确匹配行。
  • 数据类型: compare 方法在比较时会考虑数据类型。如果两个DataFrame中相同列的数据类型不同(例如,一个为整数,另一个为浮点数),即使值在数值上相同,也可能被识别为差异。
  • 缺失值 (NaN): compare 方法会将 NaN 视为一个值进行比较。如果两个DataFrame在同一位置都为 NaN,则不会被视为差异。如果一个为 NaN 另一个为实际值,则会被视为差异。
  • 性能: 对于非常大的DataFrame,set_index 和 compare 操作可能会消耗较多内存和时间。在处理海量数据时,请考虑其性能影响。
  • 列的增减: compare 方法主要用于比较结构相似的DataFrame。如果两个DataFrame的列集存在显著差异(例如,一个DataFrame有而另一个没有某个列),compare 默认只会比较两个DataFrame都存在的列。

总结

DataFrame.compare 方法是Pandas中一个强大且直观的工具,专门用于识别并提取两个DataFrame之间的差异。通过合理地设置索引并进行后续处理,我们可以生成一个高度定制化的差异报告,仅显示发生变化的行和列,这对于数据审计、变更追踪和版本控制等任务具有极高的实用价值。掌握这一方法,将显著提升您在处理和分析数据变更时的效率。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

297

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

216

2025.10.31

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

179

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

271

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

250

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

121

2025.08.07

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

453

2023.07.04

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

3

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.1万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号