0

0

使用Pandas pivot 和向量化操作优化重复性数据聚合

碧海醫心

碧海醫心

发布时间:2025-09-10 15:17:00

|

935人浏览过

|

来源于php中文网

原创

使用Pandas pivot 和向量化操作优化重复性数据聚合

本文旨在解决Pandas数据处理中常见的重复性select和merge操作问题。通过详细阐述如何利用pivot函数重塑数据,并结合sub等向量化方法进行高效计算,显著减少代码量,提高可读性和执行效率。教程将提供清晰的示例代码,帮助读者掌握更简洁、专业的数据聚合技巧,特别适用于处理大规模数据集时的复杂计算场景。

1. 问题背景与挑战

在数据分析工作中,我们经常需要从一个大型数据集中提取特定子集,然后对这些子集进行计算,并将结果合并到一起。当这类操作涉及多个条件筛选和多轮合并时,代码往往变得冗长、重复且难以维护。例如,在生物信息学领域,可能需要根据酶(enzyme)、区域(regions)和统计量(n)的不同组合来计算长度(length)的差异,最终生成一个汇总表。原始方法可能涉及大量的df_stats[(df_stats['n'] == x) & (df_stats['regions'] == 'y')]筛选,接着是多次pd.merge操作,这不仅降低了代码的可读性,也可能影响在大规模数据集上的性能。

考虑以下原始代码示例,它通过多次筛选和合并来计算不同条件下的长度差异:

import io
import pandas as pd

TESTDATA="""
enzyme  regions   N   length
AaaI    all       10  238045
AaaI    all       20  170393
AaaI    all       30  131782
AaaI    all       40  103790
AaaI    all       50  81241246
AaaI    all       60  62469
AaaI    all       70  46080
AaaI    all       80  31340
AaaI    all       90  17188
AaaI    captured  10  292735
AaaI    captured  20  229824
AaaI    captured  30  193605
AaaI    captured  40  163710
AaaI    captured  50  138271
AaaI    captured  60  116122
AaaI    captured  70  95615
AaaI    captured  80  73317
AaaI    captured  90  50316
AagI    all       10  88337
AagI    all       20  19144
AagI    all       30  11030
AagI    all       40  8093
AagI    all       50  6394
AagI    all       60  4991
AagI    all       70  3813
AagI    all       80  2759
AagI    all       90  1666
AagI    captured  10  34463
AagI    captured  20  19220
AagI    captured  30  15389
AagI    captured  40  12818
AagI    captured  50  10923
AagI    captured  60  9261
AagI    captured  70  7753
AagI    captured  80  6201
AagI    captured  90  4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')

# 原始的重复性操作示例
df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all')     ].drop(columns=['regions', 'N'])

df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50'))
df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] -
                                              df_summ_cap_N50_all_N50['length_all_N50'])

df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50'))
df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N50['length_cap_N90'] - df_summ_cap_N90_all_N50['length_all_N50']

df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']),
                   df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']),
                   on='enzyme', how='inner')
print("原始方法结果:")
print(df_summ)

输出结果:

神卷标书
神卷标书

神卷标书,专注于AI智能标书制作、管理与咨询服务,提供高效、专业的招投标解决方案。支持一站式标书生成、模板下载,助力企业轻松投标,提升中标率。

下载
原始方法结果:
  enzyme  cap_N50_all_N50  cap_N90_all_N50
0   AaaI            57025           -30930
1   AagI             4529            -1899

2. 利用 pivot 重塑数据

解决上述问题的关键在于将数据从“长格式”(long format)转换为“宽格式”(wide format),使得不同条件下的length值并排显示在同一行,从而便于直接进行列与列之间的计算。Pandas的pivot函数正是为此而生。

pivot函数的基本用法是:df.pivot(index='index_column', columns='columns_column', values='values_column')。

  • index:指定作为新DataFrame索引的列。
  • columns:指定作为新DataFrame列的列。如果传入一个列表,则会创建多级列索引(MultiIndex columns)。
  • values:指定填充新DataFrame单元格的值。

在本例中,我们希望以enzyme为索引,以regions和N的组合作为列,length作为值。

步骤 1:筛选相关数据

在进行pivot操作之前,通常建议先筛选出所有相关的行,以避免创建不必要的宽列,提高效率。根据需求,我们只关心N值为50和90的数据。

# 筛选出N为50或90的行
filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]

步骤 2:执行 pivot 操作

我们将enzyme设置为索引,regions和N的组合作为多级列,length作为值。

pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length")
print("Pivot操作后的DataFrame (pivoted_df):")
print(pivoted_df)

输出结果:

Pivot操作后的DataFrame (pivoted_df):
regions  all         captured       
N         50      90       50      90
enzyme                               
AaaI   81241246   17188   138271   50316
AagI    6394    1666    10923    4495

可以看到,pivoted_df现在是一个具有多级列索引的DataFrame,其中all和captured是第一级索引,50和90是第二级索引。enzyme作为行索引。

3. 利用向量化操作进行计算

数据重塑后,原本需要多次合并才能完成的计算,现在可以通过直接对列进行向量化操作来完成,极大地简化了代码。

我们的目标是计算:

  • cap_N50_all_N50 = captured N50 - all N50
  • cap_N90_all_N50 = captured N90 - all N50

在pivoted_df中,这些对应于:

  • pivoted_df[("captured", 50)] - pivoted_df[("all", 50)]
  • pivoted_df[("captured", 90)] - pivoted_df[("all", 50)]

Pandas提供了sub(减法)、add(加法)、mul(乘法)、div(除法)等一系列向量化方法,它们可以非常高效地对DataFrame或Series进行元素级操作。

# 提取 'all' 区域 N=50 的长度,作为基准
all_N50_base = pivoted_df[("all", 50)]

# 对 'captured' 区域的 N=50 和 N=90 的长度分别减去基准值
# 使用 .sub() 方法进行减法操作,axis=0 表示按行进行对齐
result_df = pivoted_df["captured"].sub(all_N50_base, axis=0)

# 为结果列添加前缀和后缀以符合目标命名
# result_df 的列现在是 N=50 和 N=90
result_df = result_df.add_prefix("cap_N").add_suffix("_all_N50")

# 将 enzyme 索引重置为常规列
final_summary_df = result_df.reset_index()

print("\n优化后的最终汇总DataFrame (final_summary_df):")
print(final_summary_df)

输出结果:

优化后的最终汇总DataFrame (final_summary_df):
N enzyme  cap_N50_all_N50  cap_N90_all_N50
0   AaaI            57025           -30930
1   AagI             4529            -1899

4. 完整优化代码示例

将上述步骤整合,可以得到一个非常简洁高效的解决方案:

import io
import pandas as pd

TESTDATA="""
enzyme  regions   N   length
AaaI    all       10  238045
AaaI    all       20  170393
AaaI    all       30  131782
AaaI    all       40  103790
AaaI    all       50  81241246
AaaI    all       60  62469
AaaI    all       70  46080
AaaI    all       80  31340
AaaI    all       90  17188
AaaI    captured  10  292735
AaaI    captured  20  229824
AaaI    captured  30  193605
AaaI    captured  40  163710
AaaI    captured  50  138271
AaaI    captured  60  116122
AaaI    captured  70  95615
AaaI    captured  80  73317
AaaI    captured  90  50316
AagI    all       10  88337
AagI    all       20  19144
AagI    all       30  11030
AagI    all       40  8093
AagI    all       50  6394
AagI    all       60  4991
AagI    all       70  3813
AagI    all       80  2759
AagI    all       90  1666
AagI    captured  10  34463
AagI    captured  20  19220
AagI    captured  30  15389
AagI    captured  40  12818
AagI    captured  50  10923
AagI    captured  60  9261
AagI    captured  70  7753
AagI    captured  80  6201
AagI    captured  90  4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')

# 1. 筛选相关数据并进行透视(pivot)
# 确保只包含N=50和N=90的数据,然后以enzyme为索引,regions和N为列进行透视
pivoted_df = (df_stats.loc[df_stats["N"].isin([50, 90])]
              .pivot(index="enzyme", columns=["regions", "N"], values="length"))

# 2. 执行向量化计算并重命名列
# 提取 'captured' 区域的数据列,并减去 'all' 区域 N=50 的数据列
# axis=0 确保按行(即按enzyme)对齐
# add_prefix 和 add_suffix 用于生成目标列名
final_summary_df = (pivoted_df["captured"]
                    .sub(pivoted_df[("all", 50)], axis=0)
                    .add_prefix("cap_N")
                    .add_suffix("_all_N50")
                    .reset_index())

print("最终优化结果:")
print(final_summary_df)

5. 注意事项与最佳实践

  • 数据预处理: 在pivot之前进行适当的数据筛选(如df_stats["N"].isin([50, 90]))可以避免生成过多的列,尤其是在原始数据包含大量不相关类别时,这能显著提高性能。
  • 多级索引: pivot操作常常会创建多级索引(MultiIndex),这在Pandas中是处理复杂数据结构的重要工具。理解如何访问和操作多级索引是高效使用pivot的关键。例如,pivoted_df[("captured", 50)]用于访问特定的列。
  • 向量化操作的优势: sub、add等方法比手动循环或多次merge更高效,因为它们在底层使用了优化的C语言实现。对于大型数据集,这种性能提升是巨大的。
  • 灵活性: 这种方法不仅适用于简单的减法,还可以推广到更复杂的计算。例如,如果需要计算比例或更复杂的函数,可以在pivoted_df上使用apply方法,结合lambda函数实现。
  • 列名生成: 使用add_prefix和add_suffix是动态生成符合规范的列名的好方法,避免了手动硬编码,提高了代码的通用性和可维护性。
  • 处理缺失值: pivot操作可能因为某些组合不存在而引入NaN值。在进行计算之前或之后,可能需要使用fillna()、dropna()等方法处理这些缺失值。

6. 总结

通过本教程,我们学习了如何利用Pandas的pivot函数将数据从长格式转换为宽格式,并结合sub等向量化操作,以一种更简洁、高效和专业的方式进行复杂的数据聚合和计算。这种方法不仅大幅减少了代码量,提高了可读性,而且在处理大规模数据集时能够带来显著的性能提升。掌握pivot和向量化操作是成为一名高效Pandas数据分析师的关键技能之一。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

379

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

608

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

348

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

255

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

588

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

520

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

632

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

597

2023.09.22

python设置中文版教程合集
python设置中文版教程合集

本专题整合了python改成中文版相关教程,阅读专题下面的文章了解更多详细内容。

1

2026.01.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Rust 教程
Rust 教程

共28课时 | 4.1万人学习

Kotlin 教程
Kotlin 教程

共23课时 | 2.3万人学习

Go 教程
Go 教程

共32课时 | 3.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号