0

0

Pandas高效聚合:利用pivot和广播操作简化复杂数据转换

花韻仙語

花韻仙語

发布时间:2025-09-10 14:41:00

|

378人浏览过

|

来源于php中文网

原创

Pandas高效聚合:利用pivot和广播操作简化复杂数据转换

本教程旨在解决Pandas数据处理中常见的重复性过滤、选择和合并操作问题。通过深入讲解pivot函数将长格式数据转换为宽格式,并结合Pandas的广播机制进行高效的元素级计算,最终实现数据聚合的简洁化和性能优化。文章将提供详细的代码示例,帮助读者掌握利用pivot和链式操作实现复杂数据转换的最佳实践,显著提升代码可读性和执行效率。

在数据分析和处理过程中,我们经常需要对dataframe进行复杂的聚合操作,例如基于多个条件筛选数据,然后进行计算并合并结果。当这些操作需要重复执行多次,仅仅是条件参数不同时,代码会变得冗长、难以维护且效率低下。本文将介绍一种更优雅、高效的pandas方法,利用pivot函数和广播机制来简化此类复杂的数据聚合任务。

原始问题与挑战

考虑以下场景:我们有一个包含酶(enzyme)、区域类型(regions)、N值(N)和长度(length)的统计数据集。我们的目标是计算特定条件下长度值的差异,例如 captured 区域 N=50 的长度减去 all 区域 N=50 的长度,以及 captured 区域 N=90 的长度减去 all 区域 N=50 的长度。

以下是原始的、具有重复性的代码实现方式:

import io
import pandas as pd

TESTDATA="""
enzyme  regions   N   length
AaaI    all       10  238045
AaaI    all       20  170393
AaaI    all       30  131782
AaaI    all       40  103790
AaaI    all       50  81241246
AaaI    all       60  62469
AaaI    all       70  46080
AaaI    all       80  31340
AaaI    all       90  17188
AaaI    captured  10  292735
AaaI    captured  20  229824
AaaI    captured  30  193605
AaaI    captured  40  163710
AaaI    captured  50  138271
AaaI    captured  60  116122
AaaI    captured  70  95615
AaaI    captured  80  73317
AaaI    captured  90  50316
AagI    all       10  88337
AagI    all       20  19144
AagI    all       30  11030
AagI    all       40  8093
AagI    all       50  6394
AagI    all       60  4991
AagI    all       70  3813
AagI    all       80  2759
AagI    all       90  1666
AagI    captured  10  34463
AagI    captured  20  19220
AagI    captured  30  15389
AagI    captured  40  12818
AagI    captured  50  10923
AagI    captured  60  9261
AagI    captured  70  7753
AagI    captured  80  6201
AagI    captured  90  4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')

# 筛选并准备数据
df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all')     ].drop(columns=['regions', 'N'])

# 执行合并和计算
df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50'))
df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] -
                                              df_summ_cap_N50_all_N50['length_all_N50'])

df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50'))
df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N50['length_cap_N90'] - df_summ_cap_N90_all_N50['length_all_N50']

# 最终合并结果
df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']),
                   df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']),
                   on='enzyme', how='inner')
print(df_summ)

这种方法的问题在于:

  1. 代码重复性高:针对每个需要比较的组合,都需要进行独立的筛选、drop列、merge操作。
  2. 效率低下:频繁创建中间DataFrame和执行merge操作,对于大数据集而言会产生显著的性能开销。
  3. 可读性差:代码逻辑被分散在多个步骤中,难以一眼看出整体的数据转换意图。
  4. 扩展性差:如果需要增加更多的比较组合(例如 cap_N70_all_N30),则需要复制大量代码并进行修改。

Pandas高效聚合策略:pivot与广播操作

为了解决上述问题,我们可以利用Pandas的pivot函数将数据重塑为宽格式,然后利用其强大的广播机制进行高效的列间计算。

1. 理解pivot函数进行数据重塑

pivot函数可以将DataFrame从“长格式”转换为“宽格式”,这对于进行多维度的数据分析非常有用。它通过指定一个或多个列作为新的索引(index)、一个或多个列作为新的列标签(columns),以及一个列作为填充新单元格的值(values)来实现。

首先,我们筛选出所有需要参与计算的 N 值(这里是50和90),以避免不必要的计算量。

# 筛选出N为50或90的数据
filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]

# 使用pivot将数据重塑为宽格式
# enzyme 作为新DataFrame的索引
# regions 和 N 的组合作为新DataFrame的列
# length 列的值填充到新DataFrame的单元格中
pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length")

print("重塑后的DataFrame (pivoted_df):")
print(pivoted_df)

输出的 pivoted_df 将是一个具有多级列索引的DataFrame,其结构如下:

regions    all       captured    
N           50    90       50    90
enzyme                             
AaaI     81241246 17188   138271 50316
AagI      6394  1666    10923  4495

现在,我们所需的所有 length 值都以宽格式排列,并且可以通过多级列索引轻松访问。

2. 利用广播机制进行高效计算

Pandas的算术运算支持广播(broadcasting),这意味着当操作两个具有不同维度但兼容形状的Series或DataFrame时,Pandas会自动扩展较小的对象以匹配较大的对象。这使得我们能够非常简洁地执行列与列之间的计算。

聚好用AI
聚好用AI

可免费AI绘图、AI音乐、AI视频创作,聚集全球顶级AI,一站式创意平台

下载

在我们的案例中,我们需要计算 captured 区域的 N=50 和 N=90 的长度分别减去 all 区域 N=50 的长度。

# 提取 'captured' 区域的所有N值对应的长度
captured_lengths = pivoted_df["captured"]
# 提取 'all' 区域 N=50 对应的长度 (这是一个Series)
all_N50_length = pivoted_df[("all", 50)]

# 使用 .sub() 方法进行广播减法
# captured_lengths 是一个DataFrame,all_N50_length 是一个Series
# Pandas 会将 all_N50_length 广播到 captured_lengths 的每一列进行减法
# axis=0 表示按行对齐索引进行操作
result_diff = captured_lengths.sub(all_N50_length, axis=0)

print("\n计算差异后的DataFrame (result_diff):")
print(result_diff)

输出的 result_diff 如下:

N           50      90
enzyme                
AaaI     57025  -30930
AagI      4529   -1899

可以看到,一步操作就完成了所有必要的减法,并且结果DataFrame的索引和列都已正确对齐。

3. 结果列的重命名与整理

最后一步是根据要求重命名结果列,并将索引转换为常规列。

# 重命名列:先添加前缀 'cap_N',再添加后缀 '_all_N50'
# N=50 -> cap_N50 -> cap_N50_all_N50
# N=90 -> cap_N90 -> cap_N90_all_N50
final_df = result_diff.add_prefix("cap_N").add_suffix("_all_N50")

# 将索引 'enzyme' 转换为常规列
final_df = final_df.reset_index()

print("\n最终聚合结果 (final_df):")
print(final_df)

最终输出:

  enzyme  cap_N50_all_N50  cap_N90_all_N50
0   AaaI            57025           -30930
1   AagI             4529            -1899

这与原始方法得到的 df_summ 结果完全一致,但代码量大幅减少,逻辑更加清晰。

完整代码示例

将上述步骤整合到一起,得到简洁高效的解决方案:

import io
import pandas as pd

TESTDATA="""
enzyme  regions   N   length
AaaI    all       10  238045
AaaI    all       20  170393
AaaI    all       30  131782
AaaI    all       40  103790
AaaI    all       50  81241246
AaaI    all       60  62469
AaaI    all       70  46080
AaaI    all       80  31340
AaaI    all       90  17188
AaaI    captured  10  292735
AaaI    captured  20  229824
AaaI    captured  30  193605
AaaI    captured  40  163710
AaaI    captured  50  138271
AaaI    captured  60  116122
AaaI    captured  70  95615
AaaI    captured  80  73317
AaaI    captured  90  50316
AagI    all       10  88337
AagI    all       20  19144
AagI    all       30  11030
AagI    all       40  8093
AagI    all       50  6394
AagI    all       60  4991
AagI    all       70  3813
AagI    all       80  2759
AagI    all       90  1666
AagI    captured  10  34463
AagI    captured  20  19220
AagI    captured  30  15389
AagI    captured  40  12818
AagI    captured  50  10923
AagI    captured  60  9261
AagI    captured  70  7753
AagI    captured  80  6201
AagI    captured  90  4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')

# 链式操作实现高效聚合
df_summ_optimized = (
    df_stats.loc[df_stats["N"].isin([50, 90])] # 筛选相关N值
    .pivot(index="enzyme", columns=["regions", "N"], values="length") # 重塑数据
    .pipe(lambda piv: piv["captured"].sub(piv[("all", 50)], axis=0)) # 执行广播减法
    .add_prefix("cap_N") # 添加前缀
    .add_suffix("_all_N50") # 添加后缀
    .reset_index() # 将索引转换为列
)

print(df_summ_optimized)

优势与注意事项

  • 代码简洁性与可读性:通过链式方法调用,将复杂的逻辑组织成清晰的步骤,大大减少了代码量,提高了代码的可读性和可维护性。
  • 性能提升:避免了多次创建中间DataFrame和昂贵的merge操作。pivot和广播操作在底层通常经过高度优化,对于处理大数据集具有显著的性能优势。
  • 灵活性与扩展性:如果需要添加更多计算组合,例如 cap_N70_all_N30,只需修改 isin() 中的 N 值列表,并在 pipe 阶段增加相应的计算逻辑,无需重写大量重复代码。
  • 注意事项
    • pivot函数要求 index 和 columns 的组合必须是唯一的,否则会抛出 ValueError。如果存在重复组合,应考虑使用 pivot_table,它允许指定聚合函数(如 mean, sum 等)来处理重复值。
    • 理解多级列索引是使用 pivot 结果的关键。通过 pivoted_df["level1"] 或 pivoted_df[("level1", "level2")] 可以灵活访问数据。
    • 在进行广播操作时,确保理解 axis 参数的含义。axis=0 表示按行(索引)进行操作,axis=1 表示按列进行操作。

总结

通过本教程,我们学习了如何利用Pandas的pivot

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

length函数用法
length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度,以便在查询和处理字符串数据时进行操作和判断。 需要注意的是length函数计算的是字符串的字符数,而不是字节数。对于多字节字符集,一个字符可能由多个字节组成。因此,length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法,大家可以阅读本专题下面的文章。

912

2023.09.19

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

459

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

272

2023.08.07

网站建设功能有哪些
网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站,实现网站的目标。

721

2023.10.16

数据分析网站推荐
数据分析网站推荐

数据分析网站推荐:1、商业数据分析论坛;2、人大经济论坛-计量经济学与统计区;3、中国统计论坛;4、数据挖掘学习交流论坛;5、数据分析论坛;6、网站数据分析;7、数据分析;8、数据挖掘研究院;9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容,可以阅读本专题下面的文章。

501

2024.03.13

Python 数据分析处理
Python 数据分析处理

本专题聚焦 Python 在数据分析领域的应用,系统讲解 Pandas、NumPy 的数据清洗、处理、分析与统计方法,并结合数据可视化、销售分析、科研数据处理等实战案例,帮助学员掌握使用 Python 高效进行数据分析与决策支持的核心技能。

71

2025.09.08

Python 数据分析与可视化
Python 数据分析与可视化

本专题聚焦 Python 在数据分析与可视化领域的核心应用,系统讲解数据清洗、数据统计、Pandas 数据操作、NumPy 数组处理、Matplotlib 与 Seaborn 可视化技巧等内容。通过实战案例(如销售数据分析、用户行为可视化、趋势图与热力图绘制),帮助学习者掌握 从原始数据到可视化报告的完整分析能力。

55

2025.10.14

Golang 分布式缓存与高可用架构
Golang 分布式缓存与高可用架构

本专题系统讲解 Golang 在分布式缓存与高可用系统中的应用,涵盖缓存设计原理、Redis/Etcd集成、数据一致性与过期策略、分布式锁、缓存穿透/雪崩/击穿解决方案,以及高可用架构设计。通过实战案例,帮助开发者掌握 如何使用 Go 构建稳定、高性能的分布式缓存系统,提升大型系统的响应速度与可靠性。

53

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 4.4万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 6.8万人学习

Django 教程
Django 教程

共28课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号