0

0

高效将Pandas DataFrame转换为嵌套字典的技巧

花韻仙語

花韻仙語

发布时间:2025-09-12 11:12:20

|

788人浏览过

|

来源于php中文网

原创

高效将Pandas DataFrame转换为嵌套字典的技巧

本文探讨如何高效地将Pandas DataFrame转换为一个嵌套字典结构,其中包含两层键和列表值。通过对比传统iterrows方法,我们重点介绍并演示了利用collections.defaultdict和df.values进行扩展解包的优化方案,该方案能显著提升代码的简洁性和执行效率,尤其适用于处理大型数据集。

在数据处理中,我们经常需要将结构化的表格数据(如pandas dataframe)转换为更灵活的嵌套字典格式,以便于后续的数据查询或业务逻辑处理。一个常见的需求是,将dataframe中的两列作为嵌套字典的键,而其余列的值则聚合为一个列表作为最内层字典的值。

原始实现与局限

考虑一个包含公司(Company)、产品(Product)以及相关生产数据(Production Cost, Development Time, Launch Year)的DataFrame。我们的目标是创建一个字典,其中外层键是公司名,内层键是产品名,对应的值是生产数据的列表。

以下是使用df.iterrows()方法实现这一目标的常见代码:

import pandas as pd

# 示例DataFrame,通常从Excel文件读取
df = pd.DataFrame({
    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
    "Product": ["TC100", "IN200", "GS300", "FD400"],
    "Production Cost": [10000, 15000, 12000, 18000],
    "Development Time": [6, 9, 8, 12],
    "Launch Year": [2023, 2024, 2023, 2025]
})

nested_dict = {}
for index, row in df.iterrows():
    company = row['Company']
    product = row['Product']
    # 提取其他列的值并转换为列表
    values = row[['Production Cost', 'Development Time', 'Launch Year']].tolist()

    if company not in nested_dict:
        nested_dict[company] = {}
    nested_dict[company][product] = values

print(nested_dict)

这段代码能够正确生成所需的嵌套字典结构:

{'TechCorp': {'TC100': [10000, 6, 2023]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

然而,df.iterrows()在处理大型DataFrame时效率相对较低。每次迭代都会返回一个Series对象,这涉及到额外的开销。同时,手动检查字典中是否存在外层键 (if company not in nested_dict:) 增加了代码的冗余。

优化方案:Defaultdict与df.values的结合

为了提高效率并简化代码,我们可以利用Python标准库collections中的defaultdict和Pandas DataFrame的底层NumPy数组表示df.values。

  1. collections.defaultdict: defaultdict是dict的一个子类,它允许在访问不存在的键时自动创建该键并赋予一个默认值。在本例中,我们可以将defaultdict(dict)作为外层字典,这样当遇到新的公司名时,会自动创建一个空的内层字典。
  2. df.values与扩展解包: df.values属性返回DataFrame中所有数据的NumPy数组表示。直接遍历这个数组比iterrows()更高效。通过使用Python的扩展解包(*操作符),我们可以方便地将一行中的前几个元素分配给特定变量,而将剩余的所有元素收集到一个列表中。

以下是优化后的代码实现:

LongShot
LongShot

LongShot 是一款 AI 写作助手,可帮助您生成针对搜索引擎优化的内容博客。

下载
from collections import defaultdict
import pandas as pd

# 示例DataFrame
df = pd.DataFrame({
    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
    "Product": ["TC100", "IN200", "GS300", "FD400"],
    "Production Cost": [10000, 15000, 12000, 18000],
    "Development Time": [6, 9, 8, 12],
    "Launch Year": [2023, 2024, 2023, 2025]
})

# 为了演示defaultdict的优势,我们添加一个TechCorp的新产品
df.loc[len(df)] = ['TechCorp', 'TC200', 20000, 12, 2025]

nested_dict = defaultdict(dict)
# 遍历df.values,使用扩展解包
for company, product, *values in df.values:
    nested_dict[company][product] = values

print(dict(nested_dict)) # 将defaultdict转换为普通dict以便输出

代码解析:

  • nested_dict = defaultdict(dict):初始化一个defaultdict,其默认工厂函数是dict。这意味着如果nested_dict中尝试访问一个不存在的company键,它会自动创建一个空的普通字典作为该键的值。
  • for company, product, *values in df.values::
    • df.values将DataFrame转换为一个NumPy数组。
    • 每次迭代获取数组中的一行。
    • company和product分别捕获行的前两个元素。
    • *values是Python的扩展解包语法,它会收集行中剩余的所有元素,并将它们作为一个列表赋值给values变量。这完美匹配了我们的需求,即其余列的值作为一个列表。

优化后的输出(包含新增数据):

{
 'TechCorp': {'TC100': [10000, 6, 2023], 'TC200': [20000, 12, 2025]},
 'Innovate Inc': {'IN200': [15000, 9, 2024]},
 'Green Solutions': {'GS300': [12000, 8, 2023]},
 'Future Dynamics': {'FD400': [18000, 12, 2025]}
}

可以看到,TechCorp下的两个产品及其数据都被正确地聚合到了同一个外层字典中,证明了defaultdict的有效性。

注意事项

  • 列顺序的重要性: 使用df.values时,数据的顺序至关重要。确保DataFrame中作为键的列(Company, Product)位于需要作为值列表的列之前。如果列顺序不符合预期,需要在使用df.values前对DataFrame进行列重排。
  • 性能提升: 对于大型数据集,直接遍历df.values通常比iterrows()快得多,因为df.values操作直接在NumPy数组上进行,避免了Pandas Series对象的创建开销。
  • 代码简洁性: defaultdict消除了手动检查键是否存在的if语句,使得代码更加简洁和易读。扩展解包也极大地简化了值列表的创建过程。
  • 数据类型: df.values返回的NumPy数组中的元素会保留其原始数据类型。在大多数情况下,这不会有问题,但如果需要特定类型转换,可能需要在*values捕获后进行处理。

总结

通过巧妙地结合collections.defaultdict和df.values的扩展解包功能,我们可以显著优化从Pandas DataFrame构建复杂嵌套字典的过程。这种方法不仅提升了代码的执行效率,尤其是在处理大规模数据时,还增强了代码的简洁性和可读性,是Python数据处理中值得推荐的实践。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

717

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

627

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

743

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

699

2023.08.11

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 10.3万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号