高效将Pandas DataFrame转换为嵌套字典的技巧

花韻仙語

发布时间：2025-09-12 11:12:20

788人浏览过

来源于php中文网

原创

高效将Pandas DataFrame转换为嵌套字典的技巧

本文探讨如何高效地将Pandas DataFrame转换为一个嵌套字典结构，其中包含两层键和列表值。通过对比传统iterrows方法，我们重点介绍并演示了利用collections.defaultdict和df.values进行扩展解包的优化方案，该方案能显著提升代码的简洁性和执行效率，尤其适用于处理大型数据集。

在数据处理中，我们经常需要将结构化的表格数据（如pandas dataframe）转换为更灵活的嵌套字典格式，以便于后续的数据查询或业务逻辑处理。一个常见的需求是，将dataframe中的两列作为嵌套字典的键，而其余列的值则聚合为一个列表作为最内层字典的值。

原始实现与局限

考虑一个包含公司（Company）、产品（Product）以及相关生产数据（Production Cost, Development Time, Launch Year）的DataFrame。我们的目标是创建一个字典，其中外层键是公司名，内层键是产品名，对应的值是生产数据的列表。

以下是使用df.iterrows()方法实现这一目标的常见代码：

import pandas as pd

# 示例DataFrame，通常从Excel文件读取
df = pd.DataFrame({
    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
    "Product": ["TC100", "IN200", "GS300", "FD400"],
    "Production Cost": [10000, 15000, 12000, 18000],
    "Development Time": [6, 9, 8, 12],
    "Launch Year": [2023, 2024, 2023, 2025]
})

nested_dict = {}
for index, row in df.iterrows():
    company = row['Company']
    product = row['Product']
    # 提取其他列的值并转换为列表
    values = row[['Production Cost', 'Development Time', 'Launch Year']].tolist()

    if company not in nested_dict:
        nested_dict[company] = {}
    nested_dict[company][product] = values

print(nested_dict)

这段代码能够正确生成所需的嵌套字典结构：

{'TechCorp': {'TC100': [10000, 6, 2023]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}

然而，df.iterrows()在处理大型DataFrame时效率相对较低。每次迭代都会返回一个Series对象，这涉及到额外的开销。同时，手动检查字典中是否存在外层键 (if company not in nested_dict:) 增加了代码的冗余。

优化方案：Defaultdict与df.values的结合

为了提高效率并简化代码，我们可以利用Python标准库collections中的defaultdict和Pandas DataFrame的底层NumPy数组表示df.values。

collections.defaultdict: defaultdict是dict的一个子类，它允许在访问不存在的键时自动创建该键并赋予一个默认值。在本例中，我们可以将defaultdict(dict)作为外层字典，这样当遇到新的公司名时，会自动创建一个空的内层字典。
df.values与扩展解包: df.values属性返回DataFrame中所有数据的NumPy数组表示。直接遍历这个数组比iterrows()更高效。通过使用Python的扩展解包（*操作符），我们可以方便地将一行中的前几个元素分配给特定变量，而将剩余的所有元素收集到一个列表中。

以下是优化后的代码实现：

LongShot

LongShot 是一款 AI 写作助手，可帮助您生成针对搜索引擎优化的内容博客。

下载

from collections import defaultdict
import pandas as pd

# 示例DataFrame
df = pd.DataFrame({
    "Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
    "Product": ["TC100", "IN200", "GS300", "FD400"],
    "Production Cost": [10000, 15000, 12000, 18000],
    "Development Time": [6, 9, 8, 12],
    "Launch Year": [2023, 2024, 2023, 2025]
})

# 为了演示defaultdict的优势，我们添加一个TechCorp的新产品
df.loc[len(df)] = ['TechCorp', 'TC200', 20000, 12, 2025]

nested_dict = defaultdict(dict)
# 遍历df.values，使用扩展解包
for company, product, *values in df.values:
    nested_dict[company][product] = values

print(dict(nested_dict)) # 将defaultdict转换为普通dict以便输出

代码解析：

nested_dict = defaultdict(dict)：初始化一个defaultdict，其默认工厂函数是dict。这意味着如果nested_dict中尝试访问一个不存在的company键，它会自动创建一个空的普通字典作为该键的值。
for company, product, *values in df.values:：
- df.values将DataFrame转换为一个NumPy数组。
- 每次迭代获取数组中的一行。
- company和product分别捕获行的前两个元素。
- *values是Python的扩展解包语法，它会收集行中剩余的所有元素，并将它们作为一个列表赋值给values变量。这完美匹配了我们的需求，即其余列的值作为一个列表。

优化后的输出（包含新增数据）：

{
 'TechCorp': {'TC100': [10000, 6, 2023], 'TC200': [20000, 12, 2025]},
 'Innovate Inc': {'IN200': [15000, 9, 2024]},
 'Green Solutions': {'GS300': [12000, 8, 2023]},
 'Future Dynamics': {'FD400': [18000, 12, 2025]}
}

可以看到，TechCorp下的两个产品及其数据都被正确地聚合到了同一个外层字典中，证明了defaultdict的有效性。

注意事项

列顺序的重要性: 使用df.values时，数据的顺序至关重要。确保DataFrame中作为键的列（Company, Product）位于需要作为值列表的列之前。如果列顺序不符合预期，需要在使用df.values前对DataFrame进行列重排。
性能提升: 对于大型数据集，直接遍历df.values通常比iterrows()快得多，因为df.values操作直接在NumPy数组上进行，避免了Pandas Series对象的创建开销。
代码简洁性: defaultdict消除了手动检查键是否存在的if语句，使得代码更加简洁和易读。扩展解包也极大地简化了值列表的创建过程。
数据类型: df.values返回的NumPy数组中的元素会保留其原始数据类型。在大多数情况下，这不会有问题，但如果需要特定类型转换，可能需要在*values捕获后进行处理。

总结

通过巧妙地结合collections.defaultdict和df.values的扩展解包功能，我们可以显著优化从Pandas DataFrame构建复杂嵌套字典的过程。这种方法不仅提升了代码的执行效率，尤其是在处理大规模数据时，还增强了代码的简洁性和可读性，是Python数据处理中值得推荐的实践。

PythonCSV与Excel数据处理教程_批量读取与写入实战

Python自动化办公高级项目教程_批量ExcelWordPDF优化

使用 Pandas 正则替换文本中特定 ID 为对应描述值

Python办公系统学习路线第264讲_核心原理与实战案例详解【指导】

Python办公系统学习路线第544讲_核心原理与实战案例详解【教程】

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

717

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

627

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

743

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

699

2023.08.11