Polars 数据框字典合并与源信息保留教程

DDD

发布时间：2025-11-03 11:06:24

413人浏览过

来源于php中文网

原创

Polars 数据框字典合并与源信息保留教程

本教程详细介绍了如何在 polars 中高效地将存储在字典中的多个数据框按行合并为一个单一的数据框，并在此过程中自动添加一列以记录每个观测值来源于哪个原始数据框（即字典的键名）。通过结合列表推导式、`with_columns` 和 `pl.concat` 函数，我们能够优雅地解决这一常见的数据整合需求，同时保持代码的简洁性和执行效率。

在数据处理工作中，我们经常会遇到需要从多个来源（例如不同的 Excel 工作表、CSV 文件或数据库查询结果）导入数据，并将它们存储在一个字典中，其中字典的键通常代表数据的来源名称。随后，一个常见的需求是将这些独立的数据框按行合并成一个大的数据框，同时保留原始数据框的名称作为新数据框中的一列，以便追踪数据的来源。

Polars 作为一种高性能的数据框库，提供了强大的工具来处理这类任务。虽然它没有像 R Tidyverse 中 bind_rows(.id = "ID") 那样直接的单函数解决方案，但通过组合其核心功能，我们可以实现同样甚至更灵活的效果。

问题场景与目标

假设我们有一个 Polars 数据框的字典，其中每个键是数据框的名称，值是对应的 Polars 数据框。我们的目标是：

将字典中的所有数据框按行垂直堆叠。
在合并后的数据框中添加一个新列（例如 sheet），该列的值是每个观测值所来自的原始数据框的名称（即字典的键）。

以下是一个示例数据字典：

import polars as pl

dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

我们期望的输出结果是一个包含所有行，并额外带有 sheet 列的单一数据框：

Groq

GroqChat是一个全新的AI聊天机器人平台，支持多种大模型语言，可以免费在线使用。

下载

shape: (4, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ sheet│
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ str  │
╞══════╪══════╪══════╡
│ 1    ┆ a    ┆ df1  │
│ 2    ┆ b    ┆ df1  │
│ 3    ┆ c    ┆ df2  │
│ 4    ┆ d    ┆ df2  │
└──────┴──────┴──────┘

解决方案详解

Polars 提供了 pl.concat 函数用于合并数据框。默认情况下，pl.concat 执行垂直合并（how="vertical"），这正是我们需要的。然而，pl.concat 接收的是一个数据框列表，直接将字典的值转换为列表会丢失原始数据框的名称信息。因此，关键在于在合并之前，为每个数据框添加一个包含其名称的新列。

我们可以通过结合列表推导式、DataFrame.with_columns() 方法和 pl.lit() 函数来实现这一点。

核心步骤：

遍历字典： 使用列表推导式遍历字典中的每个键值对（name, df）。
添加源名称列： 对于字典中的每一个数据框 df，使用 df.with_columns(sheet=pl.lit(name)) 添加一个名为 sheet 的新列。
- with_columns()：这是 Polars 中用于添加或修改列的强大方法。
- pl.lit(name)：pl.lit() 函数用于创建一个字面量表达式。在这里，它会为新添加的 sheet 列的每一行填充当前数据框的名称 name。
执行垂直合并： 将经过上述处理的所有数据框组成的列表传递给 pl.concat() 函数，完成最终的合并。

示例代码：

import polars as pl

# 示例数据字典
dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

# 解决方案
combined_df = pl.concat([
    df.with_columns(sheet=pl.lit(name)) 
    for name, df in dcty.items()
])

# 打印结果
print(combined_df)

运行上述代码将产生预期的输出：

shape: (4, 3)
┌──────┬──────┬───────┐
│ col1 ┆ col2 ┆ sheet │
│ ---  ┆ ---  ┆ ---   │
│ i64  ┆ str  ┆ str   │
╞══════╪══════╪═══════╡
│ 1    ┆ a    ┆ df1   │
│ 2    ┆ b    ┆ df1   │
│ 3    ┆ c    ┆ df2   │
│ 4    ┆ d    ┆ df2   │
└──────┴──────┴───────┘

注意事项与最佳实践

列名一致性： 进行垂直合并时，建议所有待合并的数据框具有相同的列名和兼容的数据类型。如果列名不一致，pl.concat 会自动填充 null 值以对齐列。如果数据类型不兼容，Polars 会尝试进行类型推断或强制转换，这可能导致意外的结果或错误。
性能： 这种基于列表推导式和 pl.concat 的方法在 Polars 中是高效且惯用的。Polars 内部会优化这些操作，尤其是在处理大量数据时，其性能通常优于传统的循环追加方法。
灵活性： with_columns 方法非常灵活，你不仅可以添加源名称，还可以在合并前对每个数据框执行其他预处理操作，例如重命名列、过滤行等。
pl.lit() 的作用： pl.lit() 是一个关键函数，它将一个 Python 值转换为 Polars 表达式，确保该值在整个新列中被广播（重复）到每一行。

总结

本教程展示了在 Polars 中如何优雅地将一个数据框字典合并为一个单一的数据框，并在此过程中保留原始数据框的名称作为新列。通过利用列表推导式、DataFrame.with_columns() 和 pl.lit() 函数，我们能够构建出既简洁又高效的代码，完美解决了在数据整合场景中追踪数据来源的常见需求。掌握这种模式对于 Polars 用户来说至关重要，它能够帮助你更有效地组织和分析复杂数据集。

PythonCSV与Excel数据处理教程_批量读取与写入实战

Python自动化办公高级项目教程_批量ExcelWordPDF优化

使用 Pandas 正则替换文本中特定 ID 为对应描述值

Python办公系统学习路线第264讲_核心原理与实战案例详解【指导】

Python办公系统学习路线第544讲_核心原理与实战案例详解【教程】

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

718

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

627

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

744

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

700

2023.08.11