0

0

Polars 数据框字典合并与源信息保留教程

DDD

DDD

发布时间:2025-11-03 11:06:24

|

413人浏览过

|

来源于php中文网

原创

Polars 数据框字典合并与源信息保留教程

本教程详细介绍了如何在 polars 中高效地将存储在字典中的多个数据框按行合并为一个单一的数据框,并在此过程中自动添加一列以记录每个观测值来源于哪个原始数据框(即字典的键名)。通过结合列表推导式、`with_columns` 和 `pl.concat` 函数,我们能够优雅地解决这一常见的数据整合需求,同时保持代码的简洁性和执行效率。

在数据处理工作中,我们经常会遇到需要从多个来源(例如不同的 Excel 工作表、CSV 文件或数据库查询结果)导入数据,并将它们存储在一个字典中,其中字典的键通常代表数据的来源名称。随后,一个常见的需求是将这些独立的数据框按行合并成一个大的数据框,同时保留原始数据框的名称作为新数据框中的一列,以便追踪数据的来源。

Polars 作为一种高性能的数据框库,提供了强大的工具来处理这类任务。虽然它没有像 R Tidyverse 中 bind_rows(.id = "ID") 那样直接的单函数解决方案,但通过组合其核心功能,我们可以实现同样甚至更灵活的效果。

问题场景与目标

假设我们有一个 Polars 数据框的字典,其中每个键是数据框的名称,值是对应的 Polars 数据框。我们的目标是:

  1. 将字典中的所有数据框按行垂直堆叠。
  2. 在合并后的数据框中添加一个新列(例如 sheet),该列的值是每个观测值所来自的原始数据框的名称(即字典的键)。

以下是一个示例数据字典:

import polars as pl

dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

我们期望的输出结果是一个包含所有行,并额外带有 sheet 列的单一数据框:

Groq
Groq

GroqChat是一个全新的AI聊天机器人平台,支持多种大模型语言,可以免费在线使用。

下载
shape: (4, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ sheet│
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ str  │
╞══════╪══════╪══════╡
│ 1    ┆ a    ┆ df1  │
│ 2    ┆ b    ┆ df1  │
│ 3    ┆ c    ┆ df2  │
│ 4    ┆ d    ┆ df2  │
└──────┴──────┴──────┘

解决方案详解

Polars 提供了 pl.concat 函数用于合并数据框。默认情况下,pl.concat 执行垂直合并(how="vertical"),这正是我们需要的。然而,pl.concat 接收的是一个数据框列表,直接将字典的值转换为列表会丢失原始数据框的名称信息。因此,关键在于在合并之前,为每个数据框添加一个包含其名称的新列。

我们可以通过结合列表推导式、DataFrame.with_columns() 方法和 pl.lit() 函数来实现这一点。

核心步骤:

  1. 遍历字典: 使用列表推导式遍历字典中的每个键值对(name, df)。
  2. 添加源名称列: 对于字典中的每一个数据框 df,使用 df.with_columns(sheet=pl.lit(name)) 添加一个名为 sheet 的新列。
    • with_columns():这是 Polars 中用于添加或修改列的强大方法。
    • pl.lit(name):pl.lit() 函数用于创建一个字面量表达式。在这里,它会为新添加的 sheet 列的每一行填充当前数据框的名称 name。
  3. 执行垂直合并: 将经过上述处理的所有数据框组成的列表传递给 pl.concat() 函数,完成最终的合并。

示例代码:

import polars as pl

# 示例数据字典
dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

# 解决方案
combined_df = pl.concat([
    df.with_columns(sheet=pl.lit(name)) 
    for name, df in dcty.items()
])

# 打印结果
print(combined_df)

运行上述代码将产生预期的输出:

shape: (4, 3)
┌──────┬──────┬───────┐
│ col1 ┆ col2 ┆ sheet │
│ ---  ┆ ---  ┆ ---   │
│ i64  ┆ str  ┆ str   │
╞══════╪══════╪═══════╡
│ 1    ┆ a    ┆ df1   │
│ 2    ┆ b    ┆ df1   │
│ 3    ┆ c    ┆ df2   │
│ 4    ┆ d    ┆ df2   │
└──────┴──────┴───────┘

注意事项与最佳实践

  • 列名一致性: 进行垂直合并时,建议所有待合并的数据框具有相同的列名和兼容的数据类型。如果列名不一致,pl.concat 会自动填充 null 值以对齐列。如果数据类型不兼容,Polars 会尝试进行类型推断或强制转换,这可能导致意外的结果或错误。
  • 性能: 这种基于列表推导式和 pl.concat 的方法在 Polars 中是高效且惯用的。Polars 内部会优化这些操作,尤其是在处理大量数据时,其性能通常优于传统的循环追加方法。
  • 灵活性: with_columns 方法非常灵活,你不仅可以添加源名称,还可以在合并前对每个数据框执行其他预处理操作,例如重命名列、过滤行等。
  • pl.lit() 的作用: pl.lit() 是一个关键函数,它将一个 Python 值转换为 Polars 表达式,确保该值在整个新列中被广播(重复)到每一行。

总结

本教程展示了在 Polars 中如何优雅地将一个数据框字典合并为一个单一的数据框,并在此过程中保留原始数据框的名称作为新列。通过利用列表推导式、DataFrame.with_columns() 和 pl.lit() 函数,我们能够构建出既简洁又高效的代码,完美解决了在数据整合场景中追踪数据来源的常见需求。掌握这种模式对于 Polars 用户来说至关重要,它能够帮助你更有效地组织和分析复杂数据集。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

718

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

627

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

744

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1236

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

700

2023.08.11

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 10.3万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号