0

0

如何使用Pandas将行数据转换为列数据

花韻仙語

花韻仙語

发布时间:2025-11-19 13:15:41

|

245人浏览过

|

来源于php中文网

原创

如何使用pandas将行数据转换为列数据

本文详细介绍了如何利用Pandas库中的`pivot`函数,将包含多行页面级别信息的原始数据高效地重塑为以列形式展示页面数据的结构。通过指定索引、列和值参数,结合`add_prefix`、`reset_index`和`rename_axis`等方法,可以实现将特定行数据转置为新列,并自定义列名,从而优化数据分析和可视化。

数据重塑:将行级信息转换为列级展示

在数据分析实践中,我们经常会遇到需要将数据从“长格式”转换为“宽格式”的场景,即把某些具有分类属性的行数据转置为独立的列。一个典型的例子是,当一份报告的页面信息以多行形式存储时,我们可能希望将每个页面的数据作为单独的列来展示,以便于按报告整体进行分析。Pandas库提供了强大的工具来实现这种数据重塑,其中pivot函数是解决此类问题的核心。

原始数据结构示例

假设我们有一份包含公司年度报告页面级别信息的数据集。每行代表一个特定公司、年份和报告页码的某个值。

import pandas as pd

data = {
    'FIRM': ['A', 'A', 'B', 'B'],
    'YEAR': [2012, 2012, 2013, 2013],
    'Report Page': [1, 2, 1, 2],
    'Value1': [10, 15, 20, 25]
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出的DataFrame如下所示:

原始DataFrame:
  FIRM  YEAR  Report Page  Value1
0    A  2012            1       10
1    A  2012            2       15
2    B  2013            1       20
3    B  2013            2       25

我们的目标是将每个报告页(Report Page)的Value1数据转置为独立的列,并以FIRM和YEAR作为唯一标识,最终得到类似Value1_Page1、Value1_Page2这样的新列。

使用 pandas.pivot 进行数据重塑

pandas.pivot 函数是实现这一目标的关键。它允许我们通过指定三个核心参数来重塑DataFrame:

  • index: 用于作为新DataFrame索引的一个或多个列名。
  • columns: 用于作为新DataFrame列名的一个或多个列名。
  • values: 用于填充新DataFrame值的列名。

结合上述参数,我们可以将Report Page列的值转换为新的列名,并将Value1列的值填充到这些新列中。

以下是实现所需转换的完整步骤及代码:

ViaooChain 维奥连锁招商网站系统
ViaooChain 维奥连锁招商网站系统

网站功能资讯模块资料模块会员模块产品展示模块产品订购模块购物车模块留言模块在线加盟模块多级后台管理系统网站环境本系统为 asp.net开发donet版本为1.1框架数据库为acdess2000授权方式为免费,本版本本地可直接运行(使用http://localhost或http://127.0.0.1访问)如需放到外网通过域名访问,则需通过qq联系我免费索取钥匙文件,将钥匙文件放到网站空间根目录即可

下载
# 1. 使用 pivot 函数进行数据重塑
#    - index: 保持 'FIRM' 和 'YEAR' 作为行标识
#    - columns: 将 'Report Page' 的值作为新的列名
#    - values: 'Value1' 列的值将填充到新创建的列中
df_pivoted = df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1')

# 2. 为新生成的列添加前缀
#    pivot操作后,新列名将是 'Report Page' 列的原始值 (例如 1, 2)。
#    使用 add_prefix('Value1_Page') 为这些列名添加统一的前缀,
#    使其更具描述性,如 'Value1_Page1', 'Value1_Page2'。
df_pivoted = df_pivoted.add_prefix('Value1_Page')

# 3. 重置索引
#    pivot操作会将 'FIRM' 和 'YEAR' 设置为DataFrame的索引。
#    使用 reset_index() 将它们转换回常规列。
df_pivoted = df_pivoted.reset_index()

# 4. 清理列轴名称 (可选但推荐)
#    reset_index() 可能会在列轴上留下一个名为 'Report Page' 的名称。
#    使用 rename_axis(None, axis=1) 可以移除这个名称,使DataFrame更整洁。
df_final = df_pivoted.rename_axis(None, axis=1)

print("\n重塑后的DataFrame:")
print(df_final)

输出结果:

重塑后的DataFrame:
  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

代码详解

  • df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1'):

    • index=['FIRM', 'YEAR']:指定了新的DataFrame的行索引将由FIRM和YEAR这两列的唯一组合构成。
    • columns='Report Page':指定了新的DataFrame的列名将由Report Page列中的唯一值构成。
    • values='Value1':指定了新DataFrame中每个单元格的值将取自原始DataFrame的Value1列。
    • 此步骤的直接结果是一个带有FIRM和YEAR作为多级索引,以及Report Page值作为列名(例如1和2)的DataFrame。
  • .add_prefix('Value1_Page'):

    • 在pivot操作之后,新生成的列名是Report Page列的原始值(例如 1, 2)。为了使列名更具描述性,我们使用add_prefix()方法为所有新列名添加'Value1_Page'前缀,将它们变为'Value1_Page1'和'Value1_Page2'。
  • .reset_index():

    • pivot操作会将index参数中指定的列(FIRM和YEAR)设置为DataFrame的索引。reset_index()方法的作用是将这些索引转换回常规的列。
  • .rename_axis(None, axis=1):

    • 在reset_index()之后,列轴本身可能会保留一个名称(在本例中可能是Report Page,因为它是columns参数的来源)。rename_axis(None, axis=1)用于移除这个列轴的名称,使DataFrame的结构更加简洁和标准。axis=1明确指定是对列轴进行操作。

注意事项

  1. 唯一性要求: pivot函数要求index和columns参数的组合必须是唯一的。如果存在重复的组合,Pandas将无法确定在特定行和列交叉点应该放置哪个值,并会抛出ValueError。在这种情况下,通常需要考虑使用pivot_table函数,它允许通过聚合函数(如mean、sum等)来处理重复值。
  2. 缺失值处理: 如果某些报告没有某个特定的页面(例如,公司A只有Page1而没有Page2),pivot函数会自动在对应的位置填充NaN(Not a Number),表示缺失数据。
  3. 多值列处理: 如果原始数据中有多个需要转置的值列,pivot函数也可以处理。只需将values参数传入一个列表,例如values=['Value1', 'Value2'],结果将是一个多级列索引的DataFrame。

通过上述步骤,我们可以灵活高效地将行级数据转换为列级展示,极大地提升了数据的可读性和分析效率。pandas.pivot是数据科学家和分析师在进行数据清洗和准备时不可或缺的强大工具。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

529

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

6

2025.12.22

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

529

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

6

2025.12.22

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

454

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

264

2023.08.07

网站建设功能有哪些
网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站,实现网站的目标。

718

2023.10.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.1万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号