
本文介绍如何利用 pandas 内置的 `pivot()` 方法,将某列(如 class)中的唯一值动态转化为列名,并将对应另一列(如 rank)的值填充到新结构中,实现“长表→宽表”的高效重塑。
在数据处理中,常需将“长格式”(long format)表格转换为“宽格式”(wide format),例如将类别变量(如学科名称)作为列标题,而将对应的指标值(如排名)填入单元格。Pandas 提供了简洁高效的 DataFrame.pivot() 方法专门解决此类问题。
核心逻辑是:指定一个行索引列(index)、一个新列名来源列(columns)和一个填充值列(values)。以示例数据为例:
import pandas as pd
df = pd.DataFrame({
'Name': ['Karl', 'George', 'Karl', 'George', 'Rex', 'Rex'],
'Class': ['Math', 'English', 'English', 'Math', 'Math', 'English'],
'Rank': [1, 1, 2, 3, 2, 3]
})
# 执行透视变换
result = df.pivot(index='Name', columns='Class', values='Rank').reset_index()
result.columns.name = None # 清除列层级名称(避免输出中出现 "Class" 标题)
print(result)输出结果为:
Name English Math 0 George 1 3 1 Karl 2 1 2 Rex 3 2
⚠️ 注意事项:
- pivot() 要求 (index, columns) 组合必须唯一,否则会报 ValueError: Index contains duplicate entries。若存在重复组合(如同一人同一学科有多条 Rank 记录),应先用 pivot_table() 替代,并指定聚合函数(如 aggfunc='first' 或 'mean')。
- 默认生成的列具有 MultiIndex 结构,.columns.name = None 可清除顶部冗余标签;如需固定列顺序(如 ['Name', 'Math', 'English']),可显式重排:result = result[['Name', 'Math', 'English']]。
- 若需按姓名排序,可在 .reset_index() 后添加 .sort_values('Name').reset_index(drop=True)。
该方法无需循环或手动分组,代码简洁、性能优异,是 Pandas 数据重塑的标准实践。










