Pandas DataFrame周期性序列拆分教程：两种高效方法解析

聖光之護

发布时间：2025-10-13 11:47:12

632人浏览过

来源于php中文网

原创

Pandas DataFrame周期性序列拆分教程：两种高效方法解析

本教程详细介绍了如何将pandas dataframe根据重复的序列模式进行拆分，例如将公交线路的连续停靠站数据拆分为独立的行程。文章提供了两种主要方法：一种是利用groupby结合cumsum实现灵活拆分，适用于周期长度不固定的情况；另一种是使用numpy.array_split进行固定长度拆分，适用于周期结构一致的场景，并附有详细代码示例与应用建议。

在处理时间序列或顺序数据时，我们经常会遇到需要将一个大型数据集根据其中重复出现的特定模式（或“周期”）拆分为多个独立的子数据集的需求。例如，公交线路一天的停靠站数据可能包含多次往返行程，每个行程都遵循相同的停靠站顺序。本教程将展示如何利用Pandas和NumPy库高效地实现这种周期性拆分。

我们以一个公交线路停靠站的示例数据为例，该数据记录了某一线路在一天内的计划停靠时间及站点。目标是根据站点序列的重复模式，将整个DataFrame拆分成代表独立行程的子DataFrame。

首先，创建示例数据：

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "scheduled": ["2023-05-25 13:00", "2023-05-25 13:15", "2023-05-25 13:45",
                  "2023-05-25 14:35", "2023-05-25 14:50", "2023-05-25 15:20"],
    "stop": ["A", "B", "C", "A", "B", "C"]
})
df["scheduled"] = pd.to_datetime(df["scheduled"])

print("原始DataFrame:")
print(df)

输出的原始DataFrame如下：

原始DataFrame:
            scheduled stop
0 2023-05-25 13:00:00    A
1 2023-05-25 13:15:00    B
2 2023-05-25 13:45:00    C
3 2023-05-25 14:35:00    A
4 2023-05-25 14:50:00    B
5 2023-05-25 15:20:00    C

可以看到，stop列呈现 A->B->C 的重复模式，我们需要将其拆分为两个独立的行程。

方法一：基于groupby和cumsum的灵活拆分

这种方法适用于周期序列的长度可能不固定，或者我们希望通过识别每个周期的起始点来定义拆分的情况。它的核心思想是：识别出每个新周期的开始，并为每个周期分配一个唯一的组ID，然后利用Pandas的groupby功能进行拆分。

实现原理

识别周期起始点：我们假设每个周期都以相同的第一个站点开始。通过比较stop列的当前值是否等于整个序列的第一个站点，可以得到一个布尔序列，True表示一个新周期的开始。
生成周期ID：对这个布尔序列应用cumsum()（累积求和），每次遇到True时，累积和就会增加1。这样，同一个周期内的所有行都会被分配相同的累积和值，从而形成一个唯一的组ID。
执行分组：使用DataFrame.groupby()方法根据生成的组ID进行分组，并通过列表推导式提取每个组为一个独立的子DataFrame。

示例代码

# 1. 识别周期起始点并生成组ID
# df['stop'].iloc[0] 获取第一个停靠站，例如 'A'
# df['stop'].eq(df['stop'].iloc[0]) 找出所有等于 'A' 的行，返回布尔Series
# .cumsum() 将布尔Series转换为累积和，True计为1，False计为0。
# 例如：[T, F, F, T, F, F] -> [1, 1, 1, 2, 2, 2]
group_id = df['stop'].eq(df['stop'].iloc[0]).cumsum()

print("\n生成的组ID:")
print(group_id)

# 2. 根据组ID进行分组并提取子DataFrame
split_dfs_groupby = [g for _, g in df.groupby(group_id)]

print("\n使用groupby和cumsum拆分后的DataFrame列表:")
for i, sub_df in enumerate(split_dfs_groupby):
    print(f"\n子DataFrame {i+1}:")
    print(sub_df)

输出结果

生成的组ID:
0    1
1    1
2    1
3    2
4    2
5    2
Name: stop, dtype: int64

使用groupby和cumsum拆分后的DataFrame列表:

子DataFrame 1:
            scheduled stop
0 2023-05-25 13:00:00    A
1 2023-05-25 13:15:00    B
2 2023-05-25 13:45:00    C

子DataFrame 2:
            scheduled stop
3 2023-05-25 14:35:00    A
4 2023-05-25 14:50:00    B
5 2023-05-25 15:20:00    C

这种方法非常灵活，即使每个行程的停靠站数量（即周期长度）不完全一致，只要能通过识别起始站点来区分周期，它也能正确工作。

方法二：利用numpy.array_split的固定长度拆分

如果我们可以确定每个周期都包含相同数量的唯一元素，并且这些周期是连续且等长的，那么可以使用numpy.array_split方法进行更直接的拆分。这种方法依赖于预先计算出单个周期的长度。

实现原理

计算周期长度：通过DataFrame.nunique()方法，可以计算出stop列中唯一元素的数量，这通常代表了一个完整周期内的不同站点数量。
确定拆分点：基于计算出的周期长度，生成一系列索引点，这些点将作为array_split的拆分位置。
执行拆分：numpy.array_split()函数可以在指定的索引点将数组（或DataFrame）分割成多个子数组（或子DataFrame）。

示例代码

# 1. 计算单个周期的长度（即唯一停靠站的数量）
# 例如，对于 'A', 'B', 'C'，nunique() 将返回 3
cycle_length = df['stop'].nunique()

print(f"\n计算出的周期

相关标签:

numpy pandas

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：在Polars中高效利用列值作为字典键进行数据筛选下一篇：使用Beautiful Soup从网页提取价格时处理HTTP请求错误

作者最新文章

YDB 中如何安全地将动态参数传递给会话池执行的 SQL 查询

2025-12-30 13:46

PHP 中使用 glob() 快速定位并访问指定序号的目录

2025-12-30 13:47

实现两个开关按钮的互斥切换（一个开启时另一个自动关闭）

2025-12-30 13:49

如何在网页中安全地请求并使用文件系统编辑权限

2025-12-30 13:50

一股暴死味《007：初露锋芒》称面向“现代观众”

2025-12-30 13:54

Go 语言构建流程中如何集成额外的编译步骤？

2025-12-30 13:55

新三国志曹操传新年庆典活动速通攻略

2025-12-30 14:04

如何在 Go App Engine 项目中正确使用 go get 安装的外部包

2025-12-30 14:07

Go 中自定义结构体的可读性格式化：实现 Stringer 接口实现优雅打印

2025-12-30 14:08

如何精准固定背景上的可交互元素（如悬浮点击区域）

2025-12-30 14:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.31

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

2025.12.31