0

0

使用 Pandas Rolling 函数高效生成基于状态列的 Flag

心靈之曲

心靈之曲

发布时间:2025-08-20 18:34:11

|

612人浏览过

|

来源于php中文网

原创

使用 pandas rolling 函数高效生成基于状态列的 flag

本文旨在提供一种使用 Pandas 的 groupby.rolling 函数,根据连续期间的状态列高效生成 Flag 的方法。针对大数据集,该方法避免了低效的循环,显著提升了性能。文章将详细介绍该函数的用法,并提供示例代码,帮助读者理解如何在实际应用中运用此方法。

在处理时间序列数据时,经常需要根据一段时间内的状态来标记数据。例如,我们需要根据未来或过去12个月内的状态,来标记当前状态。如果使用循环遍历的方法,在大数据集上效率会非常低。Pandas 提供的 groupby.rolling 函数可以高效地解决这类问题。

groupby.rolling 函数介绍

groupby.rolling 函数是 Pandas 中一个强大的工具,它允许我们在分组数据上进行滚动窗口计算。其基本用法如下:

df.groupby('grouping_column')['column_to_roll'].rolling(window=window_size, min_periods=min_periods, ...).aggregate_function()
  • grouping_column: 用于分组的列名。
  • column_to_roll: 需要进行滚动计算的列名。
  • window: 窗口大小,即滚动计算的期间长度。
  • min_periods: 窗口内至少需要多少个非缺失值才能进行计算。
  • aggregate_function: 聚合函数,如 sum, max, min, mean 等。

示例:基于未来 12 个月状态生成 Flag

假设我们有如下 DataFrame,需要根据未来 12 个月内 status 列是否出现 1 来生成 Flag 列:

import pandas as pd
import numpy as np

data = {'ID': ['A'] * 13,
        'Period': ['2020-10-28', '2020-11-28', '2020-12-28', '2021-01-28', '2021-02-28', '2021-03-28',
                   '2021-04-28', '2021-05-28', '2021-06-28', '2021-07-28', '2021-08-28', '2021-09-28',
                   '2021-10-28'],
        'status': [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]}
df = pd.DataFrame(data)
print(df)

使用 groupby.rolling 函数的实现代码如下:

网页制作与PHP语言应用
网页制作与PHP语言应用

图书《网页制作与PHP语言应用》,由武汉大学出版社于2006出版,该书为普通高等院校网络传播系列教材之一,主要阐述了网页制作的基础知识与实践,以及PHP语言在网络传播中的应用。该书内容涉及:HTML基础知识、PHP的基本语法、PHP程序中的常用函数、数据库软件MySQL的基本操作、网页加密和身份验证、动态生成图像、MySQL与多媒体素材库的建设等。

下载
df['Flag'] = (df
      .assign(Period=pd.to_datetime(df['Period']).dt.to_period('M'))
      [::-1]
      .groupby('ID').rolling(12, on='Period', min_periods=1)
      ['status'].max()[::-1].to_numpy()
)

print(df)

代码解释:

  1. df.assign(Period=pd.to_datetime(df['Period']).dt.to_period('M')): 将 'Period' 列转换为 Pandas Period 类型,方便进行滚动计算。
  2. [::-1]: 将 DataFrame 反转,因为我们需要考虑未来 12 个月的数据。
  3. groupby('ID').rolling(12, on='Period', min_periods=1): 按 'ID' 分组,并在 'Period' 列上进行滚动计算,窗口大小为 12 个月,最小周期为 1。
  4. ['status'].max(): 计算窗口内 status 列的最大值,如果窗口内存在 1,则最大值为 1,否则为 0。
  5. [::-1].to_numpy(): 再次反转结果,使其与原始 DataFrame 的顺序一致,并转换为 NumPy 数组。

示例:基于过去 12 个月状态生成 Flag

如果需要根据过去 12 个月内 status 列是否出现 1 来生成 Flag 列,可以使用如下代码:

df['Flag'] = (df
      .assign(Period=pd.to_datetime(df['Period']).dt.to_period('M'))
      .set_index('Period')
      [::-1]
      .groupby('ID')['status']
      .transform(lambda g: g.rolling(12, min_periods=1)
                            .max().shift(fill_value=0)
                 )
      .to_numpy()[::-1]
)

print(df)

代码解释:

  1. df.assign(Period=pd.to_datetime(df['Period']).dt.to_period('M')): 将 'Period' 列转换为 Pandas Period 类型,方便进行滚动计算。
  2. .set_index('Period'): 将'Period'列设置为索引。
  3. [::-1]: 将 DataFrame 反转,因为我们需要考虑过去 12 个月的数据。
  4. groupby('ID')['status'].transform(lambda g: g.rolling(12, min_periods=1).max().shift(fill_value=0)): 按 'ID' 分组,并在 'status' 列上进行滚动计算,窗口大小为 12 个月,最小周期为 1。使用transform方法将滚动计算的结果应用到每一行。 .shift(fill_value=0)将结果向下移动一位,并将第一行的值填充为0,保证了只考虑过去的period。
  5. to_numpy()[::-1]: 转换为 NumPy 数组并再次反转结果,使其与原始 DataFrame 的顺序一致。

注意事项

  • 确保 Period 列的格式正确,可以使用 pd.to_datetime 函数将其转换为日期类型。
  • 根据实际需求调整窗口大小 window 和最小周期 min_periods。
  • groupby.rolling 函数在处理大数据集时效率很高,但仍需根据实际情况进行性能测试。

总结

使用 Pandas 的 groupby.rolling 函数可以高效地根据连续期间的状态列生成 Flag,避免了低效的循环,显著提升了性能。通过本文的介绍和示例代码,相信读者能够掌握该函数的用法,并在实际应用中灵活运用。这种方法尤其适用于处理具有时间序列特征的大数据集,能够显著提高数据处理的效率。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

201

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

187

2025.11.08

ip地址修改教程大全
ip地址修改教程大全

本专题整合了ip地址修改教程大全,阅读下面的文章自行寻找合适的解决教程。

35

2025.12.26

压缩文件加密教程汇总
压缩文件加密教程汇总

本专题整合了压缩文件加密教程,阅读专题下面的文章了解更多详细教程。

18

2025.12.26

wifi无ip分配
wifi无ip分配

本专题整合了wifi无ip分配相关教程,阅读专题下面的文章了解更多详细教程。

46

2025.12.26

漫蛙漫画入口网址
漫蛙漫画入口网址

本专题整合了漫蛙入口网址大全,阅读下面的文章领取更多入口。

94

2025.12.26

b站看视频入口合集
b站看视频入口合集

本专题整合了b站哔哩哔哩相关入口合集,阅读下面的文章查看更多入口。

289

2025.12.26

俄罗斯搜索引擎yandex入口汇总
俄罗斯搜索引擎yandex入口汇总

本专题整合了俄罗斯搜索引擎yandex相关入口合集,阅读下面的文章查看更多入口。

372

2025.12.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.8万人学习

ASP 教程
ASP 教程

共34课时 | 2.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号