0

0

高效 Pandas 数据聚合:计算分组百分比利用率

花韻仙語

花韻仙語

发布时间:2025-09-04 20:14:01

|

200人浏览过

|

来源于php中文网

原创

高效 pandas 数据聚合:计算分组百分比利用率

本文旨在介绍如何使用 Pandas 库高效地对 DataFrame 进行分组聚合,并计算特定指标的百分比利用率。通过 groupby() 和 transform() 方法,避免使用低效的 apply() 函数,实现更快速、简洁的数据处理。我们将以计算设备带宽利用率为例,演示具体操作步骤和代码示例。

使用 Pandas 进行高效分组聚合和百分比计算

Pandas 提供了强大的数据处理功能,其中分组聚合是数据分析中常用的操作。当需要计算每个分组内的特定指标的百分比时,可以使用 groupby() 和 transform() 方法高效地实现。本文将详细介绍如何使用这些方法,并避免使用效率较低的 apply() 函数。

数据准备

首先,我们需要创建一个 Pandas DataFrame 作为示例数据。以下代码创建了一个包含设备名称、接口信息、输入输出流量和带宽使用情况的 DataFrame:

import pandas as pd

data = {'Device': ['Usa123', 'Usa123', 'Emea01', 'Emea01'],
        'int': ['Eth1', 'Eth0', 'Wan1', 'Eth3'],
        'In': [1000, 10000, 1000, 2000],
        'Out': [500, 700, 500, 1000],
        'Bw_in': [100, 200, 150, 200],
        'Bw_out': [75, 80, 90, 70]}

df = pd.DataFrame(data)

print(df)

输出:

云点滴客户关系管理CRM OA系统
云点滴客户关系管理CRM OA系统

云点滴客户解决方案是针对中小企业量身制定的具有简单易用、功能强大、永久免费使用、终身升级维护的智能化客户解决方案。依托功能强大、安全稳定的阿里云平 台,性价比高、扩展性好、安全性高、稳定性好。高内聚低耦合的模块化设计,使得每个模块最大限度的满足需求,相关模块的组合能满足用户的一系列要求。简单 易用的云备份使得用户随时随地简单、安全、可靠的备份客户信息。功能强大的报表统计使得用户大数据分析变的简单,

下载
  Device   int     In   Out  Bw_in  Bw_out
0  Usa123  Eth1   1000   500    100      75
1  Usa123  Eth0  10000   700    200      80
2  Emea01  Wan1   1000   500    150      90
3  Emea01  Eth3   2000  1000    200      70

计算分组百分比利用率

我们的目标是计算每个设备的输入和输出带宽利用率,即 Bw_in / In 和 Bw_out / Out 的总和,并将其添加到 DataFrame 中。可以使用以下代码实现:

g = df.groupby("Device")

df[["%InUsage", "%OutUsage"]] = (
    g[["Bw_in", "Bw_out"]].transform("sum")
    / g[["In", "Out"]].transform("sum").to_numpy()
)
print(df)

输出:

  Device   int     In   Out  Bw_in  Bw_out  %InUsage  %OutUsage
0  Usa123  Eth1   1000   500    100      75  0.027273   0.129167
1  Usa123  Eth0  10000   700    200      80  0.027273   0.129167
2  Emea01  Wan1   1000   500    150      90  0.116667   0.106667
3  Emea01  Eth3   2000  1000    200      70  0.116667   0.106667

代码解释:

  1. df.groupby("Device"): 按照 "Device" 列进行分组,创建一个 DataFrameGroupBy 对象。
  2. g[["Bw_in", "Bw_out"]].transform("sum"): 对每个分组内的 "Bw_in" 和 "Bw_out" 列分别求和。transform("sum") 方法会将求和结果广播到每个分组内的每一行,保持 DataFrame 的原始形状。
  3. g[["In", "Out"]].transform("sum"): 类似地,对每个分组内的 "In" 和 "Out" 列分别求和,并将结果广播到每一行。
  4. .to_numpy(): 将 g[["In", "Out"]].transform("sum") 转换为 NumPy 数组,以便进行广播除法。
  5. /: 将带宽使用总和除以总流量,计算百分比利用率。
  6. df[["%InUsage", "%OutUsage"]] = ...: 将计算结果赋值给 DataFrame 的新列 "%InUsage" 和 "%OutUsage"。

避免使用 apply()

虽然可以使用 apply() 函数实现相同的功能,但 transform() 方法通常更高效,因为它利用了 Pandas 的内部优化。apply() 函数通常在循环中逐行或逐列应用函数,而 transform() 方法可以对整个分组进行批量操作。

以下是使用 apply() 的示例代码(不推荐):

# 不推荐使用
def calculate_usage(x):
    in_usage = x['Bw_in'].sum() / x['In'].sum()
    out_usage = x['Bw_out'].sum() / x['Out'].sum()
    return pd.Series({'%InUsage': in_usage, '%OutUsage': out_usage})

df[['%InUsage', '%OutUsage']] = df.groupby('Device').apply(calculate_usage)

总结

本文介绍了如何使用 Pandas 库高效地进行分组聚合,并计算特定指标的百分比利用率。通过 groupby() 和 transform() 方法,可以避免使用低效的 apply() 函数,实现更快速、简洁的数据处理。 transform() 方法的优势在于它可以将聚合结果广播到每个分组内的每一行,从而避免了显式循环,提高了代码效率。 在处理大型数据集时,这种优化尤为重要。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

硬盘接口类型介绍
硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍:1、IDE接口是一种并行接口,主要用于连接硬盘和光驱等设备,它主要有两种类型:ATA和ATAPI,IDE接口已经逐渐被SATA接口;2、SATA接口是一种串行接口,相较于IDE接口,它具有更高的传输速度、更低的功耗和更小的体积;3、SCSI接口等等。

1015

2023.10.19

PHP接口编写教程
PHP接口编写教程

本专题整合了PHP接口编写教程,阅读专题下面的文章了解更多详细内容。

62

2025.10.17

php8.4实现接口限流的教程
php8.4实现接口限流的教程

PHP8.4本身不内置限流功能,需借助Redis(令牌桶)或Swoole(漏桶)实现;文件锁因I/O瓶颈、无跨机共享、秒级精度等缺陷不适用高并发场景。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

379

2025.12.29

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

462

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

275

2023.08.07

网站建设功能有哪些
网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站,实现网站的目标。

724

2023.10.16

数据分析网站推荐
数据分析网站推荐

数据分析网站推荐:1、商业数据分析论坛;2、人大经济论坛-计量经济学与统计区;3、中国统计论坛;4、数据挖掘学习交流论坛;5、数据分析论坛;6、网站数据分析;7、数据分析;8、数据挖掘研究院;9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容,可以阅读本专题下面的文章。

502

2024.03.13

PHP 表单处理与文件上传安全实战
PHP 表单处理与文件上传安全实战

本专题聚焦 PHP 在表单处理与文件上传场景中的实战与安全问题,系统讲解表单数据获取与校验、XSS 与 CSRF 防护、文件类型与大小限制、上传目录安全配置、恶意文件识别以及常见安全漏洞的防范策略。通过贴近真实业务的案例,帮助学习者掌握 安全、规范地处理用户输入与文件上传的完整开发流程。

1

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 45.1万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号