
本文介绍了如何使用 Pandas 的 groupby 功能来从 DataFrame 中选择每个类别的前 N 行(在本例中为前 3 行)。 这在需要对分组数据进行筛选或保留每个组中最重要的数据时非常有用。我们将提供一个代码示例,演示如何实现此目标,并解释其背后的原理。
使用 groupby 和 head 选择每个类别的前 N 行
Pandas 提供了强大的 groupby 功能,允许你根据 DataFrame 中的一个或多个列对数据进行分组。结合 groupby 和 head 函数,可以轻松地选择每个组的前 N 行。
以下是如何使用 Pandas 实现此目标的代码示例:
import pandas as pd
data = [['Tom', 'A', 10], ['Jack', 'A', 9], ['Andy', 'A', 8],
['Lily', 'A', 7], ['Johan', 'B', 10], ['Ewa', 'B', 9]]
df = pd.DataFrame(data, columns=['Name', 'Category', 'Score'])
top3_category = df.groupby('Category').head(3)
print(top3_category)代码解释:
- 导入 Pandas: 首先,导入 Pandas 库,它提供了 DataFrame 数据结构和相关功能。
- 创建 DataFrame: 创建一个示例 DataFrame,其中包含 'Name'、'Category' 和 'Score' 列。
-
使用 groupby 和 head:
- df.groupby('Category'):这行代码根据 'Category' 列对 DataFrame 进行分组。这意味着所有具有相同 'Category' 值的行将被组合在一起。
- .head(3):这行代码应用于每个组。 head(3) 函数选择每个组的前 3 行。如果某个组的行数少于 3 行,则选择该组的所有行。
- 打印结果: 最后,打印 top3_category DataFrame,其中包含每个类别的前 3 行(或更少,如果某个类别的行数少于 3 行)。
输出结果:
Name Category Score 0 Tom A 10 1 Jack A 9 2 Andy A 8 4 Johan B 10 5 Ewa B 9
正如你所看到的,输出结果包含了类别 'A' 的前 3 行和类别 'B' 的所有行(因为类别 'B' 只有 2 行)。
注意事项:
- groupby 函数返回一个 GroupBy 对象,该对象允许你对每个组应用各种操作。
- head(n) 函数选择每个组的前 n 行。
- 如果你的数据需要排序,确保在 groupby 之前进行排序,例如使用 df.sort_values(by=['Category', 'Score'], ascending=[True, False])。
总结:
使用 Pandas 的 groupby 和 head 函数可以轻松地从 DataFrame 中选择每个类别的前 N 行。这是一种非常有用的技术,可以用于数据清理、特征工程和数据分析等多种场景。通过理解 groupby 的工作原理,你可以更有效地处理和分析分组数据。










