Pandas DataFrame高效查找：优化列表元素在列中的存在性检查

碧海醫心

发布时间：2025-11-02 13:47:19

534人浏览过

来源于php中文网

原创

Pandas DataFrame高效查找：优化列表元素在列中的存在性检查

本教程旨在解决在pandas dataframe中高效查找列表元素是否存在于某一列的问题。通过对比低效的嵌套循环方案与pandas提供的向量化操作，文章详细介绍了如何利用`in`操作符进行精确匹配，以及如何使用`str.contains()`等方法进行子字符串匹配。旨在指导读者采用更简洁、性能更优的代码，避免常见的迭代陷阱，从而显著提升数据处理效率。

引言：DataFrame中元素查找的挑战

在数据分析和处理过程中，我们经常需要检查一个给定列表中的元素是否出现在Pandas DataFrame的某一特定列中。例如，你可能有一个包含多个关键词的列表，需要找出DataFrame中哪些行包含了这些关键词。直观的解决方案往往是使用嵌套循环，但这在处理大型数据集时会导致性能瓶颈，代码执行效率低下。本教程将深入探讨如何利用Pandas的强大功能，以更高效、更“Pythonic”的方式解决这一问题。

低效的循环遍历方案

许多初学者在面对此类问题时，会自然地想到使用Python的for循环结合Pandas的iterrows()方法来逐行检查。然而，iterrows()本身就不是为高性能迭代设计的，因为它会为每一行生成一个Series对象，这涉及到额外的开销。当内部循环还需要进行字符串匹配（如子字符串查找）时，效率问题会更加突出。

考虑以下示例代码，它尝试计算每个流派的总播放量：

import pandas as pd

# 示例数据
spotify_data = pd.DataFrame({
    'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
    'Streams': [1000, 500, 800, 1200, 700]
})
genre_names = ['Pop', 'Rock'] # 需要查找的流派列表

streams_on_genre_inefficient = []
for genre in genre_names:
    streams = 0
    for index, row in spotify_data.iterrows():
        # 这里的 'in' 操作符是进行子字符串查找
        if genre in row['Genre']:
            streams += row['Streams']
    streams_on_genre_inefficient.append(streams)

print(f"低效方案计算结果: {streams_on_genre_inefficient}")
# 预期输出: [1800, 2200] (Pop出现在'Pop;Rock'和'Classical;Pop'中, Rock出现在'Pop;Rock'和'Rock'中)

这段代码的性能问题在于：

外部循环：遍历genre_names列表。
内部循环：spotify_data.iterrows()逐行迭代DataFrame，对于N行数据，会执行N次。
字符串查找：if genre in row['Genre']在每次内部循环中进行字符串子串匹配。

这导致了O(M N L)的近似时间复杂度，其中M是genre_names的长度，N是DataFrame的行数，L是Genre列中字符串的平均长度。在大数据量下，这种方法会变得非常慢。

高效的精确匹配：使用in操作符

如果你的需求是检查一个元素是否精确地存在于DataFrame Series的values（底层NumPy数组）中，那么可以直接使用Python的in操作符。这种方法利用了底层优化的数据结构，通常比手动遍历要快得多。

import pandas as pd

data = {'a': [1, 2, 3], 'b': [4, 5, 6], 'c':['apple','orange','banana']}
df = pd.DataFrame(data)

print(f"5 是否在 df['b'].values 中？ {5 in df['b'].values}")
print(f"'pear' 是否在 df['c'].values 中？ {'pear' in df['c'].values}")
print(f"'apple' 是否在 df['c'].values 中？ {'apple' in df['c'].values}")

输出示例:

5 是否在 df['b'].values 中？ True
'pear' 是否在 df['c'].values 中？ False
'apple' 是否在 df['c'].values 中？ True

注意事项：

此方法仅适用于精确匹配。它会检查整个元素是否相等，而不是作为子字符串存在。
使用.values访问底层NumPy数组通常比直接在Series上使用in操作符更高效，因为Series的in操作符会检查索引和值。

高效的子字符串匹配：利用Series.str.contains()

在原始问题中，if genre in row['Genre']实际上是进行子字符串查找。对于这类需求，Pandas提供了强大的Series.str访问器，其中str.contains()方法是进行模式匹配的理想选择。它支持正则表达式，并且是完全向量化的，这意味着它在C语言级别执行操作，效率远高于Python循环。

Lifetoon

免费的AI漫画创作平台

下载

1. 检查单个子字符串是否存在

# 示例数据 (同上)
# spotify_data = pd.DataFrame({
#     'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
#     'Streams': [1000, 500, 800, 1200, 700]
# })

# 检查 'Pop' 是否作为子字符串存在于 Genre 列中
contains_pop = spotify_data['Genre'].str.contains('Pop', case=False, na=False)
print("\nGenre 列中包含 'Pop' 的行 (忽略大小写):")
print(spotify_data[contains_pop])

case=False表示忽略大小写，na=False表示将NaN值视为不包含模式。

2. 检查列表中任意一个子字符串是否存在

如果你想检查DataFrame列中的值是否包含genre_names列表中的任意一个元素，可以构建一个正则表达式模式，使用|（或）操作符。

genres_to_find = ['Pop', 'Rock']
# 构建正则表达式模式，例如 'Pop|Rock'
pattern = '|'.join(genres_to_find)

matching_rows = spotify_data['Genre'].str.contains(pattern, case=False, na=False)
print(f"\nGenre 列中包含 '{pattern}' 中任一元素的行:")
print(spotify_data[matching_rows])

结合子字符串匹配与数据聚合：重构原始需求

回到用户最初的需求：计算每个特定genre的总Streams。我们可以利用str.contains()的向量化能力，结合Pandas的条件筛选和聚合功能来高效实现。

# 示例数据和流派列表 (同上)
# spotify_data = pd.DataFrame({
#     'Genre': ['Pop;Rock', 'Jazz', 'Classical;Pop', 'Rock', 'Electronic'],
#     'Streams': [1000, 500, 800, 1200, 700]
# })
# genre_names = ['Pop', 'Rock']

streams_on_genre_vectorized_list = []
for genre in genre_names:
    # 使用str.contains进行向量化查找，返回一个布尔Series
    is_genre_present = spotify_data['Genre'].str.contains(genre, case=False, na=False)

    # 使用布尔Series进行条件筛选，然后对 'Streams' 列求和
    streams = spotify_data.loc[is_genre_present, 'Streams'].sum()
    streams_on_genre_vectorized_list.append(streams)

print(f"\n更高效的向量化方案计算结果 (列表): {streams_on_genre_vectorized_list}")

输出示例:

更高效的向量化方案计算结果 (列表): [1800, 2200]

这种方法避免了显式的Python循环遍历DataFrame的每一行，而是将字符串匹配和求和操作推送到Pandas的底层优化实现中，从而显著提升了性能。

总结与最佳实践

在Pandas DataFrame中进行元素查找时，请牢记以下最佳实践：

避免显式循环：尽量不要使用for index, row in df.iterrows():或df.apply(lambda row: ...)等逐行迭代的方式，尤其是在大数据集上。它们通常效率低下。
利用向量化操作：Pandas提供了大量高度优化的向量化方法，如Series.str访问器中的contains(), startswith(), endswith(), match()等，以及Series.isin()等。它们能够以C语言的速度执行操作。
区分精确匹配与子字符串匹配：
- 对于精确匹配单个元素是否存在于Series的values中，使用element in series.values。
- 对于精确匹配Series中的多个元素是否在另一个列表中，使用series.isin(list_of_elements)。
- 对于子字符串匹配，使用series.str.contains(pattern)。
构建高效模式：当查找多个子字符串时，通过'|'.join(list_of_strings)构建正则表达式模式，可以一次性完成多个条件的匹配。