Pandas DataFrame中动态文本拼接与正则表达式数据提取教程

心靈之曲

发布时间：2025-09-22 11:17:00

911人浏览过

来源于php中文网

原创

Pandas DataFrame中动态文本拼接与正则表达式数据提取教程

本教程旨在指导用户如何在Pandas DataFrame中高效地进行动态文本拼接，特别是结合正则表达式从现有列中提取特定数据（如数字）并将其融入新的字符串结构。文章将详细介绍使用str.findall结合str索引器、str.extract以及str.replace与反向引用这三种核心方法，并提供代码示例与注意事项，帮助读者根据不同需求选择最佳实践。

在数据处理过程中，我们经常需要根据现有数据生成新的文本字段。例如，从一个包含描述性文本的列中提取特定的数字或字符串片段，然后将其与固定的文本组合，形成一个新的、格式化的文本列。pandas提供了强大的字符串操作功能，结合正则表达式，可以高效地完成这类任务。

1. 准备示例数据

首先，我们创建一个示例DataFrame，其中包含一个名为PROJEKT[BEZEICHNUNG]的列，我们将从该列中提取数字并进行拼接。

import pandas as pd

# 示例数据
data = {
    'PROJEKT[BEZEICHNUNG]': [
        'Project Alpha 8 Beta 4',
        'Task Gamma 8 Delta 5',
        'Stage Epsilon 8 Zeta 5',
        'Initiative Eta 7 Theta 4',
        'Report 9-3',
        'Another 8-4 project',
        'No numbers here' # 包含没有数字的行，用于演示异常处理
    ]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)
print("-" * 40)

2. 使用 str.findall 结合 str 索引器

str.findall(pattern)方法会返回一个Series，其中每个元素是一个列表，包含所有匹配pattern的非重叠字符串。要访问这些列表中的特定元素，我们需要使用Pandas的str索引器。

原理：

df['列名'].str.findall(r'\d+')：这会为每一行返回一个数字字符串的列表。例如，'Project Alpha 8 Beta 4'会变成['8', '4']。
match.str[0]和match.str[1]：这里的.str是Pandas的字符串访问器，它允许我们对Series中的每个列表执行列表操作（如索引）。match.str[0]将获取每个列表的第一个元素，match.str[1]获取第二个。
.fillna('')：如果某个列表为空（即没有匹配到数字）或者索引超出范围，match.str[index]会返回NaN。为了在拼接时避免NaN导致整个结果为NaN，我们使用fillna('')将其替换为空字符串。

示例代码：

Petalica Paint

用AI为你的画自动上色！

下载

# 方法一: 使用 str.findall 结合 str 索引器
print("方法一: 使用 str.findall 结合 str 索引器")

# 1. 提取所有数字序列
match_findall = df['PROJEKT[BEZEICHNUNG]'].str.findall(r'\d+')
# match_findall 的输出示例：
# 0    ['8', '4']
# 1    ['8', '5']
# ...
# 6          []  # 没有匹配到数字的行会得到空列表

# 2. 使用 .str 索引器访问每个列表中的元素，并处理NaN
df['EINGRUPPIERUNG_Method1'] = (
    'P' + match_findall.str[0].fillna('') +
    ' Stufe ' + match_findall.str[1].fillna('')
)

print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method1']])
print("-" * 40)

3. 利用 str.extract 进行结构化提取

str.extract(pattern, expand=True)方法是专门为从字符串中提取结构化数据而设计的。它使用正则表达式中的捕获组（括号()）来提取数据，并直接将其转换为新的DataFrame列。

原理：

df['列名'].str.extract(r'(\d+).*(\d+)', expand=True)：正则表达式(\d+).*(\d+)定义了两个捕获组，分别匹配第一个和第二个数字序列。expand=True（默认值）确保结果是一个DataFrame，其中每个捕获组对应一列。
match_extract[0]和match_extract[1]：直接引用新DataFrame的列（索引为0和1）。
.fillna('')：如果某行没有匹配到正则表达式，str.extract会为对应的捕获组返回NaN。同样需要使用fillna('')进行处理。

示例代码：

# 方法二: 利用 str.extract 进行结构化提取
print("方法二: 利用 str.extract 进行结构化提取")

# 1. 使用正则表达式捕获组直接提取数字
# 正则表达式中的括号 () 定义了捕获组
# expand=True 会将捕获组作为独立的列返回一个DataFrame
match_extract = df['PROJEKT[BEZEICHNUNG]'].str.extract(r'(\d+).*?(\d+)', expand=True)
# match_extract 的输出示例：
#      0    1
# 0    8    4
# 1    8    5
# ...
# 6  NaN  NaN # 没有匹配的行

# 2. 直接拼接DataFrame的列，并处理NaN
df['EINGRUPPIERUNG_Method2'] = (
    'P' + match_extract[0].fillna('') +
    ' Stufe ' + match_extract[1].fillna('')
)

print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method2']])
print("-" * 40)

4. 结合 str.replace 和正则表达式反向引用

str.replace(pattern, repl, regex=True)方法可以根据正则表达式pattern匹配字符串，并用repl字符串替换匹配的部分。在repl中，可以使用反向引用（\1, \2等）来引用pattern中的捕获组。

原理：

df['列名'].str.replace(r'.*?(\d+).*?(\d+).*', r'P\1 Stufe \2', regex=True)：
- .*?(\d+).*?(\d+).*：这个正则表达式尝试匹配整个字符串，捕获第一个和第二个数字序列。.*?是非贪婪匹配，确保尽可能少地匹配字符。
- r'P\1 Stufe \2'：替换字符串，其中\1引用第一个捕获组（第一个数字），\2引用第二个捕获组（第二个数字）。
注意事项： 如果原始字符串不完全匹配pattern，str.replace将不会进行替换，而是保留原始字符串。这与前两种方法在处理无匹配项时的行为不同。

示例代码：

# 方法三: 结合 str.replace 和正则表达式反向引用
print("方法三: 结合 str.replace 和正则表达式反向引用")

# 使用 (.*?) 匹配任意字符，(\d+) 捕获数字
# r'P\1 Stufe \2' 中的 \1 和 \2 引用捕获组
# 注意：如果字符串不匹配整个模式，str.replace不会改变它
df['EINGRUPPIERUNG_Method3'] = df['PROJEKT[BEZEICHNUNG]'].str.replace(
    r'.*?(\d+).*?(\d+).*',
    r'P\1 Stufe \2',
    regex=True
)

# 对于不匹配的行（如'No numbers here'），str.replace会保留原始字符串。
# 如果期望不匹配的行也为空字符串，需要额外处理，例如：
df['EINGRUPPIERUNG_Method3'] = df['EINGRUPPIERUNG_Method3'].where(
    df['EINGRUPPIERUNG_Method3'].str.contains(r'P\d+ Stufe \d+', na=False), # 检查是否包含期望的模式
    '' # 不包含则设置为空字符串
)

print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method3']])
print("-" * 40)

5. 注意事项与最佳实践

处理缺失匹配 (Handling Missing Matches):
- str.findall和str.extract在没有匹配时会产生空列表或NaN。在拼接前，务必使用.fillna('')或.apply(lambda x: x if pd.notna(x) else '')等方法处理这些值，避免最终结果出现NaN。
- str.replace在不匹配时会保留原字符串。如果需要将不匹配的行也转换为空字符串或其他默认值，需要额外的逻辑（如上述示例中的where方法）。
正则表达式的精准性 (Regex Precision): 编写精确的正则表达式至关重要，它直接决定了数据提取的准确性。不当的模式可能导致提取错误或遗漏。
性能考量 (Performance Considerations):
- 对于大型数据集，str.extract通常比str.findall后进行列表索引更高效，因为它直接将捕获组转换为DataFrame列，减少了中间操作。
- str.replace在进行整串替换时也表现良好，尤其是在模式匹配和替换逻辑相对简单时。
expand参数: 在str.extract中，expand=True（默认值）会返回一个DataFrame，而expand=False会返回一个Series of tuples。通常使用expand=True更方便后续操作。
错误处理 (Error Handling): 除了处理缺失匹配，还应考虑正则表达式可能因数据格式异常而产生意外结果的情况。在关键业务逻辑中，可能需要更健壮的错误捕获机制。