Pandas DataFrame中利用正则表达式与str方法拼接动态文本教程

DDD

发布时间：2025-09-22 12:23:11

430人浏览过

来源于php中文网

原创

Pandas DataFrame中利用正则表达式与str方法拼接动态文本教程

本教程详细介绍了在Pandas DataFrame中如何将固定文本与从另一列中通过正则表达式提取的动态数字进行高效拼接。文章将探讨str.findall、str.extract和str.replace等多种方法，并提供具体代码示例，帮助用户灵活处理复杂的字符串组合场景，提升数据处理能力。

在数据处理过程中，我们经常需要从dataframe的某一列中提取特定模式的数据（如数字、特定字符序列），并将其与固定文本或其他列的内容组合成新的字符串。这种操作在生成报告、创建新的标识符或进行数据标准化时尤为常见。pandas库提供了强大的字符串处理功能，特别是结合正则表达式，能够高效地完成这类任务。

准备工作

首先，我们创建一个示例DataFrame来模拟问题场景：

import pandas as pd

# 示例数据
data = {
    'PROJEKT[BEZEICHNUNG]': [
        '项目A 8 阶段 4',
        '项目B 8 阶段 5',
        '项目C 8 阶段 5',
        '项目D 7 阶段 4',
        '项目E 9 阶段 3'
    ]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

我们的目标是从PROJEKT[BEZEICHNUNG]列中提取所有的数字，并将它们与固定文本（如"P"和" Stufe "）拼接成一个新的列EINGRUPPIERUNG，例如P8 Stufe 4。

方法一：结合str.findall与str访问器

str.findall方法可以查找字符串中所有匹配正则表达式的非重叠项，并返回一个列表序列。然后，我们可以使用Series.str访问器来访问这些列表中的单个元素。

提取所有匹配项： 使用str.findall(r'\d+')提取所有数字序列。这将返回一个Series，其中每个元素都是一个包含所有找到数字的列表。
```
match = df['PROJEKT[BEZEICHNUNG]'].str.findall(r'\d+')
print("\n使用str.findall提取的数字列表:")
print(match)
```
输出示例：

AI小聚
一站式多功能AIGC创作平台，支持AI绘画、AI视频、AI聊天、AI音乐

下载
```
0    [8, 4]
1    [8, 5]
2    [8, 5]
3    [7, 4]
4    [9, 3]
Name: PROJEKT[BEZEICHNUNG], dtype: object
```
访问列表元素并拼接： 通过match.str[0]和match.str[1]可以访问每个列表的第一个和第二个元素。然后，使用加号+进行字符串拼接。
```
df['EINGRUPPIERUNG_Method1'] = 'P' + match.str[0] + ' Stufe ' + match.str[1]
print("\n方法一结果 (str.findall + str访问器):")
print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method1']])
```
输出示例：
```
  PROJEKT[BEZEICHNUNG] EINGRUPPIERUNG_Method1
0        项目A 8 阶段 4             P8 Stufe 4
1        项目B 8 阶段 5             P8 Stufe 5
2        项目C 8 阶段 5             P8 Stufe 5
3        项目D 7 阶段 4             P7 Stufe 4
4        项目E 9 阶段 3             P9 Stufe 3
```
注意事项：
- 此方法要求正则表达式能够准确地提取出所需的所有数字，并且它们的顺序是固定的。
- 如果str.findall返回的列表中元素数量不符合预期（例如，某个字符串中只找到一个数字），则match.str[index]可能会引发IndexError或返回NaN，需要进行额外的错误处理。

方法二：使用str.extract直接捕获

str.extract方法通过正则表达式的捕获组（括号()内的部分）直接提取数据，并将其组织成一个新的DataFrame。这对于提取特定位置或模式的数据非常方便。

定义捕获组： 使用正则表达式r'(\d+).*(\d+)'来捕获两个数字序列。(\d+)表示一个或多个数字，.*表示任意字符（除换行符外）零次或多次。expand=True确保结果是一个DataFrame。
```
match_extract = df['PROJEKT[BEZEICHNUNG]'].str.extract(r'(\d+).*(\d+)', expand=True)
print("\n使用str.extract提取的捕获组:")
print(match_extract)
```
输出示例：
```
   0  1
0  8  4
1  8  5
2  8  5
3  7  4
4  9  3
```
拼接捕获结果：match_extract现在是一个DataFrame，其列（0, 1, ...）对应于正则表达式中的捕获组。我们可以直接使用这些列进行字符串拼接。
```
df['EINGRUPPIERUNG_Method2'] = 'P' + match_extract[0] + ' Stufe ' + match_extract[1]
print("\n方法二结果 (str.extract):")
print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method2']])
```
注意事项：
- str.extract只返回第一个匹配项的捕获组。如果一个字符串中有多个匹配项，它只会提取第一个。
- 如果正则表达式没有匹配到任何内容，str.extract会返回一个包含NaN值的行。在拼接时，NaN值会自动转换为字符串"nan"，可能需要进一步处理（如使用fillna('')）。

方法三：使用str.replace与反向引用

str.replace方法，当regex=True时，可以利用正则表达式进行查找和替换。更强大的是，它允许在替换字符串中使用反向引用（\1, \2等）来指代正则表达式捕获组的内容。

定义匹配模式和替换模式： 使用正则表达式r'.*(\d+).*(\d+).*'来匹配整个字符串，并捕获其中的两个数字。替换字符串r'P\1 Stufe \2'则利用\1和\2来引用这两个捕获的数字。
```
df['EINGRUPPIERUNG_Method3'] = df['PROJEKT[BEZEICHNUNG]'].replace(
    r'.*(\d+).*(\d+).*',
    r'P\1 Stufe \2',
    regex=True
)
print("\n方法三结果 (str.replace + 反向引用):")
print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method3']])
```
注意事项：
- 此方法直接对原始列进行替换操作，生成新的字符串。它通常是最简洁的方式，如果最终结果是原始字符串的直接转换，且需要包含捕获组内容时。
- 如果正则表达式没有匹配到任何内容，原始字符串将保持不变。
- 确保正则表达式能够匹配整个目标字符串，否则可能无法按预期替换。

总结

Pandas提供了多种灵活的方法来处理DataFrame中的字符串拼接和正则表达式提取。

str.findall + str访问器 适用于需要先获取所有匹配项列表，再根据索引访问特定元素的情况。它的优势在于可以处理多个匹配项，但需要手动处理列表元素的访问。
str.extract 是提取特定捕获组并直接将其组织成新列的理想选择。它返回一个DataFrame，使得后续的拼接操作非常直观，尤其适用于从复杂字符串中提取结构化信息。
str.replace与反向引用 提供了一种高度简洁的解决方案，可以直接通过正则表达式匹配和替换来生成目标字符串。当目标是根据捕获组内容转换整个字符串时，此方法非常高效。

在选择方法时，应根据具体的数据结构、提取需求和对错误处理的考量来决定。通常，str.extract在提取结构化信息时更具优势，而str.replace则在直接转换字符串时更为简洁。理解这些方法的细微差别，将有助于更高效地进行Pandas数据处理。

使用正则表达式将字符串中连续重复的竖线字符（|）压缩为单个竖线

如何使用正则表达式将字符串中连续重复的竖线字符（|）压缩为单个

Python推导式高效使用_列表集合解析【指导】

Lambda在Python中_Python编程语言中lambda关键字的功能总结

python r代表什么意思

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

510

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

737

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

211

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

349

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板