0

0

Pandas DataFrame中动态文本拼接与正则表达式数据提取教程

心靈之曲

心靈之曲

发布时间:2025-09-22 11:17:00

|

911人浏览过

|

来源于php中文网

原创

Pandas DataFrame中动态文本拼接与正则表达式数据提取教程

本教程旨在指导用户如何在Pandas DataFrame中高效地进行动态文本拼接,特别是结合正则表达式从现有列中提取特定数据(如数字)并将其融入新的字符串结构。文章将详细介绍使用str.findall结合str索引器、str.extract以及str.replace与反向引用这三种核心方法,并提供代码示例与注意事项,帮助读者根据不同需求选择最佳实践。

在数据处理过程中,我们经常需要根据现有数据生成新的文本字段。例如,从一个包含描述性文本的列中提取特定的数字或字符串片段,然后将其与固定的文本组合,形成一个新的、格式化的文本列。pandas提供了强大的字符串操作功能,结合正则表达式,可以高效地完成这类任务。

1. 准备示例数据

首先,我们创建一个示例DataFrame,其中包含一个名为PROJEKT[BEZEICHNUNG]的列,我们将从该列中提取数字并进行拼接。

import pandas as pd

# 示例数据
data = {
    'PROJEKT[BEZEICHNUNG]': [
        'Project Alpha 8 Beta 4',
        'Task Gamma 8 Delta 5',
        'Stage Epsilon 8 Zeta 5',
        'Initiative Eta 7 Theta 4',
        'Report 9-3',
        'Another 8-4 project',
        'No numbers here' # 包含没有数字的行,用于演示异常处理
    ]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)
print("-" * 40)

2. 使用 str.findall 结合 str 索引器

str.findall(pattern)方法会返回一个Series,其中每个元素是一个列表,包含所有匹配pattern的非重叠字符串。要访问这些列表中的特定元素,我们需要使用Pandas的str索引器。

原理:

  1. df['列名'].str.findall(r'\d+'):这会为每一行返回一个数字字符串的列表。例如,'Project Alpha 8 Beta 4'会变成['8', '4']。
  2. match.str[0]和match.str[1]:这里的.str是Pandas的字符串访问器,它允许我们对Series中的每个列表执行列表操作(如索引)。match.str[0]将获取每个列表的第一个元素,match.str[1]获取第二个。
  3. .fillna(''):如果某个列表为空(即没有匹配到数字)或者索引超出范围,match.str[index]会返回NaN。为了在拼接时避免NaN导致整个结果为NaN,我们使用fillna('')将其替换为空字符串。

示例代码:

Petalica Paint
Petalica Paint

用AI为你的画自动上色!

下载
# 方法一: 使用 str.findall 结合 str 索引器
print("方法一: 使用 str.findall 结合 str 索引器")

# 1. 提取所有数字序列
match_findall = df['PROJEKT[BEZEICHNUNG]'].str.findall(r'\d+')
# match_findall 的输出示例:
# 0    ['8', '4']
# 1    ['8', '5']
# ...
# 6          []  # 没有匹配到数字的行会得到空列表

# 2. 使用 .str 索引器访问每个列表中的元素,并处理NaN
df['EINGRUPPIERUNG_Method1'] = (
    'P' + match_findall.str[0].fillna('') +
    ' Stufe ' + match_findall.str[1].fillna('')
)

print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method1']])
print("-" * 40)

3. 利用 str.extract 进行结构化提取

str.extract(pattern, expand=True)方法是专门为从字符串中提取结构化数据而设计的。它使用正则表达式中的捕获组(括号())来提取数据,并直接将其转换为新的DataFrame列。

原理:

  1. df['列名'].str.extract(r'(\d+).*(\d+)', expand=True):正则表达式(\d+).*(\d+)定义了两个捕获组,分别匹配第一个和第二个数字序列。expand=True(默认值)确保结果是一个DataFrame,其中每个捕获组对应一列。
  2. match_extract[0]和match_extract[1]:直接引用新DataFrame的列(索引为0和1)。
  3. .fillna(''):如果某行没有匹配到正则表达式,str.extract会为对应的捕获组返回NaN。同样需要使用fillna('')进行处理。

示例代码:

# 方法二: 利用 str.extract 进行结构化提取
print("方法二: 利用 str.extract 进行结构化提取")

# 1. 使用正则表达式捕获组直接提取数字
# 正则表达式中的括号 () 定义了捕获组
# expand=True 会将捕获组作为独立的列返回一个DataFrame
match_extract = df['PROJEKT[BEZEICHNUNG]'].str.extract(r'(\d+).*?(\d+)', expand=True)
# match_extract 的输出示例:
#      0    1
# 0    8    4
# 1    8    5
# ...
# 6  NaN  NaN # 没有匹配的行

# 2. 直接拼接DataFrame的列,并处理NaN
df['EINGRUPPIERUNG_Method2'] = (
    'P' + match_extract[0].fillna('') +
    ' Stufe ' + match_extract[1].fillna('')
)

print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method2']])
print("-" * 40)

4. 结合 str.replace 和正则表达式反向引用

str.replace(pattern, repl, regex=True)方法可以根据正则表达式pattern匹配字符串,并用repl字符串替换匹配的部分。在repl中,可以使用反向引用(\1, \2等)来引用pattern中的捕获组。

原理:

  1. df['列名'].str.replace(r'.*?(\d+).*?(\d+).*', r'P\1 Stufe \2', regex=True):
    • .*?(\d+).*?(\d+).*:这个正则表达式尝试匹配整个字符串,捕获第一个和第二个数字序列。.*?是非贪婪匹配,确保尽可能少地匹配字符。
    • r'P\1 Stufe \2':替换字符串,其中\1引用第一个捕获组(第一个数字),\2引用第二个捕获组(第二个数字)。
  2. 注意事项: 如果原始字符串不完全匹配pattern,str.replace将不会进行替换,而是保留原始字符串。这与前两种方法在处理无匹配项时的行为不同。

示例代码:

# 方法三: 结合 str.replace 和正则表达式反向引用
print("方法三: 结合 str.replace 和正则表达式反向引用")

# 使用 (.*?) 匹配任意字符,(\d+) 捕获数字
# r'P\1 Stufe \2' 中的 \1 和 \2 引用捕获组
# 注意:如果字符串不匹配整个模式,str.replace不会改变它
df['EINGRUPPIERUNG_Method3'] = df['PROJEKT[BEZEICHNUNG]'].str.replace(
    r'.*?(\d+).*?(\d+).*',
    r'P\1 Stufe \2',
    regex=True
)

# 对于不匹配的行(如'No numbers here'),str.replace会保留原始字符串。
# 如果期望不匹配的行也为空字符串,需要额外处理,例如:
df['EINGRUPPIERUNG_Method3'] = df['EINGRUPPIERUNG_Method3'].where(
    df['EINGRUPPIERUNG_Method3'].str.contains(r'P\d+ Stufe \d+', na=False), # 检查是否包含期望的模式
    '' # 不包含则设置为空字符串
)

print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method3']])
print("-" * 40)

5. 注意事项与最佳实践

  • 处理缺失匹配 (Handling Missing Matches):
    • str.findall和str.extract在没有匹配时会产生空列表或NaN。在拼接前,务必使用.fillna('')或.apply(lambda x: x if pd.notna(x) else '')等方法处理这些值,避免最终结果出现NaN。
    • str.replace在不匹配时会保留原字符串。如果需要将不匹配的行也转换为空字符串或其他默认值,需要额外的逻辑(如上述示例中的where方法)。
  • 正则表达式的精准性 (Regex Precision): 编写精确的正则表达式至关重要,它直接决定了数据提取的准确性。不当的模式可能导致提取错误或遗漏。
  • 性能考量 (Performance Considerations):
    • 对于大型数据集,str.extract通常比str.findall后进行列表索引更高效,因为它直接将捕获组转换为DataFrame列,减少了中间操作。
    • str.replace在进行整串替换时也表现良好,尤其是在模式匹配和替换逻辑相对简单时。
  • expand参数: 在str.extract中,expand=True(默认值)会返回一个DataFrame,而expand=False会返回一个Series of tuples。通常使用expand=True更方便后续操作。
  • 错误处理 (Error Handling): 除了处理缺失匹配,还应考虑正则表达式可能因数据格式异常而产生意外结果的情况。在关键业务逻辑中,可能需要更健壮的错误捕获机制。

总结

Pandas结合正则表达式提供了多种灵活且强大的方法来处理DataFrame中的字符串数据。

  • str.findall + str 索引器适用于需要提取所有匹配项,然后从列表中选择特定项的场景。
  • str.extract 是进行结构化数据提取的首选,它能将捕获组直接转换为DataFrame的列,便于后续操作和拼接。
  • str.replace + 反向引用适用于通过替换整个匹配模式来直接转换字符串格式的场景,但需要注意其对不匹配行的处理方式。

选择哪种方法取决于具体的业务需求、数据特性以及对性能和代码可读性的偏好。理解这些方法的内部机制和行为差异,将帮助您更高效、准确地完成Pandas中的文本数据处理任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

737

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

211

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

349

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

3

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
AngularJS教程
AngularJS教程

共24课时 | 2.6万人学习

【李炎恢】ThinkPHP8.x 后端框架课程
【李炎恢】ThinkPHP8.x 后端框架课程

共50课时 | 4.4万人学习

Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号