如何在网页爬虫后高效清除字符串中的换行符与制表符（、）

花韻仙語

发布时间：2026-01-14 10:16:02

724人浏览过

来源于php中文网

原创

$如何在网页爬虫后高效清除字符串中的换行符与制表符（\n、\t）$

本文介绍使用 beautifulsoup 提取文本后，如何彻底清除嵌入在字符串中间的 \n 和 \t 字符——关键在于避免误用 `strip()`，而应采用 `stripped_strings` 迭代器结合字符串拼接，或对 dataframe 列执行正则替换。

在网页爬虫实践中，初学者常误以为 .strip() 能删除字符串中任意位置的 \n 或 \t，但事实并非如此。Python 的 str.strip(chars) 仅移除首尾连续匹配字符，对中间出现的空白符完全无效。例如：

>>> "Hello\tWorld\n".strip("\t\n")
'Hello\tWorld'  # 中间的 \t 未被清除！
>>> "\t  Hello\n\tWorld\t\n".strip("\t\n ")
'Hello\n\tWorld'  # 仍残留内部 \n\t

因此，针对 BeautifulSoup 提取的 Tag.text（如

Top of 1st\n\tLondon Majors\n\t#28 Austin Wilkie...

），正确做法是：

✅ 推荐方案：使用 stripped_strings（最干净、语义明确）

stripped_strings 是 BeautifulSoup 提供的生成器，自动跳过空白文本节点，并对每个子字符串调用 .strip()，再由你自由组合：

for i in Innings:
    # 安全合并所有非空文本片段，天然去除所有前后空白及中间冗余换行/制表
    clean_text = "".join(i.stripped_strings)

    # 构建单行 DataFrame
    pbpdf = pd.DataFrame([{"Play by Play": clean_text}])
    print(pbpdf)

✅ 优势：无需正则、不依赖 replace() 的易错写法（如误写 \n 为 \n 或遗漏 regex=True），且能处理嵌套标签、多余空格、多级缩进等复杂 HTML 结构。

Synths.Video

一键将文章转换为带有真人头像和画外音的视频

下载

✅ 备选方案：DataFrame 级批量清洗（适用于已存为 DataFrame 的场景）

若数据已载入 pbpdf，可对列统一执行正则替换（注意：需启用 regex=True，且转义字符要写对）：

# 正确写法：使用原始字符串 r'\s+' 匹配所有空白（含 \n \t \r 空格）
pbpdf["Play by Play"] = pbpdf["Play by Play"].str.replace(r'\s+', ' ', regex=True).str.strip()

# 或仅清除 \n 和 \t（保留空格）：
pbpdf["Play by Play"] = pbpdf["Play by Play"].str.replace(r'[\n\t]+', ' ', regex=True).str.strip()

⚠️ 注意事项：

❌ pbpdf.replace(...) 默认作用于整个 DataFrame，且不修改原数据（需加 inplace=True 或赋值）；
❌ pbdf.replace(to_replace={'\\n','\\t'}, ...) 写法错误：to_replace 应为字符串或正则模式，而非集合；且 '\\n' 是字面量反斜杠+n，实际需 r'\n'；
✅ 始终优先使用 .str.replace() 作用于 Series，语义清晰、链式友好；
? 若需保留段落逻辑（如换行分隔不同事件），可替换为 '|' 或 '; ' 而非空格。

? 总结

方法	适用阶段	是否推荐	关键要点
i.stripped_strings + "".join()	BeautifulSoup 解析时	✅ 强烈推荐	零正则、高鲁棒性、语义精准
.str.replace(r'\s+', ' ', regex=True)	DataFrame 后处理	✅ 推荐	简洁高效，适合批量清洗
.strip() 单独使用	任意阶段	❌ 不推荐	仅清首尾，无法解决本题核心问题

最后提醒：你的原始代码中还存在几处潜在问题——py.asarray 应为 np.asarray（py 未定义）、循环仅执行一次（gameID

使用 GCP Asset API 检索 Compute 实例的正确方法

如何使用 Python 解析并逐项验证逻辑表达式

如何计算相邻行（按分组标识）的平均值

如何使用列表动态生成 PostgreSQL 表结构 SQL 语句

Python调试时断点导致行为差异的真相揭秘

相关标签:

python html pdf 爬虫 Python html beautifulsoup 字符串循环 class Chars Regex 事件

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何正确将循环结果批量写入文件而非仅保存最后一项下一篇：暂无

作者最新文章

7723游戏盒子官网入口链接-7723游戏盒子网页版入口地址

2026-01-12 12:41

折相思游戏盒子怎么切换中文-中文切换方法

2026-01-12 12:43

AI需求爆发！内存条价格一年暴涨300% 比黄金还猛的硬通货

2026-01-12 12:46

如何使用 PowerShell 递归调用 Java 程序批量处理文件路径

2026-01-12 12:50

看个比赛小程序怎么抢票

2026-01-12 12:54

360手机浏览器如何设置固定网页

2026-01-12 12:54

Laravel 8 数据库迁移回滚后重新迁移失败：外键约束错误的完整解决方案

2026-01-12 13:04

如何让网页刷新后始终回到顶部位置

2026-01-12 13:20

15W功耗硬刚RTX 4050？PS6掌机参数曝光

2026-01-12 13:31

百度翻译怎么翻译文言文？-百度翻译翻译文言文的方法

2026-01-12 13:59

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

750

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

635

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

706

2023.08.11