如何使用正则表达式匹配并保留指定 HTML 标签及其完整内容（而非简单分割）

聖光之護

发布时间：2026-01-08 14:26:01

779人浏览过

来源于php中文网

原创

如何使用正则表达式匹配并保留指定 HTML 标签及其完整内容（而非简单分割）

本文介绍如何精准匹配常见的 html 块级标签（如 `

`、`

在文本处理中，若需按特定 HTML 标签“切分”字符串，但又要求保留完整的起始-结束标签对（如

）且不丢失嵌套结构或标签本身

此时，正确思路应是 “匹配”而非“分割”：使用 re.finditer() 配合支持反向引用的正则表达式，精准捕获成对出现的开放/闭合标签及其内部内容。

推荐正则模式如下：

import re

pattern = r"<(p|li|ul|ol|dl|h1|h2|h3|h4|h5|h6)>[^<]*"
subject = ' Some text some text some text. 
立即学习“前端免费学习笔记（深入）”；
  Another text another text 

							
								
								
									Text-To-Pokemon口袋妖怪
									输入文本生成自己的Pokemon，还有各种选项来定制自己的口袋妖怪
								
								下载 
							
						
.  some list 
.  another list '

matches = [match.group(0) for match in re.finditer(pattern, subject, re.DOTALL)]
print(matches)
# 输出：
# [' Some text some text some text. 
立即学习“前端免费学习笔记（深入）”；',
#  ' Another text another text ',
#  ' some list ',
#  ' another list 
']

✅ 关键解析：

(p|li|ul|ol|dl|h1|...h6) —— 捕获标签名到第一组；
\1> —— 精确匹配对应闭合标签（如
→
...

re.DOTALL —— 使 . 可匹配换行符，提升多行内容兼容性。

⚠️ 注意事项：

此方案不支持标签属性（如
）或嵌套结构（如
- text
- nested
），因 [^

若需处理真实 HTML（含属性、注释、自闭合标签、JS/CSS 内容等），务必改用专业 DOM 解析器，例如：

from bs4 import BeautifulSoup
soup = BeautifulSoup(subject, 'html.parser')
for tag in soup.find_all(['p', 'li', 'ul', 'ol', 'dl', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
    print(str(tag))  # 完整保留标签、属性、子节点及格式

? 总结：正则适用于可控、扁平、无属性的 HTML 片段提取；而真实 Web 内容解析，请始终优先选用 BeautifulSoup、lxml 或 html.parser 等成熟 DOM 工具——它们健壮、可维护，且能正确处理 HTML 规范中的所有边界情况。

如何正确覆盖 CSS 重置文件中的 border 样式

如何将 HTML 按钮固定在卡片底部（CSS Flexbox 实现方案）

如何通过 CSS 或 jQuery 实现图像映射区域（area）的悬停换图效果

如何正确使用 CSS :nth-child() 选择嵌套元素中的特定子项

如何在 HTML 中截取并显示指定数量的字符

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css html js 正则表达式工具 css 正则表达式 html beautifulsoup 字符串 class JS dom ul li

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何让背景图严格限制在圆角白框内不溢出下一篇：如何解决 GitHub Pages 中本地图片无法显示的问题

作者最新文章

巴兔手游盒子app怎么搜索游戏-搜索功能介绍

2026-01-08 11:04

Katteb AI：终极内容创作助手？功能、定价与深度测评

2026-01-08 11:04

Gamma AI + ChatGPT：颠覆性AI图像生成技巧

2026-01-08 11:13

AI 3D人像生成终极指南：Gemini与Google Labs Flow完美结合

2026-01-08 11:15

Spring Boot 反向代理后 URL 自动附加后端端口的解决方案

2026-01-08 11:15

Gemini AI会取代平面设计师吗？深入测评与未来展望

2026-01-08 11:19

PHP 8.1 中处理“Undefined array key”警告的正确实践

2026-01-08 11:19

AI自动化革新清洁业务：提升效率与客户响应速度

2026-01-08 11:22

大鱼视频app如何下载视频

2026-01-08 11:24

AI辅助交互式分割：自适应多尺度在线似然网络

2026-01-08 11:30

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

509

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

262

2023.07.27