Python如何从XML中提取特定标签的所有文本

畫卷琴夢

发布时间：2026-01-12 08:04:20

537人浏览过

来源于php中文网

原创

最常用且推荐的方法是使用内置的 xml.etree.ElementTree 模块，解析XML后用 root.iter('tag') 或 findall() 定位标签，再通过 elem.text.strip() 提取并清理文本；对含子元素的复杂内容，可用 itertext() 合并全部文本。

python如何从xml中提取特定标签的所有文本

用Python从XML中提取特定标签的所有文本，最常用且推荐的方法是使用内置的 xml.etree.ElementTree 模块。它轻量、标准、无需额外安装，适合大多数结构清晰的XML场景。

使用 ElementTree 查找并提取所有匹配标签的文本

核心思路是：解析XML → 定位目标标签（支持XPath）→ 遍历所有匹配元素 → 获取其 .text 属性（注意：.text 只包含起始标签和第一个子元素之间的文本，不含子标签内容或尾部空白）。

若标签是纯文本容器（如 Alice），直接用 elem.text 即可
若需获取标签内全部可读文本（包括子标签中的文本），应使用 elem.xpath('.//text()')（需 lxml）或手动递归拼接（ElementTree不原生支持）
推荐先用 elem.text.strip() 去除首尾空格，避免提取到空白行

示例代码：提取所有标签的文本

假设有如下 XML 字符串：

    Python入门
    张三


    数据结构与算法
    李四

执行以下代码：

Ideogram

Ideogram是一个全新的文本转图像AI绘画生成平台，擅长于生成带有文本的图像，如LOGO上的字母、数字等。

下载

立即学习“Python免费学习笔记（深入）”；

import xml.etree.ElementTree as ET
xml_str = """..."""  # 上面的XML内容
root = ET.fromstring(xml_str)
方法1：查找所有 title 标签，提取 .text
titles = [elem.text.strip() for elem in root.iter('title') if elem.text]
print(titles)  # ['Python入门', '数据结构与算法']
方法2：用 findall + 相对路径（更精确控制层级）
for book in root.findall('book'):
title_elem = book.find('title')
if title_elem is not None and title_elem.text:
print(title_elem.text.strip())

处理含嵌套或混合内容的标签

如果目标标签内有HTML片段、换行或子元素（如 学习Python很有趣），.text 只返回“学习”，.tail 和子元素的 .text 需单独处理。此时建议：

改用 lxml 库（需 pip install lxml），支持 elem.xpath('string(.)') 或 elem.itertext()
list(elem.itertext()) 返回生成器，可用 ''.join(...).strip() 合并全部文本节点
例如：''.join(title_elem.itertext()).strip() 能安全提取带格式标签内的全部可见文本

注意事项与常见问题

确保XML编码正确（如含中文时，字符串需为UTF-8，文件读取时指定 encoding='utf-8'）
若标签可能为空（或），访问 .text 会得 None，务必判空
ElementTree 默认不解析 DTD 或实体（如），遇到报错可尝试 parser = ET.XMLParser(resolve_entities=False)
对于大型XML文件，用 ET.iterparse() 流式解析，节省内存

Python如何遍历XML的同时获取父节点信息

Python如何修改XML文件并保存修改节点属性和值

Python怎么解析XML Python解析XML文件教程

如何将多个XML文件合并成一个XML文件

Python如何从XML中提取所有文本内容

相关标签:

python html 编码 ai 常见问题 Python html pip String xml 字符串递归数据结构算法

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：TEI是什么文学和语言学领域的XML标准下一篇：暂无

作者最新文章

作业帮网页版登录入口免费使用全部搜题功能

2026-01-11 12:44

vivo手机怎么分屏操作 vivo手机开启应用分屏方法

2026-01-11 12:51

酷读吧最新地址入口酷读吧小说实时更新

2026-01-11 13:19

七猫小说作者后台怎么进七猫小说投稿具体步骤【详解】

2026-01-11 13:21

加入抖音创作者激励计划的资格抖音创作者激励计划资格要求

2026-01-11 13:23

Excel怎么设置数据有效性 Excel限制输入特定内容【教程】

2026-01-11 13:39

抖音背景音乐怎么提取抖音视频BGM提取保存方法【教程】

2026-01-11 14:37

WordPress怎么建站 WordPress搭建网站教程

2026-01-11 14:40

抖音巨量算数入口巨量算数官方网站入口

2026-01-11 14:46

Java过滤器获取bean_Filter中获取Spring容器Bean的方法

2026-01-11 16:39

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

746

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

634

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1260

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

705

2023.08.11