pandas 官方不提供 read_xml 函数,因其核心未内置 XML 解析能力;替代方案包括安装第三方库 pandas-read-xml 或用 xml.etree.ElementTree 手动解析后转为 DataFrame。

Pandas 没有 read_xml 函数——这是最常被误查的点,官方 pandas(截至 2.2.x)**根本不提供原生 XML 解析能力**。
为什么找不到 read_xml?
因为 pandas 核心不内置 XML 解析器,也不维护 read_xml。你看到的可能是:
- 第三方库(如
pandas-read-xml)伪造的 API 兼容层 - 旧文档/博客错误引用(混淆了
read_html或read_json) - IDE 自动补全误导(基于字符串匹配或过时 stub)
替代方案:用 pandas-read-xml 库
这是目前最接近“read_xml”语义的成熟方案,需单独安装:
pip install pandas-read-xml
它返回标准 DataFrame,支持常见 XML 结构(扁平列表、嵌套属性、重复节点)。关键参数:
-
iterparse:指定重复节点路径(如"//item"),决定行级粒度 -
namespaces:处理带命名空间的 XML(如{"ns": "http://example.com/ns"}) -
attrs_only和elems_only:控制提取属性还是子元素
简单示例(XML 内容含多个 ):
import pandas_read_xml as pdx
df = pdx.read_xml("books.xml", iterparse="book")
print(df[["title", "author", "price"]])
不用第三方库?用标准库 + pandas 手动解析
若不能引入新依赖,用 Python 原生 xml.etree.ElementTree 提取数据,再喂给 pd.DataFrame:
- 适合结构简单、可控的 XML(如配置文件、导出报表)
- 避免
lxml等额外 C 依赖 - 注意:手动处理嵌套、空值、类型转换(XML 全是字符串)
最小可行示例:
import xml.etree.ElementTree as ET
import pandas as pd
root = ET.parse("data.xml").getroot()
rows = []
for item in root.findall("record"):
rows.append({
"id": item.get("id"),
"name": item.find("name").text if item.find("name") is not None else None,
"score": float(item.find("score").text) if item.find("score") is not None else None,
})
df = pd.DataFrame(rows)
容易踩的坑
无论用哪种方式,这几个问题高频出现:
- XML 编码错误(如 GBK 文件没声明
encoding="gbk")→ 报UnicodeDecodeError - 路径写错(
iterparse="item"但实际标签是)→ 返回空 DataFrame - 混合内容(文本+子节点)未处理 →
.text取到 None 或截断内容 - 命名空间没声明 →
find("ns:title")失败,必须用find(".//ns:title", ns)
真正用起来,XML 的结构随意性远高于 JSON 或 CSV,别指望一键导入;先用 ET.parse().getroot() 打印结构,再决定 iterparse 路径或手写提取逻辑。










