Python处理JSON用json模块序列化/反序列化,支持基础类型;XML用xml.etree.ElementTree解析树状结构;两者转换需手动映射,无通用方案。

Python 中处理 JSON 和 XML 是日常开发的高频需求,核心在于理解“序列化”(对象→字符串)与“反序列化”(字符串→对象)的过程,并掌握不同格式的数据结构映射逻辑。JSON 轻量、易读、原生支持 Python 字典/列表;XML 更严格、可扩展性强,但需额外解析库。两者转换不是自动互通的,需人工定义映射规则。
JSON:用 json 模块完成基础序列化
Python 标准库 json 模块直接支持字典、列表、字符串、数字、布尔值和 None 的序列化,不支持自定义类或日期对象(需额外处理)。
-
转为字符串(序列化):用
json.dumps(),可加indent=2美化输出,ensure_ascii=False保留中文 -
写入文件:用
json.dump(),直接写入打开的文件对象 -
从字符串加载(反序列化):用
json.loads();从文件读取用json.load() -
处理日期等特殊类型:继承
json.JSONEncoder,重写default()方法,例如把datetime转为 ISO 格式字符串
XML:用 xml.etree.ElementTree 解析结构化数据
xml.etree.ElementTree(简称 ET)是 Python 内置轻量级 XML 处理模块,适合常规读写。它将 XML 映射为树状 Element 对象,节点有标签(tag)、属性(attrib)和文本(text)。
-
解析字符串:用
ET.fromstring(xml_str)得到根元素;解析文件用ET.parse("file.xml").getroot() -
遍历子元素:用
for child in root:或root.findall("item")查找指定标签 -
读取属性和文本:
elem.attrib["id"]获取属性,elem.text.strip()获取并清理文本内容 -
构建 XML:用
ET.Element("root")创建节点,ET.SubElement(parent, "child")添加子节点,最后用ET.tostring()或tree.write()输出
JSON ↔ XML 转换:没有银弹,需按需设计
JSON 和 XML 结构差异大(如 XML 有属性、命名空间、顺序敏感、混合内容),无法通用全自动转换。实用做法是明确业务字段后,手写映射逻辑。
立即学习“Python免费学习笔记(深入)”;
- 简单场景(如配置类数据):把 JSON 字典键作为 XML 标签名,值作为文本内容;字典中的嵌套字典转为子元素
- 含属性的数据:约定某类字段名以
@开头(如{"@id": "123", "name": "Alice"}),生成时将@id写入 XML 属性,其余为子元素 - 避免过度抽象:不建议引入复杂中间模型,优先用字典 + ET 构建,清晰可控
- 注意编码与转义:XML 中的
、&等需自动转义,ET 默认处理;JSON 中的双引号、反斜杠需正确转义
常见问题与避坑提示
实际操作中容易卡在细节,提前留意可省去大量调试时间。
- JSON 加载失败?先检查字符串是否为合法 UTF-8,是否有 BOM 头或不可见控制字符;用
json.loads(s.strip())去首尾空格 - XML 解析报错“mismatched tag”?大概率是标签未闭合、大小写不一致(XML 区分大小写),或编码声明与实际不符(如声明 UTF-8 但文件是 GBK)
-
中文乱码?确保文件以 UTF-8 保存,读取时显式指定
encoding="utf-8"(尤其open()和ET.parse()) - 性能敏感场景?避免频繁解析大 XML——考虑
iterparse()流式解析;JSON 大文件可用ijson库实现增量解析










