DOM是浏览器将XML/HTML解析为内存中树状对象结构的标准方式,以节点形式表示元素、属性、文本等,通过Document根节点组织父子兄弟关系,支持编程访问与修改。

DOM(Document Object Model)是浏览器将XML(或HTML)文档解析成内存中树状对象结构的标准方式,它让程序能以编程方式访问、修改文档内容和结构。 对XML而言,DOM把整个文档看作由节点构成的树,每个元素、属性、文本甚至注释都对应一个节点,彼此通过父子、兄弟等关系连接。
DOM的核心节点类型
XML DOM定义了多种节点,最常用的是:
-
Element节点:对应XML中的标签,如
、 ,可包含子节点,也可拥有属性 -
Text节点:代表标签之间的纯文本内容,如
Java编程 中的“Java编程”就是一个Text节点 -
Attribute节点:表示元素的属性,如
中的id="b001";注意:在标准DOM中,Attribute节点不作为Element的子节点存在,而是通过 getAttribute()或attributes集合访问 -
Document节点:整棵树的根节点,是所有其他节点的顶层父节点,通过
document.documentElement可获取根元素
DOM树结构是怎么组织的
以如下XML为例:
它对应的DOM树结构为:
- Document节点(根)
- └─ Element节点:
- └─ Element节点:
(含属性id) - ├─ Element节点:
- │ └─ Text节点:"XML入门"
- └─ Element节点:
- └─ Text节点:"张三"
关键点:空白换行和缩进在XML中默认视为Text节点(除非解析器设置了ignoreWhitespace),所以实际DOM树中可能比预期多出多个空Text节点。
DOM操作XML的典型步骤
使用DOM解析和处理XML通常包括:
- 用解析器(如Java的
DocumentBuilder、JavaScript的DOMParser)加载XML源,生成Document对象 - 调用
getDocumentElement()获取根元素,再用getElementsByTagName()、getChildNodes()、getAttribute()等方法遍历或定位节点 - 通过
createElement()、createTextNode()、appendChild()等方法动态添加内容 - 修改节点内容可用
setTextContent()或直接改Text节点的nodeValue - 保存变更需借助Transformer(Java)或序列化API(如
XMLSerializer)写回字符串或文件
DOM的优缺点与适用场景
DOM适合需要随机访问、频繁修改、或对文档结构有复杂操作的场景,比如配置文件编辑、XML模板填充。但它会把整个文档载入内存,对大文件(几十MB以上)容易造成内存压力。此时应考虑SAX或StAX等流式解析方式。
不复杂但容易忽略:节点名区分大小写,getElementsByTagName("Book")和getElementsByTagName("book")结果不同;遍历childNodes时务必检查nodeType,避免把换行Text节点误当作Element处理。










