
本文详解如何使用 php 的 domdocument 与 domxpath 高效解析含 cdata 的 xml(如 sitemap),避免手动遍历节点时因空白文本和 cdata 混杂导致的数据丢失,直接获取干净的字符串值。
在使用 DOMDocument 解析 XML 时,CDATA 节点(XML_CDATA_SECTION_NODE)常与周围空白文本节点(XML_TEXT_NODE)共存,导致传统递归转数组逻辑(如 xml_to_array())难以准确提取值——例如
虽然可通过设置 $document->preserveWhiteSpace = false 强制忽略空白节点,但这属于“暴力清理”,可能误删业务所需的有意义空格,且无法解决命名空间等复杂场景。更专业、健壮的方案是绕过通用数组转换,直接用 DOMXPath 精准定位并提取内容。
✅ 推荐做法:DOMXPath + 命名空间支持
$xml = <<<'XML'XML; $document = new DOMDocument(); $document->loadXML($xml); $xpath = new DOMXPath($document); // 必须为默认命名空间注册前缀(否则 XPath 查询无效) $xpath->registerNamespace('map', 'http://www.sitemaps.org/schemas/sitemap/0.9'); $sitemaps = []; foreach ($xpath->evaluate('//map:sitemap') as $sitemap) { $sitemaps[] = [ 'loc' => trim($xpath->evaluate('string(map:loc)', $sitemap)), 'lastmod' => trim($xpath->evaluate('string(map:lastmod)', $sitemap)) ]; } var_dump($sitemaps); https://www.blablal.id/news/sitemap.xml
✅ 输出结果:array(1) { [0] => array(2) { ["loc"] => string(39) "https://www.blablal.id/news/sitemap.xml" ["lastmod"] => string(25) "2022-02-02T12:21:02+07:00" } }
? 关键要点说明
- string() 函数:XPath 中的 string() 会自动合并所有子文本节点(含 CDATA 内容)并返回纯字符串,天然兼容 CDATA;
- 命名空间必须注册:XML 声明了默认命名空间 xmlns="...",XPath 查询必须通过 registerNamespace() 绑定前缀,否则 //sitemap 类查询将匹配失败;
- trim() 不可省略:即使 string() 合并了内容,前后仍可能残留换行与空格(如示例中 CDATA 内部的空格),trim() 是安全兜底;
- 性能与可维护性更优:相比深度递归解析,XPath 查询语义清晰、执行高效,且易于扩展(如添加 changefreq、priority 字段只需新增一行)。
⚠️ 注意事项
- 若 XML 文件较大,建议启用 libxml_disable_entity_loader(true)(PHP 8.0+ 已默认禁用外部实体)防范 XXE 攻击;
- DOMDocument::loadXML() 对格式错误较敏感,生产环境应配合 libxml_use_internal_errors(true) 捕获解析异常;
- 不要依赖 childNodes 索引(如 $node->childNodes->item(0))提取值——节点顺序受空白、注释、CDATA 影响,极不稳定。
综上,面对含 CDATA 的 XML,放弃“通用转数组”思维,拥抱 XPath 精准查询,是 PHP 开发者最简洁、可靠、符合标准的实践路径。










