如何在 PHP DOM 中正确提取 CDATA 内容（如 lastmod 值）

心靈之曲

发布时间：2025-12-31 18:00:37

219人浏览过

来源于php中文网

原创

如何在 PHP DOM 中正确提取 CDATA 内容（如 lastmod 值）

本文详解如何使用 php 的 domdocument + domxpath 高效解析含 cdata 的 xml（如 sitemap），绕过 `#cdata-section` 节点干扰，直接获取纯净文本值，并提供可落地的代码示例与关键注意事项。

在 PHP 中处理 XML 时，DOMDocument 是最常用且可靠的原生方案。但当 XML 中包含片段（如 Sitemap 中的时间戳）时，若直接递归遍历 childNodes，极易因忽略空白文本节点（XML_TEXT_NODE）和 CDATA 节点（XML_CDATA_SECTION_NODE）的共存结构而失败——正如问题中所示：lastmod 被错误解析为嵌套的 ["#cdata-section"]=>[] 空数组。

根本原因在于：CDATA 并非独立“值容器”，而是 DOM 树中的一个特殊节点类型；它常与前后空白文本节点并存（例如换行与缩进）。手动遍历子节点时，若未过滤空白或未合并相邻文本/CData 内容，就会丢失实际数据。

✅ 推荐方案：弃用通用递归转数组，改用 DOMXPath 精准定位 + string() 函数提取

DOMXPath 的 string() 函数会自动合并目标节点下所有文本类子节点（包括 XML_TEXT_NODE 和 XML_CDATA_SECTION_NODE）的内容，并去除首尾空白，返回纯净字符串——这正是我们所需。

立即学习“PHP免费学习笔记（深入）”；

稿定AI绘图

稿定推出的AI绘画工具

下载

以下为完整、健壮的实现：


  
    https://www.blablal.id/news/sitemap.xml
    
      
    
  

XML;

$document = new DOMDocument();
$document->loadXML($xml);

// 关键：注册命名空间前缀（因 XML 使用默认命名空间）
$xpath = new DOMXPath($document);
$xpath->registerNamespace('map', 'http://www.sitemaps.org/schemas/sitemap/0.9');

$sitemaps = [];
// 使用 XPath 定位所有 sitemap 元素（支持多条目）
foreach ($xpath->evaluate('//map:sitemap') as $sitemap) {
    $sitemaps[] = [
        'loc'     => trim($xpath->evaluate('string(map:loc)', $sitemap)),
        'lastmod' => trim($xpath->evaluate('string(map:lastmod)', $sitemap))
    ];
}

var_dump($sitemaps);
// 输出：
// array(1) {
//   [0] => array(2) {
//     ["loc"] => string(39) "https://www.blablal.id/news/sitemap.xml"
//     ["lastmod"] => string(25) "2022-02-02T12:21:02+07:00"
//   }
// }

? 关键要点说明：

必须注册命名空间：XML 中 xmlns="..." 是默认命名空间，XPath 查询时需显式绑定前缀（如 'map'），否则 //sitemap 将匹配失败；
string() 函数是核心：string(map:lastmod) 自动提取下所有文本内容（含 CDATA），无需手动判断节点类型；
trim() 不可省略：CDATA 内部可能含空格/换行，string() 不自动裁剪，需显式 trim() 保证格式统一；
避免 preserveWhiteSpace = false 的陷阱：虽可减少空白节点，但无法解决 CDATA 解析逻辑缺陷，且可能误删有意义的空白，故不推荐作为主方案。

? 延伸建议：

若需处理大量 XML 或复杂结构，可封装为复用函数，支持自定义命名空间映射与字段映射规则；
对于无命名空间的简单 XML，XPath 表达式可简化为 //sitemap 和 ./loc；
生产环境务必添加错误处理：检查 $document->loadXML() 返回值、$xpath->evaluate() 是否返回有效节点列表。

此方法简洁、高效、符合 XML 处理最佳实践，彻底规避了手工遍历 DOM 树时对节点类型和空白处理的繁琐逻辑，是解析含 CDATA 的标准 XML（如 Sitemap、RSS、SOAP 响应）的首选方案。

在 Yii2 迁移中安全地使用 bcrypt 哈希密码

php怎么限制IP访问_通过IP白名单过滤请求的方法【技巧】

如何在 PHP 中正确处理并转换数据库查询的多条记录为结构化数组

如何从SQL数据库动态填充下拉菜单（Dropdown）

php485怎么实现数据加密传输_php485串口数据加密方法【详解】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

1959

2023.09.01