如何在 PHP DOM 中正确提取 CDATA 节点内容

花韻仙語

发布时间：2025-12-31 18:23:04

302人浏览过

来源于php中文网

原创

如何在 PHP DOM 中正确提取 CDATA 节点内容

本文详解如何使用 php 的 domdocument 与 domxpath 高效解析含 cdata 的 xml（如 sitemap），避免手动遍历节点时因空白文本和 cdata 混杂导致的数据丢失，直接获取干净的字符串值。

在使用 DOMDocument 解析 XML 时，CDATA 节点（XML_CDATA_SECTION_NODE）常与周围空白文本节点（XML_TEXT_NODE）共存，导致传统递归转数组逻辑（如 xml_to_array()）难以准确提取值——例如实际包含 3 个子节点：前导换行/空格文本、CDATA 节点、尾随换行/空格文本。若未显式处理，nodeValue 可能为空或混入不可见字符。

虽然可通过设置 $document->preserveWhiteSpace = false 强制忽略空白节点，但这属于“暴力清理”，可能误删业务所需的有意义空格，且无法解决命名空间等复杂场景。更专业、健壮的方案是绕过通用数组转换，直接用 DOMXPath 精准定位并提取内容。

✅ 推荐做法：DOMXPath + 命名空间支持

$xml = <<<'XML'

  
    https://www.blablal.id/news/sitemap.xml
    
      
    
  

XML;

$document = new DOMDocument();
$document->loadXML($xml);

$xpath = new DOMXPath($document);
// 必须为默认命名空间注册前缀（否则 XPath 查询无效）
$xpath->registerNamespace('map', 'http://www.sitemaps.org/schemas/sitemap/0.9');

$sitemaps = [];
foreach ($xpath->evaluate('//map:sitemap') as $sitemap) {
    $sitemaps[] = [
        'loc'     => trim($xpath->evaluate('string(map:loc)', $sitemap)),
        'lastmod' => trim($xpath->evaluate('string(map:lastmod)', $sitemap))
    ];
}

var_dump($sitemaps);

✅ 输出结果：array(1) { [0] => array(2) { ["loc"] => string(39) "https://www.blablal.id/news/sitemap.xml" ["lastmod"] => string(25) "2022-02-02T12:21:02+07:00" } }

? 关键要点说明

string() 函数：XPath 中的 string() 会自动合并所有子文本节点（含 CDATA 内容）并返回纯字符串，天然兼容 CDATA；
命名空间必须注册：XML 声明了默认命名空间 xmlns="..."，XPath 查询必须通过 registerNamespace() 绑定前缀，否则 //sitemap 类查询将匹配失败；
trim() 不可省略：即使 string() 合并了内容，前后仍可能残留换行与空格（如示例中 CDATA 内部的空格），trim() 是安全兜底；
性能与可维护性更优：相比深度递归解析，XPath 查询语义清晰、执行高效，且易于扩展（如添加 changefreq、priority 字段只需新增一行）。

⚠️ 注意事项

若 XML 文件较大，建议启用 libxml_disable_entity_loader(true)（PHP 8.0+ 已默认禁用外部实体）防范 XXE 攻击；
DOMDocument::loadXML() 对格式错误较敏感，生产环境应配合 libxml_use_internal_errors(true) 捕获解析异常；
不要依赖 childNodes 索引（如 $node->childNodes->item(0)）提取值——节点顺序受空白、注释、CDATA 影响，极不稳定。

综上，面对含 CDATA 的 XML，放弃“通用转数组”思维，拥抱 XPath 精准查询，是 PHP 开发者最简洁、可靠、符合标准的实践路径。

在 Yii2 迁移中安全地使用 bcrypt 哈希密码

php怎么限制IP访问_通过IP白名单过滤请求的方法【技巧】

如何在 PHP 中正确处理并转换数据库查询的多条记录为结构化数组

如何从SQL数据库动态填充下拉菜单（Dropdown）

php485怎么实现数据加密传输_php485串口数据加密方法【详解】

PHP速学教程(入门到精通)

PHP怎么学习？PHP怎么入门？PHP在哪学？PHP怎么学才快？不用担心，这里为大家提供了PHP速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

php node 数据丢失 php String 命名空间 xml 字符串递归 dom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：php8.4如何操作redis缓存_php8.4redis扩展安装与使用【教程】下一篇：暂无

作者最新文章

1599元起！闪极发布首款多合一移动硬盘闪盘Pro：最高1000MB/s、自带拓展坞

2025-12-30 13:39

Angular 中使用条件类绑定实现多状态样式控制（在线/离线/故障）

2025-12-30 13:39

如何根据下拉选项动态显示或隐藏城市标签

2025-12-30 13:41

如何在 Django 模板中正确处理空列表并避免渲染异常？

2025-12-30 13:47

《寂静岭》制作人：目标是每年都发售一部《寂静岭》游戏

2025-12-30 13:50

明年发售？《刺客信条：代号女巫》创意总监称26年将公布大量内容

2025-12-30 13:55

Go 中自定义结构体的可读性格式化：实现 Stringer 接口实现优雅输出

2025-12-30 14:00

PHP 中 else 后误用条件表达式导致的语法错误解析与修复

2025-12-30 14:04

如何在 Bootstrap 折叠组件中单次点击即加载 NGL 3D 分子可视化

2025-12-30 14:04

R星前总监力挺拉瑞安：不做《博德之门4》值得尊重！

2025-12-30 14:07

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

php文件怎么打开

打开php文件步骤：1、选择文本编辑器；2、在选择的文本编辑器中，创建一个新的文件，并将其保存为.php文件；3、在创建的PHP文件中，编写PHP代码；4、要在本地计算机上运行PHP文件，需要设置一个服务器环境；5、安装服务器环境后，需要将PHP文件放入服务器目录中；6、一旦将PHP文件放入服务器目录中，就可以通过浏览器来运行它。

1960

2023.09.01