Cheerio 解析 HTML 时丢失 div 元素的解决方案

心靈之曲

发布时间：2025-12-29 18:35:02

589人浏览过

来源于php中文网

原创

Cheerio 解析 HTML 时丢失 div 元素的解决方案

cheerio 默认以 html 模式解析文档，会自动修正不规范标签（如自定义命名空间标签 `idx:entry`），导致嵌套 `div` 被错误剥离；启用 `xml: true` 可保留原始结构并正确提取全部子元素文本。

在使用 Cheerio 处理含 XML 命名空间（如 idx:entry、mbp:frameset）或非标准 HTML 结构的文档时，你可能会遇到看似“丢失”元素的问题——尤其是深层嵌套的

内容未被 text() 方法捕获。这并非 Cheerio 的 bug，而是其默认解析模式与文档实际结构不匹配所致。

默认情况下，cheerio.load(htmlString) 以 HTML 模式 运行：它会模拟浏览器 DOM 行为，自动修复/忽略非法标签、折叠空白、规范化命名空间前缀（如将 idx:orth 视为未知标签并降级处理），甚至可能提前截断或跳过无法识别的父子关系。在你的 tmp.html 中，下的第三个

因其复杂嵌套（含 span、i、a 等）及命名空间上下文，在 HTML 模式下被解析器误判为“不可见”或“无效结构”，从而未纳入 .text() 的遍历范围。

✅ 正确解法是显式启用 XML 模式：

const fs = require('fs');
const cheerio = require('cheerio');

const data = fs.readFileSync('tmp.html', 'utf8');
// 关键：传入 { xml: true } 选项
const $ = cheerio.load(data, { xml: true });

// 现在可完整获取所有子节点文本
const entryText = $('body idx\\:entry').eq(0).text().trim();
console.log(entryText);
// 输出：abaniquear vt (Andes) see also: abanicar ✅

⚠️ 注意事项：

Bika.ai

打造您的AI智能体员工团队

下载

立即学习“前端免费学习笔记（深入）”；

xml: true 会禁用 HTML 自动修复（如闭合缺失标签、转换大小写），因此文档必须格式良好（良好嵌套、正确闭合、合法实体）；
命名空间前缀（如 idx:）需在选择器中转义：idx\\:entry（双反斜杠因 JS 字符串+CSS 选择器双重转义）；
若混合使用 HTML 语义标签（如、）和 XML 标签，确保它们在 XML 模式下仍被正确识别（通常无问题，但避免依赖 innerHTML 类似行为）；
不要混用 xml: true 与 script: false 或 decodeEntities: false 等可能破坏文本解析的选项。

? 总结：当 Cheerio 表现异常（元素“消失”、文本截断、属性丢失），优先检查解析模式——对含自定义命名空间、EPUB/MOBI 索引标记（idx:*）、SVG 或 XHTML 片段的文档，{ xml: true } 是可靠且必要的配置。

如何在图片上居中显示文字（水平+垂直）

HTML5打空格需要装插件吗_空格输入的插件辅助工具【教程】

html5怎么插入边框_HT5用CSS border给元素插入粗细颜色边框【插入】

如何用 CSS 正确实现跟随宿主元素位置的悬浮提示框（Tooltip）

flash 如何转成html5_Flash转HTML5方案与迁移技巧【教程】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关标签:

css html js svg 浏览器 css html xhtml 命名空间 xml 字符串 JS dom innerHTML 选择器 bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：CSS 实现多字母独立圆形路径动画教程下一篇：HTML5空格和wordspacing有啥不同_空格与单词间距的差异【说明】

作者最新文章

精选AI销售工具：提升业绩的终极指南（2025年最新）

2025-12-30 10:11

历史影像解密：唇语专家如何还原一战士兵对话？

2025-12-30 10:11

驾校一点通怎么查看成绩？-驾校一点通查看成绩的方法

2025-12-30 10:13

小黑盒怎么绑定Steam

2025-12-30 10:17

地产视频号直播怎么提高流量

2025-12-30 10:19

AI邮件营销风险解析：如何规避客户触达的潜在陷阱

2025-12-30 10:20

《下一站江湖2》合欢花作用介绍

2025-12-30 10:20

《次元姬小说》举报小说方法

2025-12-30 10:22

夸克小说模式如何调出

2025-12-30 10:23

《小米游戏中心》玩过的游戏查看方法

2025-12-30 10:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

css

css是层叠样式表，用来表现HTML或XML等文件样式的计算机语言，不仅可以静态地修饰网页，还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

498

2023.06.15

css居中

css居中：1、通过“margin: 0 auto; text-align: center”实现水平居中；2、通过“display:flex”实现水平居中；3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容，供大家免费下载体验。

261

2023.07.27