0

0

Cheerio 解析 HTML 时丢失 div 元素的解决方案

心靈之曲

心靈之曲

发布时间:2025-12-29 18:35:02

|

589人浏览过

|

来源于php中文网

原创

Cheerio 解析 HTML 时丢失 div 元素的解决方案

cheerio 默认以 html 模式解析文档,会自动修正不规范标签(如自定义命名空间标签 `idx:entry`),导致嵌套 `div` 被错误剥离;启用 `xml: true` 可保留原始结构并正确提取全部子元素文本。

在使用 Cheerio 处理含 XML 命名空间(如 idx:entry、mbp:frameset)或非标准 HTML 结构的文档时,你可能会遇到看似“丢失”元素的问题——尤其是深层嵌套的

内容未被 text() 方法捕获。这并非 Cheerio 的 bug,而是其默认解析模式与文档实际结构不匹配所致。

默认情况下,cheerio.load(htmlString) 以 HTML 模式 运行:它会模拟浏览器 DOM 行为,自动修复/忽略非法标签、折叠空白、规范化命名空间前缀(如将 idx:orth 视为未知标签并降级处理),甚至可能提前截断或跳过无法识别的父子关系。在你的 tmp.html 中, 下的第三个

因其复杂嵌套(含 span、i、a 等)及命名空间上下文,在 HTML 模式下被解析器误判为“不可见”或“无效结构”,从而未纳入 .text() 的遍历范围。

✅ 正确解法是显式启用 XML 模式

const fs = require('fs');
const cheerio = require('cheerio');

const data = fs.readFileSync('tmp.html', 'utf8');
// 关键:传入 { xml: true } 选项
const $ = cheerio.load(data, { xml: true });

// 现在可完整获取所有子节点文本
const entryText = $('body idx\\:entry').eq(0).text().trim();
console.log(entryText);
// 输出:abaniquear vt (Andes) see also: abanicar ✅

⚠️ 注意事项:

Bika.ai
Bika.ai

打造您的AI智能体员工团队

下载

立即学习前端免费学习笔记(深入)”;

  • xml: true 会禁用 HTML 自动修复(如闭合缺失标签、转换大小写),因此文档必须格式良好(良好嵌套、正确闭合、合法实体);
  • 命名空间前缀(如 idx:)需在选择器中转义:idx\\:entry(双反斜杠因 JS 字符串+CSS 选择器双重转义);
  • 若混合使用 HTML 语义标签(如 )和 XML 标签,确保它们在 XML 模式下仍被正确识别(通常无问题,但避免依赖 innerHTML 类似行为);
  • 不要混用 xml: true 与 script: false 或 decodeEntities: false 等可能破坏文本解析的选项。

? 总结:当 Cheerio 表现异常(元素“消失”、文本截断、属性丢失),优先检查解析模式——对含自定义命名空间、EPUB/MOBI 索引标记(idx:*)、SVG 或 XHTML 片段的文档,{ xml: true } 是可靠且必要的配置。

相关专题

更多
css
css

css是层叠样式表,用来表现HTML或XML等文件样式的计算机语言,不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。php中文网还为大家带来html的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

498

2023.06.15

css居中
css居中

css居中:1、通过“margin: 0 auto; text-align: center”实现水平居中;2、通过“display:flex”实现水平居中;3、通过“display:table-cell”和“margin-left”实现居中。本专题为大家提供css居中的相关的文章、下载、课程内容,供大家免费下载体验。

261

2023.07.27

css如何插入图片
css如何插入图片

cssCSS是层叠样式表(Cascading Style Sheets)的缩写。它是一种用于描述网页或应用程序外观和样式的标记语言。CSS可以控制网页的字体、颜色、布局、大小、背景、边框等方面,使得网页的外观更加美观和易于阅读。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

731

2023.07.28

css超出显示...
css超出显示...

在CSS中,当文本内容超出容器的宽度或高度时,可以使用省略号来表示被隐藏的文本内容。本专题为大家提供css超出显示...的相关文章,相关教程,供大家免费体验。

533

2023.08.01

css字体颜色
css字体颜色

CSS中,字体颜色可以通过属性color来设置,用于控制文本的前景色,字体颜色在网页设计中起到很重要的作用,具有以下表现作用:1、提升可读性;2、强调重点信息;3、营造氛围和美感;4、用于呈现品牌标识或与品牌形象相符的风格。

748

2023.08.10

什么是css
什么是css

CSS是层叠样式表(Cascading Style Sheets)的缩写,是一种用于描述网页(或其他基于 XML 的文档)样式与布局的标记语言,CSS的作用和意义如下:1、分离样式和内容;2、页面加载速度优化;3、实现响应式设计;4、确保整个网站的风格和样式保持统一。

594

2023.08.10

css三角形怎么写
css三角形怎么写

CSS可以通过多种方式实现三角形形状,本专题为大家提供css三角形怎么写的相关教程,大家可以免费体验。

556

2023.08.21

css设置文字颜色
css设置文字颜色

CSS(层叠样式表)可以用于设置文字颜色,这样做有以下好处和优势:1、增加网页的可视化效果;2、突出显示某些重要的信息或关键字;3、增强品牌识别度;4、提高网页的可访问性;5、引起不同的情感共鸣。

387

2023.08.22

桌面文件位置介绍
桌面文件位置介绍

本专题整合了桌面文件相关教程,阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.7万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 2.7万人学习

CSS教程
CSS教程

共754课时 | 17.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号