讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

python中如何使用XPath爬取小说

尊渡假赌尊渡假赌尊渡假赌

发布： 2025-11-16 23:37:02

原创

816人浏览过

答案：使用Python的requests和lxml库，通过发送请求、XPath解析提取小说标题和正文，可批量爬取并保存内容。需注意动态加载、反爬机制及版权问题。

python中如何使用xpath爬取小说

在Python中使用XPath爬取小说，主要是借助requests获取网页内容，再用lxml库解析HTML并使用XPath提取章节标题、正文等信息。下面是一个实用的流程说明。

安装所需库

你需要先安装requests和lxml：

pip install requests lxml

基本步骤与代码示例

以爬取某小说网站的一章内容为例（注意：仅用于学习，请遵守目标网站的robots协议和法律法规）。

1. 发送请求获取页面

立即学习“Python免费学习笔记（深入）”；

使用requests模拟浏览器访问小说章节页面：

import requests
from lxml import html

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

url = 'https://www.php.cn/link/319bb7e0f80716c134117d14a22d461e' # 替换为实际网址
response = requests.get(url, headers=headers)
response.encoding = 'utf-8' # 根据网页编码调整，常见为 utf-8 或 gbk
tree = html.fromstring(response.text)

2. 使用XPath提取内容

通过浏览器开发者工具（F12）查看小说标题和正文所在的HTML标签，构造XPath表达式。

Phenaki

Phenaki

phenaki是一种从文本生成视频的模型

Phenaki

93

Phenaki

# 提取章节标题，假设标题在

中
title = tree.xpath('//h1[@class="title"]/text()')
title = title[0].strip() if title else '未知标题'

提取正文内容，假设段落在

内的 p 标签中

content_list = tree.xpath('//div[@id="content"]//p/text()')
content = '\n'.join([line.strip() for line in content_list if line.strip()])

3. 保存到本地文件

with open('chapter_1.txt', 'w', encoding='utf-8') as f:
f.write(f"{title}\n\n{content}")

批量爬取多章节

如果要爬整本小说，可先获取目录页的所有章节链接：

catalog_url = 'https://www.php.cn/link/a58269cb74a093b377cd217b72bd15b9/catalog'
response = requests.get(catalog_url, headers=headers)
tree = html.fromstring(response.text)

假设章节链接在

links = tree.xpath('//div[@class="list"]//a/@href')

for i, link in enumerate(links[:10]): # 先测试前10章
chapter_url = 'https://www.php.cn/link/a58269cb74a093b377cd217b72bd15b9' + link

重复上面的请求和提取逻辑

# ...

登录后复制

注意事项

使用XPath爬取小说时需注意以下几点：

部分网站使用JavaScript动态加载内容，requests + lxml无法获取，需改用Selenium或Playwright
频繁请求可能触发反爬机制，建议添加time.sleep()延时
尊重版权，仅限个人学习或测试，不要大规模传播或商用
检查robots.txt，避免抓取禁止内容

基本上就这些。掌握XPath语法和网页结构分析能力后，爬取小说会变得很直接。

以上就是python中如何使用XPath爬取小说的详细内容，更多请关注php中文网其它相关文章！

相关标签：

javascript python java html windows 编码浏览器 app 工具 Python JavaScript html pip if for class href windows https

大家都在看：

python Helium库怎么实现Web自动化？如何用python分析xml获取数据？ python中jsonpath模块有何用法？ Selenium自动化：解决XPath定位元素失败的iframe处理策略使用Python lxml 和 XPath 验证XML子元素的存在性与非空性

番茄免费小说

番茄免费小说

番茄小说是抖音推出的免费阅读产品，提供海量正版小说。免费好书，尽在番茄！还有金币福利，看书能挣钱！有需要的小伙伴快来保存下载体验吧！

来源：php中文网

上一篇：python整数和浮点数的常见用法下一篇：python的ide是什么

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

中国签证申请服务中心官网

2025-12-21 13:12:37
如何使用Python开发异步服务_Python异步IO核心原理【技巧】

2025-12-21 13:13:46
夸克压缩图片功能官网_夸克压缩图片大小调整入口

2025-12-21 13:23:02
Linux服务进程守护怎么做_supervisor使用讲解【指导】

2025-12-21 13:23:02
Linux系统日志怎么看_messages与journal解析【教学】

2025-12-21 13:34:02
域名whois查询_域名whois查询正版官方免费入口最全

2025-12-21 13:37:22
拼多多烧车出价是真的吗？拼多多烧车有什么方法

2025-12-21 13:39:24
拼多多直接免拼和拼单什么区别？拼多多直接免拼单是什么意思

2025-12-21 13:41:02
C++switch语句使用说明_C++分支选择结构完整解析

2025-12-21 13:49:02
电脑IP地址查询官网_IP地址在线查询最准入口

2025-12-21 14:02:47

最新问题

Python构建图结构数据分析平台的底层算法设计与处理方法【教程】 Python图平台核心在于贴合数据特征的底层算法设计：需支持动态图演化、PropertyGraph模型、轻量化算法（如残差PageRank）、异构图分块存储、事件驱动快照及可解释性调试工具。

2025-12-22 04:25:12

703

Python可视化项目中生成报告的操作步骤【教程】 Python可视化报告生成核心是用代码自动化整合图表、分析结果与文字说明；常用工具包括JupyterNotebook、Plotly+Kaleido+模板、ReportLab/python-docx；需统一路径管理、图表命名与模板渲染，同步输出HTML（交互）和PDF（归档）。

2025-12-21 23:17:24

789

Python深度学习如何在自定义数据集上训练检测模型【指导】关键在于数据、标注、配置三者对齐；推荐PyTorch+torchvision，用COCO格式组织数据，自定义Dataset同步变换图像与bbox，微调FasterR-CNN时替换box_predictor并注意类别ID从1开始，用原生训练循环控制loss与评估。

2025-12-21 23:16:02

627

python怎么写csv文件用Python写CSV最推荐内置csv模块，正确处理特殊字符；支持writer.writerows写列表数据、DictWriter写字典数据，需指定newline=‘’和utf-8-sig编码防乱码，追加用‘a’模式。

2025-12-21 23:15:15

802

Python使用多层感知机处理结构化数据的训练细节解析【教程】 MLP处理结构化数据效果被低估，关键在于预处理（数值标准化、类别嵌入/独热、缺失值稳健填充）、合理结构（宽于深、禁用dropout、可选特征交叉）及训练细节（小学习率、早停、小batch、特征诊断）。

2025-12-21 23:14:02

620

PythonPandas数据清洗与处理_缺失值与异常值方案【指导】缺失值和异常值需结合业务逻辑与数据分布处理：识别时需检查隐性缺失；填充要按列类型选择策略；异常值检测应兼顾统计与业务规则，并通过截断、分箱或专项分析等方式处理。

2025-12-21 23:13:03

667

python中如何判断是否为0值判断值是否为0需依类型而定：基础数值用==0；浮点数用math.isclose()防精度误差；NumPy数组用np.isclose()或.item()==0；复数用==0j；容器判空用notx而非判零。

2025-12-21 23:11:03

192

Python爬虫如何定时运行_自动化采集方案说明【教程】 Python爬虫定时运行需结合系统调度（如crontab、Windows任务计划）或Python库（schedule、APScheduler、Celery），注意环境隔离、日志异常处理、反爬策略及资源清理。

2025-12-21 23:10:02

668

Python使用多维特征处理预测任务的标准化建模流程【教程】标准化建模流程的核心是保障可复现、可解释、可迭代，关键包括：统一预处理逻辑、严格分离训练/验证/测试集、封装特征工程为可调用组件、固定随机性、保留原始映射关系。

2025-12-21 23:09:30

193

图像处理如何实现日志监控的完整流程【教程】图像处理日志监控需覆盖全链路、分层记录关键节点、集成框架诊断机制、结构化轻量日志、注意异步写入等细节，确保可追溯、低性能影响、高定位效率。

2025-12-21 23:09:08

543

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

XPath 参考手册

0次学习
收藏
XPath 教程

35837次学习
收藏
CSS3 教程

38662次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部