讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

python如何提取文本信息？

冷炫風刃

发布： 2025-11-22 22:00:02

原创

847人浏览过

先读取文本内容，再根据结构选择字符串处理、正则表达式或专用库提取信息。1. 读取文件或字符串变量；2. 用split()、find()等方法提取固定格式信息；3. 用re.findall()提取邮箱、电话、日期等规律性信息；4. 对JSON、HTML、PDF等结构化文本分别使用json、BeautifulSoup、PyPDF2等工具解析后提取。

python如何提取文本信息？

提取文本信息在Python中很常见，主要根据文本来源和结构选择合适的方法。核心思路是读取文本内容后，用字符串处理、正则表达式或专用库进行信息抽取。

1. 读取文本内容

先将文本加载到程序中，常见方式有读取文件或处理字符串变量。

示例：

读取本地文本文件：

with open('text.txt', 'r', encoding='utf-8') as f:
    text = f.read()

登录后复制

处理字符串：

text = "这里是需要提取信息的文本内容"

登录后复制

2. 使用字符串方法提取简单信息

适用于格式固定的文本，比如提取关键词前后的内容。

split() 分割文本： 按分隔符切分，取所需部分
```
title = text.split("标题：")[1].split("\n")[0]
```
登录后复制

find() + 切片： 定位关键词位置并提取

start = text.find("电话：") + 3
end = text.find("\n", start)
phone = text[start:end]

登录后复制

3. 使用正则表达式提取复杂模式

适合提取电话号码、邮箱、日期等有规律的信息。

淘客帝国免费版

淘客帝国免费版

淘客帝国免费版4.3，整合JSSDK，开放屏蔽词设置，优化效率。,感谢大家对淘客帝国的支持,因为有你们的支持,让我们不断前进,不断完善.淘客帝国团队向各位淘客致谢~我们一直在努力争取给淘客朋友们提供最好的淘客TOP API淘客程序!免费版我们一如既往会一直更新，希望大家关注免费版的最新版本号。随时保持版本更新。请仔细用10分钟时间查看以下信息!本程序以官方名义推荐。没有任何后门，大家可放心使用!

淘客帝国免费版

2

淘客帝国免费版

立即学习“Python免费学习笔记（深入）”；

示例：

提取邮箱：

import re
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)

登录后复制

提取手机号：

phones = re.findall(r'1[3-9]\d{9}', text)

登录后复制

提取日期（如2025-04-05）：
```
dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)
```
登录后复制

4. 处理结构化文本（如JSON、HTML、PDF）

不同格式需用对应工具解析后再提取。

JSON 数据：

import json
data = json.loads(text)
value = data['key']

登录后复制

HTML 页面（用 BeautifulSoup）：

from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')
titles = soup.find_all('h1')

登录后复制

PDF 文件（用 PyPDF2 或 pdfplumber）：

import PyPDF2
reader = PyPDF2.PdfReader('file.pdf')
text = reader.pages[0].extract_text()

登录后复制

基本上就这些。根据你的文本类型选对方法，再结合字符串操作和正则表达式，就能高效提取所需信息。

以上就是python如何提取文本信息？的详细内容，更多请关注php中文网其它相关文章！

相关标签：

python html js json 正则表达式工具 ai pdf 邮箱 2025 Python json 正则表达式 html beautifulsoup 字符串切片

大家都在看：

python中如何判断是否为0值 Python爬虫如何定时运行_自动化采集方案说明【教程】 Python使用多维特征处理预测任务的标准化建模流程【教程】 Python构建异常行为检测系统的特征工程与训练方案解析【教学】 python的reduce怎么用

python速学教程(入门到精通)

python速学教程(入门到精通)

python怎么学习？python怎么入门？python在哪学？python怎么学才快？不用担心，这里为大家提供了python速学教程(入门到精通)，有需要的小伙伴保存下载就能学习啦！

来源：php中文网

上一篇：如何使用python pyautogui模块绘制图形？下一篇：python中bytearray函数的作用是什么？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

word文档简繁体转换教程_中文简繁体转换工具使用方法

2025-12-21 08:05:46
java处理字符的函数

2025-12-21 08:08:02
SQL复杂条件查询如何构建_深入讲解快速提升实战能力【技巧】

2025-12-21 09:03:23
坐飞机流程步骤图

2025-12-21 09:11:02
京东快递收费标准_京东快递寄件资费与计费方式

2025-12-21 09:53:02
无法在 Excel 中创建列表：文件不存在

2025-12-21 10:01:02
java求圆的面积代码

2025-12-21 10:36:08
sf菠萝包轻小说官网_sf菠萝包轻小说官网正版入口全站同步更新

2025-12-21 12:03:07
京东直播有什么优惠？京东直播

2025-12-21 12:52:02
阴历阳历转换表怎么看_阴历农历万年历使用方法

2025-12-21 13:02:02

最新问题

Python构建图结构数据分析平台的底层算法设计与处理方法【教程】 Python图平台核心在于贴合数据特征的底层算法设计：需支持动态图演化、PropertyGraph模型、轻量化算法（如残差PageRank）、异构图分块存储、事件驱动快照及可解释性调试工具。

2025-12-22 04:25:12

703

Python可视化项目中生成报告的操作步骤【教程】 Python可视化报告生成核心是用代码自动化整合图表、分析结果与文字说明；常用工具包括JupyterNotebook、Plotly+Kaleido+模板、ReportLab/python-docx；需统一路径管理、图表命名与模板渲染，同步输出HTML（交互）和PDF（归档）。

2025-12-21 23:17:24

789

Python深度学习如何在自定义数据集上训练检测模型【指导】关键在于数据、标注、配置三者对齐；推荐PyTorch+torchvision，用COCO格式组织数据，自定义Dataset同步变换图像与bbox，微调FasterR-CNN时替换box_predictor并注意类别ID从1开始，用原生训练循环控制loss与评估。

2025-12-21 23:16:02

627

python怎么写csv文件用Python写CSV最推荐内置csv模块，正确处理特殊字符；支持writer.writerows写列表数据、DictWriter写字典数据，需指定newline=‘’和utf-8-sig编码防乱码，追加用‘a’模式。

2025-12-21 23:15:15

802

Python使用多层感知机处理结构化数据的训练细节解析【教程】 MLP处理结构化数据效果被低估，关键在于预处理（数值标准化、类别嵌入/独热、缺失值稳健填充）、合理结构（宽于深、禁用dropout、可选特征交叉）及训练细节（小学习率、早停、小batch、特征诊断）。

2025-12-21 23:14:02

620

PythonPandas数据清洗与处理_缺失值与异常值方案【指导】缺失值和异常值需结合业务逻辑与数据分布处理：识别时需检查隐性缺失；填充要按列类型选择策略；异常值检测应兼顾统计与业务规则，并通过截断、分箱或专项分析等方式处理。

2025-12-21 23:13:03

667

python中如何判断是否为0值判断值是否为0需依类型而定：基础数值用==0；浮点数用math.isclose()防精度误差；NumPy数组用np.isclose()或.item()==0；复数用==0j；容器判空用notx而非判零。

2025-12-21 23:11:03

192

Python爬虫如何定时运行_自动化采集方案说明【教程】 Python爬虫定时运行需结合系统调度（如crontab、Windows任务计划）或Python库（schedule、APScheduler、Celery），注意环境隔离、日志异常处理、反爬策略及资源清理。

2025-12-21 23:10:02

668

Python使用多维特征处理预测任务的标准化建模流程【教程】标准化建模流程的核心是保障可复现、可解释、可迭代，关键包括：统一预处理逻辑、严格分离训练/验证/测试集、封装特征工程为可调用组件、固定随机性、保留原始映射关系。

2025-12-21 23:09:30

193

图像处理如何实现日志监控的完整流程【教程】图像处理日志监控需覆盖全链路、分层记录关键节点、集成框架诊断机制、结构化轻量日志、注意异步写入等细节，确保可追溯、低性能影响、高定位效率。

2025-12-21 23:09:08

543

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新Python教程从入门到精通

5443次学习
收藏
Django 教程

22969次学习
收藏
SciPy 教程

8576次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部