先读取文本内容,再根据结构选择字符串处理、正则表达式或专用库提取信息。1. 读取文件或字符串变量;2. 用split()、find()等方法提取固定格式信息;3. 用re.findall()提取邮箱、电话、日期等规律性信息;4. 对JSON、HTML、PDF等结构化文本分别使用json、BeautifulSoup、PyPDF2等工具解析后提取。

提取文本信息在Python中很常见,主要根据文本来源和结构选择合适的方法。核心思路是读取文本内容后,用字符串处理、正则表达式或专用库进行信息抽取。
先将文本加载到程序中,常见方式有读取文件或处理字符串变量。
示例:with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()text = "这里是需要提取信息的文本内容"
适用于格式固定的文本,比如提取关键词前后的内容。
title = text.split("标题:")[1].split("\n")[0]start = text.find("电话:") + 3
end = text.find("\n", start)
phone = text[start:end]适合提取电话号码、邮箱、日期等有规律的信息。
淘客帝国免费版4.3,整合JSSDK,开放屏蔽词设置,优化效率。,感谢大家对淘客帝国的支持,因为有你们的支持,让我们不断前进,不断完善.淘客帝国团队向各位淘客致谢~我们一直在努力争取给淘客朋友们提供最好的淘客TOP API淘客程序!免费版我们一如既往会一直更新,希望大家关注免费版的最新版本号。随时保持版本更新。 请仔细用10分钟时间查看以下信息!本程序以官方名义推荐。没有任何后门,大家可放心使用!
2
立即学习“Python免费学习笔记(深入)”;
示例:import re
emails = re.findall(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', text)phones = re.findall(r'1[3-9]\d{9}', text)dates = re.findall(r'\d{4}-\d{2}-\d{2}', text)不同格式需用对应工具解析后再提取。
import json data = json.loads(text) value = data['key']
from bs4 import BeautifulSoup
soup = BeautifulSoup(text, 'html.parser')
titles = soup.find_all('h1')import PyPDF2
reader = PyPDF2.PdfReader('file.pdf')
text = reader.pages[0].extract_text()以上就是python如何提取文本信息?的详细内容,更多请关注php中文网其它相关文章!
python怎么学习?python怎么入门?python在哪学?python怎么学才快?不用担心,这里为大家提供了python速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号