PythonOCR文字识别教程_Tesseract使用详解

舞姬之光

发布时间：2026-01-06 19:38:03

811人浏览过

来源于php中文网

原创

需先安装Tesseract引擎再安装pytesseract库；Windows下载安装包并勾选“Add to PATH”，macOS用brew install tesseract，Linux用apt install tesseract-ocr；随后pip install pytesseract，并按需配置tesseract_cmd路径。

pythonocr文字识别教程_tesseract使用详解

安装Tesseract和pytesseract

要让Python调用OCR功能，得先装好Tesseract引擎本身，再装Python封装库pytesseract。

Windows用户可去Tesseract官方Wiki页面下载安装包（推荐带训练数据的完整版），安装时勾选“Add to PATH”；macOS用户用Homebrew执行brew install tesseract；Linux（如Ubuntu）运行sudo apt install tesseract-ocr libtesseract-dev。

接着在终端或命令行中安装Python接口：

pip install pytesseract
如果提示找不到tesseract命令，需手动指定路径，例如在代码开头加：
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'（Windows）
或pytesseract.pytesseract.tesseract_cmd = '/usr/local/bin/tesseract'（macOS/Linux）

基础文字识别：从图片读取文本

最常用场景是把一张清晰截图或扫描图转成字符串。支持格式包括PNG、JPG、BMP等。

立即学习“Python免费学习笔记（深入）”；

示例代码：

from PIL import Image
import pytesseract
打开图片
img = Image.open('receipt.png')
直接识别，默认使用eng语言包
text = pytesseract.image_to_string(img)
print(text)

注意点：

图片越清晰、文字越规整，识别越准；模糊、倾斜、低对比度会明显降低效果
默认识别英文，若处理中文，需额外下载中文训练数据（chi_sim或chi_tra），并传入lang='chi_sim'
可加config='--psm 6'参数提升单行/规则文本识别率（PSM模式详见下节）

调整OCR识别精度：PSM和OEM参数

Tesseract提供Page Segmentation Mode（PSM）和OCR Engine Mode（OEM）两个核心配置项，直接影响结果质量。

Python v2.4 中文手册 chm

Python v2.4版chm格式的中文手册，内容丰富全面，不但是一本手册，你完全可以把她作为一本Python的入门教程，教你如何使用Python解释器、流程控制、数据结构、模板、输入和输出、错误和异常、类和标准库详解等方面的知识技巧。同时后附的手册可以方便你的查询。

下载

常用PSM值说明：

PSM 3：自动检测页面结构（默认值，适合普通文档）
PSM 6：假设为单块均匀文本（推荐用于截图、票据、标题等）
PSM 7：一行文字（适合验证码、标签、短语）
PSM 8：单词（极少用）
PSM 10：单个字符（用于特殊识别任务）

调用方式：

text = pytesseract.image_to_string(
    img, 
    lang='chi_sim', 
    config='--psm 6 --oem 3'
)

OEM推荐始终用--oem 3（LSTM神经网络引擎，Tesseract 4+默认），老版本才考虑OEM 0/1。

预处理图像提升识别率

Tesseract对输入图像很敏感。原始图片常需简单预处理：

转灰度：去掉颜色干扰，img.convert('L')
二值化：增强文字与背景对比，可用PIL的point函数或OpenCV的threshold
去噪：小斑点可用ImageFilter.MedianFilter()；大面积噪点建议用OpenCV的形态学操作
缩放：文字太小（如8px以下）易漏字，建议将字体高度放大到20–30px再识别
矫正倾斜：用OpenCV检测文字角度后旋转校正，或用skimage.transform.rotate

一个轻量预处理示例：

from PIL import Image, ImageEnhance
def preprocess(img):
img = img.convert('L')  # 灰度
enhancer = ImageEnhance.Contrast(img)
img = enhancer.enhance(2.0)  # 提高对比度
return img.point(lambda x: 0 if x < 128 else 255, '1')  # 二值化
clean_img = preprocess(Image.open('id_card.jpg'))
text = pytesseract.image_to_string(clean_img, lang='chi_sim', config='--psm 6')

获取更详细识别信息：box、data和confidence

除了纯文本，Tesseract还能返回每个字符/单词的位置、置信度等结构化数据。

image_to_boxes(img)：返回字符级坐标（左下角x,y + 右上角x,y + 字符）
image_to_data(img)：返回DataFrame格式，含level、page_num、block_num、par_num、line_num、word_num、left、top、width、height、conf、text等字段，conf即识别置信度（-1表示跳过）
过滤低置信度结果：df = df[df.conf != -1]，再用df[df.conf > 60]['text'].str.cat(sep=' ')拼接高可信文本

这些输出可用于构建带定位的OCR系统，比如提取发票中的“金额”“日期”字段，或做图文对齐。

Python压缩文件处理_zip与tar解析【指导】

如何使用 pyodbc 连接 Azure SQL 数据库

Python文本编码与解码_跨平台解析说明【指导】

Python文件权限操作_系统交互说明【指导】

Python文件压缩效率对比_格式选择解析【教程】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：PythonAI聚类模型教程_用户与数据分群实践下一篇：Python中lambda函数的定义和用法_匿名函数lambda语法与基础应用

作者最新文章

Linux安全运维规范整理_团队协作解析【教程】

2026-01-07 18:05

win11插线耳麦怎么连接

2026-01-07 18:09

python pytz是什么

2026-01-07 18:15

SQL数据库日志系统_redoundologbinlog详解

2026-01-07 18:48

google play下载安卓方法_Google Play商店安卓app下载指南

2026-01-07 19:38

Linux防火墙项目教程_IptablesFirewalld规则优化实践

2026-01-07 19:39

Linux运维日志最佳实践_长期维护经验总结【教程】

2026-01-07 19:43

google浏览器怎么设置无图_谷歌浏览器无图模式开启教程

2026-01-07 20:00

Linux进程管理怎么做_ps与top实战应用解析【教程】

2026-01-07 20:12

win10和win11怎么共享

2026-01-07 20:13

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

734

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

631

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

753

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1258

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

705

2023.08.11