Python文件编码问题核心是确保源码、文件读写、终端输出三者编码一致;需显式声明UTF-8编码、open时指定encoding参数、终端适配UTF-8模式。

Python文件编码问题,核心在于确保源码、读写文件、终端输出三者编码一致,尤其在Windows和Linux/macOS混用时容易出错。默认情况下,Python 3 使用 UTF-8 读取源文件,但 Windows 控制台(cmd/PowerShell)默认是 GBK(中文系统),这就导致 print 中文乱码、open 文件报 UnicodeDecodeError 等典型问题。
源文件必须声明 UTF-8 编码
即使 Python 3 默认支持 UTF-8,仍建议在 .py 文件首行或第二行显式声明编码(PEP 263 要求):
- # -*- coding: utf-8 -*-(兼容旧版,推荐)
- # coding=utf-8(简洁写法,效果相同)
- 不声明也通常能运行,但一旦含中文注释、字符串且被非 UTF-8 环境解析(如某些IDE或打包工具),就可能失败
打开文件时明确指定 encoding 参数
使用 open() 读写文本文件时,绝不要依赖系统默认编码。务必显式传入 encoding='utf-8':
- with open('data.txt', 'r', encoding='utf-8') as f:
- with open('out.log', 'w', encoding='utf-8') as f:
- 若需兼容 GBK 文件(如Windows旧日志),可捕获异常后重试:encoding='gbk',但不建议作为默认策略
终端输出中文需匹配环境编码
print() 输出乱码,往往不是代码问题,而是终端本身不支持 UTF-8:
立即学习“Python免费学习笔记(深入)”;
- Windows cmd:执行 chcp 65001 切换为 UTF-8 模式(临时生效)
- Windows PowerShell:默认支持 UTF-8,但需确认 $OutputEncoding = [System.Text.UTF8Encoding]::new()
- Linux/macOS 终端一般无问题,但可通过 locale 命令确认 LANG 是否含 UTF-8
跨平台脚本可主动适配终端编码
对需要稳定输出的工具脚本,可用标准库自动检测并设置输出编码:
- 导入 import sys,检查 sys.stdout.encoding,必要时用 print(..., file=sys.stdout) 强制走 UTF-8 流
- 更稳妥做法:统一用 sys.stdout.buffer.write(....encode('utf-8')) 绕过文本层编码转换
- 避免依赖 os.system('echo ...') 类调用,其编码完全由 shell 决定,不可控










