
本文旨在解决使用msoffcrypto解密带密码保护的XLS文件后,使用pandas读取时遇到的UnicodeDecodeError问题。文章将提供一种可行的解决方案,并讨论可能导致问题的其他原因,例如密码错误或文件损坏,帮助读者成功读取解密后的Excel数据。
在使用msoffcrypto库解密带密码保护的XLS文件后,直接使用pd.read_excel()函数读取解密后的io.BytesIO对象,有时会遇到UnicodeDecodeError。这通常是由于pandas默认的解码方式与文件实际编码不匹配导致的。
一种有效的解决方法是先将解密后的io.BytesIO对象转换为pd.ExcelFile对象,然后再进行读取。
以下是修改后的代码示例:
import msoffcrypto
import io
import pandas as pd
decrypted = io.BytesIO()
with open("test_encrypted.xlsx", "rb") as f: # 替换为实际的文件路径
file = msoffcrypto.OfficeFile(f)
file.load_key(password="test") # 使用正确的密码
try:
file.decrypt(decrypted)
# 创建一个 ExcelFile 对象
xls_file = pd.ExcelFile(decrypted)
# 打印 sheet 名称进行验证
print(xls_file.sheet_names)
# 读取第一个 sheet 到 DataFrame
df = xls_file.parse(xls_file.sheet_names[0])
print(df.head())
except msoffcrypto.exceptions.InvalidKeyError:
print('密码错误!')
except Exception as e:
print(f"发生其他错误: {e}")代码解释:
- 首先,使用msoffcrypto.OfficeFile打开加密的XLS文件,并使用load_key()方法加载密码。
- 然后,使用decrypt()方法将解密后的数据写入io.BytesIO对象decrypted。
- 关键在于,不再直接使用pd.read_excel(decrypted),而是先创建一个pd.ExcelFile对象:xls_file = pd.ExcelFile(decrypted)。
- 使用xls_file.sheet_names可以查看Excel文件中的sheet名称,确认文件是否成功解密并读取。
- 最后,可以使用xls_file.parse()方法将指定的sheet读取到DataFrame中。
注意事项:
- 确保使用的密码是正确的。 如果密码错误,msoffcrypto会抛出msoffcrypto.exceptions.InvalidKeyError异常,代码中已经包含了相应的异常处理。
- 如果上述方法仍然无法解决问题,可能是文件本身已经损坏。可以尝试使用其他工具打开文件,检查文件是否完整。
- 如果Excel文件非常大,可以考虑分块读取,以减少内存占用。pd.ExcelFile对象也支持迭代读取sheet。
- test_encrypted.xlsx 替换为实际的文件路径, test 替换为实际的密码。
- 示例代码中增加了通用的异常捕获,以便更好地排查问题。
总结:
通过将解密后的io.BytesIO对象转换为pd.ExcelFile对象,可以有效地解决UnicodeDecodeError问题。同时,需要注意密码的正确性以及文件是否损坏。希望本文能帮助你成功读取解密后的Excel数据。如果问题仍然存在,请检查文件完整性或尝试其他解码方式。










