
本文详解如何安全、合规地使用 pandas 读取 excel 数据,避免因直接传入 bytes 而触发 futurewarning,并提供基于 `bytesio` 的标准解决方案及最佳实践。
在使用 pandas.read_excel() 从内存中(如 Azure Blob Storage、Flask 请求体或 BytesIO 模拟文件)读取 Excel 文件时,若直接将 bytes 对象(例如 blob_data.readall() 返回值)传入 read_excel(),会触发如下弃用警告:
FutureWarning: Passing bytes to 'read_excel' is deprecated and will be removed in a future version. To read from a byte string, wrap it in a `BytesIO` object.
该警告明确指出:read_excel 不再接受原始 bytes,而应接收一个类文件对象(file-like object)。BytesIO 正是 Python 标准库中专为此场景设计的内存缓冲区类,它实现了 read(), seek() 等必需方法,完全满足 pandas 内部 IO 处理的要求。
✅ 正确做法(推荐且向后兼容):
from io import BytesIO import pandas as pd # 假设 blob_data 是类似 azure.storage.blob.BlobClient 的响应对象 excel_bytes = blob_data.readall() # type: bytes df = pd.read_excel(BytesIO(excel_bytes), engine='openpyxl')
? 补充说明与注意事项:
- 引擎选择:engine='openpyxl' 适用于 .xlsx/.xlsm 文件;若处理 .xls(旧版 Excel),请改用 engine='xlrd'(注意:xlrd>=2.0 已不再支持 .xlsx,建议统一用 openpyxl 或 calamine(需 pandas>=2.2.0));
- 性能优化:若文件较大,可考虑使用 BytesIO(excel_bytes) 后复用该对象多次调用 read_excel(..., sheet_name=...),避免重复解包;
-
异常处理建议:
try: df = pd.read_excel(BytesIO(blob_data.readall()), engine='openpyxl') except ValueError as e: raise ValueError(f"Excel 解析失败,请检查文件格式是否为有效 .xlsx:{e}") except Exception as e: raise RuntimeError(f"读取 Excel 时发生未知错误:{e}") -
替代方案(进阶):对于高性能或无 pandas 依赖场景,可尝试 calamine-python(Rust 实现,零依赖、极快):
from calamine import open_workbook workbook = open_workbook(BytesIO(blob_data.readall())) df = pd.DataFrame(workbook.get_sheet_by_index(0).to_pandas())
总之,BytesIO 不是临时补丁,而是官方推荐的标准适配方式——它既符合 pandas 的 IO 接口契约,又保持代码简洁、可维护性强。务必摒弃 read_excel(bytes_data) 的写法,统一升级为 read_excel(BytesIO(bytes_data))。










