0

0

Pandas大数据帧写入CSV耗时过长如何高效解决?

霞舞

霞舞

发布时间:2025-03-05 10:46:14

|

337人浏览过

|

来源于php中文网

原创

pandas大数据帧写入csv耗时过长如何高效解决?

优化Pandas大数据帧CSV写入速度

在处理大型Pandas DataFrame时,使用to_csv()函数写入CSV文件经常成为性能瓶颈。本文针对一个耗时近一小时的案例,分析问题并提供高效解决方案。

问题描述:

代码使用glob模块读取多个压缩的CSV文件(.csv.gz),并利用pd.read_csv以分块读取方式(chunksize=100000)加载数据到Pandas DataFrame。然而,将最终的DataFrame写入CSV文件(to_csv())却花费了55分钟。数据量约2000万条记录,100列,主要为数值型数据。代码如下:

import os
import glob
import pandas as pd

src_files = glob.glob(os.path.join('/my/path', "*.csv.gz"))

df = pd.DataFrame()  # 初始化一个空DataFrame
for file_ in sorted(src_files):
    iter_csv = pd.read_csv(file_, sep=',', index_col=False, header=0, 
                           low_memory=False, iterator=True, chunksize=100000, 
                           compression='gzip', memory_map=True, encoding='utf-8')
    df = pd.concat([chunk for chunk in iter_csv], ignore_index=True)

df.to_csv('output.csv', sep='|', header=True, index=False, chunksize=100000, encoding='utf-8')

del df

即使使用了分块读取和写入(chunksize=100000),写入速度仍然很慢。

简单听记
简单听记

百度网盘推出的一款AI语音转文字工具

下载

解决方案:

为了提高写入效率,建议使用更适合大规模数据存储的HDF5格式。Pandas的to_hdf()函数可以显著提升写入速度。以下代码展示了如何使用to_hdf()

df.to_hdf(r'path/file.h5', key='df', mode='w')

to_hdf()方法能大幅缩短写入时间。某些情况下,写入100MB数据到HDF5文件只需不到一秒,而to_csv()可能需要30-55秒。因此,to_hdf()是处理大型Pandas DataFrame的更优选择,尤其在写入速度至关重要的场景下。 后续如需读取,可以使用pd.read_hdf()函数。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

0

2025.12.31

php网站源码教程大全
php网站源码教程大全

本专题整合了php网站源码相关教程,阅读专题下面的文章了解更多详细内容。

0

2025.12.31

视频文件格式
视频文件格式

本专题整合了视频文件格式相关内容,阅读专题下面的文章了解更多详细内容。

2

2025.12.31

不受国内限制的浏览器大全
不受国内限制的浏览器大全

想找真正自由、无限制的上网体验?本合集精选2025年最开放、隐私强、访问无阻的浏览器App,涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问,部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制,总有一款适合你!

6

2025.12.31

出现404解决方法大全
出现404解决方法大全

本专题整合了404错误解决方法大全,阅读专题下面的文章了解更多详细内容。

18

2025.12.31

html5怎么播放视频
html5怎么播放视频

想让网页流畅播放视频?本合集详解HTML5视频播放核心方法!涵盖<video>标签基础用法、多格式兼容(MP4/WebM/OGV)、自定义播放控件、响应式适配及常见浏览器兼容问题解决方案。无需插件,纯前端实现高清视频嵌入,助你快速打造现代化网页视频体验。

3

2025.12.31

关闭win10系统自动更新教程大全
关闭win10系统自动更新教程大全

本专题整合了关闭win10系统自动更新教程大全,阅读专题下面的文章了解更多详细内容。

2

2025.12.31

阻止电脑自动安装软件教程
阻止电脑自动安装软件教程

本专题整合了阻止电脑自动安装软件教程,阅读专题下面的文章了解更多详细教程。

1

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 1.9万人学习

ThinkPHP6.x API接口--十天技能课堂
ThinkPHP6.x API接口--十天技能课堂

共14课时 | 1.1万人学习

微信小程序开发--云开发篇
微信小程序开发--云开发篇

共15课时 | 0.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号