0

0

Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?

霞舞

霞舞

发布时间:2025-03-02 13:52:01

|

677人浏览过

|

来源于php中文网

原创

Python脚本处理海量数据导致内存溢出:优化策略

处理大型mongoengine数据库时,使用python脚本逐行读取并写入csv文件,当数据量超过10万条时,容易出现内存溢出(oom)错误,导致进程被系统强制终止。本文分析此问题的原因,并提供优化方案。

问题描述:

一个Python脚本循环读取大型MongoEngine数据库表,每次读取一行数据并追加到CSV文件中。当数据量达到10万级时,程序发生内存溢出,系统日志显示OOM错误,例如:

aug 22 18:59:13 ubuntu1 kernel: [35729.076177] oom-kill:constraint=constraint_none,nodemask=(null),cpuset=user.slice,mems_allowed=0,global_oom,task_memcg=/user.slice/user-1000.slice/user@1000.service/app.slice/snap.pycharm-professional.pycharm-professional.5bec252c-af46-4b4b-b24d-ca56f3e18cc8.scope,task=python,pid=82650,uid=1000
aug 22 18:59:13 ubuntu1 kernel: [35729.076201] out of memory: killed process 82650 (python) total-vm:25980252kb, anon-rss:22958888kb, file-rss:0kb, shmem-rss:0kb, uid:1000 pgtables:45712kb oom_score_adj:0

使用memory_profiler工具分析,发现问题代码段:

   Line #    Mem usage    Increment  Occurrences   Line Contents
   443    557.3 MiB   -906.4 MiB       47360               elif _attr_id in multiple_choices_attr_id_list:
   444    557.3 MiB   -723.6 MiB       37888                   if isinstance(answer, list):
   445    557.3 MiB -378176.5 MiB    19756656                       answer = '|'.join([
   446    557.3 MiB -376003.6 MiB    19643112                           str(option_id_name_dict.get(_id, '')) for _id in option_id_order_list if _id in answer
   447                                                             ])
   448    557.3 MiB   -725.2 MiB       37888                   _row.append(answer)

问题分析:

立即学习Python免费学习笔记(深入)”;

memory_profiler显示的负增量并非内存减少,而是因为其测量的是代码执行之后的内存使用情况。问题在于445行和446行的列表推导式,它创建了一个巨大的中间列表,占用大量内存。即使'|'.join(...)完成,这个中间列表仍然存在,直到垃圾回收。由于数据量巨大,垃圾回收可能无法及时处理,导致OOM。

讯飞听见会议
讯飞听见会议

科大讯飞推出的AI智能会议系统

下载

解决方案:

避免一次性创建大型列表,采用生成器或迭代器逐行处理数据,并在处理完一行后释放不再需要的变量。使用csv模块高效写入CSV文件,避免内存缓存过多数据。 考虑数据库的批量写入功能或分批处理,降低单次处理的数据量。

Python脚本处理海量数据时发生内存溢出:如何优化代码避免OOM?

通过以上优化,可以有效避免Python脚本在处理海量数据时发生内存溢出。 建议结合实际数据量和系统资源,选择合适的优化策略。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

715

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

625

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

697

2023.08.11

桌面文件位置介绍
桌面文件位置介绍

本专题整合了桌面文件相关教程,阅读专题下面的文章了解更多内容。

0

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号