Python爬虫数据清洗流程_结构化处理方法解析【教程】

舞夢輝影

发布时间：2025-12-30 21:33:53

624人浏览过

来源于php中文网

原创

清洗应先确认必要性，再精准处理结构破坏内容；用dtypes和sample检查数据形态，repr暴露隐藏字符；str.extract比replace更安全；嵌套JSON优先用ast.literal_eval；缺失值需按语义填充。

python爬虫数据清洗流程_结构化处理方法解析【教程】

清洗前先确认数据是否真的需要清洗

很多新手一拿到爬虫结果就急着写 dropna()、str.replace()，结果把有效空格、分隔符、嵌套 JSON 字段全干掉了。真正要清洗的，是那些破坏结构一致性的内容：比如 "¥1,299.00" 里的逗号和符号，"2024-03-15\xa0" 末尾的不可见空格，或者 "暂无数据" 这类占位字符串。

建议用 df.dtypes 和 df.sample(5).to_dict('records') 快速扫一眼字段类型和原始值形态；对文本列执行 df['price'].apply(repr) 能暴露隐藏字符。

用 `str.extract()` 比 `str.replace()` 更安全地提取数值

直接用 str.replace(r'[^0-9.]', '') 处理价格字段，会把 "1.2万" 变成 "1.2"（漏掉单位换算），也可能把 "2024.03.15" 误当成数字。更稳的做法是用正则精准捕获目标模式。

df['price'].str.extract(r'(\d+(?:\.\d+)?)\s*(?:元|¥)?') 提取带小数的价格数字
df['sales'].str.extract(r'(\d+(?:,\d+)*)\s*万') 提取“万”为单位的销量，并配合 .str.replace(',', '').astype(float) * 10000 转为整数
匹配失败时返回 NaN，比强行转类型抛 ValueError 更可控

处理嵌套结构：别用 `json.loads()` 硬解

爬到的字段里常有类似 '{"name": "iPhone", "color": "black"}' 这种 JSON 字符串，但直接 json.loads() 会因引号不规范、含 HTML 实体或缺失引号而报错 JSONDecodeError。

立即学习“Python免费学习笔记（深入）”；

Google Antigravity

谷歌推出的AI原生IDE，AI智能体协作开发

下载

更鲁棒的路径是：

先用 df['spec'].str.startswith('{') & df['spec'].str.endswith('}') 过滤出大概率合法的行
用 ast.literal_eval() 替代 json.loads() —— 它能容忍单引号、无引号键（如 {name: "iPhone"}）等常见爬虫脏数据格式
再用 pandas.json_normalize() 展开字典，避免手写 pd.json_normalize(df['spec'].apply(ast.literal_eval)) 时遇到 None 报错，应加 errors='ignore'

缺失值填充要区分语义，不是一律填 0 或 `fillna()`

"缺货" 和 "未发布" 都可能映射为 NaN，但业务含义完全不同：前者是临时状态，后者是长期空缺。盲目用 df.fillna(0) 会让缺货商品在销量排序中排第一。

实际操作中建议：

对数值型字段（如 price），优先用 df['price'].median() 或分组中位数（如按品类）填充，避免均值被异常值拉偏
对状态类字段（如 stock_status），保留 NaN 并显式转为 "unknown"，后续分析可单独过滤
用 df.isna().sum() / len(df) 统计缺失率，超过 60% 的字段，与其费力填充，不如直接弃用

清洗不是越干净越好，而是让每条数据的含义在下游分析中依然可解释。最危险的不是 NaN，是看起来整齐、实则失真的数字。

Python配置管理策略_多环境说明【指导】

Python文件加锁机制_并发写入说明【指导】

Python实例方法绑定机制_self解析【指导】

PythonDocker容器化进阶教程_多容器编排与优化实践

Python爬虫性能优化_并发控制说明【指导】

相关标签:

python html js json app iphone 爬虫数据清洗 Python json html pandas Float 字符串 len iphone

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python并发文件写入_锁机制说明【指导】下一篇：暂无

作者最新文章

同名Power！realme真我也将推出10000mAh电池机型

2025-12-30 12:05

菜鸟裹裹查询单号查询入口_官方物流数据同步更新

2025-12-30 12:10

中文简繁体转换快捷键_中文简繁体在线转换使用方法

2025-12-30 12:13

一次解决两个问题 vivo新专利将散热风扇集成天线

2025-12-30 12:15

AirPods也曾有过多巴胺色系？第一代缤纷充电盒原型机曝光

2025-12-30 12:47

yandexcom免登录入口网址_Yandex国际版搜索引擎无需登录访问入口

2025-12-30 13:41

Python接口调用策略_重试超时说明【指导】

2025-12-30 13:41

ao3中文网页版镜像免费_ao3中文网页版镜像官方正版入口正规网址2026

2025-12-30 13:43

Python魔术方法详解_特殊行为解析【教程】

2025-12-30 13:59

ao3官方网站入口怎么进_AO3官网入口镜像访问方法指南

2025-12-30 14:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

574

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

697

2023.08.11