Python缺失值处理策略_填充删除与预测方法【指导】

冷炫風刃

发布时间：2025-12-25 21:57:18

675人浏览过

来源于php中文网

原创

缺失值判断应使用 pd.isna()，它能统一识别 None、np.nan 和 pd.NA；删除用 dropna() 时需注意 subset 参数；数值填充优先选 SimpleImputer(strategy='median')；预测填充仅适用于高相关特征；非随机缺失（MNAR）宜转为二值特征。

python缺失值处理策略_填充删除与预测方法【指导】

缺失值判断要用 `pd.isna()`，别用 `== None` 或 `is None`

Python 中 None、np.nan、pd.NA 都可能表示缺失，但它们行为不同。== None 对 np.nan 永远返回 False，is None 在 pandas Series 中多数情况下也不可靠。唯一通用且安全的判断方式是 pd.isna()（它同时识别 np.nan、None、pd.NA）。

df['col'].isna() 返回布尔 Series，可直接用于筛选或统计
df.isna().sum() 快速查看每列缺失数量
注意：pd.notna() 是反向操作，等价于 ~df.isna()

删除缺失行用 `dropna()`，但默认只删全为 NaN 的行

dropna() 默认参数是 how='any' 且 axis=0，但很多人误以为它会删掉「任意含缺失的行」——其实它确实会，但前提是没指定 subset。真正容易出错的是：当只想删某几列有缺失的行时，必须显式传 subset，否则其他列的缺失会被忽略。

删掉 'age' 或 'income' 中任一列为空的整行：df.dropna(subset=['age', 'income'])
只删「所有列都为空」的行：df.dropna(how='all')
删列（不常用）：df.dropna(axis=1, how='all') —— 删全为 NaN 的列
⚠️ 注意：inplace=True 不推荐，易掩盖原始数据状态；优先用赋值：df = df.dropna(...)

数值型填充优先用 `SimpleImputer(strategy='median')`，不是均值

均值对异常值极度敏感，而中位数鲁棒性强得多。pandas 的 fillna() 虽方便，但无法跨训练/测试集一致应用（比如用训练集的中位数去填测试集），工程部署时容易出错。sklearn 的 SimpleImputer 支持 fit() + transform() 流程，确保数据一致性。

from sklearn.impute import SimpleImputer
import numpy as np

imp = SimpleImputer(strategy='median')
X_train_imputed = imp.fit_transform(X_train.select_dtypes(include=[np.number]))
X_test_imputed = imp.transform(X_test.select_dtypes(include=[np.number]))

strategy='most_frequent' 适用于离散型数值（如编码后的类别）
strategy='constant' 填固定值（如 -999），需配合后续模型处理逻辑
分类变量别用 SimpleImputer 填均值/中位数——类型不匹配会报错

预测填充（KNN / IterativeImputer）只在特征强相关时才有效

KNN 填充和 IterativeImputer 本质是建模：用其他列预测缺失列。如果变量间线性/非线性关系弱，预测结果反而比中位数更差，还大幅拖慢速度。实测中，超过 50 列且缺失率 >15% 时，IterativeImputer 训练时间可能增长 10 倍以上，且结果不稳定。

立即学习“Python免费学习笔记（深入）”；

小规模、高相关数据可用：from sklearn.impute import KNNImputer，n_neighbors=5 通常够用
IterativeImputer 默认用 BayesianRidge，但换成 DecisionTreeRegressor 有时更鲁棒（尤其含离散特征时）
⚠️ 绝对不要在未标准化的数据上用 KNN —— 量纲差异会导致距离失真

缺失机制本身比方法选择更重要：若缺失不是随机（MNAR），比如“收入越低，越不愿填写”，那任何插补都会引入系统性偏差。这种时候，与其强行填，不如把「是否缺失」转为二值特征参与建模。

Python接口性能测试方法_locust压力测试讲解【技巧】

Python接口日志标准化_方便问题回溯分析【教程】

Python协程系统学习路线第538讲_核心原理与实战案例详解【教程】

Python字符串系统学习路线第561讲_核心原理与实战案例详解【指导】

Python异常处理系统学习路线第51讲_核心原理与实战案例详解【指导】

相关标签:

python 编码 ai Python pandas transform sklearn

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python并发系统学习路线第255讲_核心原理与实战案例详解【指导】下一篇：Python自动化系统学习路线第503讲_核心原理与实战案例详解【技巧】

作者最新文章

qq邮箱网页版登陆在线直达_qq邮箱网页版登录正版官方入口一键直达2026最新

2025-12-24 11:48

4399在线玩网页版入口官网_4399网页版正版官方入口一键直达小游戏2026

2025-12-24 11:49

qq邮箱登陆网页版官网_qq邮箱网页版登录正版官方入口正规网址最全渠道2026

2025-12-24 11:50

发票怎么查询真伪_全国发票查验平台真伪查询步骤

2025-12-24 12:11

亲戚称谓计算器免费教程_亲戚称谓计算器在线使用方法

2025-12-24 12:53

Google笔记神器再进化！NotebookLM一键将文字转成试算表表格

2025-12-24 13:09

手机修改ip属地方法详细教程与工具推荐

2025-12-24 13:10

mbti官网免费版怎么进_16个人格类型免费完整版测试入口地址

2025-12-24 13:12

肯德基电脑版下载-肯德基PC端下载 v6.29.0

2025-12-24 13:23

告别尴尬翻译！Google翻译导入Gemini突破语意理解障碍终于搞懂俚语和方言

2025-12-24 14:07

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

707

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

734

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

616

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

695

2023.08.11