Python中如何处理高维数据—PCA降维实战案例

雪夜

发布时间：2025-07-13 14:00:03

287人浏览过

来源于php中文网

原创

pca（主成分分析）是一种通过线性投影降低数据维度的方法，能保留最大方差信息以减少冗余和计算复杂度。1. 其核心思想是提取正交的主成分来捕捉数据主要变化方向；2. 适用于高维场景如图像、文本处理；3. 实战步骤包括：导入数据、标准化、应用pca降维、可视化结果；4. 选择主成分数量可通过解释方差比或累计曲线判断；5. 注意事项有：需标准化、不适用于非线性结构与分类特征选择、可能损失有用信号。

Python中如何处理高维数据—PCA降维实战案例

在Python中处理高维数据时，PCA（主成分分析）是一种非常实用的降维方法。它能帮助我们减少特征数量，同时保留尽可能多的信息。下面通过一个实战案例，带你了解如何用PCA进行降维。

什么是PCA？为什么适合用来处理高维数据？

PCA 的核心思想是将原始特征空间中的信息，投影到一个更低维度的空间中，从而提取出最重要的几个“主成分”。这些主成分之间相互正交，能最大程度地保留原始数据的方差信息。

高维数据的问题在于计算复杂度高、容易过拟合，而且很多特征之间可能存在冗余。PCA 就能有效解决这些问题，尤其适用于图像、文本等特征维度动辄成百上千的场景。

立即学习“Python免费学习笔记（深入）”；

实战步骤：使用 sklearn 实现 PCA

我们以经典的鸢尾花（Iris）数据集为例，虽然它的维度并不算高（4个特征），但作为入门练习非常合适。

第一步：导入必要的库和数据

from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# 加载数据
iris = load_iris()
X = iris.data
y = iris.target

第二步：标准化数据

PCA 对数据尺度敏感，所以需要先做标准化：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

第三步：应用 PCA 进行降维

这里我们尝试降到2维，方便可视化：

Red Panda AI

AI文本生成图像

下载

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

第四步：可视化结果

plt.figure(figsize=(8, 6))
for target in [0, 1, 2]:
    plt.scatter(X_pca[y == target, 0], X_pca[y == target, 1], label=iris.target_names[target])
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend()
plt.title('PCA of Iris Dataset')
plt.show()

这样我们就完成了整个流程，可以看到不同类别的点被较好地区分开。

如何选择主成分数量？

这是使用 PCA 时最常遇到的问题之一。你可以通过查看解释方差比来决定保留多少主成分：

pca = PCA()
pca.fit(X_scaled)
explained_variance = pca.explained_variance_ratio_
print(explained_variance)

输出类似：

[0.729, 0.228, 0.036, 0.007]

这说明前两个主成分已经解释了大约 95.7% 的信息，因此可以放心地只保留前两个成分。

也可以画出累计解释方差曲线来找拐点：

import numpy as np

cumulative_variance = np.cumsum(explained_variance)
plt.plot(cumulative_variance)
plt.xlabel('Number of components')
plt.ylabel('Cumulative explained variance')
plt.grid()
plt.show()

使用 PCA 时需要注意的几点

不要跳过标准化：特征量纲差异大会严重影响 PCA 结果。
PCA 是线性方法：对于非线性结构的数据（比如环形分布），考虑使用 t-SNE 或 UMAP。
降维后模型性能不一定提升：有时候去掉的“噪声”也可能是有用信号的一部分，建议结合交叉验证判断是否使用 PCA。
PCA 不适合用于分类任务的特征选择：因为它不考虑标签，只关注数据本身的结构。

基本上就这些。PCA 是一个简单但很有效的工具，特别是在你面对上百甚至上千维数据的时候。掌握了基本操作之后，就可以根据实际需求灵活调整参数和流程了。

如何在Pandas中按多列分组计算并广播结果到原始DataFrame的每一行

如何在 Pandas 中正确计算含 NaN 值的加权平均（自动忽略无效权重）

如何使用 NumPy 高效删除零方差列

如何在Python中高效构建基于随机生成与条件筛选的列表

PythonTensorFlow实践教程_模型训练与推理详解

相关标签:

python 工具 ai 为什么 igs Python sklearn

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何用Python开发GUI应用？PyQt5完整项目教程下一篇：Pandas与NumPy：高效地从多列中条件性提取值及来源

作者最新文章

php485函数怎么连接串口设备_php485通信初始化设置方法【教程】

2025-12-30 11:55

企业微信怎么修改昵称_企业微信改昵称教程【方法】

2025-12-30 12:03

Windows如何关闭通知中心广告_Windows关闭通知中心广告技巧【方法】

2025-12-30 12:11

Windows11怎样设置通知中心_Windows11通知中心设置技巧【步骤】

2025-12-30 12:17

海尔热水器出现EJ故障怎么解决_海尔热水器EJ代码为风压开关异常的处理方法

2025-12-30 12:31

SOFA怎么切换成中文界面 SOFA中文设置详细步骤【教程】

2025-12-30 12:37

php本地环境如何配置伪静态_url重写规则设置方法【教程】

2025-12-30 12:41

html如何将字体垂直_设置HTML文字垂直排列方向【方向】

2025-12-30 12:53

mysql归档数据怎么统计_mysql归档数据统计分析的操作方法

2025-12-30 12:58

Win11怎么用存储感知清理C盘_Win11存储感知清理C盘方法【教程】

2025-12-30 13:17

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

698

2023.08.11