Pandas是Python数据分析核心工具,提供DataFrame和Series等高效数据结构,支持创建、查看、筛选、处理缺失值与重复值、统计及分组计算等全流程操作。

想用Python做数据分析,Pandas是绕不开的核心工具。它提供了高效、灵活的数据结构(如DataFrame和Series),让读取、清洗、计算和可视化数据变得直观又简洁。掌握基础操作,是迈出数据分析第一步的关键。
创建和查看数据:从零开始构建DataFrame
最常用的方式是从字典或列表构造DataFrame,也可以直接读取外部文件。创建后建议立刻用head()、info()和describe()快速了解数据概况。
- 用字典创建:`pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]})`
- 读取CSV:`df = pd.read_csv('data.csv')`(注意编码和分隔符参数)
- 查看前5行:`df.head()`;查看数据类型与缺失值:`df.info()`
选取与筛选:精准定位你需要的行和列
Pandas提供多种索引方式,loc(按标签)、iloc(按位置)和布尔索引是最常用的三种。别混淆它们的使用场景——标签索引适合带明确列名/索引名的操作,位置索引适合按行列号取值。
- 选一列:`df['age']` 或 `df.age`(推荐前者,更稳定)
- 选多列:`df[['name', 'age']]`(注意是双层中括号)
- 条件筛选:`df[df['age'] > 28]`,支持 &(且)、|(或)、~(非)组合
处理缺失值和重复值:让数据更干净
真实数据常有空值(NaN)或重复记录。Pandas提供了简单但有力的方法来识别、填充或删除它们。关键是先检查再处理,避免误删有效信息。
10分钟内自己学会PHP其中,第1篇为入门篇,主要包括了解PHP、PHP开发环境搭建、PHP开发基础、PHP流程控制语句、函数、字符串操作、正则表达式、PHP数组、PHP与Web页面交互、日期和时间等内容;第2篇为提高篇,主要包括MySQL数据库设计、PHP操作MySQL数据库、Cookie和Session、图形图像处理技术、文件和目录处理技术、面向对象、PDO数据库抽象层、程序调试与错误处理、A
立即学习“Python免费学习笔记(深入)”;
- 检查缺失:`df.isnull().sum()` 统计每列空值数量
- 删除空行:`df.dropna()`;删除空列:`df.dropna(axis=1)`
- 填充空值:`df['age'].fillna(df['age'].mean())` 或用固定值 `.fillna(0)`
- 去重:`df.drop_duplicates()`(默认所有列都相同才去重,可指定 subset 参数)
简单统计与分组计算:快速获取洞察
不需要写循环,一行代码就能完成常见汇总任务。分组聚合(groupby)是探索性分析的利器,配合 agg 可同时计算多个指标。
- 基础统计:`df['age'].mean()`、`df['age'].max()`、`df.describe()`
- 按类别统计:`df.groupby('gender')['salary'].mean()`
- 多指标聚合:`df.groupby('dept').agg({'salary': ['mean', 'std'], 'age': 'max'})`









