Pandas：统计DataFrame字典列中列表首个元素的非缺失值个数

霞舞

发布时间：2025-08-02 15:42:11

218人浏览过

来源于php中文网

原创

pandas：统计dataframe字典列中列表首个元素的非缺失值个数

本文介绍了如何使用 Pandas 统计 DataFrame 中字典列里，嵌套列表（特别是'list_A'）的首个元素（索引为0）的非缺失值（非Null值）的个数。通过示例代码，详细展示了两种实现方法，帮助读者理解并掌握在 Pandas 中处理复杂数据结构的技巧。

方法一：列表推导式与 pd.notna()

此方法利用列表推导式提取每个字典中 'list_A' 的第一个元素，然后使用 pd.notna() 函数判断是否为非缺失值，最后使用 sum() 函数统计 True 的个数。

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# Create a DataFrame with a column named "column_dic"
df = pd.DataFrame({"column_dic": [data]})


df['count_first_item'] = [pd.notna([y['list_A'][0] for y in x]).sum()
                          for x in df['column_dic']]
print(df)

代码解释：

[y['list_A'][0] for y in x]: 这是一个列表推导式，它遍历 df['column_dic'] 中的每个字典 x，然后从每个字典中提取 list_A 列表的第一个元素 y['list_A'][0]。
pd.notna(...): pd.notna() 函数用于检查列表中的每个元素是否为非缺失值（即不是 NaN 或 None）。它返回一个布尔值列表，True 表示非缺失值，False 表示缺失值。
.sum(): 由于 True 在数值上等同于 1，False 等同于 0，所以对布尔值列表求和，即可得到非缺失值的个数。
[... for x in df['column_dic']]: 外层的列表推导式确保我们对 df['column_dic'] 中的每个列表都执行上述操作。

方法二：Series.explode()、Series.str.get() 和 DataFrameGroupBy.count()

此方法首先使用 Series.explode() 将字典列表展开为单独的行，然后使用 Series.str.get() 获取 'list_A' 列表，再使用 str[0] 获取第一个元素，最后使用 DataFrameGroupBy.count() 统计每个分组（原始 DataFrame 的每一行）中非缺失值的个数。

谱乐AI

谱乐AI，集成 Suno、Udio 等顶尖AI音乐模型的一站式AI音乐生成平台。

下载

import pandas as pd

data = [{"list_A": [2.93, 4.18, 4.18, None, 1.57, 1.57, 3.92, 6.27, 2.09, 3.14, 0.42, 2.09],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [2.51, 3.58, 3.58, None, 1.34, 1.34, 3.36, 5.37, 1.79, 2.69, 0.36, 1.79],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]},
        {"list_A": [None, 5.94, 5.94, None, 2.23, 2.23, 5.57, 8.9, 2.97, 4.45, 0.59, 2.97],
         "list_B": [820, 3552, 7936, None, 2514, 4035, 6441, 15379, 2167, 6147, 3322, 1177]}]

# Create a DataFrame with a column named "column_dic"
df = pd.DataFrame({"column_dic": [data]})

df['count_first_item'] = (df['column_dic'].explode().str.get('list_A').str[0]
                                          .groupby(level=0).count())
print(df)

代码解释：

df['column_dic'].explode(): 将 column_dic 列中的列表展开，每个元素变成单独的一行。
.str.get('list_A'): 对于展开后的每一行，使用 str.get('list_A') 获取字典中键为 'list_A' 的值（即列表）。
.str[0]: 获取列表中索引为 0 的元素。
.groupby(level=0): 按照原始 DataFrame 的索引进行分组，level=0 表示按照第一层索引分组。
.count(): 统计每个分组中非缺失值的个数。

总结

这两种方法都能够有效地统计 DataFrame 字典列中列表首个元素的非缺失值个数。第一种方法使用列表推导式，代码简洁易懂，但当数据量较大时，性能可能稍逊。第二种方法使用 Series.explode() 和 DataFrameGroupBy.count()，代码略微复杂，但通常在处理大数据集时效率更高。选择哪种方法取决于具体的数据规模和性能需求。

相关标签:

pandas NULL count for 数据结构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用 Pandas 统计 DataFrame 字典列中列表首个元素的非空值数量下一篇：使用 Pandas 统计 List 中首个非空值的数量并添加到新列

作者最新文章

Python类中如何正确获取实例变量的最新值（而非初始值）？

2026-01-14 10:34

Java HTTP Server 实现与 JMeter 测试的正确对接方法

2026-01-14 10:46

标题：Go 语言中通过字符串动态实例化控制器类型（MVC 路由实现方案）

2026-01-14 10:55

不止于强，更在于智！华硕2026锐龙AIPC轻薄本全线升级开启预约

2026-01-14 10:55

贞子式亮相+跳脸超吓人！《零：红蝶重制版》发布新视频

2026-01-14 10:57

如何在 Spring Boot 中正确提交包含多文件的嵌套对象列表

2026-01-14 10:59

《往日之影》原结局黑到被删!赛博朋克2导演曝猛料

2026-01-14 11:07

Go 中使用 for range 遍历未关闭通道导致死锁的解决方案

2026-01-14 11:10

荣耀Magic8 Pro Air搭载AI变焦阵列闪光灯：夜拍无死角一键直出闪光大片

2026-01-14 11:10

影视大全怎么升级？-影视大全升级的方法

2026-01-14 11:16

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

231

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

435

2024.03.01

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2023.11.20

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

534

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06