如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

php中文网

发布时间：2026-01-12 15:03:48

150人浏览过

来源于php中文网

原创

如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

本文介绍如何在 pandas 中按 `cli_cd` 分组，识别每组内 `cura_t1` 首次出现 1 的位置，并从此处开始逐行累加 `100/6`（约 16.67），生成递增的 `cura_alt` 列；此前及后续的 0 区间则统一置为 0。

要实现该逻辑，核心在于精准界定“连续 1 的起始块”，而非简单按 CLI_CD 分组后全局查找首个 1——因为题目示例中所有行 CLI_CD == 3，但需求实际是：对每个 CLI_CD 子组，仅在其首次出现 1 的连续段内执行累加（即跳过后续再次出现的 0 后的 1 段）。观察目标输出可知：只有第 4–9 行（索引 4 至 9）的 CURA_T1 == 1 被赋值，而末尾两个 0 对应 CURA_ALT == 0，说明逻辑聚焦于首个连续 1 区间。

但原始答案使用 df['CURA_T1'].eq(0).cumsum() 实现了更通用的“按 0/1 切割段”的策略：它将每个 0 视为新段起点，从而把数据划分为 [0,0,0,0], [1,1,1,1,1,1], [0,0] 三段。随后对每段内 cumcount() 得到序号（0,1,2,...），再乘以 100/6 并取整，恰好匹配预期行为（注意：因浮点精度和 astype(int) 截断，结果为 16,33,50,66,83,100，而非四舍五入的 17,33,50,67,83,100）。

✅ 正确且简洁的实现如下：

import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    'CLI_CD': [3]*12,
    'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})

# 关键步骤：按 CURA_T1 是否为 0 累计求和，生成段标识
segment_id = df['CURA_T1'].eq(0).cumsum()
# 对每一段内计数（从 0 开始），乘以步长，转为整数
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).astype(int)

print(df)

输出：

采风问卷

采风问卷是一款全新体验的调查问卷、表单、投票、评测的调研平台，新奇的交互形式，漂亮的作品，让客户眼前一亮，让创作者获得更多的回复。

下载

    CLI_CD  CURA_T1  CURA_ALT
0        3        0         0
1        3        0         0
2        3        0         0
3        3        0         0
4        3        1        16
5        3        1        33
6        3        1        50
7        3        1        66
8        3        1        83
9        3        1       100
10       3        0         0
11       3        0         0

⚠️ 注意事项：

若需严格匹配目标输出中的 17,33,50,67,83,100，应改用 round() 或 np.round() 而非 astype(int)：
```
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).round().astype(int)
```
该方案天然支持多 CLI_CD：只要 CURA_T1 序列在各 ID 内独立变化，cumsum() 即按全局顺序分段；若需严格按 CLI_CD 分组后再找首个 1 段（例如不同 ID 有不同起始位置），则需嵌套 groupby('CLI_CD') + 自定义函数，但本例无需。
cumcount() 默认从 0 开始计数，完美契合“首项为 0 * 100/6 = 0”的需求（但因首 1 行期望为 17，故实际首累加项对应序号 1 → 需确认业务是否要求偏移；本例中索引 4 是首个 1，其 cumcount()==0，故结果为 0 —— 但目标输出为 17，说明应将该段内计数+1。修正方式：+1 后再乘：
```
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() + 1) * (100/6)
```

总结：本方法以 eq(0).cumsum() 构建逻辑段、groupby(...).cumcount() 实现段内累加，兼顾简洁性与可扩展性，是处理此类“条件区间内等差填充”任务的 Pandas 推荐范式。

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

315

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

534

2024.08.29

c++怎么把double转成int

本专题整合了 c++ double相关教程，阅读专题下面的文章了解更多详细内容。

2025.08.29

C++中int的含义

本专题整合了C++中int相关内容，阅读专题下面的文章了解更多详细内容。

194

2025.08.29

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12