
本文介绍如何在 pandas 中按 `cli_cd` 分组,识别每组内 `cura_t1` 首次出现 1 的位置,并从此处开始逐行累加 `100/6`(约 16.67),生成递增的 `cura_alt` 列;此前及后续的 0 区间则统一置为 0。
要实现该逻辑,核心在于精准界定“连续 1 的起始块”,而非简单按 CLI_CD 分组后全局查找首个 1——因为题目示例中所有行 CLI_CD == 3,但需求实际是:对每个 CLI_CD 子组,仅在其首次出现 1 的连续段内执行累加(即跳过后续再次出现的 0 后的 1 段)。观察目标输出可知:只有第 4–9 行(索引 4 至 9)的 CURA_T1 == 1 被赋值,而末尾两个 0 对应 CURA_ALT == 0,说明逻辑聚焦于首个连续 1 区间。
但原始答案使用 df['CURA_T1'].eq(0).cumsum() 实现了更通用的“按 0/1 切割段”的策略:它将每个 0 视为新段起点,从而把数据划分为 [0,0,0,0], [1,1,1,1,1,1], [0,0] 三段。随后对每段内 cumcount() 得到序号(0,1,2,...),再乘以 100/6 并取整,恰好匹配预期行为(注意:因浮点精度和 astype(int) 截断,结果为 16,33,50,66,83,100,而非四舍五入的 17,33,50,67,83,100)。
✅ 正确且简洁的实现如下:
import pandas as pd
# 构造示例数据
df = pd.DataFrame({
'CLI_CD': [3]*12,
'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})
# 关键步骤:按 CURA_T1 是否为 0 累计求和,生成段标识
segment_id = df['CURA_T1'].eq(0).cumsum()
# 对每一段内计数(从 0 开始),乘以步长,转为整数
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).astype(int)
print(df)输出:
CLI_CD CURA_T1 CURA_ALT 0 3 0 0 1 3 0 0 2 3 0 0 3 3 0 0 4 3 1 16 5 3 1 33 6 3 1 50 7 3 1 66 8 3 1 83 9 3 1 100 10 3 0 0 11 3 0 0
⚠️ 注意事项:
- 若需严格匹配目标输出中的 17,33,50,67,83,100,应改用 round() 或 np.round() 而非 astype(int):
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).round().astype(int)
- 该方案天然支持多 CLI_CD:只要 CURA_T1 序列在各 ID 内独立变化,cumsum() 即按全局顺序分段;若需严格按 CLI_CD 分组后再找首个 1 段(例如不同 ID 有不同起始位置),则需嵌套 groupby('CLI_CD') + 自定义函数,但本例无需。
- cumcount() 默认从 0 开始计数,完美契合“首项为 0 * 100/6 = 0”的需求(但因首 1 行期望为 17,故实际首累加项对应序号 1 → 需确认业务是否要求偏移;本例中索引 4 是首个 1,其 cumcount()==0,故结果为 0 —— 但目标输出为 17,说明应将该段内计数+1。修正方式:+1 后再乘:
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() + 1) * (100/6)
总结:本方法以 eq(0).cumsum() 构建逻辑段、groupby(...).cumcount() 实现段内累加,兼顾简洁性与可扩展性,是处理此类“条件区间内等差填充”任务的 Pandas 推荐范式。










