
在Pandas 1.2.3版本中使用rolling().mean(skipna=False)时,skipna参数实际上不起作用。在Pandas 1.5+版本中,由于该参数已被弃用,直接使用会导致FutureWarning。本文将详细分析这一现象,并提供相应的解决方案。
skipna参数在Pandas 1.2.3中的无效性
尽管在旧版本的Pandas中可以设置skipna参数,但实际上它并没有影响滚动窗口均值的计算结果。无论skipna设置为True还是False,包含缺失值(NaN)的窗口都会导致均值为NaN。
以下代码示例可以验证这一点:
import pandas as pd
import numpy as np
df = pd.DataFrame({'a': [1, 2, 3, np.nan, 5, 6, 7]})
print(df['a'].rolling(3).mean(skipna=True))
print(df['a'].rolling(3).mean(skipna=False))输出结果显示,两种情况下滚动均值的结果完全相同,都受到了NaN值的影响。
0 NaN 1 NaN 2 2.0 3 NaN 4 NaN 5 NaN 6 6.0 Name: a, dtype: float64 0 NaN 1 NaN 2 2.0 3 NaN 4 NaN 5 NaN 6 6.0 Name: a, dtype: float64
通过查阅Pandas 1.2的官方文档,可以发现pandas.core.window.rolling.Rolling.mean()并没有明确记录skipna参数,这进一步印证了该参数在旧版本中未被实际使用。
源码分析
通过深入Pandas源码,可以发现skipna参数并未传递到实际计算滚动均值的函数中。具体调用链如下:
- df.rolling(3).mean()
- pandas/core/window/rolling.py:Rolling.mean()
- pandas/core/window/rolling.py:RollingAndExpandingMixin.mean()
- pandas/core/window/rolling.py:BaseWindow._apply()
- pandas/_libs/window/aggregations.pyx:roll_mean()
在BaseWindow._apply()函数中,传入的kwargs(包含skipna)并未被使用,导致roll_mean()函数无法接收到skipna参数。此外,roll_mean()函数的实现本身也没有处理缺失值的逻辑。
迁移到Pandas 1.5+的建议
由于skipna参数在旧版本中不起作用,因此迁移到Pandas 1.5+版本非常简单:直接移除skipna=False参数。
# 旧代码 (Pandas 1.2.3): df.rolling(n).mean(skipna=False) # 新代码 (Pandas 1.5+): df.rolling(n).mean()
因为skipna=False是mean()的默认行为,删除该参数不会改变程序的逻辑。
注意事项:
- 如果在代码中使用了skipna=True,则需要仔细考虑其含义。如果期望滚动均值在计算时忽略NaN值,则需要在移除skipna=True后,手动处理缺失值,例如使用fillna()函数填充缺失值,或者使用dropna()函数删除包含缺失值的行。
总结
在Pandas滚动窗口均值计算中,skipna参数的行为在不同版本之间存在差异。在Pandas 1.2.3中,skipna参数实际上并未生效。因此,升级到Pandas 1.5+版本时,可以直接移除skipna=False参数,而无需担心代码逻辑发生改变。对于使用了skipna=True的情况,需要根据实际需求进行相应的调整。了解这些细节有助于编写更健壮、更易于维护的Pandas代码。










