Pandas时间序列分析的核心是将时间列设为DatetimeIndex索引——先用pd.to_datetime()转换类型,再用set_index()设为索引;此后asfreq()可对齐频率,resample()支持重采样聚合,shift()、rolling()等操作才能基于时间自动对齐与计算。

用Pandas做时间序列分析,核心是把时间变成索引——不是简单加一列日期,而是让DataFrame或Series真正“认出”这是时间,并能自动按日、月、季、年对齐、重采样、切片。关键在pd.to_datetime()和set_index()之后的asfreq()、resample()、shift()等操作才能生效。
把普通列转成真正的时间索引
常见错误是只调用pd.to_datetime()转换列,却没设为索引。必须两步到位:
- 先用
df['date'] = pd.to_datetime(df['date'])确保类型是datetime64[ns] - 再用
df = df.set_index('date')——此时df.index才是DatetimeIndex,支持时间智能操作 - 检查是否成功:
type(df.index)应返回pandas.core.indexes.datetimes.DatetimeIndex
按固定频率对齐数据(asfreq)
原始时间序列常有缺失日期(比如周末无交易)、不等间隔。用asfreq()可强制转为日频、月频等,并填入NaN或指定值:
-
df.asfreq('D')→ 转为日频,缺失日补NaN -
df.asfreq('M', fill_value=0)→ 月末频,缺失月用0填充 - 注意:
asfreq()不插值,只对齐;要插值用ffill、bfill或interpolate()
重采样与聚合(resample)
高频转低频(如分钟→小时)或低频转高频(如月→日),靠resample()。它必须作用于DatetimeIndex上:
立即学习“Python免费学习笔记(深入)”;
-
df.resample('W').mean()→ 按自然周聚合,计算每组均值 -
df.resample('MS').first()→ 每月第一天(Month Start)取首条记录 - 支持闭区间控制:
resample('M', closed='left')指定左闭右开 - 可传字典对不同列用不同聚合函数:
resample('D').agg({'price': 'max', 'volume': 'sum'})
时间位移与滚动计算
时间索引启用shift()、diff()、rolling()等操作,语义清晰且自动对齐:
-
df['price_shift1'] = df['price'].shift(1)→ 自动按时间对齐,昨天的价格对今天行 -
df['daily_return'] = df['price'].pct_change()→ 相邻时间点百分比变化 -
df.rolling('7D').mean()→ 7天滑动窗口均值(非固定7行,而是7个自然日) -
df.rolling('30D').apply(lambda x: x.max() - x.min())→ 自定义滚动计算
时间索引不是装饰,是Pandas时间序列能力的地基。设对了索引,后续所有分析才自然、准确、少出错。










