0

0

Pandas read_csv 日期时间解析深度指南

碧海醫心

碧海醫心

发布时间:2025-09-28 10:03:42

|

313人浏览过

|

来源于php中文网

原创

Pandas read_csv 日期时间解析深度指南

本教程详细讲解如何使用 Pandas 的 read_csv 函数正确解析CSV文件中的日期和时间数据。重点介绍了 parse_dates 参数的灵活应用,包括解析单个日期时间列、合并多个日期/时间列,以及如何通过 dayfirst 参数解决日期格式歧义问题,确保数据被正确识别为 datetime64[ns] 类型,避免常见的 object 类型错误,从而提高数据处理的准确性和效率。

在使用 pandas 处理 csv 数据时,日期和时间列常常以字符串(object)类型被导入,这会限制后续的日期时间操作。为了充分利用 pandas 强大的时间序列功能,我们需要确保这些列被正确解析为 datetime64[ns] 类型。read_csv 函数提供了 parse_dates 参数来专门处理这一需求。

parse_dates 参数详解

parse_dates 参数是 read_csv 中用于指定哪些列应该被解析为日期时间类型,它接受多种形式的输入:

  1. 单个列名或列索引的列表:用于解析 CSV 中已有的日期时间列。
  2. 列名或列索引对的列表:用于将多个独立的列(如日期列和时间列)合并成一个单一的日期时间列。

以下我们将通过示例数据来演示 parse_csv 的不同用法。

示例数据准备

为了方便演示和重现,我们使用 io.StringIO 模块模拟一个 CSV 文件内容:

import pandas as pd
from io import StringIO

csv_text = """
Study ID,CG_Arrival_Date/Time,Arrival_Date,Arrival_Time
2,1/1/2011 0:03,1/1/2011,0:03:00
3,1/1/2011 0:53,1/1/2011,0:53:00
"""

1. 解析单个日期时间列

如果 CSV 文件中已经存在一个包含完整日期和时间信息的列,我们可以直接指定该列进行解析。parse_dates 参数可以接受列名或列的整数索引。

# 使用列索引解析 'CG_Arrival_Date/Time' (索引为1)
df_single_col_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1])
print("--- 解析单个列 (通过索引) ---")
print(df_single_col_index.dtypes)
print(df_single_col_index.head())

# 使用列名解析 'CG_Arrival_Date/Time'
df_single_col_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=['CG_Arrival_Date/Time'])
print("\n--- 解析单个列 (通过列名) ---")
print(df_single_col_name.dtypes)
print(df_single_col_name.head())

输出示例:

--- 解析单个列 (通过索引) ---
CG_Arrival_Date/Time    datetime64[ns]
Arrival_Date                    object
Arrival_Time                    object
dtype: object
                    CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID                                                        
2            2011-01-01 00:03:00   1/1/2011    0:03:00
3            2011-01-01 00:53:00   1/1/2011    0:53:00

--- 解析单个列 (通过列名) ---
CG_Arrival_Date/Time    datetime64[ns]
Arrival_Date                    object
Arrival_Time                    object
dtype: object
                    CG_Arrival_Date/Time Arrival_Date Arrival_Time
Study ID                                                        
2            2011-01-01 00:03:00   1/1/2011    0:03:00
3            2011-01-01 00:53:00   1/1/2011    0:53:00

从输出可以看出,CG_Arrival_Date/Time 列已被成功解析为 datetime64[ns] 类型。

2. 合并多个列为单一日期时间列

当日期和时间信息分布在不同的列中时(例如,一个 Arrival_Date 列和一个 Arrival_Time 列),parse_dates 允许我们将它们合并成一个 datetime64[ns] 类型的新列。这通过向 parse_dates 提供一个包含列名或列索引对的列表来实现。

超级简历WonderCV
超级简历WonderCV

免费求职简历模版下载制作,应届生职场人必备简历制作神器

下载
# 合并 'Arrival_Date' (索引2) 和 'Arrival_Time' (索引3)
df_combined_cols_index = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[[2, 3]])
print("--- 合并日期和时间列 (通过索引) ---")
print(df_combined_cols_index.dtypes)
print(df_combined_cols_index.head())

# 合并 'Arrival_Date' 和 'Arrival_Time' (通过列名)
df_combined_cols_name = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[['Arrival_Date', 'Arrival_Time']])
print("\n--- 合并日期和时间列 (通过列名) ---")
print(df_combined_cols_name.dtypes)
print(df_combined_cols_name.head())

输出示例:

--- 合并日期和时间列 (通过索引) ---
CG_Arrival_Date/Time           object
Arrival_Date_Arrival_Time    datetime64[ns]
dtype: object
                  CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID                                                        
2            1/1/2011 0:03       2011-01-01 00:03:00
3            1/1/2011 0:53       2011-01-01 00:53:00

--- 合并日期和时间列 (通过列名) ---
CG_Arrival_Date/Time           object
Arrival_Date_Arrival_Time    datetime64[ns]
dtype: object
                  CG_Arrival_Date/Time Arrival_Date_Arrival_Time
Study ID                                                        
2            1/1/2011 0:03       2011-01-01 00:03:00
3            1/1/2011 0:53       2011-01-01 00:53:00

当合并列时,Pandas 会自动创建一个新的列,其名称由原始列名用下划线连接而成(例如 Arrival_Date_Arrival_Time)。这个新列的类型是 datetime64[ns]。

3. 处理日期格式歧义 (dayfirst 参数)

在某些情况下,日期格式可能存在歧义,例如 1/1/2011 既可以是 MM/DD/YYYY (1月1日) 也可以是 DD/MM/YYYY (1月1日)。Pandas 默认尝试解析为 MM/DD/YYYY。如果你的数据是 DD/MM/YYYY 格式,你需要使用 dayfirst=True 参数来明确指定。

# 假设日期格式为 DD/MM/YYYY,并解析 'CG_Arrival_Date/Time' 列
df_dayfirst = pd.read_csv(StringIO(csv_text), index_col=['Study ID'], parse_dates=[1], dayfirst=True)
print("--- 使用 dayfirst=True 解析 ---")
print(df_dayfirst.dtypes)
print(df_dayfirst.head())

在这个特定的示例数据中,1/1/2011 无论 dayfirst 设置为 True 还是 False,结果都是 2011-01-01,因为月份和日期都是1。然而,如果遇到像 1/15/2011 这样的日期,dayfirst=True 会将其解析为1月15日,而 dayfirst=False (默认) 则会尝试解析为15月1日(导致错误或 NaT)。因此,了解数据的实际日期格式并正确设置 dayfirst 至关重要。

注意事项与总结

  • 列名与列索引:在 parse_dates 中使用列名比使用列索引更具可读性和健壮性,因为列的顺序可能会在文件更新时发生变化。
  • 格式一致性:CSV 文件中所有待解析的日期时间数据应尽可能保持一致的格式。如果存在多种格式,Pandas 可能无法全部正确解析,此时可能需要更复杂的自定义解析函数或预处理。
  • 错误处理:如果 read_csv 无法解析某个日期时间值,它可能会将其替换为 NaT (Not a Time) 或抛出错误,具体行为取决于 errors 参数(默认为 'coerce',即替换为 NaT)。
  • 性能考虑:对于非常大的文件,指定 parse_dates 会略微增加读取时间,但通常比先读取为字符串再手动转换效率更高。

通过灵活运用 read_csv 的 parse_dates 和 dayfirst 参数,我们可以有效地将 CSV 文件中的日期和时间数据导入为 Pandas datetime64[ns] 类型,为后续的时间序列分析和数据处理奠定坚实基础。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

248

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

205

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1435

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

609

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

547

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

539

2024.04.29

go语言字符串相关教程
go语言字符串相关教程

本专题整合了go语言字符串相关教程,阅读专题下面的文章了解更多详细内容。

158

2025.07.29

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

62

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 1.9万人学习

ThinkPHP6.x API接口--十天技能课堂
ThinkPHP6.x API接口--十天技能课堂

共14课时 | 1.1万人学习

微信小程序开发--云开发篇
微信小程序开发--云开发篇

共15课时 | 0.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号