0

0

Pandas数据清洗:高效实现按ID标签标准化策略

聖光之護

聖光之護

发布时间:2025-10-18 12:36:25

|

928人浏览过

|

来源于php中文网

原创

Pandas数据清洗:高效实现按ID标签标准化策略

本文深入探讨如何利用pandas库对数据进行标签标准化。针对每个唯一id,教程将指导您如何识别并应用出现频率最高的标签作为标准,并在出现平局时优雅地回退到第一个观察值。文章详细介绍了基于`groupby().transform()`、`groupby().apply().map()`以及结合`value_counts()`的高效实现方法,旨在帮助数据分析师和工程师提升数据清洗效率和准确性。

在数据处理和分析中,我们经常会遇到同一实体在不同记录中具有多种表达形式的情况,例如“LA Metro”和“Los Angeles Metro”。为了保持数据的一致性和准确性,我们需要将这些变体标准化为一个统一的标签。本教程将详细介绍如何使用Pandas库高效地实现这一目标,具体策略是:对于每个ID,选择出现频率最高的标签作为其标准标签;如果存在多个标签出现频率相同(即平局),则选择该ID下的第一个观察值作为标准。

核心逻辑:识别标准标签

实现标签标准化的关键在于准确识别每个ID对应的标准标签。根据需求,我们需要找到每个ID下出现次数最多的标签。如果存在多个标签出现次数相同,则应选取该ID的第一个原始观察值。

Pandas的Series.mode()方法是解决此问题的理想工具。mode()方法会返回Series中出现频率最高的值。如果存在多个众数(即多个值具有相同的最高频率),mode()会按它们在Series中出现的顺序返回这些值。因此,mode()[0]将始终返回第一个众数,这完美符合我们“平局时取第一个观察值”的需求。

实现方法一:使用 groupby().transform()

groupby().transform()方法非常适合这种场景,因为它可以在分组操作后返回一个与原始DataFrame具有相同索引的Series,从而可以直接赋值给新列。

import pandas as pd

def standardize_labels_transform(df: pd.DataFrame, id_col: str, label_col: str) -> pd.DataFrame:
    """
    根据每个ID下最常见的标签(平局时取第一个观察值)标准化标签。

    Args:
        df (pd.DataFrame): 原始DataFrame。
        id_col (str): 包含ID的列名。
        label_col (str): 包含原始标签的列名。

    Returns:
        pd.DataFrame: 包含'standardized_label'新列的DataFrame。
    """
    df['standardized_label'] = df.groupby(id_col)[label_col].transform(lambda x: x.mode()[0])
    return df

# 示例数据
data = {
    'ID': [222, 222, 222, 222, 222, 333, 333, 333, 444, 444],
    'raw_label': ['LA Metro', 'LA Metro', 'Los Angeles Metro', 'LA Metro', 'Los Angeles Metro',
                  'Apple', 'Apple Inc.', 'Apple', 'Google', 'Alphabet']
}
df_example = pd.DataFrame(data)

print("原始DataFrame:")
print(df_example)

df_standardized = standardize_labels_transform(df_example.copy(), 'ID', 'raw_label')
print("\n使用 transform 标准化后的DataFrame:")
print(df_standardized)

代码解析:

  1. df.groupby(id_col)[label_col]:按id_col分组,并选择label_col进行操作。
  2. .transform(lambda x: x.mode()[0]):对每个分组应用一个匿名函数。这个函数接收一个Series(即每个ID下的label_col数据),然后调用mode()[0]来获取该分组的众数(或第一个众数)。transform会将结果广播回原始DataFrame的相应行。

实现方法二:使用 groupby().apply() 和 map()

另一种常见的方法是使用groupby().apply()来计算每个组的标准标签,然后使用map()将这些标准标签映射回原始DataFrame。

Cutout老照片上色
Cutout老照片上色

Cutout.Pro推出的黑白图片上色

下载
import pandas as pd

def standardize_labels_apply_map(df: pd.DataFrame, id_col: str, label_col: str) -> pd.DataFrame:
    """
    根据每个ID下最常见的标签(平局时取第一个观察值)标准化标签。
    使用 groupby().apply() 和 map() 实现。

    Args:
        df (pd.DataFrame): 原始DataFrame。
        id_col (str): 包含ID的列名。
        label_col (str): 包含原始标签的列名。

    Returns:
        pd.DataFrame: 包含'standardized_label'新列的DataFrame。
    """
    # 找到每个ID的标准标签
    common_labels = df.groupby(id_col)[label_col].apply(lambda x: x.mode()[0])

    # 将标准标签映射回原始DataFrame
    df['standardized_label'] = df[id_col].map(common_labels)
    return df

df_standardized_apply = standardize_labels_apply_map(df_example.copy(), 'ID', 'raw_label')
print("\n使用 apply 和 map 标准化后的DataFrame:")
print(df_standardized_apply)

代码解析:

  1. common_labels = df.groupby(id_col)[label_col].apply(lambda x: x.mode()[0]):这行代码会生成一个Series,其索引是id_col的值,值是每个ID对应的标准标签。
  2. df[id_col].map(common_labels):使用map()方法,根据id_col的值从common_labels中查找对应的标准标签,并创建新列。

实现方法三:基于 value_counts() 的高效方法

对于非常大的数据集或对性能有更高要求的场景,可以直接利用value_counts()的特性进行优化。这种方法避免了对每个分组单独调用mode(),而是通过一次性计算所有ID-标签组合的频率,然后进行筛选。

import pandas as pd

def standardize_labels_value_counts(df: pd.DataFrame, id_col: str, label_col: str) -> pd.DataFrame:
    """
    根据每个ID下最常见的标签(平局时取第一个观察值)标准化标签。
    使用 value_counts() 进行优化。

    Args:
        df (pd.DataFrame): 原始DataFrame。
        id_col (str): 包含ID的列名。
        label_col (str): 包含原始标签的列名。

    Returns:
        pd.DataFrame: 包含'standardized_label'新列的DataFrame。
    """
    # 1. 计算每个 (ID, 标签) 组合的频率
    # 默认按频率降序排列,ID和标签作为多级索引
    labels_counts = df.value_counts([id_col, label_col])

    # 2. 筛选出每个ID的第一个(即最常见)标签
    # droplevel(label_col) 将索引降级,只保留 id_col
    # ~labels_counts.droplevel(label_col).index.duplicated() 
    # 找到每个ID的第一次出现,因为 value_counts 已经按频率排序,
    # 所以每个ID的第一次出现就是其最常见的标签(或平局中的第一个)
    dup_idx_msk = ~labels_counts.droplevel(label_col).index.duplicated()
    common_labels_series = labels_counts[dup_idx_msk]

    # 3. 将结果转换为 ID -> 标签 的映射 Series
    # reset_index(level=1) 将 label_col 从索引移回列
    # 然后选择 label_col 列,此时索引是 id_col
    common_labels_map = common_labels_series.reset_index(level=1)[label_col]

    # 4. 映射回原始DataFrame
    df['standardized_label'] = df[id_col].map(common_labels_map)
    return df

df_standardized_vc = standardize_labels_value_counts(df_example.copy(), 'ID', 'raw_label')
print("\n使用 value_counts() 标准化后的DataFrame:")
print(df_standardized_vc)

代码解析:

  1. labels_counts = df.value_counts([id_col, label_col]):这会创建一个Series,其多级索引是(ID, raw_label),值是对应组合的计数。value_counts默认会按计数降序排列,对于相同的ID,其最常见的标签会排在前面。
  2. dup_idx_msk = ~labels_counts.droplevel(label_col).index.duplicated():
    • labels_counts.droplevel(label_col):将多级索引中的label_col层移除,只留下id_col作为索引。
    • .index.duplicated():判断索引中是否有重复值。例如,对于ID 222,它可能出现多次(对应不同的raw_label),duplicated()会标记除第一次出现外的所有重复项。
    • ~:取反,这样dup_idx_msk就只保留每个ID的第一次出现。由于value_counts的排序特性,这第一次出现就是该ID最常见的标签。
  3. common_labels_series = labels_counts[dup_idx_msk]:根据布尔掩码筛选出每个ID最常见的标签及其计数。
  4. common_labels_map = common_labels_series.reset_index(level=1)[label_col]:将label_col从Series的二级索引提升为列,然后只选择label_col这一列,此时Series的索引就是id_col,值就是对应的标准标签,形成一个完美的映射字典。
  5. df[id_col].map(common_labels_map):将标准标签映射回原始DataFrame。

注意事项与总结

  • 性能考量
    • groupby().transform()通常在处理大型数据集时表现良好,因为它在C语言层面进行了优化。
    • groupby().apply()在处理复杂逻辑时非常灵活,但如果apply中的函数效率不高,可能会比transform慢。
    • 基于value_counts()的方法在特定场景下(例如,分组数量多但每个组的标签种类不多)可能提供更好的性能,因为它利用了Pandas高度优化的内部实现。
  • 空值处理:上述方法默认会忽略NaN值。如果你的label_col中可能包含NaN,并且你需要特定的NaN处理逻辑(例如,将NaN视为一个独特的标签,或者在标准化过程中将其替换),你需要额外添加处理步骤。
  • 可读性:groupby().transform(lambda x: x.mode()[0])是实现此功能最简洁且高度可读的方法之一,推荐作为首选。
  • 灵活性:如果标准化的逻辑比“最常见或第一个”更复杂,apply()提供了最大的灵活性,你可以编写更复杂的函数来处理各种边缘情况。

通过本教程,您应该掌握了使用Pandas对数据进行按ID标签标准化的多种高效策略。选择哪种方法取决于您的具体需求、数据集大小以及对代码可读性和性能的偏好。在实际应用中,建议从最简洁的transform方法开始,如果遇到性能瓶颈或需要更复杂的逻辑,再考虑apply或基于value_counts的优化方案。

相关专题

更多
C语言变量命名
C语言变量命名

c语言变量名规则是:1、变量名以英文字母开头;2、变量名中的字母是区分大小写的;3、变量名不能是关键字;4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容,供大家免费下载使用。

377

2023.06.20

c语言入门自学零基础
c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识,应用十分广泛,本专题为大家c语言入门自学零基础的相关文章,以及相关课程,感兴趣的朋友千万不要错过了。

603

2023.07.25

c语言运算符的优先级顺序
c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

348

2023.08.02

c语言数据结构
c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念,用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等,而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

255

2023.08.09

c语言random函数用法
c语言random函数用法

c语言random函数用法:1、random.random,随机生成(0,1)之间的浮点数;2、random.randint,随机生成在范围之内的整数,两个参数分别表示上限和下限;3、random.randrange,在指定范围内,按指定基数递增的集合中获得一个随机数;4、random.choice,从序列中随机抽选一个数;5、random.shuffle,随机排序。

580

2023.09.05

c语言const用法
c语言const用法

const是关键字,可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍:1、声明常量,const关键字可用于声明常量,常量的值在程序运行期间不可修改,常量可以是基本数据类型,如整数、浮点数、字符等,也可是自定义的数据类型;2、函数参数中的const修饰符,const关键字可用于函数的参数中,表示该参数在函数内部不可修改等等。

516

2023.09.20

c语言get函数的用法
c语言get函数的用法

get函数是一个用于从输入流中获取字符的函数。可以从键盘、文件或其他输入设备中读取字符,并将其存储在指定的变量中。本文介绍了get函数的用法以及一些相关的注意事项。希望这篇文章能够帮助你更好地理解和使用get函数 。

628

2023.09.20

c数组初始化的方法
c数组初始化的方法

c语言数组初始化的方法有直接赋值法、不完全初始化法、省略数组长度法和二维数组初始化法。详细介绍:1、直接赋值法,这种方法可以直接将数组的值进行初始化;2、不完全初始化法,。这种方法可以在一定程度上节省内存空间;3、省略数组长度法,这种方法可以让编译器自动计算数组的长度;4、二维数组初始化法等等。

595

2023.09.22

笔记本电脑卡反应很慢处理方法汇总
笔记本电脑卡反应很慢处理方法汇总

本专题整合了笔记本电脑卡反应慢解决方法,阅读专题下面的文章了解更多详细内容。

1

2025.12.25

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 2.9万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号