掌握 pd.get_dummies：确保独热编码输出为0和1的实用指南

碧海醫心

发布时间：2025-10-08 13:08:17

498人浏览过

来源于php中文网

原创

掌握 pd.get_dummies：确保独热编码输出为0和1的实用指南

本文旨在解决 pandas.get_dummies 函数在执行独热编码时，默认返回布尔值（True/False）而非期望的二进制整数（0/1）的问题。我们将深入探讨 get_dummies 的默认行为，并提供一种简洁高效的方法，通过指定 dtype 参数来确保独热编码结果以0和1的形式呈现，从而满足后续数据处理和模型训练的需求。

引言：独热编码与 pd.get_dummies

在数据预处理阶段，独热编码（one-hot encoding）是一种将分类变量转换为数值形式的常用技术。它通过创建新的二进制特征列来表示原始分类变量的每个类别，其中，如果样本属于某个类别，则对应的列值为1，否则为0。这种转换对于许多机器学习模型至关重要，因为它们通常无法直接处理文本或离散的分类数据。

Pandas 库提供了 pd.get_dummies 函数，它是执行独热编码的强大且便捷的工具。它能够自动识别DataFrame中的分类列，并将其转换为独热编码形式。

问题剖析：默认的布尔值输出

尽管 pd.get_dummies 功能强大，但许多用户在初次使用时可能会遇到一个常见问题：函数默认返回的独热编码结果是布尔值 True 和 False，而非预期的二进制整数 0 和 1。

例如，当执行以下代码时：

import pandas as pd

# 假设df是一个包含分类列的DataFrame
# df = pd.DataFrame({'category': ['A', 'B', 'A', 'C'], 'value': [10, 20, 30, 40]})

# 尝试对DataFrame进行独热编码
df_encoded_boolean = pd.get_dummies(df)

或者针对特定列进行编码：

df_encoded_boolean_cols = pd.get_dummies(df, columns=['column_a', 'column_b', 'column_c'])

df_encoded_boolean 和 df_encoded_boolean_cols 中的新列将包含 True 和 False。虽然在Python中 True 和 False 在数值上下文中可以被隐式转换为 1 和 0，但在某些场景下，明确的 0 和 1 整数类型更受欢迎或被严格要求，例如：

模型兼容性： 某些机器学习库或模型可能对输入数据的数值类型有严格要求，期望接收整数而非布尔值。
数据类型一致性： 保持整个数据集的数值列类型一致性有助于简化后续的数据处理流程。
内存优化： 虽然布尔值通常占用较少内存，但在某些特定情况下，明确指定为小整数类型（如 int8）可能更有利于内存管理。

解决方案：利用 dtype 参数

解决 pd.get_dummies 返回布尔值而非0/1整数的关键在于使用其 dtype 参数。通过将 dtype 参数设置为 int 或其他整数类型（如 np.int8），我们可以强制函数生成整数形式的独热编码。

修改后的代码示例如下：

AI Content Detector

Writer推出的AI内容检测工具

下载

import pandas as pd
import numpy as np # 引入numpy以使用更具体的整数类型

# 对整个DataFrame进行独热编码，并指定输出类型为整数
df_encoded_int = pd.get_dummies(df, dtype=int)

或者针对特定列：

df_encoded_int_cols = pd.get_dummies(df, columns=['column_a', 'column_b', 'column_c'], dtype=int)

此时，df_encoded_int 和 df_encoded_int_cols 中的新列将包含 0 和 1 的整数值。

实战演练：代码示例

让我们通过一个具体的例子来演示 dtype 参数的效果。

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {'City': ['New York', 'London', 'Paris', 'New York', 'London'],
        'Temperature': [25, 20, 22, 26, 19],
        'Weather': ['Sunny', 'Cloudy', 'Rainy', 'Sunny', 'Cloudy']}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)
print("\n----------------------------------\n")

# 1. 不指定dtype参数（默认行为）
df_default_dummies = pd.get_dummies(df, columns=['City', 'Weather'])
print("使用默认dtype参数的独热编码结果:")
print(df_default_dummies)
print("\n新生成列的数据类型:")
print(df_default_dummies[['City_New York', 'City_London', 'Weather_Sunny']].dtypes)
print("\n----------------------------------\n")

# 2. 指定dtype=int参数
df_int_dummies = pd.get_dummies(df, columns=['City', 'Weather'], dtype=int)
print("使用dtype=int参数的独热编码结果:")
print(df_int_dummies)
print("\n新生成列的数据类型:")
print(df_int_dummies[['City_New York', 'City_London', 'Weather_Sunny']].dtypes)
print("\n----------------------------------\n")

# 3. 指定dtype=np.int8参数（内存优化）
df_int8_dummies = pd.get_dummies(df, columns=['City', 'Weather'], dtype=np.int8)
print("使用dtype=np.int8参数的独热编码结果:")
print(df_int8_dummies)
print("\n新生成列的数据类型:")
print(df_int8_dummies[['City_New York', 'City_London', 'Weather_Sunny']].dtypes)

输出分析：

默认 dtype： 结果列 City_New York、City_London 等将显示 True 和 False，且其 dtype 将为 bool。
dtype=int： 结果列将显示 0 和 1，且其 dtype 将为 int64（取决于系统架构和Pandas版本，可能是 int32）。
dtype=np.int8： 结果列同样显示 0 和 1，但其 dtype 将明确为 int8，这对于只包含0和1的列来说，能有效节省内存。

进阶考量与最佳实践

在使用 pd.get_dummies 进行独热编码时，除了 dtype 参数，还有一些其他重要的参数和最佳实践值得注意：

内存优化 (dtype=np.int8)： 如果数据集非常大，并且独热编码会生成大量新列，那么使用 dtype=np.int8 而不是默认的 dtype=int（通常是 int64）可以显著减少内存占用，因为 int8 只需要1字节存储，而 int64 需要8字节。
处理缺失值 (dummy_na=True)： 默认情况下，pd.get_dummies 会忽略 NaN 值。如果你希望将 NaN 视为一个独立的类别进行编码，可以设置 dummy_na=True。这会在结果中添加一个额外的列，例如 column_name_nan，用于标记原始列中的缺失值。
避免多重共线性 (drop_first=True)： 在统计模型（如线性回归）中，独热编码可能导致多重共线性问题，即一个新生成的列可以通过其他列的线性组合来预测。为了避免这种情况，可以设置 drop_first=True，它会删除每个原始分类列的第一个类别所对应的新列。例如，如果 City 有 'New York', 'London', 'Paris' 三个类别，drop_first=True 后只会生成 'City_London' 和 'City_Paris' 两列。
生产环境一致性： 在机器学习项目中，确保训练集和测试集（以及未来的生产数据）的特征工程步骤保持一致性至关重要。这意味着在对训练数据进行 pd.get_dummies 编码时，应记录下所有涉及的列以及生成的列名，并在处理测试数据时严格遵循相同的逻辑，包括 columns 参数的指定和 dtype 的选择。

总结

pd.get_dummies 是Pandas中一个非常实用的独热编码工具。通过简单地添加 dtype=int 或 dtype=np.int8 参数，我们可以轻松地控制其输出类型，确保独热编码结果以 0 和 1 的整数形式呈现，从而更好地满足各种数据处理和模型训练的需求。理解并灵活运用 pd.get_dummies 的各项参数，将有助于我们更高效、更专业地进行数据预处理。

Python调试时断点导致行为差异的真相揭秘

如何从 JSON 字符串数组中安全提取 cancellationDate 字段

Python调试中“设断点正常、不设断点报错”的真相揭秘

如何让自定义 Python 类无缝兼容 NumPy 运算

如何用正则表达式精准分割含嵌套逗号的结构化产品数据