0

0

C++联合体与结构体成员混合使用

P粉602998670

P粉602998670

发布时间:2025-09-20 10:55:01

|

379人浏览过

|

来源于php中文网

原创

C++中结构体与联合体可混合使用,通过标签联合体实现内存优化,但需避免未定义行为;现代替代方案如std::variant提供类型安全的多类型存储。

c++联合体与结构体成员混合使用

C++中,结构体(struct)和联合体(union)的成员确实可以混合使用,这种做法在特定场景下能提供强大的内存优化和数据表示能力。然而,它也像一把双刃剑,若不慎重处理,极易引入未定义行为(Undefined Behavior),给程序带来难以追踪的错误。理解它们的内存模型和访问规则是安全高效使用的关键。

解决方案

混合使用结构体和联合体,通常是为了在同一个内存区域存储不同类型的数据,或者在一个数据结构中,根据需要切换存储内容的类型,同时又希望这个结构体能包含一些固定不变的元数据。

结构体是一种复合数据类型,它将不同类型的数据成员按顺序存储在内存中。每个成员都有自己独立的内存空间。而联合体则不同,它的所有成员都共享同一块内存区域,这块内存的大小等于其最大成员的大小。在任何给定时刻,联合体只能存储其中一个成员的值。当你向联合体的一个成员写入数据后,再从另一个成员读取数据,除非这些成员是“活跃的”或符合某些特定的类型双关(type punning)规则(这些规则在C++中非常严格且容易触发UB),否则结果就是未定义行为。

将联合体嵌入结构体,是最常见的混合使用方式。结构体可以包含一个或多个联合体成员,以及其他普通成员。这样,结构体可以拥有一些始终存在的属性,同时又通过联合体实现内部数据的灵活切换。

立即学习C++免费学习笔记(深入)”;

#include 
#include 
#include  // C++17

// 示例1: 结构体包含联合体,并带有一个类型指示器
enum class DataType {
    INT,
    DOUBLE,
    STRING_PTR // 指针,避免直接存储std::string对象在union中引发复杂性
};

struct Value {
    DataType type;
    union {
        int iVal;
        double dVal;
        const char* sPtrVal; // 假设指向外部的字符串字面量或已分配的内存
    } data;

    // 为了演示,手动添加一个简单的打印函数
    void print() const {
        switch (type) {
            case DataType::INT:
                std::cout << "Int Value: " << data.iVal << std::endl;
                break;
            case DataType::DOUBLE:
                std::cout << "Double Value: " << data.dVal << std::endl;
                break;
            case DataType::STRING_PTR:
                if (data.sPtrVal) {
                    std::cout << "String Value: " << data.sPtrVal << std::endl;
                } else {
                    std::cout << "String Value: (null)" << std::endl;
                }
                break;
        }
    }
};

int main() {
    // 传统结构体+联合体用法
    Value v1;
    v1.type = DataType::INT;
    v1.data.iVal = 123;
    v1.print();

    Value v2;
    v2.type = DataType::DOUBLE;
    v2.data.dVal = 45.67;
    v2.print();

    Value v3;
    v3.type = DataType::STRING_PTR;
    v3.data.sPtrVal = "Hello Union!";
    v3.print();

    // 尝试读取非活跃成员 (!!! 严重错误,未定义行为 !!!)
    // std::cout << "v1 as double: " << v1.data.dVal << std::endl; // 编译器可能不会报错,但结果是不可预测的

    return 0;
}

这段代码展示了一个经典的“标签联合体”(Tagged Union)模式。结构体

Value
中的
type
成员充当了标签,它告诉我们
data
联合体当前存储的是哪种类型的数据。这是避免未定义行为的关键机制。

C++中,结构体与联合体嵌套使用时,内存布局是如何决定的?

在我看来,理解内存布局是玩转C++底层数据结构的必修课,尤其是涉及到

struct
union
混合时。这不仅仅是
sizeof
的问题,更关乎数据对齐和潜在的填充字节

一个结构体

struct
的大小,通常是其所有成员大小之和,再加上编译器为了满足内存对齐要求而插入的填充(padding)字节。每个成员都会按照其类型在内存中占据一块独立的区域。

当一个

union
嵌套在
struct
中时,这个
union
自身作为一个成员,它在
struct
中占据的内存大小等于其自身最大成员的大小。例如,如果
union
中有一个
int
和一个
double
,那么
union
将占据
double
的大小(通常是8字节)。
struct
的总大小将是其所有非联合体成员的大小加上这个
union
的大小,再加上任何必要的填充。

反过来,如果

struct
嵌套在
union
中,那么
union
的大小将至少是这个嵌套
struct
的大小,因为它必须能容纳这个
struct
。如果
union
中还有其他成员,
union
的大小会是所有成员(包括嵌套
struct
)中最大的那个。

让我们看个例子:

#include 

struct Example1 {
    char c;       // 1 byte
    union {
        int i;    // 4 bytes
        double d; // 8 bytes
    } u;          // u 会占用 8 bytes (double的大小)
    short s;      // 2 bytes
}; // 预期 sizeof(Example1) = 1 (c) + 7 (padding) + 8 (u) + 2 (s) + 6 (padding) = 24 bytes (取决于编译器对齐策略,通常是最大成员的倍数)

struct SmallStruct {
    char c1;
    char c2;
}; // 2 bytes

union Example2 {
    int i;          // 4 bytes
    SmallStruct ss; // 2 bytes
    long long ll;   // 8 bytes
}; // 预期 sizeof(Example2) = 8 bytes (long long的大小)

int main() {
    std::cout << "sizeof(Example1): " << sizeof(Example1) << std::endl;
    std::cout << "sizeof(Example1.u): " << sizeof(Example1().u) << std::endl;
    std::cout << "sizeof(Example2): " << sizeof(Example2) << std::endl;
    return 0;
}

运行这段代码,你会发现

sizeof(Example1)
往往不是
1 + 8 + 2 = 11
。在我的机器上,它输出
24
。这是因为
double
通常要求8字节对齐,所以
struct
可能会在
char c
后面插入7个字节的填充,让
union u
从8字节的倍数地址开始。然后
union u
占据8字节。
short s
可能也会因为对齐要求,前面有填充,或者整个结构体为了对齐到最大的成员(
double
,8字节)的倍数,在末尾加上填充。

E购-新零售系统
E购-新零售系统

“米烁云货宝”,是一款基于云计算的Saas模式新零售系统。以互联网为基础,通过大数据、人工智能等先进技术,对商品的生产、流通、销售、服务等环节转型升级改造,进而重塑业态结构与生态圈。并对线上交易运营服务、线下体验购买及现代物流进行深度融合,所形成的零售新模式。

下载

所以,内存布局的决定因素是:成员类型的大小、编译器默认的对齐规则(通常由

#pragma pack
__attribute__((packed))
等编译指示控制,但一般不建议随意修改)、以及嵌套的
union
struct
自身的布局规则。深入了解这些细节,可以帮助我们更好地预估内存占用,并在内存敏感的场景下进行优化。

在C++中混合使用结构体和联合体时,如何避免未定义行为(Undefined Behavior)?

坦白说,这是混合使用

struct
union
最需要警惕的地方。未定义行为就像一个定时炸弹,它可能不会立即爆炸,但一旦引爆,程序的行为就完全不可预测了。避免它的核心原则,其实很简单:你向联合体的哪个成员写入了数据,就只能从那个成员读取数据。

以下是一些具体的策略:

  1. 标签联合体(Tagged Union)模式: 这是最常见也是最推荐的传统C++解决方案。 如前所述,在一个结构体中,除了联合体本身,还添加一个“标签”或“判别器”成员(通常是

    enum
    类型),用来明确指示联合体当前存储的是哪种类型的数据。 在访问联合体成员之前,你必须先检查这个标签,确保你访问的是当前活跃的成员。

    // 再次强调这个模式
    enum class NodeType {
        EXPR_ADD,
        EXPR_SUB,
        LITERAL_INT,
        LITERAL_DOUBLE
    };
    
    struct AstNode {
        NodeType type;
        union {
            struct { // 匿名结构体,用于存储表达式的子节点
                AstNode* left;
                AstNode* right;
            } expr;
            int intValue;
            double doubleValue;
        }; // 匿名联合体
    
        // 构造函数和析构函数(如果成员是复杂类型,需要手动管理)
        // ...
    };
    
    // 访问时:
    AstNode node;
    node.type = NodeType::LITERAL_INT;
    node.intValue = 100;
    
    if (node.type == NodeType::LITERAL_INT) {
        std::cout << "Literal Int: " << node.intValue << std::endl;
    } else if (node.type == NodeType::LITERAL_DOUBLE) {
        std::cout << "Literal Double: " << node.doubleValue << std::endl;
    }
    // 绝对不要在 type 为 LITERAL_INT 时去访问 node.expr.left

    这种模式将责任交给了程序员,需要手动维护

    type
    union
    成员的一致性。

  2. 避免对非平凡类型(Non-Trivial Types)使用

    union
    非平凡类型是指那些有用户定义构造函数、析构函数、拷贝/移动构造函数或赋值运算符的类型(例如
    std::string
    ,
    std::vector
    )。直接将它们放入
    union
    会非常麻烦,因为
    union
    不会自动调用它们的构造函数和析构函数。你需要手动使用“放置new”(placement new)来构造对象,并在切换成员时手动调用旧成员的析构函数。这非常容易出错,并且是引入内存泄漏或崩溃的温床。 如果实在需要,考虑存储这些类型的指针,或者使用现代C++的
    std::variant

  3. 使用

    std::launder
    (C++17): 在极少数情况下,当你确定
    union
    中某个成员的生命周期已经结束,但其内存区域被另一个兼容类型的对象重新使用时,
    std::launder
    可以用来获得一个指向新对象的指针,避免未定义行为。这通常用于低级内存管理和类型双关,但使用场景非常特殊且高级,一般不建议普通开发者使用。

  4. 编译器警告和静态分析工具 现代编译器(如GCC、Clang)在开启高等级警告(如

    -Wall -Wextra -Werror
    )时,可能会对一些明显的
    union
    滥用发出警告。此外,Clang-Tidy、Coverity等静态分析工具也能在编译时发现潜在的未定义行为。

总而言之,避免

union
带来的未定义行为,关键在于严格遵守“一写一读”的原则,并通过标签或其他机制确保这种遵守。如果无法保证,那多半是在玩火。

C++标准库中有哪些现代替代方案可以安全地实现结构体与联合体的混合功能?

在我看来,现代C++标准库在解决传统

union
带来的类型不安全和管理复杂性方面,提供了非常优雅和强大的替代方案。这些方案不仅安全,而且通常更易于使用和维护。

  1. std::variant
    (C++17): 这是最直接、最推荐的
    union
    替代品,它提供了一个类型安全的判别联合体。
    std::variant
    可以存储列举类型中的任意一个值,但在任何给定时间只存储一个。它内置了类型管理和活跃成员的跟踪,从而完全避免了传统
    union
    的未定义行为风险。

    #include 
    #include 
    #include  // C++17
    
    // 使用 std::variant 替代之前的 Value 结构体
    struct ModernValue {
        // std::variant 自动管理类型和活跃成员
        std::variant data;
    
        void print() const {
            // 使用 std::visit 访问活跃成员,类型安全
            std::visit([](const auto& arg) {
                using T = std::decay_t;
                if constexpr (std::is_same_v) {
                    std::cout << "Int Value: " << arg << std::endl;
                } else if constexpr (std::is_same_v) {
                    std::cout << "Double Value: " << arg << std::endl;
                } else if constexpr (std::is_same_v) {
                    std::cout << "String Value: " << arg << std::endl;
                }
            }, data);
        }
    };
    
    int main() {
        ModernValue mv1;
        mv1.data = 123; // 自动存储 int
        mv1.print();
    
        ModernValue mv2;
        mv2.data = 45.67; // 自动存储 double
        mv2.print();
    
        ModernValue mv3;
        mv3.data = std::string("Hello Variant!"); // 自动存储 std::string
        mv3.print();
    
        // 尝试错误访问,会抛出 std::bad_variant_access 异常,而不是未定义行为
        try {
            std::cout << "mv1 as double: " << std::get(mv1.data) << std::endl;
        } catch (const std::bad_variant_access& e) {
            std::cerr << "Error: " << e.what() << std::endl;
        }
    
        return 0;
    }

    std::variant
    的好处显而易见:它能安全地存储非平凡类型(如
    std::string
    ),自动处理构造和析构,并且通过
    std::get
    std::visit
    提供类型安全的访问。

  2. std::any
    (C++17):
    std::any
    也是一个存储任意类型单个值的容器,但它与
    std::variant
    有所不同。
    std::any
    更加通用,可以存储任何可拷贝构造的类型,而不需要在编译时预先指定所有可能的类型。它的缺点是通常会有更大的运行时开销(因为它需要内部进行类型擦除),并且类型检查是在运行时进行的。

    #include 
    #include  // C++17
    #include 
    
    struct AnyContainer {
        std::any value;
    
        void print() const {
            if (value.has_value()) {
                if (value.type() == typeid(int)) {
                    std::cout << "Int Value: " << std::any_cast(value) << std::endl;
                } else if (value.type() == typeid(std::string)) {
                    std::cout << "String Value: " << std::any_cast(value) << std::endl;
                } else {
                    std::cout << "Other type." << std::endl;
                }
            } else {
                std::cout << "No value stored." << std::endl;
            }
        }
    };
    
    // main 函数中类似的使用方式

    std::any
    在需要存储“任何东西”的场景下非常有用,例如配置参数或插件接口,但如果类型集合是已知的且有限的,
    std::variant
    往往是更好的选择。

  3. 多态(Polymorphism)和继承: 虽然这与

    union
    的内存优化初衷不同,但在面向对象设计中,如果你需要一个基类指针或引用来指向一系列不同的派生类对象,并根据实际类型执行不同的行为,那么虚函数和继承就是解决方案。这提供了运行时多态性,但通常会涉及动态内存分配和虚函数表的开销。

    #include 
    #include  // For std::unique_ptr
    #include 
    
    class Base {
    public:
        virtual void process() const = 0;
        virtual ~Base() = default;
    };
    
    class DerivedInt : public Base {
        int data;
    public:
        DerivedInt(int d) : data(d) {}
        void process() const override {
            std::cout << "Processing int: " << data << std::endl;
        }
    };
    
    class DerivedString : public Base {
        std::string data;
    public:
        DerivedString(const std::string& d) : data(d) {}
        void process() const override {
            std::cout << "Processing string: " << data << std::endl;
        }
    };
    
    // main 函数中:
    // std::vector> items;
    // items.push_back(std::make_unique(10));
    // items.push_back(std::make_unique("Hello OO!"));
    // for (const auto& item : items) {
    //     item->process();
    // }

    这种方法在处理行为差异大、类型层级结构清晰的场景中非常有效,但它不会像

    union
    那样把不同类型的数据存储在同一块内存中以节省空间。

总之,现代C++提供了

std::variant
std::any
这样的工具,它们在提供类似
union
的多类型存储能力的同时,极大地增强了类型安全性和易用性。除非你确实在进行极致的内存优化且对C++内存模型有深刻理解,否则我个人强烈建议优先考虑这些标准库的解决方案,它们能让你省去大量的调试时间和心力。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

216

2025.10.31

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

312

2023.08.02

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1435

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

225

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

85

2025.10.17

go语言 面向对象
go语言 面向对象

本专题整合了go语言面向对象相关内容,阅读专题下面的文章了解更多详细内容。

54

2025.09.05

java面向对象
java面向对象

本专题整合了java面向对象相关内容,阅读专题下面的文章了解更多详细内容。

47

2025.11.27

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MongoDB 教程
MongoDB 教程

共17课时 | 1.7万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

微信小程序开发之API篇
微信小程序开发之API篇

共15课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号