0

0

C++结构体序列化方法 二进制文件存储方案

P粉602998670

P粉602998670

发布时间:2025-08-21 11:25:01

|

570人浏览过

|

来源于php中文网

原创

核心在于将结构体数据序列化为字节流存储。对于POD类型可直接内存拷贝,非POD类型需手动逐成员序列化,处理字符串和容器时先写入长度再内容,并注意字节序、对齐、类型大小等跨平台问题,推荐使用固定宽度整数、统一字节序、添加版本号和校验和以确保兼容性与完整性。

c++结构体序列化方法 二进制文件存储方案

将C++结构体数据存储到二进制文件,核心在于将内存中的结构体数据“扁平化”为字节流,写入文件,并在需要时再从字节流“重构”回内存中的结构体。这听起来直接,但实际操作中,尤其是在追求效率和跨平台兼容性时,里面可有不少讲究。直接使用

fwrite
fread
固然是最直观的方式,但对于含有复杂类型(比如
std::string
std::vector
、指针)的结构体,或者需要考虑不同系统间数据表示差异的场景,就需要更精细的设计和处理了。

解决方案

要将C++结构体序列化到二进制文件并存储,最基础的方法是直接对结构体内存进行读写。然而,这种方法只适用于“Plain Old Data”(POD)类型,即不包含虚函数、虚继承、用户自定义构造/析构函数、指针或引用等复杂特性的结构体。

对于一个简单的POD结构体:

struct MyPODData {
    int id;
    float value;
    char name[20]; // 固定大小字符数组
};

你可以这样进行序列化和反序列化:

立即学习C++免费学习笔记(深入)”;

#include 
#include 
#include 
#include  // For memcpy

// 假设的POD结构体
struct MyPODData {
    int id;
    float value;
    char name[20];

    // 方便打印
    void print() const {
        std::cout << "ID: " << id << ", Value: " << value << ", Name: " << name << std::endl;
    }
};

void serializePOD(const MyPODData& data, const std::string& filename) {
    std::ofstream ofs(filename, std::ios::binary | std::ios::out);
    if (!ofs.is_open()) {
        std::cerr << "Error opening file for writing: " << filename << std::endl;
        return;
    }
    ofs.write(reinterpret_cast(&data), sizeof(MyPODData));
    ofs.close();
    std::cout << "POD data serialized to " << filename << std::endl;
}

MyPODData deserializePOD(const std::string& filename) {
    MyPODData data = {}; // 初始化为零
    std::ifstream ifs(filename, std::ios::binary | std::ios::in);
    if (!ifs.is_open()) {
        std::cerr << "Error opening file for reading: " << filename << std::endl;
        return data;
    }
    ifs.read(reinterpret_cast(&data), sizeof(MyPODData));
    ifs.close();
    std::cout << "POD data deserialized from " << filename << std::endl;
    return data;
}

// 对于包含非POD成员(如std::string, std::vector)的结构体,需要手动序列化
struct MyComplexData {
    int id;
    std::string description;
    std::vector scores;

    void print() const {
        std::cout << "ID: " << id << ", Description: " << description << ", Scores: [";
        for (double s : scores) {
            std::cout << s << " ";
        }
        std::cout << "]" << std::endl;
    }
};

void serializeComplex(const MyComplexData& data, const std::string& filename) {
    std::ofstream ofs(filename, std::ios::binary | std::ios::out);
    if (!ofs.is_open()) {
        std::cerr << "Error opening file for writing: " << filename << std::endl;
        return;
    }

    // 写入id
    ofs.write(reinterpret_cast(&data.id), sizeof(data.id));

    // 写入description (先写入长度,再写入内容)
    size_t desc_len = data.description.length();
    ofs.write(reinterpret_cast(&desc_len), sizeof(desc_len));
    ofs.write(data.description.c_str(), desc_len);

    // 写入scores (先写入元素数量,再逐个写入元素)
    size_t scores_count = data.scores.size();
    ofs.write(reinterpret_cast(&scores_count), sizeof(scores_count));
    if (scores_count > 0) {
        ofs.write(reinterpret_cast(data.scores.data()), scores_count * sizeof(double));
    }

    ofs.close();
    std::cout << "Complex data serialized to " << filename << std::endl;
}

MyComplexData deserializeComplex(const std::string& filename) {
    MyComplexData data = {};
    std::ifstream ifs(filename, std::ios::binary | std::ios::in);
    if (!ifs.is_open()) {
        std::cerr << "Error opening file for reading: " << filename << std::endl;
        return data;
    }

    // 读取id
    ifs.read(reinterpret_cast(&data.id), sizeof(data.id));

    // 读取description
    size_t desc_len;
    ifs.read(reinterpret_cast(&desc_len), sizeof(desc_len));
    data.description.resize(desc_len); // 预分配空间
    ifs.read(reinterpret_cast(&data.description[0]), desc_len);

    // 读取scores
    size_t scores_count;
    ifs.read(reinterpret_cast(&scores_count), sizeof(scores_count));
    data.scores.resize(scores_count); // 预分配空间
    if (scores_count > 0) {
        ifs.read(reinterpret_cast(data.scores.data()), scores_count * sizeof(double));
    }

    ifs.close();
    std::cout << "Complex data deserialized from " << filename << std::endl;
    return data;
}

这段代码展示了两种基本的策略:直接内存拷贝(针对POD)和手动逐成员序列化(针对非POD)。对于更复杂的场景,比如多态、版本控制、跨语言兼容,通常会引入专门的序列化库,例如Boost.Serialization、Cereal、Protocol Buffers或FlatBuffers。它们提供了更强大的功能和更健壮的解决方案,虽然学习曲线可能略陡。

为什么直接使用fwrite/fread可能不是最佳选择?

我个人觉得,直接用

fwrite
fread
来处理C++结构体,就像是拿把锤子去修手表,对于简单的POD类型,确实能凑合用,而且效率还挺高。但话说回来,这事儿哪有那么简单?一旦你的结构体稍微复杂一点,或者你需要在不同的系统上读写这些数据,麻烦就接踵而至了。

首先,字节序(Endianness)是个大问题。一个在小端序(Little-Endian)机器上(比如大多数Intel处理器)写入的整数

0x12345678
,在大端序(Big-Endian)机器上(比如一些网络设备或老旧的PowerPC)读出来就可能变成
0x78563412
。这简直是灾难性的,数据完全错乱。

其次,结构体内存对齐(Padding)也是个隐形杀手。编译器为了优化内存访问速度,会在结构体成员之间插入一些填充字节。比如一个

int
后面跟着一个
char
char
后面可能还会有几个字节的填充,然后再是下一个成员。这些填充字节在不同的编译器、不同的编译选项下可能都不一样。你在一台机器上直接写入结构体内存,在另一台机器上直接读出,这些填充字节就可能导致结构体成员的偏移量发生变化,结果就是读到了错误的数据。这就像你把一份文件折叠起来,在另一台机器上展开,结果发现折叠方式不一样,内容就对不上了。

再者,非POD类型根本就不能直接这样处理。

std::string
std::vector
这些容器,它们内部维护着指向堆内存的指针。你直接把结构体内存 dump 到文件里,存的只是这些指针的值,而不是它们指向的实际数据。等下次读回来,这些指针指向的内存地址根本就是无效的,或者被其他数据占用了。这就好比你把一本书的目录复制下来,却没复制书的内容,那目录还有什么用呢?对于这种动态大小的数据,你必须先写入其长度,再写入其内容,反序列化时先读长度,再根据长度分配内存并读取内容。

最后,版本兼容性跨平台兼容性也是绕不开的坎。如果你的结构体将来需要增加或删除成员,或者改变成员的类型,直接的二进制写入方式就完全失效了。旧程序无法正确读取新文件,新程序也无法兼容旧文件。而不同的操作系统、不同的编译器,甚至仅仅是编译器的不同版本,都可能导致结构体布局的细微差异。所以,除非你对性能有极致要求且能严格控制所有读写端的环境,否则这种直接的

fwrite/fread
方法,在我看来,风险远大于收益。

如何处理包含复杂数据结构的C++结构体序列化?

处理包含复杂数据结构的C++结构体序列化,这事儿就得从“粗暴”的内存拷贝转变为“精细”的字段管理了。我通常会把这种序列化过程想象成把一堆零散的零件,按照一个预设的蓝图,一个一个地打包,再在另一头按照同样的蓝图一个一个地拆开组装。

Napkin AI
Napkin AI

Napkin AI 可以将您的文本转换为图表、流程图、信息图、思维导图视觉效果,以便快速有效地分享您的想法。

下载

最核心的原则就是:你写入了什么,就必须以相同的顺序和方式读出什么。

对于

std::string
,我们不能直接写入它的内存,因为那只是个内部指针和长度信息。正确的做法是:

  1. 写入字符串的长度:通常用
    size_t
    类型来存储,确保它能容纳字符串的最大长度。
  2. 写入字符串的实际内容:使用
    string::c_str()
    获取原始字符数组,然后写入。 反序列化时,先读出长度,然后根据这个长度创建一个
    std::string
    对象,再把相应数量的字节读入。
// 写入string
size_t len = myString.length();
ofs.write(reinterpret_cast(&len), sizeof(len));
ofs.write(myString.c_str(), len);

// 读取string
size_t read_len;
ifs.read(reinterpret_cast(&read_len), sizeof(read_len));
std::string readString;
readString.resize(read_len); // 预分配空间
ifs.read(reinterpret_cast(&readString[0]), read_len); // 注意这里用&readString[0]

对于

std::vector
(其中T是POD类型),道理也类似:

  1. 写入vector的元素数量:同样用
    size_t
  2. 写入vector的所有元素:如果T是POD类型,可以直接写入整个
    vector
    的内存块(
    vector.data()
    )。 反序列化时,先读出元素数量,然后调整
    vector
    的大小(
    vector.resize()
    ),再把相应数量的字节读入。
// 写入vector
size_t count = myVector.size();
ofs.write(reinterpret_cast(&count), sizeof(count));
if (count > 0) { // 避免空vector时访问data()导致未定义行为
    ofs.write(reinterpret_cast(myVector.data()), count * sizeof(int));
}

// 读取vector
size_t read_count;
ifs.read(reinterpret_cast(&read_count), sizeof(read_count));
std::vector readVector;
readVector.resize(read_count);
if (read_count > 0) {
    ifs.read(reinterpret_cast(readVector.data()), read_count * sizeof(int));
}

如果

vector
里面包含的是非POD类型(比如
std::vector
),那就得循环遍历,对每个元素递归地进行手动序列化。这工作量可就大了,但没办法,这是保证数据正确性的唯一途径。

对于嵌套结构体,处理方式和普通成员类似,只是在父结构体中,你会调用子结构体的序列化/反序列化函数。

struct NestedData {
    int x, y;
    // ... 其他成员
    void serialize(std::ostream& os) const {
        os.write(reinterpret_cast(&x), sizeof(x));
        os.write(reinterpret_cast(&y), sizeof(y));
    }
    void deserialize(std::istream& is) {
        is.read(reinterpret_cast(&x), sizeof(x));
        is.read(reinterpret_cast(&y), sizeof(y));
    }
};

struct ParentData {
    std::string name;
    NestedData nested;
    // ...
    void serialize(std::ostream& os) const {
        // 序列化name (先长度后内容)
        size_t name_len = name.length();
        os.write(reinterpret_cast(&name_len), sizeof(name_len));
        os.write(name.c_str(), name_len);
        // 序列化嵌套结构体
        nested.serialize(os);
    }
    void deserialize(std::istream& is) {
        // 反序列化name
        size_t name_len;
        is.read(reinterpret_cast(&name_len), sizeof(name_len));
        name.resize(name_len);
        is.read(reinterpret_cast(&name[0]), name_len);
        // 反序列化嵌套结构体
        nested.deserialize(is);
    }
};

这种手动管理的方式,虽然繁琐,但给了你完全的控制权,能够精确地处理各种复杂数据类型。这也是为什么很多序列化库的底层,其实也是在做类似的事情,只是它们把这些重复性的工作自动化了。

二进制文件存储在实际项目中需要注意哪些性能与兼容性问题?

在实际项目中,二进制文件存储远不止是把数据写入那么简单,尤其当涉及到性能和兼容性时,我经常会遇到一些让人头疼的问题。这不仅仅是技术细节,更关乎整个系统的健壮性和可维护性。

性能方面:

  1. I/O操作的开销:每次
    write
    read
    调用都会有系统调用的开销。如果你的数据量很大,或者需要频繁读写小块数据,这种开销会迅速累积。我通常会考虑批量写入或者使用缓冲区。比如,把多个小结构体的数据先收集到一个大的
    std::vector
    char[]
    缓冲区里,然后一次性写入文件。这能显著减少系统调用次数。
  2. 内存映射文件(Memory-Mapped Files, mmap):对于超大文件,直接读写可能会导致内存不足或效率低下。内存映射文件是个非常强大的工具,它将文件内容直接映射到进程的虚拟地址空间,你可以像访问内存一样访问文件,操作系统会自动处理I/O和缓存。这对于需要随机访问文件特定部分的应用场景特别有用。不过,这也意味着你需要更小心地管理数据同步和错误处理。
  3. 数据压缩:如果文件大小是个问题,或者网络传输是瓶颈,可以考虑在序列化之后对二进制数据进行压缩(例如使用zlib或LZ4)。这会增加CPU开销,但能大幅减少存储空间和传输时间。这通常是一个权衡,取决于你的具体需求。

兼容性方面:

  1. 字节序(Endianness):前面提到过,这是个大坑。最常见的解决方案是在写入数据时,统一转换为一个标准字节序(例如,网络字节序是大端序),在读取时再转换回本地字节序。C++标准库没有直接提供字节序转换函数,但你可以自己写(例如,使用
    htons
    /
    ntohs
    等网络函数或手动位操作),或者使用一些跨平台库。
  2. 结构体填充(Padding):这是另一个隐形炸弹。为了确保跨平台兼容性,我通常会避免直接对结构体进行内存拷贝(除非你严格控制了编译环境和对齐方式),而是采用手动序列化每个成员的方法。或者,使用
    #pragma pack(1)
    来强制取消结构体填充,但这可能会影响性能,因为CPU访问未对齐的数据会更慢。
  3. 数据类型大小
    int
    long
    等基本类型在不同平台上可能有不同的大小(例如,
    long
    在Windows上是4字节,在Linux 64位上是8字节)。为了确保兼容性,最好使用C++11引入的固定宽度整数类型,如
    int8_t
    ,
    int16_t
    ,
    int32_t
    ,
    int64_t
    。这样无论在哪个平台,
    int32_t
    都保证是32位。
  4. 版本控制:这是实际项目中不可避免的挑战。你的数据结构会演变。如果旧版本程序读取新版本文件,或者新版本程序读取旧版本文件,怎么办?
    • 添加版本号:在文件头部写入一个版本号。读取时,根据版本号决定如何解析数据。
    • 向前/向后兼容:新版本结构体在增加字段时,通常放在末尾,并且在反序列化时,如果版本号较低,就跳过这些新字段。删除字段则更麻烦,通常需要先标记为“废弃”,并在新版本中读取时忽略。
    • 字段标签/ID:对于更复杂的场景,可以为每个字段分配一个唯一的ID,而不是依赖于字段的物理顺序。这在Protocol Buffers等序列化框架中很常见。
  5. 数据完整性:二进制文件不像文本文件那样容易人工检查。为了确保数据在写入和读取过程中没有损坏,可以考虑在文件末尾添加校验和(Checksum)CRC(循环冗余校验)。写入时计算校验和并写入文件,读取时重新计算并与文件中的校验和对比,不一致则说明数据可能已损坏。

处理这些问题确实增加了复杂性,但这是构建健壮、高性能且可维护的C++二进制存储方案的必经之路。在我看来,投入这些额外的精力是值得的,它能避免未来无数的兼容性噩梦。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

216

2025.10.31

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

312

2023.08.02

java多态详细介绍
java多态详细介绍

本专题整合了java多态相关内容,阅读专题下面的文章了解更多详细内容。

15

2025.11.27

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

249

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

205

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1435

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

609

2023.11.24

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
C# 教程
C# 教程

共94课时 | 5.8万人学习

C 教程
C 教程

共75课时 | 3.8万人学习

C++教程
C++教程

共115课时 | 10.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号